XEN Update: Unterschied zwischen den Versionen

Aus Neobikers Wiki
Zur Navigation springen Zur Suche springen
Zeile 365: Zeile 365:


# Network
# Network
vif        = [ 'script=vif-bridge_TxOff, model=e1000' ]
vif        = [ 'script=vif-bridge_TxOff' ]


# HVM
# HVM

Version vom 1. Februar 2021, 21:33 Uhr

XENvelopemt

Einleitung

Seit Einführung der Virtualisierungslösung KVM direkt im Linux Kernel ist es in den letzten Jahren stiller um den älteren XEN-Hypervisor geworden. Als Typ 1 Hypervisor wurde ihm immer als Nachteil ausgelegt, nicht direkt im Linux Kernel angesiedelt zu sein. Bei genauer Betrachtung erscheint mir persönlich das eher als Vorteil denn als Nachteil. Seine Entwicklung und Unterstützung steht auf einer Basis, welche tatsächlich unabhängig von einem bestimmten Kernel bzw. Betriebssystem ist. Der XEN Hypervisor ist also KEINE Linux-Lösung, sondern kann ebenfalls auf alternativen BSD oder Unix Systemen [1] wie z.B. FreeBSD aufbauen.

Was zeichnet XEN als Hypervisor aus
  • alt = ausgereift (Erfahrung, hat sich bewährt)
  • klein = sicher (einfach, weniger Fehler) und stabil (weniger Code, weniger Fehler)
  • Modular = unabhängig (OS) und flexibel (Einsatzszenarien)
  • Typ 1 Hypervisor = performant
  • Breite Hardware Unterstützung (ARM, Embedded, Cloud/IoT usw.)
Konzept

Die Virtualisierungslösung XEN besteht aus einem Hostsystem, Dom0 genannt, welches einer ganz normalen Linux-, BSD oder Unix Installation entspricht. Einziger Unterschied ist, dass nicht der normale System-Kernel direkt gestartet wird, sondern der XEN Hypervisor (xen.gz) diesen Kernel (Debian: vmlinuz) startet. Die Management Domain Dom0 selbst ist damit ein Standard Linux System, bei mir seit mehr als 10 Jahren Debian, derzeit Buster.

Auf dem Management System Dom0 selbst wird natürlich keinerlei Software oder Funktionalität installiert, dafür verwendet man ja die VMs. Sie dient ausschliesslich dem Management der virtualisierten Hardware- und Infrastruktur (Software-) Komponenten für die geplanten virtuellen Maschinen (VM), bei XEN als DomU bezeichnet.

Einige interessante aktuelle Entwicklungen im XEN Umfeld

Überblick[2]

  • Driver Domain [3]
  • Dom0 Disaggregation [4]
  • PVH[5]
  • XAPI (XEN Management API)
  • XCPng [6](OpenSource Nachfolger des Citrix XEN Server)
  • Xen on Embedded and Automotive systems [7]
  • Unikernels [8][9]
  • Qubes OS [10] (OS auf XEN Basis mit maximaler Sicherheit)

Für XEN Endanwender wie mich sind hier die Punkte Driver Domain und Disaggregation interessant. Qubes OS treibt diese beiden Ansätze auf die Spitze und hat damit ein maximal sicheres und freies Betriebssystem auf XEN Basis erstellt (empfohlen und genutzt z.B. von Edward Snowden), indem sie nicht jeweils ein ganzes System virtualisieren, sondern einzelne Applikationen. So gibt es beispielsweise einen Browser in einer "privaten" Umgebung, einen Browser in einer "Arbeit" Umgebung und evtl. noch einen separaten in einer "Banking" Umgebung.

Die Entwicklungen im Bereich Embedded/Automotive im Zusammenspiel mit maximaler Sicherheit und auch die Implementierungen in Cloud/IoT Bereich zeigen, das XEN durchaus aktuelle und höchst interessante Weiterentwicklungen erfährt. Warum? Vermutlich gerade durch die oben genannten Punkte in Zusammenhang mit dem OpenSource Ansatz und der durch den kleinen, einfachen, performanten und sicherem Design des Hypervisors, der für alle Anwendungsbereiche Vorteile aufweisen kann.

XEN steht meine Meinung nach einzig aus Endanwendersicht hinter besser integrierten Lösungen wie KVM zurück, ob das derzeit tatsächlich noch gerechtfertigt ist oder nicht sei von jedem selbst zu bewerten. Eine XEN Installation ist inzwischen nicht komplizierter als eine KVM Installation, trotz der zusätzlichen XEN Schicht unter dem eigentlichem Hostsystem.

Praxis für Endanwender

Einfach gesagt: Performance und Sicherheit der XEN Virtualisierung steigen, indem das Hostsystem Dom0 möglichst wenig selbst machen muss bzw. kann. Man möchte also soviel wie möglich auslagern. Das Konzept wird bei XEN als Domain Disaggregation bezeichnet.

XEN Driver Domain

Eine Driver Domain ist ein erster Schritt der Dom0 Disaggregation: Funktionen von Hardware Treibern werden aus der Dom0 in eine VM ausgelagert, eine ganz normale DomU (PV). Sie dient den anderen VMs als Driver-Backend für z.B. Netzwerk, Storage und USB.

XEN Network Driver Domain mit Debian (Buster, XEN 4.11 oder Bullseye, XEN 4.14)

Status: Implemented and running ;-)

Wir starten damit, der Dom0 die Netzwerkkarte wegzunehmen (LOL), und verfrachten diese in eine Network Driver Domain. Das Henne - Ei Problem Netzwerk lösen wir dadurch, das wir zuerst ganz normal die Dom0 installieren, und eine weitere DomU. Wenn beide installiert sind, können wir die Netzwerkkonfiguration so ändern, dass die Netzwerkkarte nach einem Neustart der DomU zugeordnet ist, und die Dom0 ein virtuelles Netzwerkinterface benutzt.

  • Hardware Adresse der Netzwerkkarte(n) ermitteln und in einer Konfigurationsdatei /etc/xen/xen-pciback.conf speichern
# lspci | awk '/Ethernet/ {print "#"$1" #"$2" "$3" "$4}' > /etc/xen/xen-pciback.conf

# cat /etc/xen/xen-pciback.conf
00:19.0 #Ethernet controller: Intel
#02:00.0 #Ethernet controller: Intel
#03:00.0 #Ethernet controller: Intel
  • Der Dom0 die Netzwerkkarte wegnehmen

In obigem Beispiel soll z.B. nur das OnBoard-Netzwerkinterface (00:19.0) dem XEN Backend zugeordnet werden. Folgendes Skript hilft dabei, PCI-Karten entsprechend dem Konfigurationsfile aus der Dom0 zu lösen:

NAME=xen-pciback
MODULE=xen_pciback
CONFIGNAME=/etc/xen/$NAME.conf

modprobe $MODULE

cat $CONFIGNAME | awk '{if ($1 !~ /#/) print $1}' | while read PCI ; do
    [ -n "$PCI" ] && xl pci-assignable-remove -r echo $PCI
done

Hier ist das entsprechende Debian Init-Script /etc/init.d/xen-pcibackend .

Network Driver Domain Konfiguration

Die Network Driver Domain erhält neben dem PCI Device noch ein virtuelles Netzwerkinterface für die Dom0.

/etc/xen/Domain-N.cfg

name          = 'Domain-N'
memory        = 256
vcpus         = 1
type          = 'pv'
driver_domain = 1
bootloader    = 'pygrub'
disk          = [ 'phy:/dev/ssd/Domain-N-disk,xvda,w', 'phy:/dev/ssd/Domain-N-swap,xvdb,w' ]
vif           = [ 'ip=192.168.1.4, bridge=xenbr0' ]
pci           = [ '00:19.0' ]          # Ethernet controller: Intel

Die Dom0 verbindet sich mit der Network Driver Domain wie üblich über die virtuelle Bridge xenbr0 (vif=[bridge=xenbr0]).

XEN-Bridge Konfiguration der Dom0 in /etc/network/interfaces (Debian)

# ---------------------------------
# settings for all XEN bridges
# ---------------------------------
iface xenbridge inet manual
        pre-up brctl addbr $IFACE
        bridge_fd 0
        bridge_stp off
        bridge_hello 1
        bridge_maxwait 0
        bridge_waitport 0
        post-up ip link set $IFACE promisc off
        post-down brctl delbr $IFACE
# ----------------------------------------------------------
# xenbr0 -> Dom0 Network Interface connects to Driver Domain
# ----------------------------------------------------------
auto xenbr0
iface xenbr0 inet static inherits xenbridge
        address 192.168.1.5/24
        gateway 192.168.1.4

Die Network Driver Domain ist jetzt die einzige Verbindung der Dom0 zur Aussenwelt. In den meisten Fällen muss daher in dieser IP-Forwarding aktiviert werden, damit die Dom0 weiterhin Updates erhalten kann. Je nach Netzwerk-Design muss auch auf dem Internet-Router eine Route zur Dom0 mit Domain-N als Gateway eingerichtet werden. Eine 'Outgoing NAT' Regel für die Dom0 in Richtung Internet muss natürlich ebenfalls aktiv sein.

sysctl -w net.ipv4.ip_forward=1

# or make it permanent: uncomment in /etc/sysctl.conf and execute sysctl -p for refresh
# Uncomment the next line to enable packet forwarding for IPv4
net.ipv4.ip_forward=1

Alternativ kann man die Dom0 natürlich von einem internem Update-Mirror mit Updates versorgen. Dann braucht die Dom0 keine Verbindung mehr zum Internet. Sofern Domain-N selbst als Mirror dient, braucht man auch kein IP-Forwarding, und die Dom0 ist NUR von der Domain-N aus erreichbar.

XEN Konfiguration innerhalb der XEN Driver Domain

Die Network Driver Domain erfüllt initial nur einen Zweck: Die Netzwerkkarte den anderen VMs zur Verfügung stellen. Dazu verbindet man die Netzwerkkarte mit einer Bridge, welche die virtuellen Interfaces aller VMs mit der Netzwerkkarte verbindet. Zusätzlich wird eine Netzwerkverbindung über das virtuelle Interface eth0 mit der Dom0 eingerichtet.

Netzwerkkonfiguration der Domain-N in /etc/network/interfaces (Debian)

# ---------------------------------------
# The (routing) network interface to Dom0
# ---------------------------------------
auto eth0
iface eth0 inet static
        address         192.168.1.4/24

# ---------------------------------
# settings for all XEN bridges
# ---------------------------------
iface xenbridge inet manual
        pre-up brctl addbr $IFACE
        bridge_fd 0
        bridge_stp off
        bridge_hello 1
        bridge_maxwait 0
        bridge_waitport 0
        post-up ip link set $IFACE promisc off
        post-down brctl delbr $IFACE

# -------------------------------------------
# br_lan -> Network Backend Interface vor VMs
# -------------------------------------------
auto br_lan
iface br_lan inet static inherits xenbridge
        bridge_ports none
        address         192.168.2.4/24
        gateway         192.168.2.12

# ---------------------------------
# The backend network device enp0s0
# ---------------------------------
auto enp0s0
iface enp0s0 inet manual
        pre-up  ifup br_lan
        up      brctl addif br_lan $IFACE
        down    brctl delif br_lan $IFACE

Nach dem Booten der Domain-N hat diese jetzt folgende Netzwerkkonfiguration:

  • eine Bridge für die VMs (br_lan)
  • ein virtuelles Interface für die Dom0 (eth0)
  • die Netzwerkkarte die mit der Bridge verbunden ist (enp0s0)
  • eine Default-Route
Domain-N:~# brctl show
bridge name     bridge id               STP enabled     interfaces
br_lan          8000.6805ca23181e       no              enp0s0


Domain-N:~# ip -br a
lo               UNKNOWN        127.0.0.1/8 ::1/128
eth0             UP             192.168.1.4/24 fe80::216:3eff:fe28:e73/64
enp0s0           UP             fe80::6a05:caff:fe23:181e/64
br_lan           UP             192.168.2.4/24 fe80::28c8:c4ff:feac:7489/64


Domain-N:~# ip -br r
default via 192.168.2.12 dev br_lan onlink
192.168.1.0/24 dev eth0 proto kernel scope link src 192.168.1.4

XEN-Utils Installation in Domain-N

Die Driver Domain muss Zugriff auf die XEN Konfigurationsdatenbank xenstore erhalten, damit die grundlegenden Konfigurationsdaten der laufenden XEN Instanzen zwischen der Dom0 von der Driver Domain ermittelt werden können. Hierzu werden die xen-utils Pakete installiert.

Domain-N:~# apt-get install --no-install-recommends xen-utils

Jede virtuelle Maschine die unsere Domain-N als Network-Backend benutzt, erzeugt hier dynamisch ein neues virtuelles Netzwerkinterface vifx.y, wobei x die ID der XEN-VM entspricht, und y der Interface-ID. Den Namen kann man aber in der XEN Konfiguration der VM mit dem Parameter vifname frei definieren. Diese dynamisch erzeugten Interfaces müssen automatisch der Bridge br_lan hinzugefügt werden. Das kann auf zwei Arten erfolgen:

  1. man definiert die entsprechenden statischen Einträge in /etc/network/interfaces
  2. oder ein Daemon erledigt diese Arbeit automatisch

Lösung zu 1) statische Konfiguration in /etc/network/interfaces

auto /vif*
allow-hotplug /vif*

iface vif_vm2 inet manual
        pre-up  ifup br_lan
        up      brctl addif br_lan $IFACE
        post-up ip link set $IFACE qlen 1000
        down    brctl delif br_lan $IFACE
...

Lösung zu 2) dynamische Konfiguration mittels xl devd Der Daemon der diese Aufgabe erledigt wird mittels xl devd gestartet. Daher müssen die XEN-Utils installiert sein, was wir schon vorhin erledigt haben.

xl devd 

Hier ist ein entsprechendes Init-Skript zum Start des Daemons.

Der Daemon xl devd arbeitet mit den XEN-Skripten und deren Konfiguration in /etc/xen/xl.conf. Eine kleine Anpassung sorgt dafür, dass die virtuellen Interfaces die gleiche Konfiguration wie die physikalischen Interfaces (qlen=1000 statt qlen=32) erhalten.

Hinweis: Das gleiche mache ich übrigens auch in der Dom0.

/etc/xen/xl.conf und /etc/xen/scripts/vif-bridge_qlen

### xl.conf: grep qlen /etc/xen/xl.conf

vif.default.script="vif-bridge_qlen"


Skript vif-bridge_qlen:

#!/bin/bash
#============================================================================
# ${XEN_SCRIPT_DIR}/vif-bridge_qlen
#
# Script for configuring a vif in bridged mode.
#
# XEN default sets        $vif txqueuelne 32
# correct this to default $vif txqueuelen 1000

dir=$(dirname "$0")

ip link set $vif qlen 1000

$dir/vif-bridge $@

Nach dem Start einer neuen wurde das virtuelle Interface automatisch mit der Backend-Bridge verbunden:

Domain-N:~# brctl show
bridge name     bridge id               STP enabled     interfaces
br_lan          8000.6805ca23181e       no              enp0s0
                                                        vif_vm2

Der entsprechende Eintrag in der XEN Konfiguration für die VM lautet:

vif         = [ 'bridge=br_lan, vifname=vif_vm2, backend=Domain-N' ]

XEN Start-/Stop- Reihenfolge von VMs

Nachdem zukünftig alle VMs von der Driver Domain abhängig sind, um Netzwerkverbindung zu erhalten, müssen wir uns noch um die Startreihenfolge kümmern. Beim Runterfahren des gesamten Systems sollte die Driver Domain auch erst nach allen anderen VMs runterfahren. Hierzu passen wir innerhalb der Dom0 das File xendomains an, welches alle VMs automatisch startet und auch stopped.

Die Idee ist, dass wir ein 2.tes Start-/Stop- File xendomains.local anlegen, welches alle VMs die nicht die Driver Domain Domain-N, eine Firewall (opnsense) oder ein File-Server sind zuerst stoppen, dann den File-Server und anschliessend die Firewall stoppen, bevor das normale xendomains Skript alle restlichen virtuellen Maschinen runterfährt, welches jetzt nur noch die Driver Domain Domain-N sein sollte.

Hier ist das zusätzliche Dom0 Init-Skript /etc/init.d/xendomains.local zum stoppen der VMs in vorgegebener Reihenfolge.

XEN Virtualisierungsvarianten

XEN hat inzwischen verschiedene Varianten[11] der Virtualisierung von VMs implementiert:

  • HVM (Vollvirtualisiert, QEMU Emulator)
  • PVHVM
  • PVH
  • PV (Paravirtualisiert)

Zwischen den beiden Extremem HVM Vollvirtualisierung (alle Komponenten sind emuliert) und PV (alle Komponenten sind Paravirtualisiert) liegt ein Mischbetrieb von beidem, wo jeweils nur einzelne Komponenten im HV oder PV Modus verwendet werden. Zu bevorzugen ist hierbei die PVH Variante, welche die beste Performance aufweist: Die in Hardware (CPU, Memory) implementierten Virtualisierungsfunktionen werden ohne PV-Treiber direkt verwendet, während alle anderen Komponenten (Disk, Storage, Graphic, Timer, Interupts, Motherboard, Boot ...) paravirtualiserte Schnittstellen verwenden.


Quelle: xenproject.org


Der Einsatz der verschiedenen Modi sollte wie folgt priorisiert werden, je nach Möglichkeit diese bei der VM technisch nutzen zu können:

  1. PVH
  2. HVM mit PVHVM Treiber (HVM Standard)
  3. HVM mit PV Treiber (überholt)
  4. PV

Xenproject.org: "PVHVM and PVH can be thought of as features and not modes. The choices are PV or HVM, which describes how the instance boots, and your choice may be influenced by the features available. Currently, on EC2, PVH is not available, but PVHVM is: so the best choice for Linux (in general) would be booting a "HVM" instance with PVHVM enabled (eg, setting CONFIG_XEN_PVHVM)."

PVHVM

PVHVM ist die klassische Variante die bis Dato für Windows-VMs verwendet werden: In das OS der VM werden optimierte XEN-Treiber installiert, die eine Paravirtualisierte Schnittstelle zum XEN-Backend zur Verfügung stellen um eine bessere Performance zu erzielen.

OPNSense verfügt mit FreeBSD als zugrunde liegendem Betriebssystem bereits über die notwendigen XEN PV-Treiber, daher muss keine Emulation für Disk- und Netzwerkressourcen verwendet werden. Disk und Netzwerk Einträge starten nicht QEMU zur Emulation, sondern es werden die nativen XEN PV-Treiber verwendet.

Das ist also der zweit beste XEN Modus um OPNSense in einer VM zu betreibern. Noch performanter ist der PVH Modus.

XenProject.org[12]: "PV on HVM is a mixture of paravirtualization and full hardware virtualization. The primary goal of PV on HVM is to boost performance of fully virtualized HVM guests through use of specially optimized paravirtual device drivers (also called PVHVM or PV-on-HVM drivers).

...

"PV-on-HVM drivers are optimized PV drivers for HVM environments that bypass the emulation for disk and network IO. They also make use CPU functionality such as Intel EPT or AMD NPT support. Thus, giving you PV-like or better performance on HVM systems."

XEN PVH

XEN domU in PVH Modus ist laut xenproject.org der Königsweg für Nicht-PV VMs: Es wird schlicht kein Domain Model benötigt zur Emulation mehr benötigt. Das bedingt allerdings, dass der geladene Kernel PVH fähig ist. Bei meiner OPNSense Firewall die auf FreeBSD basiert ist das zum Glück der Fall.

xenproject.org:[13]

PVH technical Overview

  • Runs inside of an HVM container.
  • No PV MMU.
  • Runs with normal privilege levels.
  • Disable HVM emulated devices.
  • Uses PV start sequence.
  • Start with basic paging setup.
  • Uses the PV path for several operations:
  • vCPU bringup.
  • PV hypercalls.
  • PV e820 memory map.
  • Uses the PVHVM callback mechanism.

Differences with PV

  • Pagetables controlled by guest.
  • gpfn in pagetables.
  • IDT controlled by guest.
  • No pfn/mfn difference, guest only aware of gpfns.
  • Native syscall/sysenter.
  • No event/failsafe callbacks.
  • Native IOPL.


XEN PVH FreeBSD Konfiguration

FreeBSD lässt sich im PVH Modus nur über den Kernel booten. Ich muss also zuerst den Kernel in die Dom0 kopieren, um ihn zum booten direkt zu starten. Das notwendige Skript dazu folgt weiter unten.

XEN OPNsense (FreeBSD) PVH Konfiguration:

name        = 'opnsense'
memory      = 1536

cpus        = '1-3'
vcpus       = 1

# PVH
# Either kernel or bootloader must be specified for PV guests.
type        = 'pvh'
kernel      = '/root/xen/kernel/opnsense/kernel'    # load FreeBSD kernel direct
extra       = 'vfs.root.mountfrom=ufs:/dev/gpt/rootfs vfs.root.mountfrom.options=rw module_path="/boot/kernel;/boot/modules"'

# Disk
disk        = [ 'phy:/dev/vg/opnsense-disk,xvda,w' ]

# Network
vif         = [ 'script=vif-bridge_TxOff' ]

# HVM
#type       = 'hvm'

# HVM: Emulated HVM Graphics Device
#vnc         = 1
#vnclisten   = '0.0.0.0'
#keymap      = 'de'
#usb         = 1
#usbdevice   = 'tablet'

# Behavior
on_poweroff = 'destroy'
on_reboot   = 'restart'
on_crash    = 'restart'

Bei jedem OPNSense update mit einem neuem Kernel stehe ich also vor einem Problem, da OPNSense normalerweise direkt neu startet. Das wird sicher scheitern, da die Dom0 den neuen Kernel ja nicht starten kann.

Ich verwende erstmal folgenden Skript-basierten Ansatz um vor dem Start der VM den aktuellen Kernel in die Dom0 zu laden:

#!/bin/bash
#
# start OPNSense XEN domU in PVH mode
# - get OPNSense kernel
# - run PVH domU
#
# neobiker 2021-01-30
set -e

# my VM
VM=opnsense
VM_CFG='-pvh'
VM_DISK=/dev/mapper/vg-opnsense--disk
VM_DISK_PART='3'

# FreeBSD
VM_FSTYPE=ufs
VM_KERNEL=/boot/kernel/kernel

# my personal XEN setup
CONFIG_DIR=/root/xen
KERNEL_DIR=${CONFIG_DIR}/kernel/${VM}

# temporary mountpoint
MOUNT_DIR=/run/xen/pvh_disk/${VM}

case ${VM_FSTYPE} in
        ufs)    mount_options='-r -t ufs -o ufstype=ufs2'
                ;;
        *)      mount_options=''
esac

update_kernel ()
{
        echo "check kernel..."
        [ -d ${MOUNT_DIR} ] || mkdir -p ${MOUNT_DIR}
        [ -z "${VM_DISK_PART}" ] || kpartx -a ${VM_DISK}
        mount ${mount_options} ${VM_DISK}${VM_DISK_PART} ${MOUNT_DIR}

        [ -d ${KERNEL_DIR} ] || mkdir -p ${KERNEL_DIR}
        rsync ${MOUNT_DIR}${VM_KERNEL} ${KERNEL_DIR}/

        umount ${MOUNT_DIR}
        [ -z "${VM_DISK_PART}" ] || kpartx -d ${VM_DISK}
}

update_kernel

# xen: toolstack
echo "start domU"
xen create ${CONFIG_DIR}/${VM}${VM_CFG}


Funktioniert nicht:

Ich möchte das Problem dadurch lösen, dass ich GRUB2 als Bootloader verwende, um OPNSense zu starten. Ich werde also in meinem OPNSense Harddisk eigens zusätzliche GRUB2 Bootpartition einrichten, aus der ich den originalen OPNSense Bootloader starte (chainload). Das ist jedenfalls der Plan ;-)

OK - PVGrub funktioniert nicht im PVH Modus (PV vs. HVM)

Meine derzeitiges OPNSense Volume:

cfdisk /dev/vm/opnsense-bak

                                     Disk: /dev/vm/opnsense-bak
                          Size: 8 GiB, 8589934592 bytes, 16777216 sectors
                    Label: gpt, identifier: D6370CC5-8DBC-4FE5-A71A-648831C22ACE

    Device                             Start           End       Sectors       Size Type
>>  /dev/vm/opnsense-bak1                 40        409639        409600       200M EFI System
    /dev/vm/opnsense-bak2             409640        410663          1024       512K FreeBSD boot
    /dev/vm/opnsense-bak3             410664      15090719      14680056         7G FreeBSD UFS
    Free space                      15091712      16777175       1685464       823M

Der Grub2 Eintrag sieht vermutlich in etwa so aus:

menuentry "OPNSense" {
    set root=(hd1,gpt1)
    chainloader +1
}

XEN Stubdom

Eine Stub Domain ist eine PV DomU die nur einen bestimmten Zweck erfüllt: Sie stellt anderen Domains Ressourcen zur Verfügung, welches damit nicht mehr in der Dom0 erfolgen muss.

  • Storage
  • Network
  • Graphic

Da sonst keine weiteren Aufgaben anfallen, ist kein komplettes Linux-System und auch kein vollständiger Kernel notwendig. Hierfür werden spezielle Kernel wie MiniOS verwendet: Er enthält im wesentlichen nur die notwendigen XEN-Treiber damit die zugehörige Domain Zugriff auf die oben genannten Ressourcen erhält. Die Domain selbst benutzt die XEN-Frontend Treiber, welche direkt mit dem XN-Backend in der Stubdom verbunden sind.

Einschub:

Für meine OPNsense Firewall welche in einer HVM DomU läuft würde sich für den Storage eine Stubdom anbieten. Das Netzwerk ist ja mit der nativ durchgereichten Netzwerkkarte über die PCI-Schnittstelle schon direkt in die DomU eingebunden. Im Verlauf der Testinstallation für diesen Artikel zeigte sich, dasss meine Entscheidung auf Debian Testing (Bullseye) mit XEN 4.14 zu setzen offensichtlich ein Fehler war: Ich bekam OPNSense zwar ordentlich gestartet, über das Netzwerkinterface floss allerdings kein einziges Byte, obwohl alle Schnittstellen up/running anzeigten. Ergo ging ich zurück zu Debian Stable (Buster) mit XEN 4.11 um die nächste Stufe der Disagregation mit dem PVH Modus zu testen.

Die stubdom ist unter Debian derzeit leider nicht zu finden. Ich versuche diese aus den XEN Sourcen selbst zu installieren, oder aus den Debian Paket zu erstellen.

Stubdom Konfiguration

Aktuelle Informationen und Beispiele zur Konfiguration von Stub Domains habe ich nicht wirklich finden können. Beispiele die unter dem früheren Toolstack xm mit XEN 3 verwendet wurden sind inzwischen sehr veraltet.

Die Konfiguration der HVM erfolgt derart, dass sämtliche Ressourcen aus der HVM-Konfiguration in die Stubdom Konfiguration verlagert werden. Ein Extra-Eintrag teilt dem XEN Toolstack xl mit dass die HVM-DomU eine Stub Domain beim Start instanzieren soll, anstatt das QEMU Device-Modell selbst direkt in der Dom0 zu starten.

HVM-Konfiguration 'opnsense zur Verwendung eine stubdom:

name        = 'opnsensee'
memory      = 2048

# HVM
type        = 'hvm'

# use Stubdom
device_model_stubdomain_override = 1

# Block device(s) for target domain
disk        = [ 'phy:/dev/vm/opnsense-disk,xvda,w',
               #'file:/root/xen/iso/OPNsense-20.7-OpenSSL-dvd-amd64.iso,xvdb:cdrom,r'
              ]
# Network device(s) for target domain
vif         = [ '' ]
#vif         = [ 'backend=Domain-N, bridge=br_lan, script=vif-bridge_TxOff' ]

# Optinale additive Parameter für Device Modell
# device_model_args_hvm=[ keymap=de, ...]

keymap      = 'de'
vnc         = 1
vnclisten   = '0.0.0.0'
vncpasswd   = ''

Der Start der VM erfolgt ganz normal, die stubdom wird automatisch gestartet.

xl create opnsense

Leider beenden sich beide domu sofort nach dem Start. Auch die originalen aus den XEN Sourcen kompilierte Pakete zeigen das gleiche Verhalten.

Das Thema HVM-Stubdom lege ich jetzt erstmal auf Eis. Ich werde mich wegen meiner OPNSense HVM jetzt mit dem PVH Modus beschäftigen, der eine Mischung aus HVM und PV implementiert. FreeBSD unterstützt diesen Mode, das Ergebnis ist oben beschrieben.

XEN Stubdomain installieren

Als erste XEN VM richte ich mir deshalb gleich ein Debian System ein, mit dem ich die fehlenden Dateien erstellen möchte.

xen-create-image --hostname bullseye --dist bullseye --vifname=vif_bullseye --bridge=br_lan --dhcp

Als erstes versuche ich die Installation anhand der Debian Sourcen:

apt-get install build-essentials devscripts
apt-get source xen
apt-get build-dep xen

cd xen-4.14.*
# edit debian/rules >>> enable-stubdom, disable-xen, disable-tools, disable-docs

debuild -b -us -uc
make dist-stubdom

# doesn't help: see changelog
changelog:  * Document that ioemu is currently unsupported. (closes: #536175)
changelog:  * Remove ioemu for now. (closes: #490409, #496367)

In Debian sind die notwendigen Pakete leider explizit deaktiviert worden.

Also gehe ich zu den originalen XEN Sourcen der unter Debian vrewendeten Version über:

# Sourcen für XEN 4.14.1 (Debian Bullseye verwendet xen 4.14.1)
wget https://downloads.xenproject.org/release/xen/4.14.1/xen-4.14.1.tar.gz
tar xvzf xen-4.14.1.tar.gz
cd xen-4.14.1

# apply a patch (Compile Error), see below

# this is catched from debian/rules
export DEB_HOST_MULTIARCH=x86_64-linux-gnu
./configure --prefix=/usr --includedir=/usr/include --libdir=/usr/lib/$DEB_HOST_MULTIARCH --with-libexec-libdir-suffix=/$DEB_HOST_MULTIARCH --host=$DEB_HOST_MULTIARCH --mandir=/usr/share/man --infodir=/usr/share/info --sysconfdir=/etc --localstatedir=/var --with-libexec-leaf-dir=xen-4.14 --disable-blktap1 --disable-blktap2 --disable-rombios --with-system-qemu=/usr/bin/qemu-system-i386 --enable-ovmf --with-system-ovmf=/usr/share/ovmf/OVMF.fd --with-system-seabios=/usr/share/seabios/bios-256k.bin

make dist-stubdom

Das kompilieren des Paketes stubdom war hier jedenfalls möglich. Natürlich kann es jetzt aufgrund fehlender Anpassungn an die XEN Installation unter Debian zu Fehlern oder auch prinzipiell zu unerwünschten Nebeneffekten oder Instabilitäten kommen.

Evtl. treten Fehler bei der Kompilation eines Treibers auf, die sich wie folgt beheben lassen:

# ---------------------------------
# läuft auf Fehler beim Kompilieren eines (nicht notwendigen) Treibers
# fix:
# im File tools/firmware/etherboot/ipxe/src/ininiband/flexboot.c in den Zeilen 368 und 409 jeweils
# den korrekten Typ vor dem Parameter qp->type einfügen: (nodnic_queue_pair_type)
# :368 ... (nodnic_queue_pair_type)qp->type ...
# :409 ... (nodnic_queue_pair_type)qp->type ...
diff flexboot_nodnic.c.orig flexboot_nodnic.c
368c368
<       status = nodnic_port_create_qp(&port->port_priv, qp->type,
---
>       status = nodnic_port_create_qp(&port->port_priv, (nodnic_queue_pair_type)qp->type,
409c409
<       nodnic_port_destroy_qp(&port->port_priv, qp->type,
---
>       nodnic_port_destroy_qp(&port->port_priv, (nodnic_queue_pair_type)qp->type,
# ----------------------------------

Das fehlende File ioemu-stubdom.gz konnte ich so erstellen und in die Dom0 kopieren, zusammen mit einigen anderen Dateien. Auch die benötigte Device-Modell Datei qemu-dm wurde gebaut.

Stubdom Dokumentation

Die Manpage und Dokumentation lassen eine Beispielkonfiguration vermisssen.

Toolstack to MiniOS ioemu stubdomain protocol
---------------------------------------------

This section describe communication protocol between toolstack and
qemu-traditional running in MiniOS stubdomain. The protocol include
expectations of both qemu and stubdomain itself.

Setup (done by toolstack, expected by stubdomain):
 - Block devices for target domain are connected as PV disks to stubdomain,
   according to configuration order, starting with xvda
 - Network devices for target domain are connected as PV nics to stubdomain,
   according to configuration order, starting with 0
 - if graphics output is expected, VFB and VKB devices are set for stubdomain
   (its backend is responsible for exposing them using appropriate protocol
   like VNC or Spice)
 - QEMU command line (space separated arguments) is stored in
   /vm/<target-uuid>/image/dmargs xenstore path
?? - bios type is stored in /local/domain/<target-id>/hvmloader/bios
 - stubdomain's console 0 is connected to qemu log file
 - stubdomain's console 1 is connected to qemu save file (for saving state)
 - stubdomain's console 2 is connected to qemu save file (for restoring state)
 - next consoles are connected according to target guest's serial console configuration

Startup:
1. PV stubdomain is started with ioemu-stubdom.gz kernel and no initrd
2. stubdomain initialize relevant devices
3. stubdomain signal readiness by writing "running" to /local/domain/<stubdom-id>/device-model/<target-id>/state xenstore path
4. now stubdomain is considered running


man xl.cfg
...
  Device-Model Options
       The following options control the selection of the device-model.  This is the component which provides
       emulation of the virtual devices to an HVM guest.  For a PV guest a device-model is sometimes used to provide
       backends for certain PV devices (most usually a virtual framebuffer device).

       device_model_version="DEVICE-MODEL"
           Selects which variant of the device-model should be used for this guest.

           Valid values are:

           qemu-xen
               Use the device-model merged into the upstream QEMU project.  This device-model is the default for
               Linux dom0.

           qemu-xen-traditional
               Use the device-model based upon the historical Xen fork of QEMU.  This device-model is still the
               default for NetBSD dom0.

           It is recommended to accept the default value for new guests.  If you have existing guests then, depending
           on the nature of the guest Operating System, you may wish to force them to use the device model which they
           were installed with.

       device_model_override="PATH"
           Override the path to the binary to be used as the device-model running in toolstack domain. The binary
           provided here MUST be consistent with the device_model_version which you have specified. You should not
           normally need to specify this option.

       stubdomain_kernel="PATH"
           Override the path to the kernel image used as device-model stubdomain.  The binary provided here MUST be
           consistent with the device_model_version which you have specified.  In case of qemu-xen-traditional it is
           expected to be MiniOS-based stubdomain image, in case of qemu-xen it is expected to be Linux-based
           stubdomain kernel.

       stubdomain_ramdisk="PATH"
           Override the path to the ramdisk image used as device-model stubdomain.  The binary provided here is to be
           used by a kernel pointed by stubdomain_kernel.  It is known to be used only by Linux-based stubdomain
           kernel.

       stubdomain_memory=MBYTES
           Start the stubdomain with MBYTES megabytes of RAM. Default is 128.

       device_model_stubdomain_override=BOOLEAN
           Override the use of stubdomain based device-model.  Normally this will be automatically selected based
           upon the other features and options y

       device_model_args_hvm=[ "ARG", "ARG", ...]

XAPI

XCP-ng

ToDo: test it once - done - Use it ? Hhm, not really ... ;-)

Qubes OS

ToDo: test it once ;-)




Verweise

Grafik: XEN Disaggregation (Quelle: XEN.Org)