Remove-HtmlTags #
ÜBERSICHT #
Entfernt Html-Tags aus einem übergebenen Text.
SYNTAX #
Remove-HtmlTags [[-Html] <string>] [<CommonParameters>]
BESCHREIBUNG #
Diese Funktion bereinigt eine Zeichenkette, indem sie alle Html-Tags entfernt - also alles, was in spitzen Klammern (’<…>’) steht, inklusive Kommentaren oder Scripts, sofern sie als Tag erkannt werden.
Die Funktion basiert auf einem einfachen regulären Ausdruck und eignet sich zur Grobbereinigung von Html-Fragmenten, etwa zur Darstellung im Klartext oder zur Weiterverarbeitung ohne Markup.
PARAMETER #
-Html #
Type: string
Der Html-Text (als Zeichenkette), aus dem die Html-Tags entfernt werden sollen.
AUSGABEN #
string
Gibt den bereinigten Text ohne Html-Tags zurück.
BEISPIELE #
# Gibt zurück: "Hello World"
Remove-HtmlTags -Html "<p>Hello <strong>World</strong></p>"
# Entfernt alle Tags aus einer Html-Datei und speichert den reinen Text in '$plain'.
$plain = Get-Content page.Html -Raw | Remove-HtmlTags
HINWEISE #
Der verwendete reguläre Ausdruck (’<.*?>’) ist nicht Html-konform im strengen Sinne, funktioniert aber zuverlässig für einfache bis mittlere Html-Strukturen. Nicht geeignet für vollständiges Html-Parsing (dafür z.B. HtmlAgilityPack verwenden). Quelle des Patterns: VBScript Shop (angepasst für PowerShell)