Die “Extensible Markup Language” (XML) ist ein Eckpfeiler des semantischen Webs.¹ In der Vergangenheit war HTML (hypertext markup language) die Standard-Sprache, in der Webseiten geschrieben worden sind. HTML wurde von SGML (standard generalized markup language), einem internationalen Standard für die Definition von einer gerät- und systemunabhängigen Darstellung von Informationen, abgeleitet. Dabei wurde SGML so konzipiert, dass die Inhalte sowohl vom Menschen als auch von Maschinen gelesen werden konnten.
Sprachen, die sich auf SGML beziehen, nennt man SGLM-Applikationen, HTML ist eine solche Applikation. HTML wurde entwickelt, weil SGLM als viel zu kompliziert für die Anwendung im Internet erachtet wurde. XML ist auch eine SGML-Applikation, die allerdings durch die erkannten Mängel der “hypertext markup language” entstanden ist.² Mittlerweile hat XML die Entwicklungsphase verlassen und findet auf breiter Basis Akzeptanz.
XML wurde am 10. Februar 1998 vom W3C-Konsortium offiziell zu einer Empfehlung (Recommendation) und so zu einem offiziell anerkannten Standard.³ Die Vorteile, die XML gegenüber HTML mit sich bringt, sind folgende:
- XML ermöglicht die Erstellung von applikationsunabhängigen Dokumenten und Daten.
- XML besitzt eine Standard-Syntax für die Beschreibung von Metadaten (Daten über die Daten).
- XML besitzt eine Standard-Struktur sowohl für Dokumente als auch Daten.
- XML ist keine neue Technologie.
XML ist von Applikationen unabhängig, da sie als Verschlüsselung einfachen Text in einer vom Menschen lesbaren Form verwendet. Zum Entwerfen von XML-Dokumenten sind einfache Editoren, wie etwa von Open Office, verfügbar. Im Gegensatz dazu gibt es beispielsweise in sich geschlossene, binär verschlüsselte Formate wie Microsoft Word, bei denen lediglich die Entwickler selbst das Format verstehen. Diese binäre Verschlüsselung des Formats hat den Nachteil, dass sie sich selbst in bestimmte Applikationen – also z.B. Microsoft Word – einschließt.
Die Verschlüsselung von XML durch einfachen Text erlaubt es hingegen jeder Applikation oder jedem Programm, die Datei zu öffnen und zu lesen. Durch die Verwendung einer offenen und standardisierten Syntax und einer ausführlichen Beschreibung der Bedeutung der Daten ist XML von jedem lesbar und interpretierbar, nicht nur von einer bestimmten Applikation und ihrem Produzenten.
Das ist ein entscheidender Grundpfeiler des semantischen Webs, weil heute die Vielzahl an Software Agents, Programmen und Systemen der Zukunft, die einmal Daten des World Wide Webs interpretieren und weiterverarbeiten können sollen, kaum voraussehbar ist. Eine Auszeichungssprache, die von allen digitalen Systemen der Zukunft verstanden werden kann, ist also ein grundlegendes Erfordernis auf dem Weg zum semantischen Web. Ein weiterer Vorteil beim Speichern von Daten in der “Extensible Markup Language” ist die einfache Durchsuchbarkeit vergleichbar zu den Inhalten von Webseiten heute.
Einen weiteren Vorteil, den XML gegenüber HTML bietet, ist die Standard-Syntax für die Beschreibung von Metadaten. Die Syntax, oder speziell die Syntax formaler Sprachen – also die Syntax von Programmiersprachen in der Informatik und Kalkülen in der Logik – bezeichnet ein System von Regeln, nach dem erlaubte Konstruktionen bzw. Ausdrücke aus einem grundlegenden Zeichenvorrat gebildet werden.4
Metadaten über ein Buch sind zum Beispiel:
- Der Name des Autors
- Die Auflage
- Das Erscheinungsjahr
- Auflage und Verlag
Ohne genauer auf die technischen Spezifikationen der Syntax an dieser Stelle einzugehen, ist die Entwicklung der XML-Syntax auf dem Weg zum semantischen Web von hoher Signifikanz, denn sie standardisiert eine einfache, auf Text basierende Methode zur Auf- und Verschlüsselung der Bedeutung von Daten oder semantischen Informationen. Während Daten kontext-spezifische Werte darstellen, beschreiben die Metadaten die Bedeutung oder den Zweck dieser Daten.
Ein weiterer wichtiger Schritt in Richtung des semantischen Webs liefert XML mit ihrer Standard-Struktur, die geeignet ist, semantische Informationen sowohl für Dokumente als auch Datenfelder auszudrücken. Ein elektronisches Dokument kann als Gegenstück zu einem aus Papier bestehenden Dokument verstanden werden, es enthält rohe Informationen und Anweisungen zur Darstellung der Informationen. Im Gegensatz dazu bestehen Datenfelder aus Wertepaaren (Name=Müller), die von Computer verarbeitet werden können und im Internet oft in Formularen vorzufinden sind. Beide Arten von Informationen sind weit verbreitet innerhalb von Organisationen und auch im World Wide Web. XML macht es möglich, Metadaten sowohl an Dokumente als auch Datenfelder anzuhängen, und schließt so die Lücke zwischen Daten in Dokumenten und losgelösten Datenfeldern – beispielsweise in Formularen.
Nicht unerheblich ist die Tatsache, das XML die Kinderkrankheiten neuer Technologien bereits überstanden hat. Die Extensible Markup Language ist eine Ausgliederung der bereits oben beschriebenen “Standardized Generalized Markup Language” (SGML), die im Jahre 1969 von Dr. Charles Goldfarb, Ed Mosher und Ray Lorie entwickelt wurde. Das bedeutet, das Konzept hinter XML wurde fast 40 Jahre getestet und weiterentwickelt.5
Dennoch reicht diese Technologie zur Verwirklichung des semantischen Webs nicht aus, stellt aber Grundlage aller darauf aufbauender Technolgien dar. Mit Hilfe von XML können Struktur und Inhalt getrennt werden sowie einzelene Abschnitte eines Dokuments markiert (getagged), also beschrieben werden. Da aber jeder Entwickler völlig frei in der Wahl seiner Markierung ist, besteht kein einheitlicher Standard in der Beschreibung der Struktur eines Dokuments und bei dem Datenaustausch müssen sich Sender und Empfänger auf eine gemeinsame Struktur des XML-Dokuments festlegen.
Dieses Problem wird durch das Resource Description Framework (RDF) gelöst.
—–
¹ Tim Berners-Lee, James Hendler Ora Lassila: The Semantic Web: a new form of Web content that is meaningful to computers will unleash a revolution of new possibilities. In: Scientific American, H. 284 (5), S. 34–43.
² Frank Hermelen, Grigoris Antoniou (2004): A Semantic Web Primer; Seite 23; Herausgegeben von The MIT Press.
³ W3C-Konsortium (1998): Extensible Markup Language (XML) 1.0. W3C Recommendation 10-February-1998. Unter Mitarbeit von Jean Paoli C. M. Sperberg-McQueen Tim Bray. Online verfügbar unter http://www.w3.org/TR/1998/REC-xml-19980210
4 Arnim Regenbogen, Uwe Meyer, Friedrich Kirchner, Carl Michaelis, Johannes Hofmeister (2006): Wörterbuch der philosophischen Begriffe. 1. Aufl.: Verlag Meiner.
5 Michael C. Daconta (2003): The Semantic Web. A Guide to the Future of XML, Web Services, and Knowlege Management. Unter Mitarbeit von Kevin T. Smith Leo. J. Obrst. Herausgegeben von WILEY.