Patexpert: ein modulares system zur semantikbasierten be- und verarbeitung von patenten

Aus IAO-Wiki

Inhaltsverzeichnis

Ausgangssituation

Patente gehören zu den wenigen öffentlich zugänglichen Informationen, die einen Einfluss auf den europäischen Wirtschaftsraum haben und deren Monitoring und Interpretation wesentlich vom Zugang des Inhalts abhängig ist. Forschung und Entwicklungsarbeiten im Bereich des Patentmanagements beschränkten sich bislang auf einige ausgewählte traditionelle Prozesse wie Textsuche, Darstellung von Metadaten und eine einfache sprachliche Analyse.

Zielsetzung

Ziel des Projekts war es, die Be- und Verarbeitung von Patenttexten von einer rein texturalen zu einer semantikbasierten Verarbeitung aufzuzeigen. Dazu wurden unterschiedliche Softwaremodule zur Recherche, Inhaltsextraktion und Visualisierung innerhalb eines Frameworks erstellt.

Projektbeschreibung

PATEXpert ist ein Rahmen für mehrere untereinander vernetzte Softwaremodule zur computerbasierten Verarbeitung von Patentdokumenten. Dabei werden die Patentdokumente nicht als reine Textblöcke oder syntaktische Strukturen, sondern als multimediale Wissensobjekte behandelt. Dies ermöglicht sowohl die Suche nach textbezogenen Sinngehalten als auch nach Dokumenten mit ähnlichen Bildern. Einzelne Softwaremodule können dabei weitgehend flexibel miteinander kombiniert werden. So kann die Recherche auf Basis einer unscharfen Fuzzy Logic mit einer Suche nach ähnlichen Bildern verknüpft werden oder eine semantische Analyse kann mit Verfahren des Maschinen-Lernens kombiniert werden.

Im Unterschied zu einer reinen Inhaltsextraktion, die auf unstrukturierten Datenmengen operiert, benötigt die multimediale Repräsentation, insbesondere semantischbasierte Lösungen, eine Vorverarbeitung und Strukturierung der Datenmenge. Bei PATEXpert wurden die Druckschriften in elektronischer Form als XML-Dateien vom Europäischen Patentamt zur Verfügung gestellt. Um den Inhalt aus den Dokumenten einer semantischen Verarbeitung zugänglich zu machen, wurden linguistische Annotierungen sowie sprach- und wissensorientierte Abstraktionen durchgeführt. Für die erfolgreiche Abstraktion wesentlich ist die speziell für PATEXpert entwickelte Ontologie für Patentschriften. Es hat sich als besonders effektiv herausgestellt, diese patentspezifische Ontologie hierarchisch aufzubauen und sie dann mithilfe einer ebenfalls patentspezifischen Grobstruktur (patent upper level ontology) in die Kernontologie SUMO zu integrieren. Diese Grobstruktur enthält dann die eigentlichen Patentontologien zu den Metadaten, der Dokumentstruktur und den Zeichnungen.

Ergebnisse

Die multimediale Repräsentation und die semantische Abstraktion der Druckschriften ermöglicht in PATEXpert eine neue Form der Suche nach den Inhalten der Druckschriften. Gibt man bei einer semantischen Recherche einen Begriff wie »Spindel« vor, so ist das PATEXpert-System aufgrund der patentspezifischen Ontologie in der Lage, während der Eingabe dem Benutzer Vorschläge zu machen, welche Relationen für eine Spindel – oder sinnverwandte Werkzeuge – in den erfassten Druckschriften vorkommen. In Abb. 3 wurde das Stichwort »spindle« vorgegeben und unter einer Reihe von Relationen der Vorgang »move« ausgewählt.

PATEXpert gibt nun die Druckschriften aus, in denen eine Spindel irgendetwas bewegt. Dabei werden auch sinnverwandte Begriffe für die Suchstrings »spindle« und »move« berücksichtigt. So zeigt das Ergebnis der Anfrage in Abb. 4 auch diejenigen Dokumente an, bei denen ein Spindeldorn (engl. mandrel) verwendet wird.

Der modulare Charakter des PATExpert-Systems und die multimediale Repräsentation der Druckschriften ermöglicht neben der reinen Suche auch die automatisierte Weiterverarbeitung der Inhalte. So wurde mit PATEXpert ein Klassifizierungssystem entwickelt, das Patentschriften automatisch in frei wählbare Kategorien sortiert. Damit kann das Ergebnis einer Recherche in die beiden Kategorien »relevante Treffer« und »nicht relevante Treffer« eingeteilt werden. In Kombination mit dem Modul für maschinelles Lernen entsteht daraus eine Feedback-Recherche. Bei einer Feedback-Recherche wird nur ein Teil der Datenbank mit einfachen Abfragestrukturen durchsucht und die daraus resultierenden Treffer durch den Nutzer in die beiden Ergebniskategorien »relevanter Treffer« oder »nicht relevanter Treffer« eingeteilt. Die multimediale Repräsentation der Druckschriften in den Ergebniskategorien dient nun als Trainingsdatensatz für eine weitere automatische Recherche, deren relevante Treffer automatisch in diese Kategorien einsortiert werden. In der Kategorie »relevante Treffer« finden sich dann diejenigen Druckschriften, die denen aus der Trainingsphase sinnverwandt sind. Es hat sich gezeigt, dass für die beiden Industriezweige optische Speichertechnologien und Maschinenbau ein Trainingsdatensatz von bereits zwölf Dokumenten ausreichend ist, um das System zu trainieren. Zur Validierung der Feedback-Recherche wurden Testdatensätze mit Offenlegungsschriften und Patentschriften erstellt. Nach der Trainingsphase wurden sogenannte Einspruchspatente, die zwar im Testdatensatz, aber nicht im Trainingsdatensatz enthalten waren, durch PATExpert als relevante Treffer identifiziert.

Grundsätzlich ist die Klassifizierung im Rahmen von PATEXpert nicht auf die beiden Kategorien »relevante Treffer« und »nicht relevante Treffer« beschränkt, sondern kann frei wählbar erweitert werden.

Auch hier lassen sich die Druckschriften nach der entsprechenden Auswahl der multimedialen Patentrepräsentation und einer Trainingsphase automatisch in das Ordnersystem einsortieren. PATExpert zeigt an zwei exemplarischen Technologiefeldern – optische Speichertechnologien und Maschinenbau – welche innovativen Möglichkeiten eine wissens- und sprachabstrahierte Verarbeitung von Patenten bietet. Eine derartige, am Inhalt orientierte multimediale Verarbeitung von Patenten benötigt zwar eine Vorverarbeitung der Druckschriften, bietet dafür aber ganz neue Möglichkeiten der Inhaltsextraktion und -verarbeitung. So können Technologiekonzepte aus den Druckschriften extrahiert werden, Substitutionstechnologien lassen sich identifizieren oder Druckschriften mit ähnlichen Bildern können erfasst und automatisch klassifiziert werden. Der Nutzer von PATEXpert kommt dabei ohne aufwendige Wortverknüpfungen oder Trunkierungen aus.

Darüber hinaus kann PATEXpert auch mit klassischen Rechercheverfahren kombiniert werden. Es hat sich gezeigt, dass diese Kombination für die Überwachung von Wettbewerbstechnologien besonders vorteilhaft ist. Die Ergebnisse der klassischen, auf boolscher Logik basierenden Recherche konnten mithilfe von PATEXpert innerhalb weniger Sekunden in nutzerdefinierte Ordner einsortiert werden, ohne dass der Inhalt jeder einzelnen Druckschrift gelesen werden musste.