Thema
Der ursprüngliche Projektvorschlag zur Diplomarbeit kam von Dipl.-Ing. Dr. Wilhelm Burger und lautete wie folgt:
Ziel ist die Detektion und Verarbeitung von Textelementen in dynamischen Video-Sequenzen. Dabei ist die Aufgabe dieses Systems, permanent nach Textelementen im Blickfeld zu suchen, diese zu lokalisieren und nach Möglichkeit zu übersetzen. Die entsprechenden Szenen können innerhalb von Gebäuden oder im Freien (Hinweise, Verkehrszeichen, Häuseraufschriften etc.) aufgenommen sein. Ein solches System könnte z.B. als Frontend für eine automatische Übersetzungsbrille oder ähnliche Anwendungen dienen. Die Informationen aus den visuellen Daten sollen so aufbereitet werden, dass sie anschließend von einem OCR-System verarbeitet werden können. Die Übersetzung der Texte ist nicht Teil der Aufgabenstellung.
Man kann davon ausgehen, dass aufgrund des geographischen Kontexts zumindest die Sprache eingeschränkt werden kannn, etwa wird man in Österreich vorwiegend Textelemente in Deutsch und Englisch finden. Ein wichtiges Thema neben der Detektion ist die Verfolgung (Tracking) eines Textelements von seinem erstmaligen Auftauchen in der Szene bis zu seinem Verschwinden. Weiters muss die Geometrie (Blickwinkel) bestimmt werden, damit eine brauchbare Entzerrung erfolgen kann. Zunächst soll das Verfahren an fertigen Videos entwickelt werden, Endziel ist eine Umsetzung in Echtzeit (z.B. mit einer FireWire Kamera). Das System soll allerding passiv sein, d.h. eine aktive Steuerung der Kamera ist nicht vorgesehen.
Aus dem Literatur-Research und Besprechungen mit Wilhelm Burger entstand die Idee für den Text-Spotting Agent und die dazugehörende Diplomarbeit Automatische Lokalisierung von Textelementen in visuellen Medien.