Besser als jedes Videosystem

15.09.2018

Der Video-Versuch am Berliner Bahnhof Südkreuz zeigt, dass Videosysteme prinzipiell in der Lage sind, ein paar Gesichter wiederzuerkennen, auch wenn die Praxistauglichkeit wohl noch immer nicht so richtig gegeben ist. Einen detaillierten Bericht dazu haben wir hier im Heft ab Seite 298 ff. abgedruckt. Und selbst bei der viel einfacheren Technik der Bewegungserkennung per Videosensorik gibt es trotz 35 Jahren Entwicklung immer noch keine fehlalarmfreien Lösungen. Wie ärmlich unsere Versuche der "intelligenten" Bildanalyse im Gegensatz zu den Fähigkeiten der menschlichen Intelligenz sind, zeigt folgende Beobachtung beim Joggen an der Rheinpromenade:

Am Ufer gibt es eine Ausschilderung der Flusskilometer. Zwischen den Kilometertafeln befindet sich genau alle 100 Meter eine weiße Bake. So kann man gut Kilometerzeiten stoppen oder Entfernungen ermitteln.

Okay, Blick nach vorn. Ich sehe einen bunten Punkt. Ich habe eine Person detektiert. Die Entfernung liegt bei ca. 500 Metern. Auf diese Distanz fällt es mir leicht festzustellen, dass da jemand ist. Eigentlich sehe ich den Punkt auf 1.000 Meter Entfernung auch schon, kann aber noch nicht zweifelsfrei sagen, ob es ein Mensch oder beispielsweise eine Reklametafel ist. Ab 500 Metern bin ich aber sicher. Kurze Zeit später löst sich der bunte Punkt auf, ich erkenne, ob es eine oder mehrere Personen sind. Die Entfernung liegt bei ca. 400 Metern.

Die nächste Aufgabenstellung ist das Feststellen charakterisierender Merkmale. Bei 200 Metern bin ich mir bezüglich des Geschlechts sicher und kann die Größe gut abschätzen. Und bei 100 Metern habe ich eigentlich alles beisammen, was ich für eine detaillierte Beschreibung brauche: Größe, Geschlecht, Hautfarbe, Haarfarbe, geschätztes Alter, Statur, Fitnesszustand, Besonderheiten. Auf den letzten 100 Metern festigt sich dann dieser Eindruck. Allenfalls kommen weitere Detailerkenntnisse dazu wie Markenlogos, Laufschuhtyp oder Farbe des Kopfhörerkabels, aber die wirklich charakterisierenden Merkmale ändern sich zum Schluss nicht mehr.

Und da wäre noch das Thema mit dem Wiedererkennen bekannter Mitfrühsportler nach dem Motto: "Das ist der, der nie grüßt" oder "Das ist die, die ihre Musik immer so laut hat". Bei 100 Metern bin ich mir sehr sicher, Leute nach diesem Muster wiedererkennen zu können.

Beeindruckend: Das menschliche Auge arbeitet ohne Änderung der Brennweite, wird können nicht "heranzoomen", wir arbeiten mit Festbrennweite. Lediglich scharfstellen können wir. Wir haben da also zwei Universaloptiken für das räumliche Sehen, die Distanzen von 30 Zentimetern bis mehrere Kilometer beherrschen. Die Auflösung ist ziemlich hoch, sie liegt bei ca. vier Megapixeln je Auge, wenn man die Pixelauflösung mal mit der Anzahl der lichtempfindlichen Zäpfchen auf der Netzhaut gleichsetzt. Das eigentlich Entscheidende ist aber sicher die dahinterliegende Signalverarbeitungseinheit, das Gehirn.

Und noch etwas: Ich bin nicht fest an einem Mast installiert. Ich verhalte mich durchaus dynamisch, bewege mich und habe wechselnde Lichtverhältnisse bis hin zum Gegenlicht. All das wäre für einen Analysealgorithmus äußerst kontraproduktiv. Offenkundig ist die Videotechnik da noch lange nicht angekommen.

:::  Jörg Schulz  :::


Dieser Beitrag ist Bestandteil von: