Live-Objekterkennung mit maschinellem Lernen

Die Objekterkennung mit maschinellem Lernen ist eine Technologie, die Computern hilft, Objekte in Bildern oder Videos zu erkennen und zu identifizieren. Der Prozess beginnt mit dem Training eines Computermodells anhand eines umfangreichen Datensatzes von Bildern, die manuell mit Beschriftungen für die Objekte auf dem Bild versehen worden sind. Das Computermodell lernt dann, Muster in den Bildern zu erkennen und diese Muster mit verschiedenen Arten von Objekten zu assoziieren.

Bei einem neuen Bild oder Video verwendet das Computermodell diese gelernten Muster, um das Vorhandensein und die Position der verschiedenen Objekte im Bild zu erkennen. Dazu wird das Bild in kleinere Bereiche unterteilt und jeder Bereich auf das Vorhandensein eines Objekts untersucht.

Um ein Modell von Grund auf zu trainieren, ist ein umfangreicher Datensatz mit gelabelten Daten erforderlich. Das Sammeln und Annotieren von Datensätzen ist oft sehr zeitaufwändig und kostspielig. Für viele Anwendungsfälle können jedoch so genannte vortrainierte Modelle als Grundlage verwendet werden, die mit der sogenannten Lerntransfer-Technik verbessert werden können. Viele solcher Modelle sind Open Source und frei verfügbar.

Lerntransfer ist eine Technik des maschinellen Lernens, bei der ein Ausgangsmodell auf einem umfangreichen Datensatz für eine bestimmte Aufgabe trainiert wird und dann dasselbe Modell auf einem kleineren Datensatz für eine verwandte Studie feinabgestimmt wird.

Wir haben in der obigen Demo ein YOLOv7-Standardmodell verwendet, das mit der COCO-Datenbank trainiert wurde. YOLO steht für You Only Look Once und ist ein sehr effizientes Modell zur Objekterkennung, das häufig in der Computer Vision verwendet wird. COCO steht für Common Objects in Context (“Gewöhnliche Objekte im Kontext”), ein umfangreicher Datensatz für Objekterkennung, Segmentierung und Beschriftung. COCO enthält über 330.000 Bilder und mehr als 2,5 Millionen Objektinstanzen, die mit Objektkategorie, Objektbegrenzungsrahmen und Segmentierungsmaske beschriftet sind. Es ist einer der beliebtesten Datensätze für die Objekterkennung, und viele moderne Objekterkennungsmodelle wurden auf COCO trainiert. Mit Hilfe von Lerntransfer können neue Objekte oder bestimmte Untergruppen von Objekten erkannt werden, z. B. “Teetasse” oder “Kaffeetasse” statt nur “Tasse”.

Live-Objekterkennung mit maschinellem Lernen

Was ist Objekterkennung?

Vortrainierte Modelle Nutzen!