Methodik

Methodik

Der entwickelte Algorithmus umfasst die folgenden Schritte:

Zur Verbesserung der Datenqualität werden die gleichen Datenpunkte von bis zu sechs verschiedenen Webseiten aggregiert. Die KI wird auch verwendet, um Webseiten, die auf Englisch vorliegen, ins Deutsche zu übersetzen und freie Datenpunkte in standardisierte Kategorien für Beruf, Ausbildung und Mitgliedschaften zu überführen. Für chronologisch abbildbare Informationen wird für jeden Kandidierenden eine Jahresmatrix erstellt, die alle aktiven Jahre (in Ausbildung, Beruf oder Politik) abbildet. Hierbei werden Ausbildung, Beruf und politische Tätigkeiten gleich gewichtet, gleichzeitig ausgeführte Berufstätigkeiten werden innerhalb der Kategorie Beruf gleichgewichtet. Daten ohne vollständige Zeitangaben (Anfangs- und Enddatum) auf mindestens einer Webseite werden von der weiteren Auswertung ausgeschlossen. Die aggregierten Jahresdaten werden mittels Pivot-Tabellen ausgewertet, um durchschnittliche Erfahrungsjahre in Politik und Beruf sowie in spezifischen Berufskategorien zu berechnen. Diese Analysen umfassen auch die prozentuale Verteilung nach Berufskategorien und Ausbildungshintergründen.

Wir führen automatisierte Qualitätskontrollen durch. Der Algorithmus führt eine automatisierte Prüfung der Datenqualität durch, bei dem jeder Datenpunkt noch einmal mit dem gesamten extrahierten Inhalt der extrahierten Webseite abgeglichen wird. Diese Prüfung ergänzen wir punktuell durch manuelle Prüfungen. Weiterhin gehören zu den automatisierten Prüfungen die Erstellung von Kandidatenlisten ohne zuverlässige Daten, die statistische Häufigkeit der verwendeten Webseiten und die Klassifizierung von Datenlücken. Die verwendeten Webseiten sind dabei oft Wikipedia, abgeordnetenwatch.de, Parteiwebseiten, Webseiten des Bundestags bzw. der Fraktionen, persönliche Webseiten der Kandidierenden sowie Webseiten verschiedener Medienanbieter. Im Durchschnitt werden für jeden Datenpunkt 2,0 Internetquellen gefunden, wobei die Quellenvielfalt zu Ausbildungsstationen am besten und zu Mitgliedschaften am schlechtesten ist.

Ein Beispiel für die verwendeten Prompts ist auf Anfrage verfügbar.