DAYSTREAM Annotierter Textkorpus von Verkehrsmeldungen

Der DAYSTREAM Korpus ist ein Datensatz von 3541 Verkehrsmeldungen, in denen Eigennamen (z.B. Straßen, Linien, Haltestellen), deren Referenzids (z.B. DHID, DLID, OSM-IDs), sowie Relationen (z.B. Stau, Unfall, Schienenersatzverkehr) manuell annotiert sind. Der Datensatz kann als Trainings- bzw. Testkorpus für Informationsextraktionsaufgaben wie Eigennamenerkennung, Entity Linking und Relationsextraktion genutzt werden.

Datensatzstatistiken:

Twitter RSS Total
docs 2825 716 3541
tokens 69188 34630 103818
entities 15280 8112 23392
relations 365 427 792
docs with annotated relations 305 338 643
linked entities (org|loc) 5138 3331 8469
NIL entities 4764 1698 6462


Der DAYSTREAM Korpus wird unter der CC-BY 4.0 Lizenz veröffentlicht. Wenn Sie diese Daten verwenden, sollten Sie folgende Publikation zitieren:

A German Corpus for Fine-Grained Named Entity Recognition and Relation Extraction of Traffic and Industry Events. Martin Schiersch, Veselina Mironova, Maximilian Schmitt, Philippe Thomas, Aleksandra Gabryszak, Leonhard Hennig. Proceedings of LREC, 2018.

Weiterführende Informationen und Details: https://github.com/DFKI-NLP/daystream-corpus/

mFUND-Projekt: DAYSTREAM - Datenanalytik und KI für sichere und zuverlässige Mobilität, FKZ: 19F2031A-E

mcloud_id:723C0E26-2832-46C7-85CD-1E9424E56240

Links zu den Daten

Dateidownload (JSON)

Links zu den Metadaten

Bereitgestellt durch

Deutsches Forschungszentrum für Künstliche Intelligenz GmbH

Kategorie
Straßen
Bahn
Aktualität der Datensatzbeschreibung

Mon Mar 06 11:04:53 GMT 2023

Zeitbezug der Daten

Fri May 22 22:00:00 GMT 2015 — Sun Mar 31 22:00:00 GMT 2019

Aktualisierungsfrequenz

Niemals

Raumbezug der Daten
Nutzungsbestimmung

Freie Nutzung

Lizenz

Creative Commons Namensnennung – 4.0 International (CC BY 4.0)