DAYSTREAM Annotierter Textkorpus von Verkehrsmeldungen

Der DAYSTREAM Korpus ist ein Datensatz von 3541 Verkehrsmeldungen, in denen Eigennamen (z.B. Straßen, Linien, Haltestellen), deren Referenzids (z.B. DHID, DLID, OSM-IDs), sowie Relationen (z.B. Stau, Unfall, Schienenersatzverkehr) manuell annotiert sind. Der Datensatz kann als Trainings- bzw. Testkorpus für Informationsextraktionsaufgaben wie Eigennamenerkennung, Entity Linking und Relationsextraktion genutzt werden.

Datensatzstatistiken:

Twitter RSS Total
docs 2825 716 3541
tokens 69188 34630 103818
entities 15280 8112 23392
relations 365 427 792
docs with annotated relations 305 338 643
linked entities (org|loc) 5138 3331 8469
NIL entities 4764 1698 6462


Der DAYSTREAM Korpus wird unter der CC-BY 4.0 Lizenz veröffentlicht. Wenn Sie diese Daten verwenden, sollten Sie folgende Publikation zitieren:

A German Corpus for Fine-Grained Named Entity Recognition and Relation Extraction of Traffic and Industry Events. Martin Schiersch, Veselina Mironova, Maximilian Schmitt, Philippe Thomas, Aleksandra Gabryszak, Leonhard Hennig. Proceedings of LREC, 2018.

Weiterführende Informationen und Details: https://github.com/DFKI-NLP/daystream-corpus/

mFUND-Projekt: DAYSTREAM - Datenanalytik und KI für sichere und zuverlässige Mobilität, FKZ: 19F2031A-E

Links zu den Daten:

Dateidownload (JSON)

Link zu den Metadaten:

Bereitgestellt durch

Deutsches Forschungszentrum für Künstliche Intelligenz GmbH

Kategorie
Straßen
Bahn
Aktualität der Daten

23.05.2015 — 01.04.2019

Aktualität der Datensatzbeschreibung

11.06.2020

Nutzungsbestimmung

Freie Nutzung

Lizenz

Creative Commons Namensnennung – 4.0 International (CC BY 4.0)