Suche
DAYSTREAM Annotierter Textkorpus von Verkehrsmeldungen
Der DAYSTREAM Korpus ist ein Datensatz von 3541 Verkehrsmeldungen, in denen Eigennamen (z.B. Straßen, Linien, Haltestellen), deren Referenzids (z.B. DHID, DLID, OSM-IDs), sowie Relationen (z.B. Stau, Unfall, Schienenersatzverkehr) manuell annotiert sind. Der Datensatz kann als Trainings- bzw. Testkorpus für Informationsextraktionsaufgaben wie Eigennamenerkennung, Entity Linking und Relationsextraktion genutzt werden.
Datensatzstatistiken:
RSS | Total | ||
---|---|---|---|
docs | 2825 | 716 | 3541 |
tokens | 69188 | 34630 | 103818 |
entities | 15280 | 8112 | 23392 |
relations | 365 | 427 | 792 |
docs with annotated relations | 305 | 338 | 643 |
linked entities (org|loc) | 5138 | 3331 | 8469 |
NIL entities | 4764 | 1698 | 6462 |
Der DAYSTREAM Korpus wird unter der CC-BY 4.0 Lizenz veröffentlicht. Wenn Sie diese Daten verwenden, sollten Sie folgende Publikation zitieren:
A German Corpus for Fine-Grained Named Entity Recognition and Relation Extraction of Traffic and Industry Events. Martin Schiersch, Veselina Mironova, Maximilian Schmitt, Philippe Thomas, Aleksandra Gabryszak, Leonhard Hennig. Proceedings of LREC, 2018.
Weiterführende Informationen und Details: https://github.com/DFKI-NLP/daystream-corpus/
mFUND-Projekt: DAYSTREAM - Datenanalytik und KI für sichere und zuverlässige Mobilität, FKZ: 19F2031A-E
mcloud_id:723C0E26-2832-46C7-85CD-1E9424E56240
Links zu den Daten
Dokumentation und Download
https://github.com/DFKI-NLP/daystream-corpusLinks zu den Metadaten
Bereitgestellt durch
Deutsches Forschungszentrum für Künstliche Intelligenz GmbH
Kategorie
Aktualität der Datensatzbeschreibung
Mon Mar 06 11:04:53 GMT 2023
Zeitbezug der Daten
Fri May 22 22:00:00 GMT 2015 — Sun Mar 31 22:00:00 GMT 2019
Aktualisierungsfrequenz
Niemals
Raumbezug der Daten
Nutzungsbestimmung
Freie Nutzung
Lizenz
Creative Commons Namensnennung – 4.0 International (CC BY 4.0)