Forschungsdaten archivieren
Forschungsdaten sollen langfristig nutzbar, d.h. abrufbar und lesbar sein. Für eine digitale Langzeitarchivierung, die sich einer Veröffentlichung anschließt, müssen die digitalen Objekte bestimmte Voraussetzungen erfüllen.
So werden Forschungsdaten mit verschiedener Software erstellt und liegen dementsprechend in unterschiedlichen Dateiformaten vor.
Zur digitalen Langzeitarchivierung sind jedoch nicht alle Dateiformate gleich geeignet. Grundsätzlich gilt bei der digitalen Langzeitarchivierung: Offene Dateiformate, die weit verbreitet und gut dokumentiert sind (z.B. CSV, XML, DOCX, TXT, PDF/A, …), sind proprietären Formaten (z.B. XLS, DOC, …) vorzuziehen. Für die digitale Langzeitarchivierung wurden bestimmte Dateiformate als geeignet deklariert (s. Tabelle). In einigen Fällen sind für die digitale Langzeitarchivierung auch Maßnahmen zur Formatüberführung oder die Nachahmung der ursprünglichen Systemumgebung eines Formates nötig, um die langfristige technische Interpretierbarkeit und Lesbarkeit der Daten ohne Informationsverlust zu gewährleisten. Beide Punke sind Aufgabe von ZB MED.
Als technische Infrastruktur für die digitale Langzeitarchivierung nutzt ZB MED das System Rosetta der Firma Ex Libris.
Weitere Informationen finden Sie unter unseren Seiten zur Digitalen Langzeitarchivierung.
Empfohlene Formate von Forschungsdaten für eine digitale Langzeitarchivierung
Datentypen | Für dLZA geeignete Dateiformate | Allgemein gängige Dateiformate | Beispiele für Erzeugungsquellen und Anwendung |
Audio | AIFF (*.aiff, *.aif), Matroska (*.mka), MXF (*.mxf), WAVE (*.wav) | AAC (*.aac, *.m4a, mp4), AIFF (*.aiff, *.aif), BWF (*.bwf), FLAC (*.flac), Matroska (*.mka), MP3 (*.mp3), MXF (*.mxf), OGG (*.ogg), OPUS (*.opus), WAVE (*.wav) | Interviews, Umfragen |
Bilddaten | JPEG2000 (*.jp2), PNG (*.png), SVG (*.svg), TIFF (*.tif, *.tiff) | DICOM (*.dcm), EPS (*.eps), GIF (*.gif), Illustrator (*.ai), JPEG 2000 (*.jp2), JPG (*.jpg, *.jpeg), PDF (*.pdf), PNG (*.png), STL (*.stl), SVG (*.svg), TIFF (*.tif, *.tiff) | Kamera, Mikroskop, Ultraschallgeräte, Röntgengeräte, Sonographiegeräte, MRT, CT |
Bilddaten 3D | OBJ (*.obj, *.mod, kodiert als ASCII), VRML (*.vrml, *.wrl), X3D (*.x3d) | COLLADA (*.dae), DXF (*.dxf), FBX (*.fbx), OBJ (*.obj, *.mod), PLY (*.ply), STL (*.stl), VRML (*.vrml, *.wrl), X3D (*.x3d) | 3D-Geräte, z.B.: Stereolitographie |
Biomaterialdaten | CSV (*.csv), TXT (*.txt), XML (*.xml) | CSV (*.csv), FASTA (*.fasta), FASTQ (*.fq, *.fastq), PDB (*.pdb, *.ent, *.brk), TXT (*.txt), XLS (*.xls), XML (*.xml) | DNA-Sequenzierer, Massenspektrometer, Microarray, Spektralfotometer |
Datenbanken | SQL (*.sql) | CSV (*.csv), HDF5 (*.hdf5, *.he5, *.h5), MS Access (*.mdb, *.accdb), sBase (*.dbf), SIARD (*.siard), SQL (*.sql) | Institutionen |
Geodaten | GML (*.gml), MID (*.mid), MIF (*.mif) | ESRI Shapefiles (*.shp), GML (*.gml), KML (*.kml), MapInfo (*.tab), MID (*.mid), MIF (*.mif) | Vektordaten, Rasterdaten |
Klassifikationen, Thesauri, Codes | PDF/A (*.pdf), XML (*.xml) | DOC (*.doc, *.docx), PDF (*.pdf), XML (*.xml) | Institutionen |
Markup language | XML (*.xml) | HTML (*.html), SGML (*.sgml), XML (*.xml) | Webseiten |
Sensordaten | CSV (*.csv), PDF (*.pdf), TXT (*.txt) | CSV (*.csv), PDF (*.pdf), TXT (*.txt), XLS (*.xls, *.xlsx), XML (*.xml) | Temperatur- und Drucksensoren, Polysomnographie, EKG, EEG |
Statistikdaten | CSV (*.csv), R (*.r) | CSV (*.csv), data (*.csv, *.txt), DDI (*.xml), R (*.r), SAS (*.7dat, *.sd2, *.tpt), SPSS (*.sav), SPSS Portable (*.por), STATA (*.dta) | Daten aus Forschung, klinischer Versorgung, Erhebungen |
Tabellen | CSV (*.csv) | CSV (*.csv), ODS (*.ods, *.odt, *.odg, *.odc, *.odf), OOXML (*.docx, *.docm), PDF/A (*.pdf), XLS (*.xls, *.xlsx) | Daten aus Forschung, klinischer Versorgung, Erhebungen |
Texte | PDF/A (*.pdf), TXT Unicode (*.txt, *.asc, *.c, *.h, *.cpp, *.m, *.py usw. kodiert als ASCII), XML (*.xml) | DOC (*.doc, *.docx), ODT (*.odt), PDF (*.pdf), Powerpoint (*.ppt), RTF (*.rtf), TXT (*.txt) | Dokumentationen, Berichte, Befunddaten, administrative Daten |
Video | Matroska (*.mkv), MXF (*.mxf) | AVI (*.avi), Matroska (*.mka, *.mkv), MPEG-2 (*.mpg, *.mpeg, *.m2v, *.mpg2), MPEG-4 (*.mp4, *.m4a, *.m4v), MXF (*.mxf), QuickTime (*.mov, *.qt), Windows Media (*.wmv) | Kamera, CT-Scanner, Ultraschallgeräte |
Quellen
Archivtaugliche Dateiformate ETH Zürich
Archivtaugliche Dateiformate DANS
Archivtaugliche Dateiformate DARIAH-DE (Geisteswissenschaften)
Nestor-Handbuch: Langzeitarchivierung von Forschungsdaten: Eine Bestandsaufnahme
Forschungsdaten-Info
Kontakt
Birte Lindstädt
Leitung Forschungsdatenmanagement
Tel: +49 (0)221 478-97803
E-Mail senden
Uta Parmaksiz
Digitale Langzeitarchivierung von Forschungsdaten
Tel: +49 (0)221 999 892 648
E-Mail senden
Weiterführende Links
Digitale Langzeitarchivierung bei ZB MED
Metadaten in der Langzeitarchivierung
OAIS
ZB MED-Blog Beiträge
Langzeitarchivierung: Kann das weg oder ist das noch Wissenschaft? (28.10.2021)
Forschungssoftware und Bibliotheken (26.10.2021)