Das Projekt DeepGreen wird aktuell im dritten Jahr an der UB Kiel betrieben. Ein erster Zwischenbericht erschien im Dezember 2020. Seither ist der Lieferdienst, der aktuell in einem zweijährigen Pilotbetrieb zur Vorbereitung eines Realbetriebs mit nachhaltigem Finanzierungsmodell arbeitet, fest integrierter Geschäftsgang zur Open-Access-Zweitveröffentlichung von Zeitschriftenartikeln von CAU-Wissenschaftlerinnen und -wissenschaftlern an der UB Kiel geworden.
Wie dem DeepGreen-Abschlussbericht zu entnehmen, wurden bis zum Ende der Projektphase mit der Future Science Group und Hogrefe weitere Verlage hinzugewonnen. Sie erweitern das Lieferspektrumauf jetzt zehn teilnehmende Verlage. Neben den genannten sind dies MDPI, Frontiers, Wiley, IOP, Sage, Karger, BMJ und deGruyter. Längst ist DeepGreen darüber hinausgewachsen, nur die grüne Open-Access-Komponente der Allianz-Lizenzen zu bedienen. Vielmehr hat man es mit einem vernetzten Lieferdienst zu tun, der eine zeitnahe und rechtlich gesicherte Einspielung von Forschungsoutput in die Repositorien der jeweiligen Universitäten der beteiligten Wissenschaftlerinnen und Wissenschaftler ermöglicht.
MACAU, der Open-Access-Publikationsserver der CAU, konnte durch DeepGreen bis Anfang 2023 insgesamt 1000 wissenschaftliche Artikel zweitveröffentlichen. Dadurch hat sich die Archivsituation des wissenschaflichen Publikationsaufkommens der Kieler Universität deutlich verbessert. Grund genug, einmal einen genaueren Blick auf die Sammlung zu werfen. Und auch wenn diese nur einen Bruchteil des tatsächlichen Veröffentlichungsvolumens der CAU repräsentiert, lassen sich an ihr in diesem Zusammenhang ferner beispielhaft Ansatzpunkte mit Workflow und Tools für eine bibliometrische Analyse und deren Potentiale aufzeigen.
Merkmale der DeepGreen-Sammlung an der UB Kiel
Die zweitveröffentlichten DeepGreen-Paper auf MACAU stammen aus sieben der zehn teilnehmenden Verlage. Publikationen von BMJ, FSG und Hogrefe gab es bis Ende 2022 noch keine – entweder, weil in den betreffenden Zeitschriften der Verlage keine Artikel mit CAU-Beteiligung erschienen, oder aber aufgrund von Datenintegrations- und -verarbeitungsschwierigkeiten bei Meldung bzw. Lieferung. Die aufgenommen Paper stammen aus insgesamt 206 Zeitschriften (Tab. 1). Sie entstanden mit Mitwirkung von Personen verschiedener Einrichtungen der Christian-Albrechts-Universität zu Kiel sowie angegliederter akademischer Institutionen wie – in absteigender Reihenfolge – das Universitätsklinikum Schleswig-Holstein (UKSH), das Geomar Helmholtz-Zentrum für Ozeanforschung Kiel (GEOMAR) sowie das Forschungszentrum Borstel.
Die CAU-DeepGreen-Sammlung weist inhaltlich deutliche medizinisch-pharmakologische und meereskundliche Schwerpunkte auf, was sich sowohl in der Fakultätsanbindung der Paper (Tab. 2), aber auch in der Themenanalyse anhand der Schlüsselbegriffe widerspiegelt (Abb. 1).
Dieser Fokus ist vor allem Folge der teilnehmenden Verlage und der inhaltlichen Ausrichtung ihrer Zeitschriften (Tab. 3). Besonders die Zeitschrift Frontiers in Immunology sticht in der Sammlung hervor. Aus ihr stammen mit Abstand die meisten der mittels DeepGreen zweitveröffentlichten Artikel mit CAU-Beteiligung.
Dazu passt, dass gleichfalls die ersten drei am höchsten gerankten Zeitschriften, aus denen Artikel in die Sammlung einflossen, Fachzeitschriften aus Medizin und Meereswissenschaften sind (Tab. 4). Gut vertreten sind daneben aber auch agrarwissenschaftliche, technische, biochemische und mikrobiologische Themen.
Betrachtet man vor diesem Hintergrund überdies den Zeitraum, in dem die meisten Artikel der DeepGreen-Sammlung erstveröffentlicht wurden (Abb. 2-4, u. Tab. 5), wird ersichtlich, dass über den Lieferdienst nicht nur qualitativ hochwertiger, sondern auch sehr aktueller Forschungsoutput der CAU zur weiteren Verbreitung und Archvierung ins institutionelle Repositorium MACAU gelangt.
Erläuterungen zur Beschaffung und zu Analyse der bibliographischen und Zitationsdaten
Datenanbieter und Datenqualität
Für bibliometrische Auswertungen der DeepGreen-Sammlung liegen Daten zum einen innerhalb der bibliotheksinternen Workflows vor. Sie sind von brauchbarer Qualität. Gleichwohl gibt es Analyse-Einschränkungen bei den CAU-fernen (Mit-)Verfasserinnen und Verfassern und deren Einrichtungen sowie durch die mit freiem Vokabular erstellbaren Abstracts und Schlagwörter zu verzeichnen. Außerdem fehlen belastbare Zitations- oder Nutzungsdaten, da sie zur Zeit von MACAU und seinem Analysetool Matomo nicht systematisch erfasst werden bzw. erfasst werden können. Grundsätzlich ist bei Nutzungsstatistiken institutioneller Repositorien zu bedenken, dass diese keine zentralen Anlaufpunkte von Literaturrecherchen sind. Und gerade bei Zweitveröffentlichungen gilt ferner, dass die Publikationen oft über die Server der Erstveröffentlicher, also die Verlage, bezogen werden. Ein vollständiges Nutzungsbild ist allein aus dem Repositorium heraus also kaum zu zeichnen.
Bei den zusätzlichen Metadaten, die in den bibliothekarischen Nachweisinstrumenten, in Falle von MACAU konkret im Verbundkatalog k10plus, zur DeepGreen-Sammlung verfügbar sind, gibt es ebenfalls Defizite hinsichtlich ihrer Analysefähigkeit: So liegen Personeninformationen (z. B. ORCID iDs) oder Einrichtungsinformationen durch verknüpfte Normdaten in den Datensätzen nur durch verlinkte Datensatznummern vor. Abstracts werden in der Regel nicht katalogisiert. Schlagwörter aus kontrolliertem Vokabular können zwar durch die Fachreferate vergeben werden, dies passiert jedoch nicht systematisch. Außerdem werden die PICA-Kategorien, mit denen katalogisiert wird, über die Schnittstelle des k10plus in redaktionell gepflegten und versionierten Formaten ausgegeben, deren Nachnutzung aufwendige Erschließungs- und Anpassungsarbeiten erfordert.
Für eine bibliometrische Analyse bleibt daher aktuell nur der Weg, auf kommerzielle Datenbanken wie Web of Science (WOS) zurückzugreifen, die strukturierte Daten zu den Einrichtungen aller Autorinnen und Autoren (Affiliationen), zu den zitierten Digital Object Identifiern (DOIs, seit dem Jahr 2000 zunehmend gebräuchlich) sowie den Views und Zitationen von Artikeln und Zeitschriften bereithalten. Web of Science hat dabei den klaren Vorteil, dass die Verlage, bei denen die Contentnutzung geschieht, Views und Downloads melden und der Datenaggregator sie in permanent aktualisierter, gepflegter Form zentral zur Verfügung stellt. Die feingranularen und umfassenden bibliographischen Angaben der Web of Science-Records sind mithin den Metadaten eines Repositoriums wie MACAU und erst recht den bibliothekarischen Katalogdaten überlegen.
Analysedaten und verwendete Analysetools
Aus dieser Erkenntnis wurde für die bibliometrische Analyse folgender Geschäftsgang zur Zusammenstellung geeigneter Daten in der notwendigen Erfassungstiefe entwickelt: Zunächst wurden über Web of Science alle Datensätze mit Bezug zur Universität Kiel und den an DeepGreen teilnehmenden Verlagen bezogen (14.500). Danach wurden mittels DOI-Abgleich diejenigen Sätze herausgefiltert, die zu Publikationen in der DeepGreen-Sammlung auf MACAU gehören (770). Sie wurden in eine neue Tabelle geschrieben, mitsamt aller Informationen aus Web of Science.
Damit sie nachfolgend mit Bibliometrix, einem Software-Paket auf Basis der Programmiersprache R für szientometrische und bibliometrische Forschung, analysiert werden konnten, mussten Sie in das feldbasierte Format ISI gebracht werden, nach dem Modell eines Data-Dictionaries.Voraussetzung für die Anwendung von Bibliometrix war ferner eine R-Basisinstallation (hier Version 4.2.2). Zusätzlich wurde mit RStudio in der Version 2022.12.0 gearbeitet, wo die Bibliometrix-Packages eingebunden wurden (hier Version 4.1.0, veröffentlicht am 13. Januar 2023 auf CRAN – The Comprehensive R Archive Network). Über die App Biblioshiny stand infolge eine dashboardartige Analyseumgebung bereit (Abb. 3), die verschiedenste Abfrageszenarien ermöglicht. Determinierender Faktor der Auswertung mit Bibliometrix ist allerdings die Evaluation des Gesamt-Ingests hinsichtlich der Vollständigkeit aller ISI-Formatfelder, da dadurch die Aussagekraft der Statistiken und Analysen beeinflusst wird. Wünschenswert ist, dass möglichst alle Felder zu 100% Werte enthalten, die in die Auswertungsprozesse einbezogen werden. Ein Fehlen bestimmter Werte zieht Unschärfen nach sich.
UPDATE Die Folien zu einem Vortrag auf Basis dieses Beitrags, den Thorsten Wetzenstein am 24.5.2023 im Rahmen des DeepGreen Anwender:innen-Treffens bei der 111. BiblioCON 2023 gehalten hat, finden Sie unter: https://nbn-resolving.org/urn:nbn:de:0290-opus4-183054.