OpenAlex im Einsatz – Was kann die neue Quelldatenbank?

Die Landesinitiative openaccess.nrw hat für die erste thematische Sprechstunde des Jahres 2024 Dr. Sarah Kritzler, Data Scientist an der Universitätsbibliothek Duisburg-Essen, eingeladen, um die Teilnehmer:innen mit der offenen und nicht-kommerziellen Publikations- und Zitationsdatenbank OpenAlex vertraut zu machen. Der wissenschaftliche Katalog hat zuletzt die Nutzung des Web of Science an der Sorbonne Université (Paris) abgelöst und dadurch im Jahr 2023 (mediale) Aufmerksamkeit erlangt. Auch der Open Access Monitor (OAM) hat die Datenbank Anfang des Jahres 2024 neu eingebunden. OpenAlex wurde von der Non-Profit-Organisation OurResearch entwickelt, die bereits hinter der Entwicklung von Unpaywall stehen. Im Rahmen der thematischen Sprechstunde wurde OpenAlex als Tool für bibliometrische Analysen präsentiert und diskutiert. Dieser Blogbeitrag stellt die wichtigsten Funktionen der erst 2022 auf dem Markt erschienenen Datenbank vor und beleuchtet Gründe für die Nutzung von OpenAlex sowie mögliche Grenzen. Zudem wird ein Anwendungsbeispiel für die praktische Arbeit mit dem Dienst gegeben.

Wie setzt sich die Datenbank zusammen?

OpenAlex, benannt nach der antiken Bibliothek von Alexandria, ist eine freie Datenbank wissenschaftlicher Publikationen, Autor:innen und Institutionen. Die Daten wurden mehrheitlich aus dem Datensatz von Microsoft Academic Graph übernommen.[1] Die Neuigkeit, dass Microsoft die Unterstützung für diese Datenquelle einstellen wird, war gleichzeitig auch Antrieb für die Gründung von OpenAlex (Priem, Piwowar und Orr 2022).

Dieser bestehende Datensatz wird kontinuierlich aus Crossref, der Research Organization Registry (ROR), dem Directory of Open Access Journals (DOAJ), Unpaywall, Pubmed und einigen weiteren Quellen wie den arXiv-Preprint-Server oder das Repositorium Zenodo erweitert und ergänzt. Momentan verzeichnet OpenAlex 248 Millionen Publikationen und 90 Millionen Autor:innen (siehe OpenAlex help pages 2024). Das Tool ermöglicht die Datenanalyse anhand verschiedener wissenschaftlicher „Entities“. In diesem Zusammenhang können als Basisentitäten „Authors“, „Institutions“ oder „Works“ genannt werden. (Priem, Piwowar und Orr 2022) In der aktuellen Gesamtsicht von OpenAlex sind zudem noch sechs weitere Entitäten gelistet: „Sources“, „Concepts“, „Funders“, „Geo“, „Publishers“ und „Topics“. Die letztgenannte Entität ist erst Anfang Februar 2024 eingeführt worden.

Was sind Gründe für die Nutzung von OpenAlex?

“OpenAlex offers an open replacement for industry-standard scientific knowledge bases like Elsevier’s Scopus and Clarivate’s Web of Science.” (OpenAlex help pages o.D.) Diese Information gibt die Betreiberin selbst auf der Website als Grund für die Entwicklung des Katalogs an. Die Einführung durch Sarah Kritzler hat darüber hinaus gezeigt, dass OpenAlex offen und nachnutzbar ist. Der Datensatz (und Code) ist mit einer CC0 Lizenz versehen. Es handelt sich zudem um einen umfassenden Datensatz, der gut dokumentiert sowie kosten- und barrierefrei zugänglich ist. OpenAlex bietet nicht nur die Möglichkeit auf den Datensatz der eigenen wissenschaftlichen Institution zuzugreifen, sondern auch den Gesamtdatensatz herunterzuladen und für Analysen mit Tools wie R oder Python zu nutzen. Insgesamt ist der Datengraph von OpenAlex als scientific knowledge graph sehr gut strukturiert. Es liegt eine klare Trennung und Zuordnung von Informationen vor.

Wie sieht ein beispielhaftes Szenario für die Anwendung von Open Alex aus?

Ein Anwendungsszenario von OpenAlex sind beispielsweise interne Datenauswertungen für Open Access Transformationsverträge. Um die Entscheidungen über das Eingehen der Verträge und die dazugehörige Kostenvorausschätzung zu unterstützen, werden in der Regel interne Analysen zum bisherigen Publikationsaufkommen durchgeführt. Dafür sind insbesondere die Korrespondenz-Informationen von großer Bedeutung, die jedoch oftmals nicht ideal in den Meta-Daten repräsentiert sind. Hierbei hat OpenAlex den Vorteil, dass für die Autor:innen durch ein separates Feld explizit gekennzeichnet ist, ob sie corresponding authors sind oder nicht. Für solche Analysen wurden aus diesem Grund an der Universitätsbibliothek Duisburg-Essen in den vergangenen Monaten schon die OpenAlex Daten ergänzend herangezogen.

Wo sind derzeit noch Grenzen in der Arbeit mit OpenAlex?

Der Katalog entwickelt sich stetig weiter. Die OpenAlex Community arbeitet fleißig an Änderungen und Verbesserungen. Daher können Analysen aufgrund eines variierenden Datenumfangs zu unterschiedlichen Zeitpunkten zu verschiedenen Ergebnissen führen. Aufgrund dessen empfiehlt es sich für die eigene Analyse gegebenenfalls einen Snapshot herunterzuladen und mit diesem Datensatz weiterzuarbeiten. Als Tool für Recherchen nach im Open Access verfügbarer Literatur ist OpenAlex derzeit noch nicht angelegt. Hier lohnt es sich, noch etwas Geduld mitzubringen und abzuwarten. Wer sich aber schon jetzt mit der Quelldatenbank auseinandersetzen möchte, hat die Möglichkeit sich über diese Website für ein kostenfreies Webinar zu registrieren oder bisherige Webinare anzusehen: https://help.openalex.org/events/webinars.

Die Landesinitiative openaccess.nrw dankt Dr. Sarah Kritzler für den Austausch und die Bereitstellung Ihrer Folien. Die Vortragsfolien vom 25.01.2024 sind hier abrufbar:

Falkenburg, Philipp. 2022. Open Access Basics: Was ist OpenAlex? <https://open-access-brandenburg.de/open-access-basics-was-ist-openalex/>, zuletzt abgerufen am 06.02.2024.

OpenAlex help pages. o.D. Who are we? <https://help.openalex.org/about-us>, zuletzt abgerufen am 06.02.2024.

OpenAlex help pages. 2024. Coverage. <https://help.openalex.org/coverage>, zuletzt abgerufen am 06.02.2024.

Priem, Jason, Piwowar, Heather und Richard Orr. 2022. OpenAlex: A fully-open index of scholarly works, authors, venues, institutions, and concepts. ArXiv. https://arxiv.org/abs/2205.01833.


[1] Siehe zu der Thematik Falkenburg 2022.