Datasets

Présentation des datasets sur lesquels s'appuie le cours.

1. Science

Nous proposons deux datasets issus de données extraites de OpenAlex. Chacun des datasets recense les articles (titre, abstract, références), auteurs, affiliations d’un corpus de littérature scientifique.

1.1 Climat (2015-2025)

Ce jeu de données couvre la littérature scientifique sur le climat de 2015 à 2025. Il comprend environ 200.000 articles.

Téléchargement manuel

  • Téléchargement rapide ici.
  • Téléchargement lent (backup) ici.

Téléchargement automatique

Pour télécharger le corpus automatiquement, installez les notebooks (comme expliqué ici), puis exécutez la commande suivante:

datalad install science
datalad get science/climate -s s3

1.2 Sciences économiques (2019-2025)

Attention

Ce jeu de données est relativement lourd. Prévoir 2 Go d’espace disque, et 8 Go de mémoire vive au minimum. Dans le cas contraire, privilégiez les autres datasets.

Ce jeu de données couvre la littérature scientifique en économie de 2019 à 2025. Il comprend environ 600.000 articles.

Pour télécharger le corpus automatiquement, installez les notebooks (comme expliqué ici), puis exécutez la commande suivante:

datalad get science/econ

2. Impact investing (twitter)

Téléchargement manuel

  • Téléchargement rapide ici.

Téléchargement automatique

Pour télécharger le corpus automatiquement, installez les notebooks (comme expliqué ici), puis exécutez la commande suivante:

datalad install twitter
datalad get twitter