Datasets
Présentation des datasets sur lesquels s'appuie le cours.
1. Science
Nous proposons deux datasets issus de données extraites de OpenAlex. Chacun des datasets recense les articles (titre, abstract, références), auteurs, affiliations d’un corpus de littérature scientifique.
1.1 Climat (2015-2025)
Ce jeu de données couvre la littérature scientifique sur le climat de 2015 à 2025. Il comprend environ 200.000 articles.
Téléchargement manuel
Téléchargement automatique
Pour télécharger le corpus automatiquement, installez les notebooks (comme expliqué ici), puis exécutez la commande suivante:
datalad install science
datalad get science/climate -s s3
1.2 Sciences économiques (2019-2025)
Attention
Ce jeu de données est relativement lourd. Prévoir 2 Go d’espace disque, et 8 Go de mémoire vive au minimum. Dans le cas contraire, privilégiez les autres datasets.
Ce jeu de données couvre la littérature scientifique en économie de 2019 à 2025. Il comprend environ 600.000 articles.
Pour télécharger le corpus automatiquement, installez les notebooks (comme expliqué ici), puis exécutez la commande suivante:
datalad get science/econ
2. Impact investing (twitter)
Téléchargement manuel
- Téléchargement rapide ici.
Téléchargement automatique
Pour télécharger le corpus automatiquement, installez les notebooks (comme expliqué ici), puis exécutez la commande suivante:
datalad install twitter
datalad get twitter