Pour faciliter la fouille de textes : 

Textes & corpus – ISTEX

L’équipe ISTEX poursuit ses actions de développement de la plateforme ISTEX et des services associés pour faciliter leur utilisation dans des travaux de fouille de textes : amélioration des performances et de l’ergonomie des services ; cycle de formations en France pour la constitution de corpus ; communication autour de la constitution de corpus spécialisés lors de conférences telles que LREC et TALN…

Le fait marquant

ISTEX-DL, le service de téléchargement associé à ISTEX, a fait peau neuve et a repoussé ses limites :

  • augmentation des possibilités de téléchargement (jusqu’à 100 000 documents) ;
  • des requêtes sans limite de taille ;
  • visualisation d’un échantillon de résultats ;
  • parcours de téléchargement par type d’usage ;
  • une connexion facilitée avec l’outil LODEX ;
  • un nouveau format de téléchargement (tar.gz) ;
  • une interface adaptée aux mobiles (responsive).

30 corpus éditeurs chargés

12 corpus spécialisés pour la fouille de textes

1 corpus d’actualité (Coronavirus)

9 314 revues /348 636 monographies

23 351 350 documents dont

22 903 845 documents avec au moins 1 enrichissement

83 213 426 enrichissements générés sur les documents

Les autres évenements de l'année...

Data.istex propose de nouvelles vues sur les données ISTEX :

  • la revue de sommaire permet de télécharger en format Kbart la couverture réelle d’ISTEX afin d’avoir une vue globale ou partielle de l’état de collection des livres et des journaux électroniques ;
  • la nouvelle rubrique « Corpus d’actualité » invite à une exploration du passé pour éclairer les problématiques du présent (ex. : SARS COVID) ;
  • le jeu de données « Ayants-droit à l’usage d’ISTEX » propose un alignement des données sur les ayants droit de l’ESR avec les données d’autorité de IdRef ;
  • de nouveaux corpus spécialisés sont mis à la disposition de la communauté scientifique spécialisée en fouille de textes :
    • Animalia 100 : un corpus de 100 documents en zoologie enrichis avec des noms d’espèces animales détectés automatiquement à l’aide de trois outils (entity Fishing & IRC3, Ty+Rex) ;
    • Beethoven : un corpus de 1 800 documents en musicologie qui a pour objectif d’illustrer la méthodologie de constitution d’un corpus pour une application en fouille de textes.

 

Afin de faciliter la navigation dans ses données, data.istex intègre les nouvelles fonctionnalités de LODEX :

  • un fil d’Ariane pour se repérer entre les différentes pages ;
  • une barre de navigation pour accéder aux différentes fonctionnalités, parmi lesquelles le bouton « Télécharger » en lien direct avec ISTEX-DL ;
  • une interface responsive adaptée aussi bien sur mobile que sur ordinateur ;
  • de nouvelles représentations graphiques pour retrouver des données similaires au fil de sa navigation.

Partenariats et collaborations

  • Abes : négociation de nouveaux corpus afin d'enrichir le fonds ISTEX en vue d’augmenter sa couverture temporelle par de nouvelles années pour le corpus EDP Sciences (2017, 2018, 2019) ainsi que sa couverture scientifique, par l’intégration de nouveaux corpus éditeurs en Sciences humaines et sociales (Droz, Open Edition (ebooks), Taylor & Francis), en biologie et histoire des sciences (RSL).

Actions de communication

  • An Experiment in Annotating Animal Species Names from ISTEX Resources. Sabine BARREAUX, Dominique BESAGNI, 12th Conference on Language Resources and Evaluation (LREC 2020), May 2020, Marseille, France. pp.4509 - 4513. hal-03008209.
  • Vers un corpus optimal pour la fouille de textes : stratégie de constitution de corpus spécialisés à partir d’ISTEX (démonstration). Camille DE SALABERT, Sabine BARREAUX. 6e conférence conjointe Journées d’études sur la parole (JEP, 33e édition), Traitement automatique des langues naturelles (TALN, 27e édition), Rencontre des étudiants chercheurs en informatique pour le traitement automatique des langues (RÉCITAL, 22e édition). Volume 4 : Démonstrations et résumés d’articles internationaux, Juin 2020, Nancy, France. pp.66-69. hal-02768520v3.
  • Ateliers pratiques autour d’ISTEX : poursuite du tour de France en collaboration avec le réseau des URFIST pour accompagner les utilisateurs dans la constitution d’un corpus spécialisé à partir du réservoir ISTEX et dans sa valorisation à l’aide d’outils pour la visualisation et la fouille de textes (LODEX, Gargantext, Cillex). 4 sessions à Paris, Montpellier, Strasbourg ; animateurs : Claude NIEDERLENDER, Camille DE SALABERT, Pascale VIOT, Sabine BARREAUX ; 38 stagiaires parmi lesquels des professionnels de l’IST, des doctorants, des enseignants-chercheurs.
  • 14 billets publiés sur le blog ISTEX
  • Lodex : quand la science rencontre la culture, article publié sur le site web Inist
  • ISTEX-DL pour un accès facilité aux publications scientifiques, article publié sur le site web Inist
Grâce à data.istex, les chercheurs peuvent accéder à des corpus librement et simplement.
En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres