La fouille de textes par l'exemple à travers l'exploitation des corpus istex

ENSSIB

25
26 septembre 2019
Paris
Métier(s)
Bibliothécaires
Catégorie(s)
Techniques professionnelles
Organisme(s)
Autres organismes

COMPÉTENCES VISÉES

Le TDM est aujourd'hui un enjeu majeur pour la recherche et pour la documentation, objet de débats politiques dans le cadre de la loi numérique, ayant abouti la création d’un droit à la fouille de données (article 38 de la loi sur une république Numérique). Ce stage vise à illustrer en pratique ce qu'est le TDM sur un corpus de textes. Les notions de base seront abordées et illustrées par des projets de recherche en cours sur le corpus ISTEX et par d'autres recherches mobilisant les mêmes concepts, plusieurs outils seront présentés. 
Le stage vise à donner aux bibliothécaires et documentalistes une approche concrète de cette pratique de recherche, sachant qu'ils seront dans un avenir proche amenés à accompagner les chercheurs dans ce nouveau champ d'activité dont ISTEX sera certainement l'infrastructure incontournable.

CONTENU DE LA FORMATION

Jour 1


Présentation des enjeux et des apports potentiels d’ISTEX :
1 - les enjeux de la fouille de textes scientifiques ;
2 - le projet ISTEX et ses ressources.

Construire un corpus exploitable : exemple du pré-traitement des collections ISTEX :
1 - enrichissement des métadonnées et indexation des données d’ISTEX
2 - extraction d’un sous corpus d’ISTEX.
Un exemple d’enrichissement des données : les cascades de graphes CasSys pour l'enrichissement de textes scientifiques pour :
1 - principe général ;
2 - application à la détection d’entités nommées ;
3 - autres champs d’application de tels cascades : l’exemple du projet Biosystémique.


Jour 2


Enrichissement du corpus par annotation automatique grâce à l’utilisation d’outils libres : l’exemple de GROBID
1 - les modèles d'apprentissage non supervisés ;
2 - du PDF au XML ;
3 - reconnaissance automatique et balisage des références ;
4 - recherche et balisage d'entités nommées et de mesure physique ;
5 - exemples d’applications.
Gargantext : une plateforme web de text mining.
Les analyses diachroniques d'évolution de concepts et leurs visualisations.

 

PRÉ-REQUIS RECOMMANDÉS

Maîtrise de la documentation électronique et connaissance des finalités du projet ISTEX (www.istex.fr)

Plus d'informations et inscriptions sur le site de l'ENSSIB

Infos pratiques

Dates
25/09/2019 - 26/09/2019
Durée
2 jours
Lieux
Paris
Coût
Tarifs : 350€ Gratuit pour les personnels des ministères de l'enseignement supérieur et de la culture
Responsable pédagogique
Laurent SCHMITT, Inist - CNRS
Date limite d'inscription

Contact

Organisateur
ENSSIB
Personne à contacter
Direction des études et des stages Pôle formation tout au long de la vie
Téléphone
04 72 11 44 46
Email
formationcontinue@enssib.fr
Adresse

Lieu à définir
75000 Paris