Publié sur éduscol STI (https://sti.eduscol.education.fr)

Accueil > Word Embedding - Les mots et le Machine Learning

publié le 07 nov 2022 par Hélène HORSIN MOLINARO [1]

Histogramme du corpus [2]
Modèle CBOW [3]
Modèle Skip-gram [4]
Composition du corpus [5]
Création dictionnaire [6]
Comptage des occurrences [7]
Calcul d'un histogramme par document [8]

Contenu principal

Description

Word Embedding - Les mots et le Machine Learning

Cette ressource fait partie du « Dossier Intelligence Artificielle [9] ».

Il existe de nombreux moyen de représenter les données. Le Machine Learning s’intéresse notamment à exploiter et analyser toutes les données possibles. Les données tabulaires sont les plus simples à représenter et à analyser informatiquement. Les images peuvent être traitées presque directement par réseaux de neurones. Certaines données sont cependant plus difficiles à traiter : les données temporelles ou le texte par exemple. Les données textuelles ont pourtant une importance majeure car elles sont disponibles en très grandes quantités et sont une manière très compacte de transmettre de l’information, permettant de créer des bases de données beaucoup plus denses. Nous avons également accès à des données historiques beaucoup plus anciennes et variées que pour d’autres médias comme la vidéo.

Cette ressource introduit des méthodes de représentation des mots dans l’informatique au travers d’un premier exemple simple utilisant l’occurrence des mots dans un corpus de textes puis d’un exemple utilisant Word2Vec qui regroupe un ensemble de réseaux de neurones pour l’apprentissage de vectorisation des mots afin d’opérer sur ceux-ci. Une attention particulière sera faite quant aux biais introduits par rapport aux données d’apprentissage.

Contenu de la ressource :

  1. Introduction
  2. Différentes méthodes
  3. Première approche
    1. Création du dictionnaire
    2. Calcul de l’histogramme
    3. Bag-of-words
  4. Word2Vec
    1. Entrainement d’un modèle simple
    2. Utilisation d’un modèle pré-entrainé
  5. Conclusion
Fichiers et liens
Icône PDF Word Embedding – Les mots et le Machine Learning [10]
Contenus associés : 
Séries temporelles et réseaux de neurones récurrents [11]
Heat map des corrélations entre caractéristiques du set de données [11]
Dans cette ressource, nous nous efforçons de dépeindre au mieux les caractéristiques, particularités et les complexités données dynamiques (i.e. vidéos), que nous illustrons avec une application : l’entrainement d’un RNN pour la prévision des conditions climatiques
Ressource pédagogique
Cours / présentation [12]
Auteur(s): 
NOËL Valentin [13]
Apprentissage supervisé – Comportement aérien d’un drone [14]
Drone en vol stationnaire et désignation des rotors [14]
L’activité pédagogique de cette ressource propose d’utiliser des mesures d’apprentissage pour produire un programme capable de déterminer automatiquement le comportement aérien d’un drone
Ressource pédagogique
Cours / présentation [12]
Travaux pratiques [15]
Auteur(s): 
TOURVIEILLE Olivier [16]

URL source (modified on 07/11/2022 - 08:57):https://sti.eduscol.education.fr/si-ens-paris-saclay/ressources_pedagogiques/word-embedding-les-mots-et-le-machine-learning

Liens
[1] https://sti.eduscol.education.fr/utilisateurs/helene-horsin-molinaro?node=14960 [2] https://sti.eduscol.education.fr/system/files/images/ressources/pedagogiques/14960/14960-histogramme-du-corpus-vignette.png [3] https://sti.eduscol.education.fr/system/files/images/ressources/pedagogiques/14960/14960-cbow.png [4] https://sti.eduscol.education.fr/system/files/images/ressources/pedagogiques/14960/14960-skip-gram.png [5] https://sti.eduscol.education.fr/system/files/images/ressources/pedagogiques/14960/14960-composition-du-corpus.png [6] https://sti.eduscol.education.fr/system/files/images/ressources/pedagogiques/14960/14960-creation-dictionnaire.png [7] https://sti.eduscol.education.fr/system/files/images/ressources/pedagogiques/14960/14960-comptage-des-occurences.png [8] https://sti.eduscol.education.fr/system/files/images/ressources/pedagogiques/14960/14960-calcul-dun-histogramme-par-document.png [9] https://sti.eduscol.education.fr/si-ens-paris-saclay/ressources_pedagogiques/dossier-intelligence-artificielle [10] https://sti.eduscol.education.fr/sites/eduscol.education.fr.sti/files/ressources/pedagogiques/14960/14960-word-embedding-les-mots-et-le-machine-learning-ensps.pdf [11] https://sti.eduscol.education.fr/si-ens-paris-saclay/ressources_pedagogiques/series-temporelles-et-reseaux-de-neurones-reccurents [12] https://sti.eduscol.education.fr/lom-types-pedagogiques/cours-presentation [13] https://sti.eduscol.education.fr/si-ens-paris-saclay/personne/noel-valentin [14] https://sti.eduscol.education.fr/si-ens-paris-saclay/ressources_pedagogiques/apprentissage-supervise-comportement-aerien-dun-drone [15] https://sti.eduscol.education.fr/lom-types-pedagogiques/travaux-pratiques [16] https://sti.eduscol.education.fr/personne/tourvieille-olivier