* Formations en Machine Learning *

Développez vos compétences en Machine Learning et en Data Science grâce à ces articles 100% gratuits qui vous permettront de comprendre le fonctionnement des algorithmes, quand et comment les utiliser !

Natural language processing

Les données textuelles nécessitent des étapes de préparation et de structuration spécifiques pour pouvoir mener des projets de NLP. 

Réseaux de neurones

Comprendre les réseaux de neurones est essentiel pour commencer à utiliser des algorithmes de Deep Learning

CAH : Classification ascendante hiérarchique

La méthode de clustering incontournable pour toutes vos problématiques de clustering et de segmentation client et incontestablement un de mes algorithmes préféré

Arbre de décision

C’est la base de plusieurs méthodes de Machine Learning plus avancées. L’arbre de décision est un algorithme simple et facile à interpréter pour les problématiques de prédiction et de classement. 

k-means

Un algorithme de clustering facile à comprendre et surement le plus utilisé. Il a l’avantage d’être facile à comprendre et les calculs sont très rapides. C’est la méthode idéal si vous souhaitez créer votre première segmentation. 

random forest

Un algorithme de Machine Learning incroyable qui offre de très bons résultats. Je vous propose de voir ensemble comment il fonctionne afin de pouvoir l’utiliser pour vos problématiques de prédiction

Gradient boosting

Quand les arbres de décision ne sont plus assez performants on utilise une méthode de boosting : le gradient boosting. C’est uen succession d’arbres ponderés, découvrez ici leur fonctionnement

Isolation forest

Isolation forest (forêt d’isolation en français) est un algorithme de Machine Learning qui permet de détecter les valeurs atypiques. C’est un très bon algorithme pour détecter les valeurs extrêmes ou pour les problématiques de détection de fraude. C’est un algorithme très smart et facile à comprendre

Règles d'association

Les règles d’association permettent de faire des liens entre plusieurs entités (des produits par exemple). Cet algorithme est un premier pas vers la construction de moteurs de recommandation. 

classification naïve Bayésienne

C’est un modèle assez simple, robuste et rapide qui se base sur le théorème de Bayes. Cet algorithme est à utiliser pour les problématiques de classement avec des variables explicatives qualitatives.

Optimiser un modèle avec grid search

Certains algorithmes ont un grand nombre de paramètres à définir. La méthode grid search va vous permettre d’automatiser cette étape et de chercher automatiquement les paramètres qui permettent d’augmenter la performance des algorithmes. 

Comment mesurer la performance d'un modèle ?

Comment mesurer efficacement la performance de vos modèles de prédiction ? Voyons ensemble quelle est la bonne démarche à suivre pour mesurer la performance et choisir entre plusieurs algorithmes. 

accuracy, recall et précision

3 indicateurs essentiels pour mesurer la performance des modèles de prédiction. C’est essentiel de bien les maitriser quand on est data scientist. 

Comment interpréter ses modèles (XAI) ?

Plus les modèles sont performants et moins ils sont interprétables. Je vous propose de découvrir la méthode LIME qui permet de connaitre, pour chaque prédiction quels sont les choix qui ont été faits par l’algorithme. Vive la transparence !

Comment traiter les valeurs manquantes ?

La préparation des données est essentielles quand on fait de la Data Science. Dans la vraie vie, on rencontre très souvent des données manquantes qui peuvent perturber certains algorithmes. Voici comment les traiter en fonction des situations. 

Méthode de clustering mixte

La CAH est un excellent algorithme de clustering. Son principal défaut c’est les temps de calcul qui explosent sur des populations conséquentes. Dans ce cas la méthode mixte qui combine CAH et kmeans est une très bonne alternative pour conserver la performance de la CAH mais plus rapidement. 

ANALYSE EN COMPOSANTES PRINCIPALES

L’ACP est une méthode factorielle qui permet d’analyser un dataset (ses corrélations) et de réduire le nombre de dimensions d’un problème. 

En savoir plus

Marie-Jeanne Vieille
Data Scientist - J'ai créé lovely analytics en 2016 pour aider les Data Scientists à apprendre et à pratiquer le machine learning ...

contact

NEWLETTER

Tous droits réservés

Pour continuer l'expérience