Développez vos compétences en Machine Learning et en Data Science grâce à ces articles 100% gratuits qui vous permettront de comprendre le fonctionnement des algorithmes, quand et comment les utiliser !
Natural language processing
Les données textuelles nécessitent des étapes de préparation et de structuration spécifiques pour pouvoir mener des projets de NLP.
La méthode de clustering incontournable pour toutes vos problématiques de clustering et de segmentation client et incontestablement un de mes algorithmes préféré
C’est la base de plusieurs méthodes de Machine Learning plus avancées. L’arbre de décision est un algorithme simple et facile à interpréter pour les problématiques de prédiction et de classement.
Un algorithme de clustering facile à comprendre et surement le plus utilisé. Il a l’avantage d’être facile à comprendre et les calculs sont très rapides. C’est la méthode idéal si vous souhaitez créer votre première segmentation.
Un algorithme de Machine Learning incroyable qui offre de très bons résultats. Je vous propose de voir ensemble comment il fonctionne afin de pouvoir l’utiliser pour vos problématiques de prédiction
Quand les arbres de décision ne sont plus assez performants on utilise une méthode de boosting : le gradient boosting. C’est uen succession d’arbres ponderés, découvrez ici leur fonctionnement
Isolation forest (forêt d’isolation en français) est un algorithme de Machine Learning qui permet de détecter les valeurs atypiques. C’est un très bon algorithme pour détecter les valeurs extrêmes ou pour les problématiques de détection de fraude. C’est un algorithme très smart et facile à comprendre
Les règles d’association permettent de faire des liens entre plusieurs entités (des produits par exemple). Cet algorithme est un premier pas vers la construction de moteurs de recommandation.
C’est un modèle assez simple, robuste et rapide qui se base sur le théorème de Bayes. Cet algorithme est à utiliser pour les problématiques de classement avec des variables explicatives qualitatives.
Certains algorithmes ont un grand nombre de paramètres à définir. La méthode grid search va vous permettre d’automatiser cette étape et de chercher automatiquement les paramètres qui permettent d’augmenter la performance des algorithmes.
Comment mesurer efficacement la performance de vos modèles de prédiction ? Voyons ensemble quelle est la bonne démarche à suivre pour mesurer la performance et choisir entre plusieurs algorithmes.
Plus les modèles sont performants et moins ils sont interprétables. Je vous propose de découvrir la méthode LIME qui permet de connaitre, pour chaque prédiction quels sont les choix qui ont été faits par l’algorithme. Vive la transparence !
La préparation des données est essentielles quand on fait de la Data Science. Dans la vraie vie, on rencontre très souvent des données manquantes qui peuvent perturber certains algorithmes. Voici comment les traiter en fonction des situations.
La CAH est un excellent algorithme de clustering. Son principal défaut c’est les temps de calcul qui explosent sur des populations conséquentes. Dans ce cas la méthode mixte qui combine CAH et kmeans est une très bonne alternative pour conserver la performance de la CAH mais plus rapidement.
Marie-Jeanne Vieille Data Scientist - J'ai créé lovely analytics en 2016 pour aider les Data Scientists à apprendre et à pratiquer le machine learning ...