Non classé

ACP : Analyse en Composantes Principales

L’ACP (Analyse en composantes principales et Principal Component Analysis en anglais) est une méthode d’analyse de données qui permet de résumer l’information d’un dataset. C’est un algorithme utilisé pour analyser les corrélations dans un dataset et pour réduire le nombre de dimensions d’un problème. L’ACP est utilisée surtout dans les phases d’exploration et de préparation …

ACP : Analyse en Composantes Principales Lire la suite »

NLP : Natural Language Processing

90% des données seraient des données non structurées. Parmi ces données on retrouve évidemment les données textuelles : articles, compte rendus, descriptions, avis, réseaux sociaux,… Aujourd’hui on ne peut pas doit pas passer à côté de ces données en tant que Data Scientist. Mais comment les exploiter? C’est le NLP (Natural Language Processing) qui regroupe …

NLP : Natural Language Processing Lire la suite »

Mesurer la performance d’un modèle : Accuracy, recall et precision

Dans mon article sur la performance des modèles je vous présentais la démarche à suivre pour mesurer la performance de vos algorithmes. Il est temps de voir plus en détail quelques uns des indicateurs qui peuvent être utilisés pour y parvenir. Dans cet article, je vais vous présenter 3 indicateurs, adaptés pour évaluer la performance …

Mesurer la performance d’un modèle : Accuracy, recall et precision Lire la suite »

Comment mesurer la performance d’un modèle ?

Dans cet article j’ai envie de vous parler de la performance des modèles au sens large (classification ou régression). Il y a déjà pas mal d’articles pour comprendre les algorithmes (Arbre de décision, Random Forest, Gradient Boosting, …) mais je n’avais pas encore abordé leur évaluation. Pourtant c’est un sujet essentiel. Peu importe votre projet, …

Comment mesurer la performance d’un modèle ? Lire la suite »

Explorez vos données avec pandas_profiling

Dans un projet de Data Science la data prep prend beaucoup de temps par rapport à l’ensemble du projet. Et soyons honnête ce n’est pas forcément la partie la plus intéressante. Mais avant même d’en arriver à cette étape de préparation des données il faut explorer le Data Set pour commencer à appréhender les données …

Explorez vos données avec pandas_profiling Lire la suite »

Interprétez vos modèles avec LIME

Avez-vous remarqué que les modèles « complexes » comme Random Forest, Gradient Boosting ou Neural Network sont de plus en plus accessibles? C’est une bonne chose puisque ces algorithmes donnent généralement de très bons résultats. En revanche, un de leur inconvénient c’est leur effet Black Box : impossible d’expliquer dans le détail les règles de calcul de …

Interprétez vos modèles avec LIME Lire la suite »

Règles d’association comment ça marche ?

Quand on parle de règles d’association on a souvent en tête l’exemple du panier de supermarché. Je suis sûre que vous avez déjà entendu qu’on avait mis en évidence que l’achat de couche pour bébé le week end impliquait aussi l’achat de bières. En bref les règles d’association sont des règles du type A implique …

Règles d’association comment ça marche ? Lire la suite »

Classification bayésienne naïve comment ça marche?

Et si on s’intéressait à un nouvel algorithme de machine learning pour essayer de comprendre comment ça marche. Aujourd’hui ce sera la classification bayésienne naïve (Naive Bayes classifier), un modèle assez simple, robuste et rapide qui se base sur le théorème de Bayes. Cet algorithme est à utiliser pour les problématiques de classement avec des …

Classification bayésienne naïve comment ça marche? Lire la suite »

Optimiser un modèle avec Grid Search

La plupart des modèles de machine learning doivent être paramétrés pour donner les meilleurs résultats. Par exemple pour un Random Forest, on doit choisir le nombre d’arbres à créer et le nombre de variables à utiliser à chaque division d’un noeud. Si on paramètre à la main, cela peut vite s’avérer très coûteux en temps …

Optimiser un modèle avec Grid Search Lire la suite »

Préparer ses données avec Talend : 6 composants indispensables

On dit souvent que la préparation des données représente 75% du temps de travail d’un Data Scientist. Cela comprend le Data engineering qui consiste à transformer les données pour la création du modèle mais également une partie de data management plus classique. Pour préparer un dataset, souvent à partir de plusieurs sources de données, on …

Préparer ses données avec Talend : 6 composants indispensables Lire la suite »

Faire la moyenne c’est choisir la facilité

Combien de fois par jours calculons nous une moyenne? Le salaire moyen, la rentabilité moyenne, l’ancienneté moyenne, … On calcule tellement de moyennes qu’on ne s’en rend plus compte et on va parfois même jusqu’à calculer des moyennes de moyennes (what the fuck?) Mais dans le fond on est bien naïfs de croire que l’on peut …

Faire la moyenne c’est choisir la facilité Lire la suite »

Suivre sa segmentation client avec un diagramme de Sankey

Et si on dépoussiérait l’analyse de segmentation client? Fini les vieilles matrices de passage. Vous voyez de quoi je parle? Quand vous faites une segmentation client, il faut suivre son évolution dans le temps pour vérifier que le plan d’actions que vous avez mis en place vous permet bien d’être plus performant. Pour cela vous …

Suivre sa segmentation client avec un diagramme de Sankey Lire la suite »

Peut-on devenir Data scientist en suivant des MOOC?

Aujourd’hui tout le monde veut devenir Data scientist et pourquoi? Parce que c’est le métier le plus sexy du XXIe siècle mais surtout, avouons le, parce que le salaire moyen d’un Data scientist est bien supérieur à celui des autres métiers de la Data. Sur internet on trouve plein de conseils pour devenir Data scientist, …

Peut-on devenir Data scientist en suivant des MOOC? Lire la suite »

Comment réussir sa segmentation client?

Un grand classique du marketing c’est la segmentation client. Il en existe plusieurs sortes mais elles ont toutes le même objectif, celui de passer d’une vision complexe et individuelle des clients à une vision agrégée en créant des groupes de clients suivant leur ressemblance. Certains pièges sont à éviter pour construire une segmentation efficace pour …

Comment réussir sa segmentation client? Lire la suite »

DSS un outil de Data Science collaboratif

  Pour mener à bien un projet de Datascience nous avons souvent besoin de plusieurs outils. Il faut tout d’abord un ETL pour extraire, agréger et préparer les données. Viens ensuite un outil d’analyse pour calculer des indicateurs, développer et déployer des modèles. On peut aussi utiliser un outil de datavisualisation pour diffuser les résultats. …

DSS un outil de Data Science collaboratif Lire la suite »

Comment bien présenter vos analyses?

Ca y est votre analyse est presque terminée, après plusieurs jours de préparation, d’exploration et peut être même de modélisation vous avez des programmes, des lignes de code, des chiffres un peu partout et surtout des résultats. Félicitations vous allez pouvoir passer à la phase de restitution. La plupart des Data Scientists que j’ai rencontré …

Comment bien présenter vos analyses? Lire la suite »

Algorithmes distribués avec la librairie H2O

Algorithmes distribués avec la librairie H2O En participant à un challenge sur Datascience.net, j’ai découvert le package H2O. Je voulais développer un réseau de neurones sous R et j’ai vite été limitée par le package Neralnet. H2O c’est une librairie open source qui regroupe des algorithmes qui peuvent être appliqués sur des données massives et …

Algorithmes distribués avec la librairie H2O Lire la suite »