le Datamining

Présentation du Datamining

Le terme de Data Mining est souvent employé pour désigner l’ensemble des outils permettant à l’utilisateur d’accéder aux données de l’entreprise, de les analyser. Nous restreindrons ici le terme de Data Mining aux outils ayant pour objet de générer des informations riches à partir des données de l’entreprise, notamment des données historiques, de découvrir des modèles implicites dans les données. Ils peuvent permettre par exemple à un magasin de dégager des profils de client et des achats types et de prévoir ainsi les ventes futures. Il permet d’augmenter la valeur des données contenues dans le DW.

Les outils d’aide à la décision, qu’ils soient relationnels ou OLAP, laissent l’initiative à l’utilisateur, qui choisit les éléments qu’il veut observer ou analyser. Au contraire, dans le cas du Data Mining, le système a l’initiative et découvre lui-même les associations entre données, sans que l’utilisateur ait à lui dire de rechercher plutôt dans telle ou telle direction ou à poser des hypothèses. Il est alors possible de prédire l’avenir, par exemple le comportement d’un client, et de détecter, dans le passé, les données inusuelles, exceptionnelles.

Ces outils ne sont plus destinés aux seuls experts statisticiens mais doivent pouvoir être employés par des utilisateurs connaissant leur métier et voulant l’analyser, l’explorer. Seul un utilisateur connaissant le métier peut déterminer si les modèles, les règles, les tendances trouvées par l’outil sont pertinents, intéressantes et utiles à l’entreprise. Ces utilisateurs n’ont donc pas obligatoirement un bagage statistique important. L’outil doit donc soit être ergonomique, facile à utiliser et rendant transparentes toutes les formules mathématiques et termes techniques utilisés, soit permettre de construire une application «clé en main», rendant à l’utilisateur transparentes toutes les techniques utilisées.

On pourrait définir le data mining comme une démarche ayant pour objet de découvrir des relations et des faits, à la fois nouveaux et significatifs, sur de grands ensembles de données.

On devrait ajouter que la pertinence et l'intérêt du Data Mining sont conditionnés par les enjeux attachés à la démarche entreprise, qui doit être guidée par des objectifs directeurs clairement explicités ("améliorer la performance commerciale", "mieux cibler les prospects", "fidéliser la clientèle", "mieux comprendre les performances de production"...).

Le succès du concept de Data warehouse et le nombre croissant de bases de données décisionnelles disponibles dans les entreprises, dynamise fortement l'offre Data Mining.

Le terme de Data Mining signifie littéralement forage de données. Comme dans tout forage, son but est de pouvoir extraire un élément : la connaissance. Ces concepts s’appuient sur le constat qu’il existe au sein de chaque entreprise des informations cachées dans le gisement de données. Ils permettent, grâce à un certain nombre de techniques spécifiques, de faire apparaître des connaissances.

Nous appellerons Data Mining l'ensemble des techniques qui permettent de transformer les données en connaissances.

L'exploration se fait sur l'initiative du système, par un utilisateur métier, et son but est de remplir l'une des tâches suivantes : classification, estimation, prédiction, regroupement par similitudes, segmentation (ou clusterisation), description et, dans une moindre mesure, l'optimisation.

2. Le Data Mining et la Recherche Opérationnelle

La recherche opérationnelle n'est pas assimilée aux techniques de Data Mining. Son objectif est l'optimisation et la recherche prouvée de la meilleure solution, ce qui n'est pas le cas du Data Mining

* Son champ d'application est plus large,

* On ne recherche pas la meilleure solution prouvée mais à faire le mieux possible,

* Enfin un outil de Data Mining appliqué à un même ensemble de données ne donne pas toujours les mêmes résultats, contrairement à la recherche opérationnelle.

3. Statistiques et Data Mining>

On pourrait croire que les techniques de Data Mining viennent en remplacement des statistiques. En fait, il n'en est rien et elles sont omniprésentes. On les utilise :

* Pour faire une analyse préalable,

* Pour estimer ou alimenter les valeurs manquantes,

* Pendant le processus pour évaluer la qualité des estimations,

* Après le processus pour mesurer les actions entreprises et faire un bilan.

Par ailleurs, certaines techniques statistiques récentes (travaux de BENZECRI, analyse en composantes principales, analyse factorielle des correspondances, …) peuvent être apparentées aux techniques de Data Mining.

Statistiques et Data Mining sont tout à fait complémentaires.

 

Pour être informé des derniers articles, inscrivez vous :