The selection of variables is a crucial feature of supervised learning. It seeks to isolate the subset of predictors that permet d'expliquer efficacement les valeurs de la variable cible.
Trois approches sont généralement citées dans la littérature. Les méthodes " embedded " intègrent directement la sélection dans le processus d'apprentissage. Les méthodes " wrapper " optimisent explicitement un critère de précision, le plus souvent le taux d'erreur . Elles ne s'appuient en rien sur les caractéristiques de l'algorithme d'apprentissage qui est utilisé comme une boîte noire.
Enfin, troisième et dernière approche que nous étudierons dans ce didacticiel, les méthodes " filter " agissent en amont, avant la mise en implementation of the learning technique, and no direct connection with it. It is therefore assumed that an independent process based on an ad hoc criterion would identify relevant predictors regardless of the learning algorithm implemented downstream. The gamble is bold, even risky. And yet, some experiments show that the approach is viable even when the learning method used at the same time an integrated (embedded) selection of variables (decision trees with C4.5 for example).
We are interested in filtering methods (filter) based on the following principle: the subset of predictors selected should be composed of variables strongly associated with the target variable (relevance) but weakly related to each other (no redundancy) . Two ideas are to highlight in this pattern: (1) how to measure the association between variables, knowing that we restrict ourselves to the case of discrete predictors, (2) how to translate the redundancy in a subset of variables.
In this tutorial, we describe several methods of filtering based on a measure of correlation for discrete variables. We will apply a set of data that will be specially prepared for mettre en évidence leur comportement. Nous évaluerons alors leurs performances en construisant le modèle bayesien naïf à partir des sous-ensembles de variables sélectionnées. Nous mènerons l'expérimentation à l'aide du logiciel Tanagra ; par la suite, nous passerons en revue les méthodes filtres implémentées dans plusieurs logiciels libres de data mining ( Weka 3.6.0 , Orange 2.0b , RapidMiner 4.6.0 , R 2.9.2 - package FSelector ).
Mots clés : méthodes de filtrage, filter approach, correlation based measure, modèle bayesien naïf, modèle d'indépendance conditional
Components: FEATURE RANKING, CFS FILTERING, Miss FILTERING, FCBF FILTERING, MODTREE FILTERING, NAIVE BAYES, BOOTSTRAP
Link: fr_Tanagra_Filter_Method_Discrete_Predictors.pdf
Data: vote_filter_approach.zip
References:
R. Rakotomalala, Lallich S., " Construction of decision trees by optimization ", Journal of Knowledge Extraction and Learning, Vol. 16, No. 6 / 2002, pp.685-703, 2002.
Tutorial Tanagra, " STEPDISC - discriminant analysis"; " Strategy wrapper for selection variables ";" Wrapper for selection of variables (continued) "