jeudi 20 décembre 2012

Retour sur le Census

L’intérêt des compétitions de Kaggle est qu'une fois l'épreuve terminée il est possible de découvrir les meilleures solutions. La méthodologie gagnante sera bientôt accessible dans le détail, car le bureau du recensement a décidé de partager le modèle avec l'ensemble de la communauté, en attendant il ressort plusieurs pistes qui ont permis aux compétiteurs de s'élever en haut du classement

- à partir des variables de départ de nouvelles variables ont été créées à la suite d'étude des relations des variables entres-elles souvent en réalisant de simples régressions, à noter qu'un module de R : Mars permet de rechercher ces interactions (à voir)

- Les modèles n'ont pas été simplement lancés en testant différents paramètres, mais un gros travail de "fitting" a été réalisé c'est-à-dire que pour chacun des paramètres des modèles des intervalles ont été définis et le programme de recherche du modèle a tourné le temps que les modifications de ces paramètres permettent de réduire l'erreur du modèle. Cette méthode a donné de bons résultats, mais a été gourmande en calcul : pour trouver le nombre d'arbres optimal en utilisant le gradient boosting cela a nécessité sur un ordinateur personnel près de trois journées de calcul. Il est donc nécessaire de savoir programmer pour trouver les meilleurs paramètres.

- il semble obligatoire de réaliser un ensemble model c'est-à-dire en utilisant différents modèles pour réaliser la prévision