{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Projet d'apprentissage Statistique \n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Score d'appétence de la carte visa premier\n", "###### ELHILA Salim, MAMET Matthieu\n", "\n", "## Introduction\n", "\n", "Suite à l'exploration des données bancaires qui a été faite lors du projet d'exploration de quatrième année, nous abordons ici la construction de modèles de prévision de la probabilité de possession d’une carte visa premier\n", "ou score d’appétence. Ce type d'études permet une économie d'energie, de temps et de ressources en terme de Marketing, permettant de cibler spécifiquement les clients potentiellement intéressés lors d'une campagne d'advertising. \n", "\n", "Les méthodes telles que la régression logistique, l'analyse discriminante, les arbres de discrimination, les Support Vector Machines ou les méthodes d'agrégation de modèles sont abordées et comparées. \n", "\n", "## 1. Principaux résultats obtenus, comparaison et choix de la méthode à obtenir\n", "\n", "* Nous avons tout d'abord procédé par une Regression logistique simple, que l'on a comparé avec une Regression logistique pénalisée avec le critère de Lasso. On obtient une erreur sensiblement plus basse pour la méthode régularisée, avec un modèle naturellement plus parcimonieux et donc plus propice à l'interprétation.\n", "\n", "* Nous avons ensuite utilisé des Analyses discriminantes linéaires, quadratiques, puis la méthode des K-Nearest-Neighbors. C'est la linéaire qui donne les meilleurs résultats, suivit de la quadratique et de KNN.\n", "\n", "* Arbres binaires de décision : le modèle basé sur les variables qualitatives a une erreur de prévision sensiblement meilleure mais les courbes ROC ne permettent pas de conclure étant donné qu'elles se chevauchent.\n", "\n", "* Réseaux de neurones, avec un nombre de neurones optimal = 5. Celui qui a appris sur les variables qualitatives semble meilleur avec une ROC présentant une AUC plus grande.\n", "\n", "* On met en place des forêts aléatoires, en optimisant dans un premier temps le nombre d'arbres, puis dans un second temps le nombre de variables tirées aléatoirement. C'est la deuxième manière de procéder qui donne les meilleurs résultats.\n", "\n", "* Utilisation du gradient boosting, avec optimisation du nombre de modèles à estimer. \n", "\n", "* SVM, en optimisant l'écart type du noyau gaussien et le paramètre de régularisation. On trouve que la SVM sur les variables qualitatives donne de bien meilleurs résultats.\n", "\n", "On procéde finalement à une comparaison des courbes ROC de tous ces modèles, puis à une validation croisée de Monte-Carlo. Les deux modèles se démarquant des autres sont finalement ** Random Forest ** et le ** Gradient Boosting **.\n", "\n", "\n", "## 2. Préparation des données\n", "\n", "La préparation des données ayant déjà été faite pour le projet de quatrième année, nous nous contentons ici de récupérer les données qui servent pour le scénario d'apprentissage sur R.\n", "\n", "### 2.1 Lecture des données" ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/html": [ "
\n", " | familr | \n", "sexer | \n", "RELAT | \n", "AGER | \n", "OPGNBL | \n", "MOYRVL | \n", "TAVEPL | \n", "ENDETL | \n", "GAGETL | \n", "GAGECL | \n", "... | \n", "relatq | \n", "qsmoyq | \n", "opgnbq | \n", "moyrvq | \n", "tavepq | \n", "dmvtpq | \n", "boppnq | \n", "jnbjdq | \n", "itavcq | \n", "CARVP | \n", "
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n", "1 | \n", "0 | \n", "238 | \n", "51 | \n", "0.000000 | \n", "4.753590 | \n", "13.461603 | \n", "1.609438 | \n", "11.688701 | \n", "0.00000 | \n", "... | \n", "R2 | \n", "Q2 | \n", "O0 | \n", "M2 | \n", "T2 | \n", "D0 | \n", "B2 | \n", "J1 | \n", "I2 | \n", "Coui | \n", "
1 | \n", "1 | \n", "0 | \n", "139 | \n", "58 | \n", "0.000000 | \n", "3.713572 | \n", "8.132413 | \n", "0.000000 | \n", "0.000000 | \n", "0.00000 | \n", "... | \n", "R1 | \n", "Q0 | \n", "O0 | \n", "M2 | \n", "T1 | \n", "D1 | \n", "B0 | \n", "J0 | \n", "I2 | \n", "Coui | \n", "
2 | \n", "0 | \n", "0 | \n", "99 | \n", "27 | \n", "0.000000 | \n", "2.890372 | \n", "11.242717 | \n", "0.000000 | \n", "0.000000 | \n", "0.00000 | \n", "... | \n", "R1 | \n", "Q2 | \n", "O0 | \n", "M1 | \n", "T2 | \n", "D0 | \n", "B1 | \n", "J0 | \n", "I2 | \n", "Coui | \n", "
3 | \n", "0 | \n", "0 | \n", "89 | \n", "49 | \n", "0.000000 | \n", "5.926926 | \n", "13.067592 | \n", "0.000000 | \n", "12.250391 | \n", "10.54165 | \n", "... | \n", "R1 | \n", "Q2 | \n", "O0 | \n", "M2 | \n", "T2 | \n", "D0 | \n", "B2 | \n", "J1 | \n", "I2 | \n", "Coui | \n", "
4 | \n", "1 | \n", "0 | \n", "216 | \n", "64 | \n", "1.791759 | \n", "3.218876 | \n", "11.270382 | \n", "0.000000 | \n", "0.000000 | \n", "0.00000 | \n", "... | \n", "R2 | \n", "Q1 | \n", "O2 | \n", "M2 | \n", "T2 | \n", "D0 | \n", "B2 | \n", "J1 | \n", "I2 | \n", "Coui | \n", "
5 rows × 56 columns
\n", "