<center>
<a href="http://www.insa-toulouse.fr/" ><img src="http://www.math.univ-toulouse.fr/~besse/Wikistat/Images/logo-insa.jpg" style="float:left; max-width: 120px; display: inline" alt="INSA"/></a> 

<a href="http://wikistat.fr/" ><img src="http://www.math.univ-toulouse.fr/~besse/Wikistat/Images/wikistat.jpg" style="max-width: 250px; display: inline"  alt="Wikistat"/></a>

<a href="http://www.math.univ-toulouse.fr/" ><img src="http://www.math.univ-toulouse.fr/~besse/Wikistat/Images/logo_imt.jpg" style="float:right; max-width: 250px; display: inline" alt="IMT"/> </a>
</center>

# [Scénarios d'Exploration Statistique](https://github.com/wikistat/Exploration)

# Exploration de données d'enquête en <a href="https://www.python.org/"><img src="https://upload.wikimedia.org/wikipedia/commons/thumb/f/f8/Python_logo_and_wordmark.svg/390px-Python_logo_and_wordmark.svg.png" style="max-width: 120px; display: inline" alt="Python"/></a>:  explication du seuil de revenu 

### Résumé
Analyse de données extraites d'un recensement aux USA de 1994. Préparation des données, exploration élémentaire et multidimensionnelle ([ACP](http://wikistat.fr/pdf/st-m-explo-acp.pdf), [AFCM](http://wikistat.fr/pdf/st-m-explo-afcm.pdf)), [classification non supervisée](http://wikistat.fr/pdf/st-m-explo-classif.pdf). L'objectif est de préparer l'[étape suivante](https://github.com/wikistat/Apprentissage/tree/master/Adult-Census) consistant à modéliser / prévoir le niveau de revenu.

## Introduction
Des données publiques disponibles sur le site [UCI repository](http://archive.ics.uci.edu/ml/) sont extraites de la base de données issue du recensement réalisé aux Etats Unis en 1994. Ces données son largement utilisées et font référence comme outil de *benchmark* pour comparer les performances de méthodes d’apprentissage ou modélisation statistique. L’objectif est alors de prévoir la variable binaire « revenu annuel » supérieur ou inférieur à 50k$. Le travail décrit dans ce document est un préalable, il propose une exploration des données pour en appréhender les grandes structures. Il ne s’agit pas encore de données massives mais 32.561 individus sont décrits par les 14 variables du tableau ci-dessous :

Num| Libellé |	Ensemble de valeurs
-|--|--|--
1|`Age`|	real
2|	`workClass`|	Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked
3|	`fnlwgt`|	real
4|	`education`|	Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool
5|	`educNum`|	integer
6|	`mariStat`|	Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse
7|	`occup`|	Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces
8|	`relationship`|	Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried
9|	`origEthn`|	White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black
10|	`sex`|	Female, Male
11|	`capitalGain`|	real  
12|	`capitalLoss`|	real
13|	`hoursWeek`|	real
14|	`nativCountry`|	United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands
15|	`income`|		>50K, <=50K

Une première étape permet de vérifier, sélectionner, recoder les données, avant d’aborder des outils plus élaborés. Les questions suivent la chronologie de ce déroulement.

La deuxième étape cherchant un meilleur modèle de prévision du dépassement de seuil de revenu est détaillée dans un [scénario](https://github.com/wikistat/Apprentissage/tree/master/Adult-Census) de la [saison 3: Apprentissage](https://github.com/wikistat/Apprentissage).


**Répondre aux questions en s'aidant des résultats des exécutions**.

## 1 Préparation des données


In [None]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
pd.options.mode.chained_assignment = None  # default='warn'

In [None]:
#Lecture
listeVar=['Age','workClass', 'fnlwgt', 'education', 'educNum', 'mariStat', 'occup', 'relationship',
          'origEthn', 'sex', 'capitalGain', 'capitalLoss', 'hoursWeek', 'nativCountry', 'income']

path="https://www.math.univ-toulouse.fr/~besse/Wikistat/data/adultCensus.dat"
dataBase = pd.read_csv(path, sep=',', header=None, index_col=False, names=listeVar,dtype={"workClass":object,"education":object,"mariStat":object,"occup":object,"relationship":object,"origEthn":object,"sex":object,"nativCountry":object,"income":object})
dataBase.head()

Pour chaque variable qualitative, on renomme les modalités afin de pouvoir les manipuler plus facilement. Durant cette manipulation, on regroupe certaines modalités afin de ne plus avoir des modalités à trop faible effectif.

In [None]:
#dataBase["workClass"]=pd.Categorical(dataBase["workClass"],ordered=False)
#dataBase["education"]=pd.Categorical(dataBase["education"],ordered=False)
#dataBase["mariStat"]=pd.Categorical(dataBase["mariStat"],ordered=False)
#dataBase["occup"]=pd.Categorical(dataBase["occup"],ordered=False)
#dataBase["relationship"]=pd.Categorical(dataBase["relationship"],ordered=False)
#dataBase["origEthn"]=pd.Categorical(dataBase["origEthn"],ordered=False)
#dataBase["sex"]=pd.Categorical(dataBase["sex"],ordered=False)
#dataBase["nativCountry"]=pd.Categorical(dataBase["nativCountry"],ordered=False)
#dataBase["income"]=pd.Categorical(dataBase["income"],ordered=False)
dataBase.dtypes

In [None]:
#workClass 
cat_workClass={" federal-gov": "Federal-Govt",
               " local-gov": "Other-Govt",
               " state-gov": "Other-Govt",
               " private": "Private",
               " self-emp-inc": "Self-Employed",
               " self-emp-not-inc": "Self-Employed",
               " without-pay": "Not-Working",
               " never-worked": "Not-Working"}
dataBase["workClass"]=dataBase.workClass.map(str.lower).map(cat_workClass)

In [None]:
#education
cat_education={" 10th": "Dropout",
               " 11th": "Dropout",
               " 12th": "Dropout",
               " 1st-4th":"Dropout",
               " 5th-6th": "Dropout",
               " 7th-8th": "Dropout",
               " 9th": "Dropout",
               " assoc-acdm": "Associates",
               " assoc-voc": "Associates",
               " bachelors": "Bachelors",
               " doctorate": "Doctorate",
               " hs-grad": "HS-Graduate",
               " masters": "Masters",
               " preschool": "Dropout",
               " prof-school": "Prof-School",
               " some-college": "HS-Graduate"}
dataBase["education"]=dataBase.education.map(str.lower).map(cat_education)

In [None]:
#mariStat
cat_mariStat={" never-married" : "Never-Married",
              " married-af-spouse" : "Married",
              " married-civ-spouse" : "Married",
              " married-spouse-absent" : "Not-Married",
              " separated" : "Not-Married",
              " divorced" : "Not-Married",
              " widowed" : "Widowed"
             }
dataBase["mariStat"]=dataBase.mariStat.map(str.lower).map(cat_mariStat)

In [None]:
#occup
cat_occup={" adm-clerical": "Admin",
           #" armed-forces": "Military",
           " craft-repair": "Blue-Collar",
           " exec-managerial": "White-Collar",
           " farming-fishing": "Blue-Collar",
           " handlers-cleaners": "Blue-Collar",
           " machine-op-inspct": "Blue-Collar",
           " other-service": "Service",
           " priv-house-serv": "Service",
           " prof-specialty": "Professional",
           " protective-serv": "Other-occups",
           " sales": "Sales",
           " tech-support": "Other-occups",
           " transport-moving": "Blue-Collar",
          }
dataBase["occup"]=dataBase.occup.map(str.lower).map(cat_occup)
#dataBase["occup"]=dataBase["occup"].replace("Miltary",np.nan)

On n'incorpore pas militaire dans le dictionaire des `occup`. La profession sera alors "Nan" dans la dataframe et sera supprimée par la suite. 

In [None]:
#origEthn
cat_origEthn={" white": "White",
              " black": "Black",
              " amer-indian-eskimo": "Amer-Indian",
              " asian-pac-islander": "Asian",
              " other": "Other"
             }
dataBase["origEthn"]=dataBase.origEthn.map(str.lower).map(cat_origEthn)

In [None]:
#nativCountry
cat_nativCountry={" cambodia": "SE-Asia",
                  " canada": "British-Commonwealth",
                  " china": "China",
                  " columbia": "South-America",
                  " cuba": "Other",
                  " dominican-republic": "Latin-America",
                  " ecuador": "South-America",
                  " el-salvador": "South-America",
                  " england": "British-Commonwealth",
                  " france": "Euro_1",
                  " germany": "Euro_1",
                  " greece": "Euro_2",
                  " guatemala": "Latin-America",
                  " haiti": "Latin-America",
                  " holand-netherlands": "Euro_1",
                  " honduras": "Latin-America",
                  " hong": "China",
                  " hungary": "Euro_2",
                  " india": "British-Commonwealth",
                  " iran": "Other",
                  " ireland": "British-Commonwealth",
                  " italy": "Euro_1",
                  " jamaica": "Latin-America",
                  " japan": "Other",
                  " laos": "SE-Asia",
                  " mexico": "Latin-America",
                  " nicaragua": "Latin-America",
                  " outlying-us(guam-usvi-etc)": "Latin-America",
                  " peru": "South-America",
                  " philippines": "SE-Asia",
                  " poland": "Euro_2",
                  " portugal": "Euro_2",
                  " puerto-rico": "Latin-America",
                  " scotland": "British-Commonwealth",
                  " south": "Euro_2",
                  " taiwan": "China",
                  " thailand": "SE-Asia",
                  " trinadad&tobago": "Latin-America",
                  " united-states": "United-States",
                  " vietnam": "SE-Asia",
                  " yugoslavia": "Euro_2"
                 }
dataBase["nativCountry"]=dataBase.nativCountry.map(str.lower).map(cat_nativCountry)

L'utilisation de "map" pour le regroupement des variables nous permet de remplacer automatiquement la valeur des variables des individus possédant un "?" par des "NaN". Cependant, une option lors de l'importation des données aurait pu nous permettre de corriger ce problème directement.

In [None]:
dataBase["capitalGain"].hist(bins=20)
plt.show()
dataBase["capitalLoss"].hist(bins=20)
plt.show()

Pour les variables "capitalGain" et "capitalLoss", la distribution est biaisée à droite car il y a quelques valeurs avec une très grande abscisse et donc éloignées de la majorité des valeurs. Nous effectuons donc une transformation logarithmique afin de rapprocher ces valeurs extrêmes.

In [None]:
#LcapitalGain et LcapitalLoss
dataBase["LcapitalGain"]=np.log(1+dataBase["capitalGain"])
dataBase["LcapitalLoss"]=np.log(1+dataBase["capitalLoss"])

In [None]:
dataBase["LcapitalGain"].hist(bins=20)
plt.show()
dataBase["LcapitalLoss"].hist(bins=20)
plt.show()

On observe bien le rapprochement des valeurs extrêmes.

Ensuite, on transforme les variables quantitatives "capitalGain" et "capitalLoss" en variables qualitatives à 3 modalités, obtenues à partir du calcul de la médiane. Si les variables ont des valeurs négatives, elles seront placées dans la catégorie "None". Si elles sont comprises entre 0 et la médiane des valeurs positives, elles seront placées dans la catégorie "cgLow". Sinon, elles sont placées dans la catégorie "cgHigh".

In [None]:
#capitalGain et capitalLoss
import math
dataBase["capitalGain"]=pd.cut(dataBase.capitalGain,bins=[-math.inf,0,np.median(dataBase.capitalGain[dataBase.capitalGain>0]),+math.inf],labels=["None", "cgLow", "cgHigh"])
dataBase["capitalLoss"]=pd.cut(dataBase.capitalLoss,bins=[-math.inf,0,np.median(dataBase.capitalLoss[dataBase.capitalLoss>0]),+math.inf],labels=["None", "cgLow", "cgHigh"])

On transforme la variable "income" pour avoir des modalités plus éclairantes pour l'analyse.

In [None]:
dataBase["income"]=np.where(dataBase["income"]==" <=50K","incLow","incHigh")

On crée une nouvelle variable qualitative "ageQ", qui à partir de la variable "Age", situe un individu dans des modalités suivantes : "Ag1","Ag2","Ag3","Ag4","Ag5". On souhaite avoir le même effectif pour chaque modalité, on utilise la fonction "qcut" utilisant les quantiles.

In [None]:
dataBase["ageQ"]=pd.qcut(dataBase.Age,q=5,labels=["Ag1","Ag2","Ag3","Ag4","Ag5"]) 

On crée une nouvelle variable qualitative "hoursWeekQ", qui à partir de la variable "hoursWeek", situe un individu dans des modalités suivantes : "HW1","HW2","HW3".

In [None]:
dataBase["hoursWeekQ"]=pd.cut(dataBase.hoursWeek,bins=[0,39,41,100],labels=["HW1","HW2","HW3"])

On supprime les individus possédant des variables de valeur NaN.

In [None]:
dataBase = dataBase.dropna(axis=0)

In [None]:
dataBase

## 2 Description
**Q** Quelle est la population étudiée ? Quel est l’échantillon ?

**Q** Commenter, justifier les différentes transformations opérées. Repérer les variables quantitatives, qualitatives. Certaines (`age`, `hoursWeek`) sont présentes sous les deux types. Beaucoup de modalités on déjà été regroupées, notamment celles de `nativCountry` (voir le programme) certaines variables sont rendues qualitatives (`capitalLoss` ou `Gain`).

La popoulation étudiée est la population recensée aux Etats-Unis en 1994. L'échantillon que l'on va utiliser est celui des 30162 individus obtenus après nettoyage. 

Les regroupements de modalités ou modifications de classe ont été expliquées au fur et à mesure du nettoyage. 

In [None]:
dataBase.dtypes

In [None]:
dataBase.describe()

In [None]:
f, (ax_box, ax_hist) = plt.subplots(2, sharex=True, gridspec_kw={"height_ratios": (.15, .85)})

sns.boxplot(dataBase["LcapitalGain"], ax=ax_box)
sns.distplot(dataBase["LcapitalGain"], norm_hist=True, ax=ax_hist,kde=False)

ax_box.set(xlabel='')
ax_hist.set(xlabel='log(1+CapitalGain)')

**Q** Quels sont ces graphiques? Que dire de la transformation  opérée ? La variable CapitalLoss subit le même traitement.

Ce sont un boxplot et un histogramme de la variable LcapitalGain (=log(1+CapitalGain)). La transformation logarithmique effectuée permet de réduire la dispersion de la variable.

Certains couples de variables posent des problèmes. 

In [None]:
pd.crosstab(dataBase["relationship"],dataBase["sex"])

In [None]:
pd.crosstab(dataBase["education"],dataBase["educNum"])

In [None]:
pd.crosstab(dataBase["mariStat"],dataBase["relationship"])

In [None]:
pd.crosstab(dataBase["origEthn"],dataBase["nativCountry"])

**Q** Quel est ce problème général ? Qu’est-ce qui va se passer si on en calcule l’analyse des correspondances ? Quel est le problème plus spécifique des variables `relationship` et `sex`?

Le problème générale est la redondance de certaines informations. 

En effet, on a par exemple, pour le tableau entre `educNum` et `education`, beaucoups de cellules d'effectif nul. Pour les relations entre le `relationship` et `mariStat` les composantes `married`,`husband` et `wife` regroupent toutes la même information. Pour le tableau recoupant `origEthn` et `nativCountry`, certaines cellules présentent des effectifs très faibles et sont donc non significatives. 

Il faudra faire attention à n'utiliser qu'une des deux variables de chaque couple lors de l'analyse de correspondances afin d'éviter la redondance.

Le problème spécifique des variables `relationship` et `sex` est le fait qu'il y ait une femme dans la catégorie époux et un homme dans la catégorie épouse.

In [None]:
from statsmodels.graphics.mosaicplot import mosaic
fig, ax = plt.subplots(figsize=(20,20))
mosaic(dataBase,["sex","occup"],ax) 
plt.show()

**Q** Quel graphique ci-dessus?  Quelle interprétation ? Quel est le test ci-dessous ? Que doit vérifier la table pour que ce test soit valide ? Quelle est l’hypothèse H0 testée ? Conclusion.

C'est un mosaique plot de la table de contingence entre les variables `sex` et `occup`. La superficie de chaque case est proportionnelle à l'effectif de la cellule associée. On observe alors que certaines catégories de métiers sont plus exercées par des hommes (`blue-Collar`=ouvrier) et d'autres par des femmes (`admin`). De plus, cela met en évidence les métiers les plus exercés au sein d'un même sexe.

In [None]:
from scipy.stats import chi2_contingency

chi2=chi2_contingency(pd.crosstab(dataBase["sex"],dataBase["occup"]))
print("test statistic : ",chi2[0])
print("p-value : ",chi2[1])

Ce test est un test du Chi2. Il teste la liaison ou non entre les deux variables qualitatives `sex` et `occup` (H0 : les deux variables sont indépendantes en probabilité). Pour que ce test soit valide, il faut que tous les individus présentent une modalité et une seule et que chaque modalité soit observée au moins une fois.

La p-valeur de ce test étant nulle, on rejette H0, on considère donc que les deux variables sont liées.

**Q** Quel est le graphique ci-dessous? Comment interpréter? Quel test permettrait de confirmer ? Que dire de l’intérêt de cette variable [fnlwgt](http://web.cs.wpi.edu/~cs4341/C00/Projects/fnlwgt) (Final sampling weight)?

In [None]:
fig, ax = plt.subplots(figsize=(20,10))
dataBase.boxplot('fnlwgt','income',ax)

Ce graphique est le boxplot de la variable `fnlwgt` expliquée en fonction de la variable `income` (revenus discretisés en 2 modalités). Les boxplots semblent relativement identiques, on peut donc supposer qu'il n'y a pas de liaisons entre ces deux variables. Pour confirmer cette hypothèse, on peut effectuer un test du chi2. 

**%%%%%%%%%%%%%%%A VERIFIER + REPONDRE A Q%%%%%%%%%%%%%%%%%%%%%%%**

**Q** Que dire dans la figure ci-dessous de la liaison entre les variables `educNum` et `age` et de la localisation des points noirs (>50k€) par rapport aux rouges (<50k€).

In [None]:
color_income = dataBase["income"].map({"incLow" : 'r', "incHigh" : "black"})
fig, ax = plt.subplots(figsize=(20,10))
plt.scatter(x=dataBase["Age"],y=dataBase["educNum"],c=color_income)
ax.set_xlabel("Age",size=25)
ax.set_ylabel("educNum",size=25)

Il ne semble pas ya avoir de liaisons entre les variables `educNum` et `age`. En effet, les points sont plutôt répartis et on ne voit pas de tendance apparaître.

On observe que le nombre de points noirs augmente avec le nombre d'années d'études. Les revenus augmentent avec le nombre d'années passées sur les bancs de l'école. De plus, on observe que le revenu augmente également avec l'âge, ce qui correspondrait aux agmentations acquises avec l'expérience professionelle. 

## 3 Analyse en composantes principales

**Q** Quelle est le graphe ci-dessous? Quel est le cercle?  A quoi sert-il ?

In [None]:
import sklearn.decomposition as sd
import sklearn.preprocessing as sp

pca = sd.PCA()
data = dataBase[["Age","fnlwgt","educNum","hoursWeek","LcapitalGain","LcapitalLoss"]]
C = pca.fit_transform(sp.scale(data))

In [None]:
# coordonnées des variables
coord1=pca.components_[0]*np.sqrt(pca.explained_variance_[0])
coord2=pca.components_[1]*np.sqrt(pca.explained_variance_[1])
fig = plt.figure(figsize=(8,8))
ax = fig.add_subplot(1, 1, 1)
for i, j, nom in zip(coord1,coord2, data.columns):
    plt.text(i, j, nom)
    plt.arrow(0,0,i,j,color='r')
plt.axis((-1.2,1.2,-1.2,1.2))
# cercle
c=plt.Circle((0,0), radius=1, color='b', fill=False)
ax.add_patch(c)
ax.set_xlabel("Dim1 : " + str(round(pca.explained_variance_ratio_[:10][0]*100,2))+ "%" ,size=25)
ax.set_ylabel("Dim2 : " + str(round(pca.explained_variance_ratio_[:10][1]*100,2)) + "%",size=25)
ax.set_title("ACP des deux premières composantes",size=25)
plt.show()

Le graphe représente l'ACP des deux premières composantes principales. Avant de réaliser notre ACP, nous avons réduits nos données à la même échelles afin de pouvoir les placer sur le cercle des corrélations. Plus la variable se rapproche du cercle plus elle est bien représentée dans le plan factoriel et permet donc d'expliquer les composantes principales. 

Le premier axe représente le nomrbe d'année d'études + l'age + le nombre d'heures travaillées par semaine.
Le second axe représente le différence entre le capital perdu et le capital gagné sur les investissements en bourse. 

**Q** La représentation ci-dessous montre un artefact avec 3 paquets d’individus. A quoi est dû cet artéfact ? Est-il utile à la compréhension des données ? 

In [None]:
fig, ax = plt.subplots(figsize=(20,10))
ax.scatter(C[:,0], C[:,1])
ax.set_xlabel("PC1" ,size=25)
ax.set_ylabel("PC2",size=25)
ax.set_title("Projection des individus dans le premier plan",size=25)

On observe trois groupes d'individus, ceux qui gagnent de l'argent en investissant en bourse en haut, ceux qui perdent de l'argent en investissant en bourse en bas et ceux qui n'investissent pas au centre.    
Cette représentation en 3 groupes provient de l'explication du second axe de l'ACP.

Ce graphe n'est pas particulièrement utile à la compréhension des données, il met en évidence un comportement logique. 

## 4 Analyse factorielle des correspondances de la table `occup` *vs.* `education`

**Q** Que conclure du test ci-dessous sur l’intérêt d’une analyse des correspondances? Quelle est la table étudiée, ses dimensions?

In [None]:
chi2=chi2_contingency(pd.crosstab(dataBase["occup"],dataBase["education"]))
print("test statistic : ",chi2[0])
print("p-value : ",chi2[1])

Ce test est un test du Chi2. Il teste la liaison ou non entre les deux variables qualitatives `occup` et `education` (H0 : les deux variables sont indépendantes en probabilité).
La p-valeur de ce test étant nulle, on rejette H0, on considère donc que les deux variables sont liées. 

On peut donc faire l'AFC pour préciser la liaison entre les deux variables. On étudie alors la table de contingence des 2 variables de dimension 7x7 (7 modalités pour `occup` et 7 modalités pour `education`).

**%%%%%%%%%%%%%%%%%%%%%%%%%%REPONDRE AUX QUESTIONS%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%**

-> cf Cal4-Python-AFCM (tuto rudim) + ceux en R

**Q** Quelles sont les ACPs considérées dans cette analyse des correspondances, avec quelles métriques?

**Q** Quelle est la matrice diagonalisée? 

**Q** Quelle est la significaiton des valeurs (%) présentes dans les légendes?

**Q** Donner en une ligne une signification à l’Axe 1.

In [None]:
from mca import MCA
df=dataBase[["occup","education"]]
df.head()
dc=pd.DataFrame(pd.get_dummies(df[["occup","education"]]))
dc.head()

In [None]:
afc_comp = MCA(dc,benzecri=False)

In [None]:
fig, ax = plt.subplots(figsize=(15,10))
dict_color=7*["red"]+7*["blue"]
plt.scatter(afc_comp.fs_c()[:, 0],afc_comp.fs_c()[:, 1],color=dict_color)
for i, j, nom in zip(afc_comp.fs_c()[:, 0],afc_comp.fs_c()[:, 1], dc.columns):
       plt.text(i, j, nom)
plt.show()

## 5 Analyse factorielle multiple des correspondances

**Q** La section 2 montre le peu d’intérêt de l’ACP. L’AFCM est donc utilisée. Quel prétraitement a été mis en œuvre pour y faire intervenir toutes les variables? Que faire des couples de variables posant problème (première section)?

**Q** Combien d’axes est-il raisonnable de retenir selon la figure ci-dessous? 

In [None]:
dataBaseQ = dataBase[["workClass","education","mariStat","occup","origEthn","sex","capitalGain","capitalLoss","income","ageQ","hoursWeekQ"]]

dataBaseQ["workClass"]=pd.Categorical(dataBaseQ["workClass"],ordered=False)
dataBaseQ["education"]=pd.Categorical(dataBaseQ["education"],ordered=False)
dataBaseQ["mariStat"]=pd.Categorical(dataBaseQ["mariStat"],ordered=False)
dataBaseQ["occup"]=pd.Categorical(dataBaseQ["occup"],ordered=False)
dataBaseQ["origEthn"]=pd.Categorical(dataBaseQ["origEthn"],ordered=False)
dataBaseQ["sex"]=pd.Categorical(dataBaseQ["sex"],ordered=False)
dataBaseQ["income"]=pd.Categorical(dataBaseQ["income"],ordered=False)

dataBaseQ.dtypes

In [None]:
# Tableau disjonctif complet
D=pd.DataFrame(pd.get_dummies(dataBaseQ))
D.head()

In [None]:
# AFCM de toutes les variables qualitatives
afcm_comp=MCA(D,benzecri=False)

In [None]:
#Ebouli des valeurs propres
plt.plot(range(1,31),afcm_comp.L[:30])

**Q** Comment interpréter les axes 1 et 2 ci-dessous? Que signifient les valeurs (%)?

In [None]:
fig, ax = plt.subplots(figsize=(15,10))
dict_color=5*["red"]+7*["blue"]+4*["orange"]+7*["green"]+5*["cyan"]+2*["magenta"]+3*["purple"]+3*["pink"]+2*["black"]+5*["darkred"]+3*["yellow"]
plt.scatter(afcm_comp.fs_c()[:, 0],afcm_comp.fs_c()[:, 1],color=dict_color)
for i, j, nom in zip(afcm_comp.fs_c()[:, 0],afcm_comp.fs_c()[:, 1], D.columns):
       plt.text(i, j, nom)
plt.show()

**Q** A partir de quelle AFC et donc de quelle ACP, quelle SVD le graphe ci-dessous a-t-il été obtenu?  La discrimination des individus de revenus inférieurs ou supérieurs à 50k€ sera-t-elle aisée ?

In [None]:
fig, ax = plt.subplots(figsize=(15,10))
plt.scatter(afcm_comp.fs_r()[:, 0],afcm_comp.fs_r()[:, 1],c=color_income)