## 0. Introduction du rapport

## 1. Introduction et pré-traitement du jeu de données

Le jeu de données qu'un analyste a dans ses mains, tout comme celui de notre projet, est souvent rempli de données brutes. Il peut y avoir des attributs quantitatifs, qualitatifs ou encore ordinaux. Il peut comtenir des valeurs manquantes. Il peut y avoir des informations redondantes ou inutiles. Ainsi, il convient, avant tout d'autres traitements et de mises en place des algorithmes, de bien observer le jeu de données et d'ajuster les variables pour qu'elles soient sous formes pertinantes pour les prochaines étapes. En effet, la bonne compréhension er la bonne représentation du jeu de données jouent un rôle beaucoup plus important que beaucoup le pensent.

### 1.1 Première constation du jeu de données et ajustement des variables (feature selection)
Nous avons pour notre projet un jeu de données appelé "adult income dataset" issu d'un certain bureau de recensement gouvernemental américain. Ce jeu de données a relevé, pour 48.842 sujets de l'enquête apparamment tous résidant aux Etats-Unis, leur situation familiale, parcours académique, profession, âge, race, sex, pays d'origine, temps de travail hebdomadaire, fortune personnelle et, ce qui est le plus important plus tard pour la partie Machine Learning, _leur salaire_. Lorsque ce dernier est au coeur de la prédiction là-bas, ici on le considère comme toutes les autres variables. Mais toutefois, dans l'ensemble de notre analyse on mettra quand-même l'accent sur la relation entre le salaire et les autres variables puisqu'il est visiblement le but de recensement original.  
  
On regarde maintenant les variables de près.   
  
Parmi les 15 variables 6 sont quantitatives : âge, numérotation du parcours académique, fortune personnelle en gain, fortune personnelle en perte, temps de travail hebdomadaire et une certaine "fnlwgt". Les 9 autres sont qualitatives : secteur d'embauche, parcours académique, état civil, situation familiale, profession, race, sexe, pays d'origine et le salaire. Il est à remarquer que le salaire n'est pas numérique : en revanche, il est juste indiqué si le salaire est supérieur ou inférieur à 50k dollars par an.   
  
Qu'est-ce qu'on peut encore faire à part cette observation ? On doit regarder si les variables sont présentées de façon pertinente qui faciliteront notre analyse. Le jeu de données nous permet d'illustrer cas perticuliers. 

#### La variable parait merveilleuse mais on ne sait pas de quoi elle parle. Ce genre de variable doit être supprimée et on ne doit pas faire de l'analyse à l'aveugle avec elle.
La variable "fnlwgt" correspond apparament à une certaine classification de dossier au bureau de recensement. De toute façon sans information précise on ne sait pas l'interpreter. On la supprime donc sans hésitation. 

#### Les variables semblent de parler des différents aspects d'un même sujet et de pouvoir être fusionnées. Qu'on les fusionne ou pas, nécessite une analyse cas par cas.
La fortune en gain et la fortune en perte sont des variables opossantes : un sujet possède au plus une valeur non-nulle dans ces deux variables. On pourrait réfléchir que celles-là représentent en effet une même information et qu'on pourrait les mettre ensemble. Mais pourtant, vu qu'une fortune négative puisse avoir un sens particulier : les gens qui n'ont pas eu de succès dans leurs investissements ne sont pas forcément des pauvres mais en revanche souvent des riches, on croit que le signe de la fortune n'est pas un signe pûrement mathématique. De ce fait, on préfère garder les deux variables telles quelles. 

#### Les variables sont redondantes et on doit en garder une seule. 
La numérotation du parcours académique est juste un codage numérique de la variable qualitative (ordinale) parcours académique. Allant de 1 à 16, 16 représente le professorat, 15 la thèse, 14 le diplôme de master et ainsi de suite jusqu'à ce que 1 représente un à 4 ans d'école primaire. La variable qualitative doit être enlevée, puisque la garde des deux amène des informations redondantes qui vont biaser le jeu de données. En plus, la raison pour laquelle on préfère garder la variable quantitative est simplement que cette variable est de nature ordinale. Il convient de prendre la forme qui peut révéler ce sens d'ordre.

#### La variable est numérique mais elle n'est peut-être pas linéairement proportionnelle à son vrai sens. Une transformation peut-être considérée.
Toujours à la variable numérotation du parcours académique, on peut y avoir deux réflexions. Premièrement, les informations sont trop détaillées de manière qu'un numéro plus grand ne représente pas forcément un diplôme avec plus de valeur, bien que la tendance générale soit bonne. Par exemple, _Assoc-voc_, _Assoc-acdm_ et _Some-college_ sont codées respectivement en 11, 12 et 13. On ne sait pas trop ce que c'est aux états-unis et si ces situations-là délivrent vraiment des regards différents chez les employeurs (on pense toujours à la relation entre la variable en question et le _salaire_). On veut donc les regrouper. Pareil, tout ceux qui n'ont même pas réussi leur collège n'ont pas de grande différence au marché d'emploi, indépendemment du nombre d'années qu'ils ont passé à l'école. On va donc les confondre aussi. Deuxièmement, cette numérotation n'est proportionnelle ni à la nombre d'années d'études qu'il faut pour obtenir le diplôme, ni à la valeur du diplôme que les gens pensent en général. Par exemple, le doctorat est codé par 15 et le master par 14, alors que le bachelor est codé par 13 et le Bac par 9. Souvent une thèse est beaucoup plus cherchée qu'un diplôme de master. Donc on va donner à cette variable plutôt une échelle exceptionnelle de telle façon que le doctorat ou le professorat vaut 1, le master que la moitié, le bachelor qu'un quart et ainsi de suite.

#### La variable est qualitative et elle est trop détaillée. On doit penser à regrouper certaines valeurs. 
C'est le cas de la variable pays d'origine. Elle a une trentaine d'étiquettes. Vu que l'enquête a probablement été faite aux Etats-Unis et que 9/10 des sujets sont de nationalité américaine, on peut penser à remplacer cette variable pas deux : 1. le sujet est américain ou non, 2. le sujet est ressortissant d'un pays développé ou non. Ces deux variables permettent de mettre en évidence cette information.

### 1.2 Traitement des données manquantes
Le traitement des données manquantes est souvent une étape de pré-traitement qu'il faut bien soigner. Heureusement, le jeu de données de notre projet ne possède que 7% de valeurs manquantes sur un nombre d'observations de 14.882. Donc même supprimer toutes ces observations peut-être une option. En effet, c'est les trois variables qualitatives : secteur d'embauche, profession et pays d'origine qui contiennent des valeurs manquantes. Ainsi, les méthodes de remplacer une valeur manquante par la moyenne ou encore une valeur spécifique n'ont pas d'application ici. On croit que le fait que les gens n'ont pas renseigné d'information sur leur emploi ou leur pays d'origine peut avoir un sens particulier. Voire il se peut que le sujet est en état sans emploi (cette catégorie n'existe par exemple pas dans la variable profession). On va donc créer pour chacune des trois variables une nouvelle catégorie contenant les valeurs manquantes.

### 1.3 Statistique descriptive et résumé du jeu de données
dire juste les proportions des étiquettes dans les variables qualitatives, s'il y a des particularités etc.

### 1.4 Standardisation des variables quantitatives et binarisation des variables qualitatives (one-hot transformation)
