# Nettoyage des données 

## Set up

### Mise en place de l'environnement

In [96]:
# Import des modules utilisés
import pandas as pd

# Import du système

import sys
sys.path.insert(0, "/home/apprenant/PycharmProjects/american-dream")

### Import des données depuis csv/excel

On supprime les 3 premières lignes du fichier excel de base qui ne contiennent pas de données.

In [97]:
df_raw_k = pd.read_csv("../data/01_raw/DataAnalyst.csv")
df_raw_b = pd.read_excel("../data/01_raw/2020_Data_Professional_Salary_Survey_Responses.xlsx", skiprows=3)

## 1. Traitement des doublons

Je décide de commencer par effectuer le traitement des doublons. En effet, comme on ne va prendre que certaines colonnes, on peut ne plus être en mesure d'identifier par la suite si les doublons font référence à un même individu ou à plusieurs individus différents. 
Regardons s'il y a des doublons dans nos tables. On ne prend pas en compte la colonne index pour la table issue du csv et en ne prenant pas en compte l'année de l'étude et le Timestamp pour la table issue du excel. En effet, si on les prend en compte on pourait ne pas voir les doublons pour un même individu pour lesquelles les données auraient été entrées 2 fois. 

In [98]:
print(df_raw_k.duplicated(subset=['Job Title', 'Salary Estimate', 'Location', 'Job Description', 'Rating', 'Company Name', 'Headquarters',
 'Size', 'Founded', 'Type of ownership', 'Industry', 'Sector', 'Revenue', 'Competitors', 'Easy Apply']).value_counts())

False    2253
dtype: int64


Il n'y a pas de doublon dans cette table. Passons à la suivante:

In [99]:
print(df_raw_b.drop(columns=['Survey Year', 'Timestamp']).duplicated().value_counts())

False    8599
True       28
dtype: int64


On voit qu'il y a 28 doublons. On va donc regarder ces données dupliquées. 

In [100]:
print(df_raw_b[(df_raw_b.drop(columns=['Survey Year', 'Timestamp'])).duplicated(keep=False)])

      Survey Year               Timestamp  SalaryUSD        Country  \
52           2020 2019-12-31 01:57:49.016   148000.0  United States   
53           2020 2019-12-31 01:57:38.029   148000.0  United States   
62           2020 2019-12-31 00:08:37.428   100000.0         Canada   
64           2020 2019-12-31 00:01:43.739   100000.0         Canada   
144          2020 2019-12-30 16:05:11.749    71500.0  United States   
146          2020 2019-12-30 16:04:47.264    71500.0  United States   
170          2020 2019-12-30 14:25:48.781    81000.0  United States   
171          2020 2019-12-30 14:23:23.118    81000.0  United States   
184          2020 2019-12-30 14:01:14.430    60000.0  United States   
185          2020 2019-12-30 14:00:29.106    60000.0  United States   
196          2020 2019-12-30 13:30:54.672       57.6        Belgium   
197          2020 2019-12-30 13:29:38.171       57.6        Belgium   
203          2020 2019-12-30 13:15:24.611    78000.0  United States   
205   

On constate que ce sont bien des doublons d'un même individu. On va donc ne garder que la première occurence de ces données (la première ou la dernière ne change rien sauf quelques minutes de différence sur le Timestamp qui n'auront pas d'incidence par la suite). 

In [101]:
df_raw_b.drop_duplicates(subset=df_raw_b.columns.difference(['Survey Year', 'Timestamp']), keep='first', inplace=True)

## 2. Sélection des colonnes

On visualise les colonnes pour regarder ce qu'il y a dedans et on affiche la liste pour décider quelles colonnes seront pertinentes à utiliser pour chacune des tables.

In [102]:
print(df_raw_k.head())
print(df_raw_k.columns)

   Unnamed: 0                                          Job Title  \
0           0  Data Analyst, Center on Immigration and Justic...   
1           1                               Quality Data Analyst   
2           2  Senior Data Analyst, Insights & Analytics Team...   
3           3                                       Data Analyst   
4           4                             Reporting Data Analyst   

              Salary Estimate  \
0  $37K-$66K (Glassdoor est.)   
1  $37K-$66K (Glassdoor est.)   
2  $37K-$66K (Glassdoor est.)   
3  $37K-$66K (Glassdoor est.)   
4  $37K-$66K (Glassdoor est.)   

                                     Job Description  Rating  \
0  Are you eager to roll up your sleeves and harn...     3.2   
1  Overview\n\nProvides analytical and technical ...     3.8   
2  We’re looking for a Senior Data Analyst who ha...     3.4   
3  Requisition NumberRR-0001939\nRemote:Yes\nWe c...     4.1   
4  ABOUT FANDUEL GROUP\n\nFanDuel Group is a worl...     3.9   

       

Je choisis de garder les colonnes qui me paraissent utiles pour l'étude demandée.

In [103]:
print(df_raw_b[(df_raw_b.drop(columns=['Survey Year', 'Timestamp'])).duplicated(keep=False)])


Empty DataFrame
Columns: [Survey Year, Timestamp, SalaryUSD, Country, PostalCode, PrimaryDatabase, YearsWithThisDatabase, OtherDatabases, EmploymentStatus, JobTitle, ManageStaff, YearsWithThisTypeOfJob, HowManyCompanies, OtherPeopleOnYourTeam, CompanyEmployeesOverall, DatabaseServers, Education, EducationIsComputerRelated, Certifications, HoursWorkedPerWeek, TelecommuteDaysPerWeek, NewestVersionInProduction, OldestVersionInProduction, PopulationOfLargestCityWithin20Miles, EmploymentSector, LookingForAnotherJob, CareerPlansThisYear, Gender, OtherJobDuties, KindsOfTasksPerformed, Counter]
Index: []


In [104]:
dfk = df_raw_k[['Job Title', 'Salary Estimate', 'Location']]

Passons à la table suivante : 

In [105]:
print(df_raw_b.head())
print(df_raw_b.columns)

   Survey Year               Timestamp  SalaryUSD        Country PostalCode  \
0         2020 2020-01-04 18:50:34.328   115000.0  United States         03   
1         2020 2020-01-04 10:43:01.821   100000.0  United States        NaN   
2         2020 2020-01-04 09:51:45.885   100000.0          Spain      28046   
3         2020 2020-01-04 01:08:53.605    70000.0  United States      94133   
4         2020 2020-01-03 15:28:54.163   110000.0  United States      95354   

        PrimaryDatabase  YearsWithThisDatabase  \
0  Microsoft SQL Server                     15   
1                 Other                      6   
2  Microsoft SQL Server                      2   
3  Microsoft SQL Server                      3   
4                Oracle                     30   

                                      OtherDatabases    EmploymentStatus  \
0  Microsoft SQL Server, MongoDB, Azure SQL DB (a...  Full time employee   
1                                      MySQL/MariaDB  Full time employee

Même procédé qu'avant, je ne garde que les colonnes qui me paraissent utiles.

In [106]:
dfb = df_raw_b[['SalaryUSD', 'Country', 'PostalCode', 
                'JobTitle','YearsWithThisTypeOfJob', 'HowManyCompanies', 'OtherPeopleOnYourTeam',
                'HoursWorkedPerWeek', 'LookingForAnotherJob', 'Gender']]

## 3. Valeurs manquantes

### Recherche des valeurs manquantes


In [107]:
print(dfk.isnull().sum())
print(dfk.shape)

Job Title          0
Salary Estimate    0
Location           0
dtype: int64
(2253, 3)


Il ne manque pas de valeur dans le premier tableau.
Passons au second

In [108]:
print(dfb.isnull().sum())
print(dfb.shape)

SalaryUSD                    0
Country                      0
PostalCode                1381
JobTitle                     0
YearsWithThisTypeOfJob       0
HowManyCompanies             0
OtherPeopleOnYourTeam        0
HoursWorkedPerWeek           0
LookingForAnotherJob         0
Gender                       0
dtype: int64
(8599, 10)


Il manque 1390 valeurs sur 8627 dans le code postal. On va conserver ces colonnes car elles ne font pas partie du centre de l'étude.

### Traitement de PostalCode

Avant de procéder à des modifications, on peut ne conserver que les données provenant des Etats-Unis pour limiter le nombre de code postaux à traiter. On regarde ensuite combien de valeurs manquantes il reste. On commence par regarder la dénomination des Etats-Unis dans la table. On modifie les options de pandas pour afficher toutes les lignes et toutes les colonnes des DataFrames. 

In [109]:
pd.set_option("max_rows", None)
pd.set_option("max_columns", None)
print(dfb.groupby("Country").Country.count())

Country
Albania                     1
Anguilla                    1
Argentina                  13
Armenia                     1
Australia                 221
Austria                    25
Bahrain                     1
Belarus                     2
Belgium                    35
Bermuda                     1
Bolivia                     1
Brazil                     37
Bulgaria                   15
Canada                    305
Cayman Islands              2
China                       2
Colombia                    5
Costa Rica                  4
Croatia                     8
Czech Republic             24
Denmark                    60
Dominican Republic          1
Ecuador                     2
El Salvador                 2
Estonia                     1
Finland                    19
France                     42
Georgia                     1
Germany                   125
Ghana                       1
Greece                     21
Guatemala                   1
Guernsey                    4
Ho

Nous constatons que la seule appelation pour désigner les Etats-Unis est United States. Je choisis donc de conserver uniquement les lignes dont le pays est "United States". 

In [110]:
dfb = dfb[dfb.Country == 'United States']
print(dfb.isnull().sum())
print(dfb.shape)

SalaryUSD                   0
Country                     0
PostalCode                462
JobTitle                    0
YearsWithThisTypeOfJob      0
HowManyCompanies            0
OtherPeopleOnYourTeam       0
HoursWorkedPerWeek          0
LookingForAnotherJob        0
Gender                      0
dtype: int64
(5657, 10)


Il reste 466 code postaux non indiqués sur 5680 lignes au total. Regardons quelles sont les valeurs les plus fréquentes dans la colonne Postal Code. 

In [111]:
print(dfb.groupby("PostalCode").PostalCode.count().sort_values().tail())

PostalCode
60601          10
60606          11
98101          12
92121          12
Not Asked    1879
Name: PostalCode, dtype: int64


Comme il y a un grand nombre de code postaux qui n'ont pas été indiqué, je décide de remplacer les valeurs non assignées par Not Asked pour que Not Asked désigne toutes les valeurs qui n'ont pas été renseignées dans PostalCode.

In [112]:
dfb.PostalCode = dfb.PostalCode.fillna("Not Asked")

Toutes les données non renseignées de PostalCode sont sous la dénomination "Not Asked". 

## 3.Traitement des dates

Commençons par regarder le type des données contenues dans nos tables.

In [113]:
print("Table 1: \n", dfk.dtypes)
print("Table 2: \n", dfb.dtypes)

Table 1: 
 Job Title          object
Salary Estimate    object
Location           object
dtype: object
Table 2: 
 SalaryUSD                 float64
Country                    object
PostalCode                 object
JobTitle                   object
YearsWithThisTypeOfJob      int64
HowManyCompanies           object
OtherPeopleOnYourTeam      object
HoursWorkedPerWeek         object
LookingForAnotherJob       object
Gender                     object
dtype: object


Il n'y a pas de dates dans nos données, il n'y a donc pas de traitement à effectuer de ce point de vue.


## 4. Traitement des valeurs 

Dans cette partie, je vais regarder les valeurs présentes dans nos tableaux pour ensuite les traiter si elles sont aberrantes ou incohérentes. 

### Traitement de SalaryUSD

On visualise SalaryUSD en groupant pour rendre le résultat plus lisible.

In [114]:
print(dfb.groupby("SalaryUSD").SalaryUSD.count())

SalaryUSD
0.00            1
92.27           1
125.00          1
130.00          1
135.00          1
144.00          1
150.00          1
11100.00        1
11500.00        1
11800.00        1
12300.00        1
24000.00        1
25000.00        1
30000.00        3
31200.00        1
32000.00        1
35000.00        1
35800.00        1
36000.00        2
37400.00        1
37500.00        1
38000.00        3
38500.00        1
39000.00        1
40000.00       18
42000.00        1
42500.00        1
43000.00        6
44000.00        2
45000.00       11
45760.00        1
46000.00        4
46350.00        1
46820.00        1
47000.00        3
47240.00        1
47500.00        1
47840.00        1
48000.00       10
48500.00        1
49000.00        4
49260.00        1
49500.00        1
49900.00        1
50000.00       25
50085.00        1
50750.00        1
51000.00        9
51700.00        1
51800.00        1
52000.00       15
52500.00        1
53000.00        7
53040.00        1
53500.00        2


On constate qu'il y a des valeurs très élevées et très faibles qui paraissent aberrantes. On va afficher les lignes concernées avec un salaire inférieur à 20000 ou supérieur à 800000. En dessous de 800000, il semble y avoir une certaine continuité dans les valeurs donc je ne les considère pas comme aberrantes.

In [115]:
print(dfb[(dfb.SalaryUSD < 20000.00) | (dfb.SalaryUSD > 800000.00)])

       SalaryUSD        Country PostalCode  \
556   1850000.00  United States      98010   
745       144.00  United States      21921   
984       125.00  United States      76102   
1062        0.00  United States      49546   
1176      135.00  United States  Not Asked   
1311      150.00  United States      21090   
2090    11800.00  United States  Not Asked   
2206    11100.00  United States      03801   
3511   960000.00  United States  Not Asked   
3893  1000000.00  United States  Not Asked   
4213  1375000.00  United States       4039   
4811      130.00  United States  Not Asked   
5367       92.27  United States      95630   
5541  1450000.00  United States      53118   
6473  1000000.00  United States  Not Asked   
6924    11500.00  United States  Not Asked   
7612  1450000.00  United States  Not Asked   
8402    12300.00  United States  Not Asked   

                                               JobTitle  \
556                                             Manager   
745   D

Rien ne justifie dans ce que je peux voir dans les valeurs extrêmes. Le salaire étant une partie centrale de l'étude, je prend la décision de supprimer les lignes en question.

In [116]:
dfb.drop(dfb[(dfb.SalaryUSD < 20000.00) | (dfb.SalaryUSD > 800000.00)].index, inplace=True)

### Traitement de Country

La colonne Country a déjà été traitée au niveau du traitement des valeurs manquantes. Il ne reste rien à modifier. J'ai sélectionné toutes les lignes faisant référence à des personnes travaillant aux Etats-Unis. 

### Traitement de PostalCode

On commence par visualiser ce qu'il y a dans PostalCode en groupant par PostalCode pour rendre le résultat plus lisible.

In [117]:
print(dfb.groupby("PostalCode").PostalCode.count())

PostalCode
1                   1
3                   2
5                   1
6                   1
11                  1
13                  2
16                  1
17                  1
19                  1
27                  4
29                  1
32                  1
33                  1
38                  2
40                  1
41                  1
43                  1
44                  1
45                  1
46                  1
50                  1
54                  2
59                  1
60                  1
61                  1
62                  3
65                  2
68                  5
74                  1
75                  1
76                  1
84                  2
85                  2
91                  1
95                  1
98                  1
100                 2
103                 1
109                 1
113                 1
117                 1
145                 2
146                 6
175                 2
179                 1

On constate qu'il y a plusieurs problèmes. La norme pour les codes postaux aux Etats-Unis est d'avoir 5 chiffres. On voit que certains codes postaux ne respectent pas cette longueur et que d'autres ne sont pas uniquement composés de chiffres. On va donc les modifier en passant ces codes postaux erronés en "Not Asked" pour avoir toutes les valeurs incohérentes ou renseignées sous la même dénomination comme il y a déjà beaucoup de valeurs non renseignées dans cette colonne.

In [118]:
# Convert PostalCode column in string to use it
dfb.PostalCode = dfb.PostalCode.astype(str)
# Modify wrong PostalCode with Not Asked
dfb.loc[(dfb.PostalCode.str.len()) != 5 | dfb.PostalCode.str.isalpha(),
                   "PostalCode"] = "Not Asked"

### Traitement de JobTitle

Regardons les valeurs présentes dans JobTitle.

In [119]:
print(dfb.groupby('JobTitle').JobTitle.count().sort_values())

JobTitle
DevOps, Sr Software Engineer DBA                                                                                 1
Sr Consultant                                                                                                    1
Principal database engineer                                                                                      1
Database Specialist                                                                                              1
Technician                                                                                                       1
Consultant                                                                                                       1
Analytics consultant                                                                                             1
Systems Administrator                                                                                            2
Data Scientist                                                         

On constate qu'il y a certains postes très peu représentés (1 ou 2 fois). Je prend la décision de leur assigner la valeur Other, leur poste n'étant pas forcément pertinents vu la faible représentation. De plus, le JobTitle sera surtout utilisé pour calculer le salaire moyen de chaque JobTitle, un salaire moyen avec 1 ou 2 individus serait peu pertinent à mes yeux. 

In [120]:
cond = dfb.groupby('JobTitle').JobTitle.count() < 5
dfb.loc[dfb.JobTitle.isin(cond.loc[cond].index), "JobTitle"] = "Other"

### Traitement de YearsWithThisTypeOfJob

Regardons les valeurs présentes dans YearsWithThisTypeOfJob

In [121]:
print(dfb.groupby("YearsWithThisTypeOfJob").YearsWithThisTypeOfJob.count())

YearsWithThisTypeOfJob
0      42
1     635
2     599
3     597
4     470
5     549
6     318
7     267
8     250
9     108
10    426
11     73
12    154
13     66
14     57
15    244
16     68
17     75
18     94
19     45
20    222
21     28
22     42
23     18
24     12
25     82
26      9
27      6
28     12
29      8
30     28
31      3
32      7
33      2
34      2
35      6
36      2
37      2
38      4
39      1
40      4
44      1
45      1
Name: YearsWithThisTypeOfJob, dtype: int64


Il n'y a pas de valeurs incohérentes ou aberrantes dans cette colonne, je n'y touche donc pas.

### Traitement de HowManyCompanies

Regardons les valeurs présentes dans HowManyCompanies:

In [122]:
print(dfb.groupby('HowManyCompanies').HowManyCompanies.count().sort_values())

HowManyCompanies
5                                                                       84
6 or more                                                              101
4                                                                      122
3                                                                      312
2 (I worked at another similar position elsewhere before this one)     519
1 (this is the only company where I've had this kind of position)      612
Not Asked                                                             3889
Name: HowManyCompanies, dtype: int64


Il n'y a pas de valeurs incohérentes ou aberrantes dans cette colonne, je n'y touche donc pas.

### Traitement de OtherPeopleOnYourTeam

Regardons les valeurs présentes dans OtherPeopleOnYourTeam:

In [123]:
print(dfb.groupby('OtherPeopleOnYourTeam').OtherPeopleOnYourTeam.count().sort_values())

OtherPeopleOnYourTeam
5               208
4               318
3               492
More than 5     551
2               643
1              1153
None           2274
Name: OtherPeopleOnYourTeam, dtype: int64


Il n'y a pas de valeurs incohérentes ou aberrantes dans cette colonne, je n'y touche donc pas.

### Traitement de HoursWorkedPerWeek

Regardons les valeurs présentes dans HoursWorkedPerWeek:

In [124]:
print(dfb.groupby('HoursWorkedPerWeek').HoursWorkedPerWeek.count())

HoursWorkedPerWeek
6               1
8               1
12              1
15              1
20              3
22              1
24              2
25              2
28              1
30             19
32              4
35             72
36             17
37             22
38             44
39              2
40           1899
41             26
42            187
43             39
44             48
45            994
46             22
47             14
48             49
49              1
50            706
52              5
53              4
55            131
57              1
58              2
59              1
60            109
64              1
65             23
68              2
70             12
75              4
80              6
82              1
85              2
90              4
100             1
150             1
Not Asked    1151
Name: HoursWorkedPerWeek, dtype: int64


On constate qu'une personne a estimé qu'elle travaille 150h par semaine (qui contient 168h). Cette valeur me paraissant incohérente, je choisis de la modifier en "Not Asked". Les autres valeurs me paraissent cohérentes et plausibles. 

In [125]:
dfb.loc[dfb.HoursWorkedPerWeek == 150, "HoursWorkedPerWeek"] = "Not Asked"

### Traitement de LookingForAnotherJob

Regardons les valeurs présentes dans LookingForAnotherJob:

In [126]:
print(dfb.groupby('LookingForAnotherJob').LookingForAnotherJob.count())

LookingForAnotherJob
No                                          2340
Not Asked                                   1151
Yes, actively looking for something else     306
Yes, but only passively (just curious)      1842
Name: LookingForAnotherJob, dtype: int64


Il n'y a pas de données incohérentes ou aberrantes dans cette colonne, je n'y touche donc pas.

### Traitement de Gender

Regardons les valeurs présentes dans Gender:

In [127]:
print(dfb.groupby('Gender').Gender.count().sort_values())

Gender
Alien                                                      1
human  This is also my race.                               1
confused                                                   1
Vulcan                                                     1
This question is inappropriate.                            1
Meat Popsicle                                              1
mosquito                                                   1
I am Batman                                                1
toad frog                                                  1
Dragon                                                     1
Cyborg                                                     1
Attack helicopter                                          1
Attack Helicopter. (serious dude, gender questions?)       1
Attack Helicopter                                          1
Any human one                                              1
Non-binary/third gender                                    9
Prefer not to say

On constate qu'il y a une multitude de réponses. On veut cependant comparer les différences de salaires entre homme et femme par la suite. Je choisis donc d'associer la valeur Not Asked à toutes les réponses n'était ni male ni female. 

In [128]:
cond = dfb.groupby('Gender').Gender.count() < 40
dfb.loc[dfb.Gender.isin(cond.loc[cond].index), "Gender"] = "Not Asked"

### Traitement de Job Title

Passons à l'autre table de données qui sera traitée ultérieurement car elle est moins pertinente que la première table de données. Regardons les valeurs présentes dans Job Title:

In [129]:
print(dfk.groupby('Job Title')["Job Title"].count().sort_values())

Job Title
#104252 Division Data and Financial Analyst                                                                                 1
Music Copyright Data Analyst                                                                                                1
Mid-Senior Data Analyst                                                                                                     1
Mid-Level Data Analyst                                                                                                      1
Mid Level Data Analyst / BI Engineer - Looker, Python, Client Facing                                                        1
Mid Data Analyst                                                                                                            1
Metrics & Data Analyst                                                                                                      1
Mutual Fund Data Analyst (JR1013810) - Contract                                                             

On constate qu'il y a beaucoup de dénomination très précises. Tous les JobTitle font référence à un travail de DataAnalyst, on peut choisir de considérer que cette colonne n'est pas pertinente. Par exemple, si on veut faire une moyenne de salaires par rapport au Job Title, on peut le faire sur toute la table, ce qui donnera la moyenne pour les Data Analyst.

### Traitement de Salary Estimate

Regardons les valeurs présentes dans Salary Estimate:

In [130]:
print(dfk.groupby('Salary Estimate')["Salary Estimate"].count().sort_values())

Salary Estimate
-1                               1
$57K-$70K (Glassdoor est.)       2
$43K-$77K (Glassdoor est.)       3
$36K-$67K (Glassdoor est.)       3
$47K-$81K (Glassdoor est.)       3
$42K-$63K (Glassdoor est.)       4
$31K-$59K (Glassdoor est.)       4
$32K-$56K (Glassdoor est.)       4
$30K-$54K (Glassdoor est.)       8
$40K-$74K (Glassdoor est.)       9
$45K-$88K (Glassdoor est.)      11
$45K-$78K (Glassdoor est.)      11
$44K-$78K (Glassdoor est.)      12
$73K-$127K (Glassdoor est.)     14
$78K-$104K (Glassdoor est.)     15
$68K-$87K (Glassdoor est.)      16
$49K-$112K (Glassdoor est.)     18
$73K-$89K (Glassdoor est.)      18
$84K-$90K (Glassdoor est.)      18
$50K-$93K (Glassdoor est.)      19
$40K-$72K (Glassdoor est.)      19
$63K-$116K (Glassdoor est.)     20
$48K-$96K (Glassdoor est.)      22
$93K-$159K (Glassdoor est.)     25
$53K-$99K (Glassdoor est.)      26
$47K-$74K (Glassdoor est.)      26
$57K-$67K (Glassdoor est.)      26
$53K-$104K (Glassdoor est.)     26
$55K

On observe une valeur aberrante d'un salaire estimé à -1. Il faut le supprimer. On constate aussi que les salaires sont données par des fourchettes. Avant de les utiliser, il faudra extraire le salaire minimum et maximum de ces fourchettes pour pouvoir les exploiter.

### Traitement de Location

Regardons les valeurs présentes dans Location:

In [131]:
print(dfk.groupby('Location')["Location"].count().sort_values())

Location
Addison, TX                          1
Jeffersonville, IN                   1
Lawrence, IN                         1
Little Ferry, NJ                     1
Littleton, CO                        1
Lone Tree, CO                        1
Marin City, CA                       1
Itasca, IL                           1
Maywood, IL                          1
Monterey Park, CA                    1
Montvale, NJ                         1
Moorestown, NJ                       1
Mount Vernon, NY                     1
National City, CA                    1
Newtown Square, PA                   1
Millbrae, CA                         1
Newtown, PA                          1
Iselin, NJ                           1
Indian Trail, NC                     1
Exton, PA                            1
Far Rockaway, NY                     1
Farmers Branch, TX                   1
Fort Eustis, VA                      1
Fort Lee, NJ                         1
Fort Sam Houston, TX                 1
Inglewood, CA   

Toutes les données sont normalisées, il n'y a pas de données aberrantes ou incohérentes. Je ne les modifie donc pas.

## 5. Sauvegarde des données

Nous allons maintenant sauvegarder nos données après traitement. Comme les données sont de tailles limitées, j'ai choisis de les enregistrer en format csv. 

In [132]:
dfk.to_csv("/home/apprenant/PycharmProjects/american-dream/data/02-intermediate/intermediatek.csv")
dfb.to_csv("/home/apprenant/PycharmProjects/american-dream/data/02-intermediate/intermediateb.csv")