## I Selection des données

### I.1 Selection par ligne

In [None]:
df = df[df['sector'] != "Student"]

### I.2 Sélection par colonne

In [None]:
key_cols = ['SalaryUSD','Country','PostalCode','EmploymentStatus','JobTitle','ManageStaff','YearsWithThisTypeOfJob',
          'HowManyCompanies','OtherPeopleOnYourTeam', 'CompanyEmployeesOverall',"HoursWorkedPerWeek",
          'PopulationOfLargestCityWithin20Miles','EmploymentSector', 'LookingForAnotherJob', 'CareerPlansThisYear',
          'Gender', 'OtherJobDuties']

df = df[key_cols]



Renomage des colonnes

In [None]:
names_cols = {
    "Country": "location",
    "SalaryUSD": "salary",
    "JobTitle": "job_title",
    "YearsWithThisTypeOfJob": "experience",
    "HowManyCompanies": "num_of_compagnies",
    "OtherPeopleOnYourTeam": "team_size",
    "HoursWorkedPerWeek": "work_hours_per_week",
    "EmploymentStatus": "status",
    "LookingForAnotherJob": "lf_jobs",
    "PostalCode": "postal_code",
    "ManageStaff": "manage",
    "CompanyEmployeesOverall": "num_of_employees",
    "PopulationOfLargestCityWithin20Miles": "city_population",
    "EmploymentSector" : "sector",
    "CareerPlansThisYear": "career_plans",
    "OtherJobDuties": "other_job_duties"   
}

rename_cols(df, names_cols)

## II Traitement des Doublons

### II.1 Recherche des doublons

In [None]:
print(df1.duplicated().value_counts())

### II.2 Traitement des doublons

In [None]:
df.drop_duplicates(subset=df.columns.difference(['Timestamp']), inplace = True)

## III Traitement des valeurs manquantes

### 1. Recherche des valeurs manquantes

In [None]:
#recherche des valeurs manquantes:

print(df1.isnull().sum()) 
print(df.isna().sum())
print(df1.shape)

### 2. Traitement des valeurs manquantes

In [None]:
# remove all the rows that contain a missing value
nfl_data.dropna()

In [None]:
# remove all columns with at least one missing value
columns_with_na_dropped = nfl_data.dropna(axis=1)

In [None]:
# replace all NA's with 0
subset_nfl_data.fillna(0)

In [None]:
# replace all NA's the value that comes directly after it in the same column, 
# then replace all the remaining na's with 0
subset_nfl_data.fillna(method='bfill', axis=0).fillna(0)

## IV Assigner le bon type aux données

### IV.1 Exploration des types

In [None]:
df.dtypes

### IV.2 Traitement des types

In [None]:
# create a new column, date_parsed, with the parsed dates
df['date_parsed'] = pd.to_datetime(df['date'], format="%m/%d/%y")

# Transformation d'un varchar en float
df['team_size'] = df['team_size'].astype("float")

# Récupération de la partie numérique d'une variable type texte à l'aide d'une expression régulière
df['min_salary']=df['salary'].str.extract(r'^[^\d]*(\d+)').astype("int32")*1000

## V Consistance, reformatage et valeurs abbérantes.

### V.1 Evaluer la consistance des variables de type caractère.

#### Afficher l'ensemble des valeurs uniques

In [None]:
print(sorted(df['Column Name'].unique()))
df1["JobTitle"].value_counts()

#### Traitement de la consistence

In [None]:
# convert to lower case
professors['Country'] = professors['Country'].str.lower()
# remove trailing white spaces
professors['Country'] = professors['Country'].str.strip()

#### Modifier les valeurs peu représentées d'une colonne

Traitement à partir des valeurs

In [None]:
# utiliser une fonction lambda à une condition
df1["JobTitle"] = df1["JobTitle"].apply(
    lambda x: "Database Admin" if x.startswith('DBA') else x
)

# ou à plusieurs

df1["HowManyCompanies"] = df1["HowManyCompanies"].apply(
    lambda x: "1" if str(x).startswith('1') else "2" if str(x).startswith('2') else x
)

In [None]:
# autre possibilité avec contains
df.loc[(df["job_title"].str.contains("DBA")), "job_title"] = "DBA"


In [None]:
# utilisation de "isin"
df1.loc[~df1["Gender"].isin(["Male", "Female"]), "Gender"] = "Other - NA"
# le tilde ~ permet de prendre l'opposé de la condition

Traitement à partir du nombre d'occurence

In [None]:
s = df1["JobTitle"].value_counts()
df1.loc[df1["JobTitle"].isin(s[(s < 5)].index), "JobTitle"] = "Other"

### V.2 Traitements des valeurs abbérantes des variables numériques

Les valeurs abbérantes sont de deux types, elles sont soient 
- impossibles donc fausses et à supprimer
- extrêmes donc génantes et à traiter

#### Afficher la distribution d'une variable numérique

In [None]:
plt.figure(figsize = (20,10))
sns.boxenplot(x = df1["SalaryUSD"], k_depth="proportion")

#### Traiter les valeurs impossibles

In [None]:
# Si la variable est au coeur de l'étude, ou si la fausseté à cette question 
# met en doute l'intégralité de l'instance, on peut supprimer celle-ci
df1 = df1.drop(df1[df1["SalaryUSD"] < 25000].index)

# On peut choisir de supprimer la valeur mais de conserver l'instance.
import numpy as np
df1.loc[df1["SalaryUSD"] < 25000, "SalaryUSD"] = None

# On peut également conserver l'instance 
# en modifiant la valeur pour la remplacer par une valeur standard

df1.loc[df1["SalaryUSD"] < 25000, "SalaryUSD"] = df1['SalaryUSD'].mean()

#### Traiter les valeurs extrèmes

In [None]:
# En fonction du problème traité, il peut être génant d'avoir des valeurs extrêmes
# Il est possible dans ce cas de les plafonner. 

df1.loc[df1["SalaryUSD"] > 500000, "SalaryUSD"] = 500000

"""Le plafond doit être choisi avec attention, 
    - soit en fonction d'informations métiers
    - soit au niveau d'une rupture de continuité dans la distribution de la variable
"""