In [21]:
!pip install tabulate



In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Exploration & Compréhension

In [24]:
# data = pd.read_csv("jobs.csv", encoding="latin-1")
data.head()


Unnamed: 0,Company,Job Title,Location,Job Type,Experience level,Salary,Requirment of the company,Facilities
0,SGS,Clinical Data Analyst,"Richardson, TX, United States",Full Time,Entry-level,48K+ *,"Computer Science,Data quality,Genetics,Mathema...",",,,,"
1,Ocorian,AML/CFT & Data Analyst,"Ebène, Mauritius",Full Time,Entry-level,48K+ *,"Agile,Data management,Finance,Security,,",",,,,"
2,Cricut,Machine Learning Engineer,"South Jordan, UT, United States",Full Time,,90K+ *,"Agile,Architecture,AWS,Computer Science,Comput...","Career development,,,,"
3,Bosch Group,Application Developer & Data Analyst,"Nonantola, Italy",Full Time,Entry-level,48K+ *,"Engineering,Industrial,Oracle,Power BI,R,R&D",",,,,"
4,Publicis Groupe,Data Engineer Full time (Public Sector) USA,"Arlington, VA, United States",Full Time,Mid-level,108K+,"AWS,Azure,Computer Science,Consulting,Dataflow...","Flex hours,Flex vacation,Parental leave,Unlimi..."


In [7]:
data.shape

(3198, 8)

Nous avons un dataset de 3198 entrées et 8 champs

In [6]:
data.dtypes

Company                       object
Job Title                     object
Location                      object
Job Type                      object
Experience level              object
Salary                        object
Requirment of the company     object
Facilities                    object
dtype: object

Toutes les variables sont des objets. Bon à savoir !

In [9]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3198 entries, 0 to 3197
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Company                     3197 non-null   object
 1   Job Title                   3197 non-null   object
 2   Location                    3197 non-null   object
 3   Job Type                    3197 non-null   object
 4   Experience level            2962 non-null   object
 5   Salary                      3009 non-null   object
 6   Requirment of the company   3198 non-null   object
 7   Facilities                  3198 non-null   object
dtypes: object(8)
memory usage: 200.0+ KB


- Compréhension & Analyse: Nous avons 3198 entrées. 
    - Seules les colonnes "Facilities" et "Requirment of company" sont toutes bien remplies
    - Les colonnes "Company", "Job Title", "Location" ont seulement une valeur manquante
    - La colonne "Experience level" a 2962 entrées sur 3198. Donc près de 93% de valeurs remplies et 7% de valeurs manquantes 
    - La colonne "Salary" a 3009 entrées sur 3198. Donc 94% de valeurs remplies et 6% de valeurs manquantes
    

In [19]:
# Afficher un résumé statistique du DataFrame
summary = data.describe(include='all')
summary


Unnamed: 0,Company,Job Title,Location,Job Type,Experience level,Salary,Requirment of the company,Facilities
count,3197,3197,3197,3197,2962,3009,3198,3198
unique,1106,2138,1117,3,4,218,2600,777
top,Publicis Groupe,Data Engineer,"Bengaluru, India",Full Time,Senior-level,115K+ *,"Big Data,Business Intelligence,Data analysis,E...",",,,,"
freq,126,105,90,3116,1876,253,12,542


- "count": Cela indique le nombre total de valeurs non manquantes (non nulles) dans chaque colonne du DataFrame. Par exemple, il y a 3197 valeurs non manquantes pour la colonne "Company", "Job Title", "Location", etc.

- "unique": Cela représente le nombre d'éléments uniques dans chaque colonne du DataFrame. Par exemple, il y a 1106 entreprises uniques, 2138 titres de poste uniques, 1117 emplacements uniques, etc.

- "top": Cela indique la valeur la plus fréquente (top) dans chaque colonne. Par exemple, "Publicis Groupe" est l'entreprise la plus fréquente dans la colonne "Company", "Data Engineer" est le titre de poste le plus fréquent, "Bengaluru, India" est le lieu le plus fréquent, etc.

- "freq": Cela représente la fréquence (nombre d'occurrences) de la valeur la plus fréquente (top) dans chaque colonne. Par exemple, "Publicis Groupe" apparaît 126 fois dans la colonne "Company", "Data Engineer" apparaît 105 fois dans la colonne "Job Title", "Bengaluru, India" apparaît 90 fois dans la colonne "Location", etc.


Une remarque: Nous n'avons pas de valeurs numériques !

# Data Cleaning

Cette étape consiste à nettoyer les données en corrigeant les erreurs, en supprimant les impuretés pour ne conserver que les valeurs propres, correctes, utiles et pertinentes. Nous serons amenés à:
- Gérer les doublons
- Gérer les valeurs manquantes
- Gérer les valeurs abérrantes et atypiques

### Gestion des doublons

In [26]:
data.duplicated().sum()

202

Nous avons 202 doublons. Nous allons les supprimer pour éviter les conflits de données.

In [29]:
data.drop_duplicates(inplace = True)
data.duplicated().sum()

0

Les doublons ont bien été supprimés

### Gestion des valeurs manquantes

In [32]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2996 entries, 0 to 3196
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Company                     2995 non-null   object
 1   Job Title                   2995 non-null   object
 2   Location                    2995 non-null   object
 3   Job Type                    2995 non-null   object
 4   Experience level            2768 non-null   object
 5   Salary                      2824 non-null   object
 6   Requirment of the company   2996 non-null   object
 7   Facilities                  2996 non-null   object
dtypes: object(8)
memory usage: 210.7+ KB


Nous avons à présent 2996 entrées.
- Les colonnes "Company", "Job Title", "Location", "Job Type" ont 2995 entrées donc ont 01 valeur manquante.
- La colonne "Experience level" possède 2768 entrées donc elle possède 228 valeurs manquantes soit environ 7,6% 
- La colonne "Salary" a 2824 entrées. Elle a donc 172 valeurs manquantes soit 5,7% 

### Colonne Company

In [38]:
missing_values_count = data["Company"].isna().sum()
print("Number of missing values in 'Company' column:", missing_values_count)


Number of missing values in 'Company' column: 1


In [39]:
data.loc[data["Company"].isna()]


Unnamed: 0,Company,Job Title,Location,Job Type,Experience level,Salary,Requirment of the company,Facilities
797,,,,,,,",,,,,",",,,,"


### La ligne n'a aucune information qui soit utile. Nous allons donc la supprimer

In [40]:
# Supprimer les lignes où "Company" est NaN et mettre à jour le DataFrame data
data.dropna(subset=["Company"], inplace=True)

# Vérification
data.loc[data["Company"].isna()]


Unnamed: 0,Company,Job Title,Location,Job Type,Experience level,Salary,Requirment of the company,Facilities


La ligne ligne a bien été supprimée. Passons à la colonne Job Tile