In [21]:
!pip install tabulate



In [25]:
!pip install scikit-learn


Collecting scikit-learn
  Downloading scikit_learn-1.3.0-cp311-cp311-win_amd64.whl (9.2 MB)
     ---------------------------------------- 0.0/9.2 MB ? eta -:--:--
     ---------------------------------------- 0.1/9.2 MB 3.2 MB/s eta 0:00:03
     - -------------------------------------- 0.3/9.2 MB 3.5 MB/s eta 0:00:03
     - -------------------------------------- 0.3/9.2 MB 2.7 MB/s eta 0:00:04
     - -------------------------------------- 0.4/9.2 MB 2.4 MB/s eta 0:00:04
     -- ------------------------------------- 0.5/9.2 MB 2.2 MB/s eta 0:00:04
     --- ------------------------------------ 0.7/9.2 MB 2.7 MB/s eta 0:00:04
     ---- ----------------------------------- 0.9/9.2 MB 2.9 MB/s eta 0:00:03
     ---- ----------------------------------- 1.0/9.2 MB 2.7 MB/s eta 0:00:04
     ----- ---------------------------------- 1.2/9.2 MB 3.0 MB/s eta 0:00:03
     ------ --------------------------------- 1.4/9.2 MB 3.2 MB/s eta 0:00:03
     ------- -------------------------------- 1.6/9.2 MB 

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Exploration & Compréhension

In [2]:
data = pd.read_csv("jobs.csv", encoding="latin-1")
data.head()


Unnamed: 0,Company,Job Title,Location,Job Type,Experience level,Salary,Requirment of the company,Facilities
0,SGS,Clinical Data Analyst,"Richardson, TX, United States",Full Time,Entry-level,48K+ *,"Computer Science,Data quality,Genetics,Mathema...",",,,,"
1,Ocorian,AML/CFT & Data Analyst,"Ebène, Mauritius",Full Time,Entry-level,48K+ *,"Agile,Data management,Finance,Security,,",",,,,"
2,Cricut,Machine Learning Engineer,"South Jordan, UT, United States",Full Time,,90K+ *,"Agile,Architecture,AWS,Computer Science,Comput...","Career development,,,,"
3,Bosch Group,Application Developer & Data Analyst,"Nonantola, Italy",Full Time,Entry-level,48K+ *,"Engineering,Industrial,Oracle,Power BI,R,R&D",",,,,"
4,Publicis Groupe,Data Engineer Full time (Public Sector) USA,"Arlington, VA, United States",Full Time,Mid-level,108K+,"AWS,Azure,Computer Science,Consulting,Dataflow...","Flex hours,Flex vacation,Parental leave,Unlimi..."


In [3]:
data.shape

(3198, 8)

Nous avons un dataset de 3198 entrées et 8 champs

In [4]:
data.dtypes

Company                       object
Job Title                     object
Location                      object
Job Type                      object
Experience level              object
Salary                        object
Requirment of the company     object
Facilities                    object
dtype: object

Toutes les variables sont des objets. Bon à savoir !

In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3198 entries, 0 to 3197
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Company                     3197 non-null   object
 1   Job Title                   3197 non-null   object
 2   Location                    3197 non-null   object
 3   Job Type                    3197 non-null   object
 4   Experience level            2962 non-null   object
 5   Salary                      3009 non-null   object
 6   Requirment of the company   3198 non-null   object
 7   Facilities                  3198 non-null   object
dtypes: object(8)
memory usage: 200.0+ KB


- Compréhension & Analyse: Nous avons 3198 entrées. 
    - Seules les colonnes "Facilities" et "Requirment of company" sont toutes bien remplies
    - Les colonnes "Company", "Job Title", "Location" ont seulement une valeur manquante
    - La colonne "Experience level" a 2962 entrées sur 3198. Donc près de 93% de valeurs remplies et 7% de valeurs manquantes 
    - La colonne "Salary" a 3009 entrées sur 3198. Donc 94% de valeurs remplies et 6% de valeurs manquantes
    

In [6]:
# Afficher un résumé statistique du DataFrame
summary = data.describe(include='all')
summary


Unnamed: 0,Company,Job Title,Location,Job Type,Experience level,Salary,Requirment of the company,Facilities
count,3197,3197,3197,3197,2962,3009,3198,3198
unique,1106,2138,1117,3,4,218,2600,777
top,Publicis Groupe,Data Engineer,"Bengaluru, India",Full Time,Senior-level,115K+ *,"Big Data,Business Intelligence,Data analysis,E...",",,,,"
freq,126,105,90,3116,1876,253,12,542


- "count": Cela indique le nombre total de valeurs non manquantes (non nulles) dans chaque colonne du DataFrame. Par exemple, il y a 3197 valeurs non manquantes pour la colonne "Company", "Job Title", "Location", etc.

- "unique": Cela représente le nombre d'éléments uniques dans chaque colonne du DataFrame. Par exemple, il y a 1106 entreprises uniques, 2138 titres de poste uniques, 1117 emplacements uniques, etc.

- "top": Cela indique la valeur la plus fréquente (top) dans chaque colonne. Par exemple, "Publicis Groupe" est l'entreprise la plus fréquente dans la colonne "Company", "Data Engineer" est le titre de poste le plus fréquent, "Bengaluru, India" est le lieu le plus fréquent, etc.

- "freq": Cela représente la fréquence (nombre d'occurrences) de la valeur la plus fréquente (top) dans chaque colonne. Par exemple, "Publicis Groupe" apparaît 126 fois dans la colonne "Company", "Data Engineer" apparaît 105 fois dans la colonne "Job Title", "Bengaluru, India" apparaît 90 fois dans la colonne "Location", etc.


Une remarque: Nous n'avons pas de valeurs numériques !

# Data Cleaning

Cette étape consiste à nettoyer les données en corrigeant les erreurs, en supprimant les impuretés pour ne conserver que les valeurs propres, correctes, utiles et pertinentes. Nous serons amenés à:
- Gérer les doublons
- Formattage
- Gérer les valeurs manquantes
- Gérer les valeurs abérrantes et atypiques

### Gestion des doublons

In [7]:
data.duplicated().sum()

202

Nous avons 202 doublons. Nous allons les supprimer pour éviter les conflits de données.

In [8]:
data.drop_duplicates(inplace = True)
data.duplicated().sum()

0

Les doublons ont bien été supprimés

### Formattage

In [13]:
for salary in data["Salary"]:
    print(salary)
    

 48K+ *
 48K+ *
 90K+ *
 48K+ *
 108K+
 184K+
 39K+ *
nan
nan
 140K+
 40K+ *
 80K+ *
 35K+ *
 62K+ *
 39K+ *
 159K+
 97K+
 92K+ *
 48K+ *
 129K+ *
 92K+ *
 115K+ *
 39K+ *
 44K+ *
 73K+ *
 40K+ *
 59K+ *
 106K+
 129K+ *
 92K+ *
 105K+ *
 55K+ *
 115K+ *
 110K+ *
 140K+
 129K+ *
 63K+ *
 49K+ *
 180K+
nan
 115K+ *
 62K+ *
 73K+ *
 127K+
nan
 60K+
 129K+ *
 92K+ *
 45K+ *
 115K+ *
 135K+
 69K+ *
 129K+ *
 176K+
 65K+ *
 40K+ *
 62K+ *
 48K+ *
 51K+ *
 67K+
 104K+
 92K+ *
 69K+ *
 73K+ *
 115K+ *
 105K+
 51K+ *
 166K+
 62K+ *
 80K+ *
 131K+ *
 62K+ *
 115K+
 69K+ *
 129K+ *
nan
 40K+ *
 65K+ *
 43K+
 92K+ *
 45K+ *
 81K+ *
 35K+ *
 69K+ *
 92K+ *
 62K+ *
 65K+ *
nan
 115K+ *
 69K+ *
 140K+
 65K+ *
 69K+ *
 96K+ *
 39K+ *
 69K+ *
 56K+ *
 39K+ *
 131K+ *
 62K+ *
 115K+ *
 115K+ *
 130K+
 73K+ *
 92K+ *
 131K+
 44K+ *
 115K+ *
 73K+ *
 50K+ *
 48K+ *
 59K+ *
 100K+
 129K+ *
 60K+ *
 52K+
 62K+ *
 135K+ *
 76K+
 129K+ *
 73K+ *
 92K+ *
 129K+ *
 62K+ *
 50K+ *
 172K+
 119K+
 125K+
 92K+ *
 1

In [15]:
!pip install forex_python

Collecting forex_python
  Downloading forex_python-1.8-py3-none-any.whl (8.2 kB)
Collecting simplejson
  Downloading simplejson-3.19.1-cp311-cp311-win_amd64.whl (75 kB)
     ---------------------------------------- 0.0/75.3 kB ? eta -:--:--
     ---------------------------------------- 75.3/75.3 kB 1.4 MB/s eta 0:00:00
Installing collected packages: simplejson, forex_python
Successfully installed forex_python-1.8 simplejson-3.19.1


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from forex_python.converter import CurrencyRates

# Assurez-vous d'avoir importé Pandas, Matplotlib, et que vos données sont dans le DataFrame "data"
# Instancier le convertisseur de devises
c = CurrencyRates()

# Créer une fonction pour convertir les devises en USD
def convert_to_usd(salary):
    try:
        return c.convert('EUR', 'USD', salary)
    except:
        return salary

# Créer le diagramme à barres pour la colonne "Salary" en USD
data['Salary'] = data['Salary'].apply(lambda x: x.strip() if isinstance(x, str) else x)  # Remove whitespace and handle NaN
data['Salary'] = data['Salary'].apply(convert_to_usd)
data['Salary'].plot(kind='bar', figsize=(12, 6))
plt.title('Diagramme à barres pour la colonne "Salary" (en USD)')
plt.xlabel('Poste')
plt.ylabel('Salaire (USD)')
plt.show()


### Gestion des valeurs manquantes

In [9]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2996 entries, 0 to 3196
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Company                     2995 non-null   object
 1   Job Title                   2995 non-null   object
 2   Location                    2995 non-null   object
 3   Job Type                    2995 non-null   object
 4   Experience level            2768 non-null   object
 5   Salary                      2824 non-null   object
 6   Requirment of the company   2996 non-null   object
 7   Facilities                  2996 non-null   object
dtypes: object(8)
memory usage: 210.7+ KB


Nous avons à présent 2996 entrées.
- Les colonnes "Company", "Job Title", "Location", "Job Type" ont 2995 entrées donc ont 01 valeur manquante.
- La colonne "Experience level" possède 2768 entrées donc elle possède 228 valeurs manquantes soit environ 7,6% 
- La colonne "Salary" a 2824 entrées. Elle a donc 172 valeurs manquantes soit 5,7% 

### Colonne Company

In [10]:
missing_values_count = data["Company"].isna().sum()
print("Number of missing values in 'Company' column:", missing_values_count)


Number of missing values in 'Company' column: 1


In [11]:
data.loc[data["Company"].isna()]


Unnamed: 0,Company,Job Title,Location,Job Type,Experience level,Salary,Requirment of the company,Facilities
797,,,,,,,",,,,,",",,,,"


### La ligne n'a aucune information qui soit utile. Nous allons donc la supprimer

In [12]:
# Supprimer les lignes où "Company" est NaN et mettre à jour le DataFrame data
data.dropna(subset=["Company"], inplace=True)

# Vérification
data.loc[data["Company"].isna()]


Unnamed: 0,Company,Job Title,Location,Job Type,Experience level,Salary,Requirment of the company,Facilities


La ligne ligne a bien été supprimée. Passons à la colonne Job Title

### Colonne Job Title

In [13]:
data["Job Title"].isna().sum()

0

### Colonne Location 

In [14]:
data["Location"].isna().sum()

0

### Colonne Job Type

In [15]:
data["Job Type"].isna().sum()

0

Les valeurs manquantes des colonnes Job Type, Location,Job Title et Company étaient dans la meme entrée et la ligne est désormais supprimée.
- Passons à la colonne Experience level

### Experience level 

In [16]:
data["Experience level"].isna().sum()

227

Il y a exactement 227 valeurs manquantes. Allons-nous les supprimer ? Nous allons éviter au maximum de supprimer. Nous allons tenter une amputation. 

In [17]:
data["Experience level"]


0        Entry-level
1        Entry-level
2                NaN
3        Entry-level
4          Mid-level
            ...     
3190       Mid-level
3191       Mid-level
3192    Senior-level
3193     Entry-level
3196     Entry-level
Name: Experience level, Length: 2995, dtype: object

In [18]:
# Obtenir le nombre d'occurrences de chaque valeur unique dans la colonne "Experience level"
experience_counts = data["Experience level"].value_counts()

# Obtenir la valeur la plus fréquente dans la colonne "Experience level" (en cas d'égalité, on prend la première)
most_frequent_experience = experience_counts.idxmax()
most_frequent_experience
# # Remplacer les valeurs NaN par la valeur la plus fréquente dans la colonne "Experience level"
# data["Experience level"] = data["Experience level"].fillna(most_frequent_experience)

# # Afficher le nombre d'occurrences de chaque valeur unique dans la colonne "Experience level"
# print("Nombre d'occurrences de chaque valeur unique dans la colonne 'Experience level':")
# print(experience_counts)

# # Afficher le DataFrame mis à jour avec les valeurs NaN remplacées
# print("\nDataFrame mis à jour avec les valeurs NaN remplacées:")
# print(data["Experience level"])


'Senior-level'

In [19]:
xp_level = data.loc[data["Experience level"].isna()]
xp_level

Unnamed: 0,Company,Job Title,Location,Job Type,Experience level,Salary,Requirment of the company,Facilities
2,Cricut,Machine Learning Engineer,"South Jordan, UT, United States",Full Time,,90K+ *,"Agile,Architecture,AWS,Computer Science,Comput...","Career development,,,,"
11,NielsenIQ,Data Analyst - Revenue Optimizer,"Toronto, ON, Canada",Full Time,,80K+ *,"Business Analytics,Business Intelligence,Data ...","Career development,Startup environment,,,"
18,Issuu,BI Analyst,Braga,Full Time,,48K+ *,"Business Analytics,Business Intelligence,Data ...","Competitive pay,Equity,Health care,Insurance,"
36,Bosch Group,Data Science Lead (Hybrid),"Mount Prospect, IL, United States",Full Time,,63K+ *,"A/B testing,Data visualization,Economics,Engin...","Career development,Competitive pay,Health care,,"
69,SSENSE,"Data Analyst, Customer Experience","Montreal, QC, Canada",Full Time,,80K+ *,"Business Intelligence,Computer Science,CX,Data...","Career development,Startup environment,,,"
...,...,...,...,...,...,...,...,...
3149,Syngenta Group,Agronomy Data Scientist (M/W) - CDI,"Saint-Sauveur, France",Full Time,,90K+ *,"Computer Science,D3,Data analysis,Data Mining,...","Career development,,,,"
3157,Precision for Medicine,Data Engineer,"Remote, United States",Full Time,,70K+,"AWS,Biology,Data management,Git,Linux,MySQL","Health care,Insurance,Parental leave,Salary bo..."
3163,Informa Group Plc.,Data Operations Engineer,"Toronto, ON, Canada",Full Time,,60K+ *,"Agile,AWS,DataOps,Engineering,ETL,Pipelines","Career development,Flex hours,Flex vacation,He..."
3172,Precision Medicine Group,Data Engineer,"Remote, United States",Full Time,,70K+,"AWS,Biology,Data management,Git,Linux,MySQL","Health care,Insurance,Parental leave,Salary bo..."


In [25]:
import pandas as pd

# Spécifiez l'encodage approprié (par exemple, "latin-1")
data = pd.read_csv("jobs.csv", encoding="latin-1")

# Remplacer les valeurs manquantes par "No Experience"
data["Experience level"].fillna("No Experience", inplace=True)

# Afficher le DataFrame mis à jour
print(data["Experience level"].isnull().sum())


0


### Colonne Salary

In [21]:
data["Salary"].isnull().sum()

189

Nous avons 189 entrées manquantes dans la colonne Salary. Nous allons tenter une imputation. Pour le moment, nous allons remplacer les valeurs manquantes par "No Salary"

In [27]:
data["Salary"].fillna("No Salary", inplace = True)
print(data["Salary"].isna().sum())

0


Il n'existe plus de valeurs manquantes 

#### Gestion de valeurs manquantes terminées !

## Gestion des valeurs Abérrantes

### Colonne Company

In [35]:
# Sélectionner une colonne non numérique pour la détection des valeurs aberrantes (par exemple, "Experience level")
column_name = "Company"
data_column = data[column_name]

# Vérifier les valeurs uniques dans la colonne
unique_values = data_column.unique()

# Compter le nombre d'occurrences de chaque valeur unique
value_counts = data_column.value_counts()

# Afficher les valeurs uniques et leur nombre d'occurrences
for x in data_column:
    print(x)

SGS
Ocorian
Cricut
Bosch Group
Publicis Groupe
ServiceNow
Natixis in Portugal
NielsenIQ
Western Digital
Palo Alto Networks
CERN
NielsenIQ
YouGov
Bosch Group
Bosch Group
ServiceNow
PlayStation Global
Canva
Issuu
DeepL
Printify
Visa
Talan
Bosch Group
EX2 Outcoding
CGG
RCA
Publicis Groupe
Block
QuintoAndar
Neo Cybernetica
Western Digital
Podium
Netcentric
Freeform
Opera
Bosch Group
Tiendanube
Ask Media Group
Angi
Visa
AVIV Group
Mutt Data
Global Atlantic Financial Group
REWE International Dienstleistungsgesellschaft m.b.H
Imagen Technologies
Sunnova Energy International
DeepL
EUROPEAN DYNAMICS
Gemini
OpenSea
Weave HQ
Monzo
Scale AI
Channel Factory
Confused.com
Riverflex
Bosch Group
Bionic Services Ltd
Nielsen
Etsy
Ocorian
PatientPoint
Fleetio
Databricks
Twitch
Roosh
Instacart
Snowflake Inc.
SSENSE
Amazon.com
Bosch Group
NBCUniversal
Databricks
Stripe
Metiora
Kuda Technologies Ltd
KPMG Australia
DoubleVerify
Pure Integration
SAP Fioneer
Appen
Cyberlogic
Experian
Publicis Groupe
Peloton
Fle

### Colonne Experience level

In [29]:
# Sélectionner une colonne non numérique pour la détection des valeurs aberrantes (par exemple, "Experience level")
column_name = "Experience level"
data_column = data[column_name]

# Vérifier les valeurs uniques dans la colonne
unique_values = data_column.unique()

# Compter le nombre d'occurrences de chaque valeur unique
value_counts = data_column.value_counts()

# Afficher les valeurs uniques et leur nombre d'occurrences
print("Valeurs uniques dans la colonne '{}':".format(column_name))
print(unique_values)
print("\nNombre d'occurrences de chaque valeur unique:")
print(value_counts)


Valeurs uniques dans la colonne 'Experience level':
['Entry-level' nan 'Mid-level' 'Senior-level' 'Executive-level']

Nombre d'occurrences de chaque valeur unique:
Experience level
Senior-level       1876
Entry-level         506
Mid-level           452
Executive-level     128
Name: count, dtype: int64


In [33]:
# Sélectionner une colonne non numérique pour la détection des valeurs aberrantes (par exemple, "Experience level")
column_name = "Job Title"
data_column = data[column_name]

# Vérifier les valeurs uniques dans la colonne
unique_values = data_column.unique()

# Compter le nombre d'occurrences de chaque valeur unique
value_counts = data_column.value_counts()

# Afficher les valeurs uniques et leur nombre d'occurrences
for x in data_column:
    print(x)

Clinical Data Analyst
AML/CFT & Data Analyst
Machine Learning Engineer
Application Developer & Data Analyst
Data Engineer Full time (Public Sector) USA
Sr Staff Data Scientist - ATG
Vendor Management and Data Quality Lead
Intern (Business Intelligence Service Support)
Summer 2023 Data Engineering Intern
Principal Cloud Data Engineer (Prisma Access)
Data Scientist (TE-CRG-GLO-2023-19-GRAP)
Data Analyst - Revenue Optimizer
Graduate Power BI Developer
SAP Consultant - Product Data Management
PreMaster Programm - Data Analytics and Visualization
Staff Data Scientist - ATG
Machine Learning Engineer
Senior Data Analyst - Sales
BI Analyst
Data Scientist | Insights (f/m/d) - GER, UK, NL, PL
Senior Data Analyst (Remote within EMEA)
Senior Data Engineer (Evergreen)
Data Management Scrum Master
Rotational Development Program - Artificial Intelligence and Machine Learning Trainee
Data Engineer Scientist
Data Scientist (Elasticsearch)
Data Engineer F/H
BI Developer
Data Scientist - Fraud Risk
Quint

In [34]:
# Sélectionner une colonne non numérique pour la détection des valeurs aberrantes (par exemple, "Experience level")
column_name = "Location"
data_column = data[column_name]

# Vérifier les valeurs uniques dans la colonne
unique_values = data_column.unique()

# Compter le nombre d'occurrences de chaque valeur unique
value_counts = data_column.value_counts()

# Afficher les valeurs uniques et leur nombre d'occurrences
for x in data_column:
    print(x)

Richardson, TX, United States
Ebène, Mauritius
South Jordan, UT, United States
Nonantola, Italy
Arlington, VA, United States
Kirkland, Washington, United States
Porto, Portugal
Bangkok, Thailand
San Jose, CA, United States
Santa Clara, CA, United States
Geneva, Switzerland
Toronto, ON, Canada
Mumbai, India
Braga, Portugal
Gerlingen, Germany
Kirkland, Washington, United States
United States, Aliso Viejo, CA
Sydney, New South Wales, Australia
Braga
Remote job
Tallinn
Bengaluru, India
Málaga, Spain
Plymouth, MI, United States
Remote Worldwide
Houston, TX, United States
Saint-Herblain, France
New York City, United States
Mexico City, Mexico
São Paulo, State of São Paulo, Brazil 
Poland or Eastern Europe remote
Batu Kawan, Malaysia
Lehi, Utah, Open to Remote
Barcelona, Spain
Los Angeles, CA
Wroclaw, PL
Mount Prospect, IL, United States
Buenos Aires, Buenos Aires, Argentina - Remote
United States - Remote
Indianapolis, IN - Hybrid
Bengaluru, India
Brussels, Germany
Argentina
Boston, Massach

In [None]:
Remote job
Remote Worldwide
Remote

In [40]:
import requests

# Remplacez 'YOUR_USERNAME' par votre nom d'utilisateur GeoNames
USERNAME = 'yonlifidelis'

# Liste de localisations (vous pouvez remplacer cette liste par vos données)
locations = data_column
# Fonction pour vérifier si une localisation est une ville valide en utilisant GeoNames API
def is_valid_city(location):
    url = f"http://api.geonames.org/searchJSON?q={location}&maxRows=1&username={USERNAME}"

    response = requests.get(url)
    data = response.json()

    # Si l'API renvoie des résultats et que le type est "geoname", c'est une ville valide
    return 'geonames' in data and len(data['geonames']) > 0 and data['geonames'][0]['fclName'] == 'city, village,...'

# Filtrer les noms de villes valides
valid_cities = [location for location in locations if is_valid_city(location)]

# Afficher les noms de villes valides
print("Noms de villes valides :")
print(valid_cities)


Noms de villes valides :
[]
