In [None]:
!pip install Faker

## Importation des bibliotheque

In [None]:
import pandas as pd
from faker import Faker
import random

## Géneration des donées avec Faker

In [None]:
departments_functions = {
    'IT': [
        'Développeur logiciel',
        'Administrateur système',
        'Ingénieur réseau',
        'Spécialiste en cybersécurité',
        'Analyste en support technique',
        'Architecte cloud',
        'Ingénieur DevOps',
        'Chef de projet IT',
        'Analyste de données',
        'Spécialiste en bases de données'
    ],
    'Engineering': [
        'Ingénieur en génie civil',
        'Ingénieur en mécanique',
        'Ingénieur en électricité',
        'Ingénieur en électronique',
        'Ingénieur en aéronautique',
        'Ingénieur en environnement',
        'Ingénieur chimiste',
        'Ingénieur industriel',
        'Ingénieur en robotique',
        'Ingénieur en matériaux'
    ],
    'Finance': [
        'Analyste financier',
        'Comptable',
        'Contrôleur de gestion',
        'Auditeur financier',
        'Trésorier',
        'Conseiller en investissements',
        'Responsable des risques financiers',
        'Analyste de crédit',
        'Gestionnaire de portefeuille',
        'Chef de projet finance'
    ],
    'HR': [
        'Responsable RH',
        'Chargé de recrutement',
        'Responsable formation',
        'Gestionnaire de paie',
        'Responsable des relations sociales',
        'HR Business Partner',
        'Consultant en gestion des talents',
        'Responsable de la diversité et de l\'inclusion',
        'Conseiller en relations de travail',
        'Spécialiste en développement organisationnel'
    ],
    'Marketing': [
        'Responsable marketing',
        'Chef de produit',
        'Analyste marketing',
        'Spécialiste en marketing digital',
        'Community manager',
        'Responsable de la communication',
        'Spécialiste en relations publiques',
        'Directeur de la marque',
        'Responsable SEO/SEM',
        'Consultant en stratégie marketing'
    ]
}

villes_cote_divoire = [
    'Abidjan',
    'Yamoussoukro',
    'Bouaké',
    'Daloa',
    'San Pedro',
    'Korhogo',
    'Man',
    'Divo',
    'Gagnoa',
    'Abengourou',
    'Agboville',
    'Bondoukou',
    'Odienné',
    'Sassandra',
    'Séguéla'
]

In [None]:
departments_functions['IT']

In [None]:
# Initialisez Faker pour générer des données synthétiques
fake = Faker('fr_FR')

# Définir la graine seed() pour la reproductibilité
Faker.seed(42)

# Générer des données synthétiques
data = []
for _ in range(5000):
    employe = {
        'Age': random.randint(18, 70),
        'Email': fake.email(),
        'Phone': fake.phone_number(),
        'Address': fake.address(),
        'Salary': random.randint(20000, 150000),
        'Join_Date': fake.date_this_decade(),
        'Employment_Status': random.choice(['Full-Time', 'Part-Time', 'CDD', 'CDI']),
        'Gender': random.choice(['M', 'F']),
        'Department': random.choice(['IT', 'Engineering','Finance', 'HR', 'Marketing']),
        'Ville': random.choice(villes_cote_divoire)
    }
    djob_tilte = departments_functions[employe['Department']]
    employe['Djob_tilte'] = random.choice(djob_tilte),

    if employe['Gender'] == 'M':
        employe['Fist Name'] = fake.first_name_male()
        employe['Last Name'] = fake.last_name_male()
    else:
        employe['Fist Name'] = fake.last_name_female()
        employe['Last Name'] = fake.last_name_female()
    
    data.append(employe)

In [None]:
data[0]

In [None]:
len(data[0])

In [None]:
# Modifions un peu les enregistrements !
# Introduire les valeurs manquantes
for i in random.sample(range(len(data)), 50):
    data[i]['Email'] = None

# Introduire des enregistrements en double
data.extend(random.sample(data, 100))

# Introduire des valeurs aberrantes
for i in random.sample(range(len(data)), 20):
    data[i]['Salary'] = random.randint(200000, 500000)

In [None]:
# Créer une trame de données
df = pd.DataFrame(data)

In [None]:
df.head(5)

In [None]:
df.shape

In [None]:
df.to_csv('fiche_employes.csv', index=False)

## Chargement des données

In [None]:
df_raw = pd.read_csv('fiche_employes.csv')

In [None]:
df = df_raw.copy()

In [None]:
df.head()

In [None]:
df.shape

## Étape 1 : Comprendre les données

In [None]:
df.info()

## Étape 2 : Gérer les doublons

In [None]:
# Vérifier les lignes en double
duplicates = df.duplicated().sum()
print(f"nombre de lignes en doublons: {duplicates}")

In [None]:
df_duplicates_rows = df[df.duplicated()]
df_duplicates_rows.head()

In [None]:
df_duplicates_rows.shape

In [None]:
df.drop_duplicates(inplace=True)

In [None]:
df.shape

## Étape 3 : Gestion des données manquantes

In [None]:
# Rechercher les valeurs manquantes
missing_values = df.isna().sum()
print(f"Nombre de valeurs null/NA :\n {missing_values}")

In [None]:
df.columns

In [None]:
# Gestion des valeurs manquantes en remplissant avec un espace réservé
df[['Last Name', 'Fist Name']]

In [None]:
df['Email'].fillna(df['Last Name'].str.lower() + df['Fist Name'].str.lower() + '@gomycode.ci', inplace=True)

In [None]:
df.isna().sum()

In [None]:
df[df['Email'] == '@gomycode.ci']

In [None]:
# Methode str.endswith()

df[df['Email'].str.endswith('@gomycode.ci')]

## Étape 4 : Transformer les données

In [None]:
# Convertir 'Join_Date' en datetime
df['Join_Date'].head()

In [None]:
df['Join_Date'] = pd.to_datetime(df['Join_Date'])
print("Join_Date après la conversion :")
df['Join_Date'].head()

In [None]:
print(pd.Timestamp.now().year)

In [None]:
df['Join_Date'].dt.year

In [None]:
# Création d'une nouvelle colonne 'Years_Employed' basée sur 'Join_Date'
df['Years_Employed'] = pd.Timestamp.now().year - df['Join_Date'].dt.year

In [None]:
df[['Join_Date', 'Years_Employed']].head()

In [None]:
df.head()

## Étape 5 : Nettoyage des données texte

In [None]:
df['Address'].str.replace('\n', ' ', regex=False)

In [None]:
# Nettoyer les chaînes de la colonne adress
df['Address'] = df['Address'].str.replace('\n', ' ')

In [None]:
df['Address'].head()

In [None]:
df['Djob_tilte'].head()

In [None]:
df['Djob_tilte'].str.strip("(),'")

In [None]:
df['Djob_tilte'].str.extract(r"\('([^']+)'")

In [None]:
# Nettoyer les chaînes de la colonne Djob_tilte
df['Djob_tilte'] = df['Djob_tilte'].str.strip("(),'")

In [None]:
df['Djob_tilte'].head()

## Étape 6 : Gestion des valeurs aberrantes

In [None]:
df['Salary']

In [None]:
(df['Salary'] - df['Salary'].mean()) / df['Salary'].std()

In [None]:
# Détection des valeurs aberrantes à l'aide du z-score
z_scores = (df['Salary'] - df['Salary'].mean()) / df['Salary'].std()

In [None]:
z_scores

In [None]:
len(z_scores)

#### Détection des valeurs aberrantes

In [None]:
df_aberantes = df[abs(z_scores) > 3]

In [None]:
df_aberantes.shape

In [None]:
df_aberantes['Salary'].head(20)

In [None]:
df_aberantes['Salary'].min()

## Étape 7 : Fusionner les données

In [None]:
import random

In [None]:
random.seed(42)

In [None]:
print(random.random())
print(random.random())
print(random.random())

In [None]:
print(random.random())
print(random.random())
print(random.random())

In [None]:
random.seed(42)

In [None]:
print(random.random())
print(random.random())
print(random.random())

In [None]:
random.seed(32)

In [None]:
print(random.random())
print(random.random())
print(random.random())

In [None]:
print(random.random())
print(random.random())
print(random.random())

In [None]:
random.seed(32)
print(random.random())

In [None]:
random.seed(32)
print(random.random())