# **Partie 0: Paramétrage**

Pour cette exploration nous allons utiliser le langage python pour faire la partie démonstration en code. Python étant déjà disponible sur Colab, nous il nous reste à importer notre jeu de données (Titanic.csv) via le code suivant:

In [None]:
#Cela peut prendre un peu de temps
!wget --no-check-certificate 'https://drive.google.com/uc?export=download&id=1ySf1uy52ErAt7WhJb2Y61jr4F_wo88rs' -O Titanic.csv

--2024-11-21 20:56:24--  https://drive.google.com/uc?export=download&id=1ySf1uy52ErAt7WhJb2Y61jr4F_wo88rs
Resolving drive.google.com (drive.google.com)... 74.125.197.113, 74.125.197.100, 74.125.197.138, ...
Connecting to drive.google.com (drive.google.com)|74.125.197.113|:443... connected.
HTTP request sent, awaiting response... 303 See Other
Location: https://drive.usercontent.google.com/download?id=1ySf1uy52ErAt7WhJb2Y61jr4F_wo88rs&export=download [following]
--2024-11-21 20:56:24--  https://drive.usercontent.google.com/download?id=1ySf1uy52ErAt7WhJb2Y61jr4F_wo88rs&export=download
Resolving drive.usercontent.google.com (drive.usercontent.google.com)... 172.253.117.132, 2607:f8b0:400e:c0a::84
Connecting to drive.usercontent.google.com (drive.usercontent.google.com)|172.253.117.132|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 3145129 (3.0M) [application/octet-stream]
Saving to: ‘Titanic.csv’


2024-11-21 20:56:27 (52.5 MB/s) - ‘Titanic.csv’ saved [3145129/3

Nous allons maintenant passer notre jeu de données en dataframes Pandas (df) afin de pouvoir mieux l'exploiter:

In [None]:
import pandas as pd

# Cargar el archivo CSV en un dataframe
df = pd.read_csv('Titanic.csv')

Affichons les 10 premières lignes pour nous assurer que tout est bon

In [None]:
#Affichage des 10 premières lignes
print(df.head(10).to_string(index=False, justify='right',col_space=10, max_colwidth=100))

       age  classe.travail    education  nombre.education   etat.civil        occupation     Lien.parente       race       sexe  heures.par.semaine    pays.natal    salaire
        90               ?      HS-grad                 9         Veuf                 ? Pas_dans_famille      Blanc    Feminin                  40 United-States      <=50K
        82          Privee      HS-grad                 9         Veuf   Exec-managerial Pas_dans_famille      Blanc    Feminin                  18 United-States      <=50K
        66               ? Some-college                10         Veuf                 ?      Celibataire       Noir    Feminin                  40 United-States      <=50K
        54          Privee      7th-8th                 4      Divorce Machine-op-inspct      Celibataire      Blanc    Feminin                  40 United-States      <=50K
        41          Privee Some-college                10       Separe    Prof-specialty        Un_enfant      Blanc    Feminin        

---


# **Partie 1: Étude exploratoire**



1.1. Nombre de personnes travaillant dans le privé

In [None]:
df.loc[df['classe.travail'] == 'Privee'].shape[0]

22696

1.2. Liste des pays d’origine des femmes dans ce jeux de données

In [None]:
df.loc[df['sexe']=='Feminin',['pays.natal']].value_counts()

Unnamed: 0_level_0,count
pays.natal,Unnamed: 1_level_1
United-States,9682
?,163
Mexico,146
Philippines,73
Germany,60
Puerto-Rico,52
Jamaica,43
Cuba,40
Canada,39
Dominican-Republic,35


1.3. Le pourcentage d’hommes ayant un niveau éducatif HS-grad

In [None]:
df.loc[df['sexe']=='Masculin',['education']].value_counts(normalize=True)['HS-grad']*100

32.634235888022026

1.4. Les attributs pour lesquels il manque des valeurs et leur nombre d'attributs manquants **(on admettra que valeur manquante = "?")**.

In [None]:
tab=df.apply(lambda x: (x == '?').sum())
tab_valeur_manquante =tab[tab>0]
x=tab_valeur_manquante.sort_values(ascending=False)

print(x)

occupation        1843
classe.travail    1836
pays.natal         583
dtype: int64


In [None]:
print('Attribut de valeurs manquantes maximales: '+ x.idxmax())
print('Attribut de valeurs manquantes minimales: '+ x.idxmin())

Attribut de valeurs manquantes maximales: occupation
Attribut de valeurs manquantes minimales: pays.natal


1.5. Les valeurs la plus élevée et la moins élevée de l’attribut nombre d’années d’éducation ?

In [None]:
min_education = df['nombre.education'].min()
max_education = df['nombre.education'].max()
print(f"La valeur minimale: {min_education}")
print(f"La valeur maximale: {max_education}")

La valeur minimale: 1
La valeur maximale: 16


---


# **Partie 2: Statistiques et probabilités**

Pour la suite, nous considérons le jeux de données complet ainsi qu’un échantillon dont la taille est 10% de la taille
complète (3256 lignes). Récupérons notre échantillon (dff)

In [None]:
dff =  df.iloc[:3256]
# dff.head(10)

2.1. Les 3 valeurs du nombre d’années d’éducation les plus fréquentes.

In [None]:
dff['nombre.education'].value_counts().head(3).sort_values(ascending=False)

Unnamed: 0_level_0,count
nombre.education,Unnamed: 1_level_1
13,845
9,731
10,552


2.2. Moyenne des nombre d’années d’éducation et la médiane:

In [None]:
# Calculer la moyenne et la médiane pour l'échantillon
mean = dff['nombre.education'].mean()
median = dff['nombre.education'].median()

print(f"Moyenne : {mean}")
print(f"Médiane : {median}")

Moyenne : 11.430896805896806
Médiane : 12.0


2.3.   Pays ayant les moyennes des âges de leurs ressortissants les plus élevées ?


In [None]:
age_moyenne = dff['age'].mean()
print('Age moyenne = ',age_moyenne)
dff.groupby('pays.natal')['age'].mean().loc[lambda x: x > age_moyenne].sort_values(ascending=False)

Age moyenne =  43.567567567567565


Unnamed: 0_level_0,age
pays.natal,Unnamed: 1_level_1
Ecuador,90.0
Hungary,69.0
Yugoslavia,66.0
Scotland,62.0
Jamaica,60.0
Columbia,57.0
Poland,50.75
Greece,50.0
China,49.555556
Trinadad&Tobago,49.5


2.4.  % des femmes ayant une maîtrise avec un salaire >50K et des hommes

In [None]:
pWomen = len(dff[(dff['sexe']=='Feminin')& (dff['salaire']=='>50K') & (dff['education']=='Masters')])/len(dff[(dff['sexe']=='Feminin')& (dff['education']=='Masters')])*100
pMen = len(dff[(dff['sexe']=='Masculin')& (dff['salaire']=='>50K') & (dff['education']=='Masters')])/len(dff[(dff['sexe']=='Masculin')& (dff['education']=='Masters')])*100

print(f"Pourcentage des femmes ayant une maîtrise et un salaire >50K: {pWomen}")
print(f"Pourcentage des hommes ayant une maîtrise et un salaire >50K: {pMen}")

Pourcentage des femmes ayant une maîtrise et un salaire >50K: 67.61904761904762
Pourcentage des hommes ayant une maîtrise et un salaire >50K: 90.9090909090909


2.5.  % des personnes ne vivant pas en famille avec un diplôme universitaire (baccalauréat, maîtrise ou
doctorat) ?

In [None]:
len(dff[(dff['Lien.parente']=='Pas_dans_famille') & (dff['education'].isin(['Doctorate','Masters','Bachelors']))])/len(dff[(dff['Lien.parente']=='Pas_dans_famille')])*100

44.88549618320611

2.6. Race a la proportion la plus élevée de salaires ≤50K

In [None]:
subset_df_race_salary_counts = dff.groupby(['race', 'salaire']).size().unstack()

subset_df_race_salary_proportion = subset_df_race_salary_counts.div(subset_df_race_salary_counts.sum(axis=1), axis=0)

print(subset_df_race_salary_proportion)
max_race_salary_le_50k = subset_df_race_salary_proportion['<=50K'].idxmax()
max_race_salary_gt_50k = subset_df_race_salary_proportion['>50K'].idxmax()

print(f"Race avec la proportion la plus élevée de salaires ≤50K: {max_race_salary_le_50k}")
print(f"Race avec la proportion la plus élevée de salaires >50K: {max_race_salary_gt_50k}")



salaire         <=50K      >50K
race                           
Ameriendien  0.350000  0.650000
Asiatique    0.268519  0.731481
Autre        0.529412  0.470588
Blanc        0.283798  0.716202
Noir         0.411765  0.588235
Race avec la proportion la plus élevée de salaires ≤50K: Autre
Race avec la proportion la plus élevée de salaires >50K: Asiatique


2.7. Vérification de la différence des salaires des hommes mariées et les hommes ne vivant pas en famille  (test de chi carré)

In [None]:
#Calcul de la population et de la répartition des salaires chez les hommes mariés
print('Population',dff.loc[(dff['sexe']=='Masculin') & (dff['Lien.parente']=='Mari'),['salaire']].shape[0])
print('Répartition',dff.loc[(dff['sexe']=='Masculin') & (dff['Lien.parente']=='Mari'),['salaire']].value_counts(normalize=True))


Population 1988
Répartition salaire
>50K       0.841549
<=50K      0.158451
Name: proportion, dtype: float64


In [None]:
#Calcul de la population et de la répartition des salaires chez les hommes ne vivant pas en famille
print('Population',dff.loc[(dff['sexe']=='Masculin') & (dff['Lien.parente']=='Pas_dans_famille'),['salaire']].shape[0])
print('Répartition',dff.loc[(dff['sexe']=='Masculin') & (dff['Lien.parente']=='Pas_dans_famille'),['salaire']].value_counts(normalize=True))

Population 395
Répartition salaire
>50K       0.516456
<=50K      0.483544
Name: proportion, dtype: float64


In [None]:
import numpy as np
import scipy.stats as stats

# Données fournies
population_hommes_maries = 1988
population_hommes_seuls = 395

# Répartition des salaires
salaire_hommes_maries = {
    '>50K': 0.841549,
    '<=50K': 0.158451
}

salaire_hommes_seuls = {
    '>50K': 0.516456,
    '<=50K': 0.483544
}

# Calcul des fréquences observées
observed_hommes_maries = [
    population_hommes_maries * salaire_hommes_maries['>50K'],
    population_hommes_maries * salaire_hommes_maries['<=50K']
]

observed_hommes_seuls = [
    population_hommes_seuls * salaire_hommes_seuls['>50K'],
    population_hommes_seuls * salaire_hommes_seuls['<=50K']
]

# Création du tableau de contingence
observed = np.array([observed_hommes_maries, observed_hommes_seuls])

# Test du chi-deux
chi2, p_value, dof, expected = stats.chi2_contingency(observed)

# Affichage des résultats
print("Tableau de contingence observée :")
print(observed)

print("\nTableau de contingence attendu :")
print(expected)

print(f"\nValeur du chi-deux : {chi2}")
print(f"Degrés de liberté : {dof}")
print(f"P-value : {p_value}")

# Conclusion
alpha = 0.05  # Niveau de signification

if p_value < alpha:
    print("\nConclusion : On rejette l'hypothèse nulle. Il y a une différence significative dans la répartition des salaires entre les hommes mariés et les hommes seuls.")
else:
    print("\nConclusion : On ne rejette pas l'hypothèse nulle. Il n'y a pas de différence significative dans la répartition des salaires entre les hommes mariés et les hommes seuls.")


Tableau de contingence observée :
[[1672.999412  315.000588]
 [ 204.00012   190.99988 ]]

Tableau de contingence attendu :
[[1565.87287856  422.12712144]
 [ 311.12665344   83.87334656]]

Valeur du chi-deux : 206.28808698398385
Degrés de liberté : 1
P-value : 8.866121938976983e-47

Conclusion : On rejette l'hypothèse nulle. Il y a une différence significative dans la répartition des salaires entre les hommes mariés et les hommes seuls.


2.8. Quelle est la variance des âges dans notre jeu de données complet ? Quelle est sa valeur pour l’échantillon ?

In [None]:
var_pop_total = df['age'].var()
var_sample = dff['age'].var(ddof=1)

print(f"Variance du jeu de données complet: {var_pop_total}")
print(f"Variance de l'échantillon: {var_sample}")

Variance du jeu de données complet: 186.0614002487955
Variance de l'échantillon: 149.9124839124837


2.9. Corrélation années d’éducation salaire et âge salaire

In [None]:
# Codage de la colonne "salaire"
dff['salaire_coded'] = dff['salaire'].map({'<=50K': 1, '>50K': 2})

# Calcul des corrélations avec "salaire_coded"
correlations = dff[['age', 'nombre.education', 'salaire_coded']].corr()

# Afficher les corrélations
correlations


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dff['salaire_coded'] = dff['salaire'].map({'<=50K': 1, '>50K': 2})


Unnamed: 0,age,nombre.education,salaire_coded
age,1.0,0.083035,0.210755
nombre.education,0.083035,1.0,0.345756
salaire_coded,0.210755,0.345756,1.0


Les corrélations calculées sont les suivantes :

Corrélation entre âge et le salaire codé : 0.210
Corrélation entre années d'éducation et le salaire codé : 0.345
Interprétation :
L'attribut années d'éducation est plus corrélé avec le salaire que l'attribut âge (0.345 > 0.210). Cela indique que les années d'éducation influencent davantage la valeur du salaire que l'âge

2.10 Comparaison des ages
moyens dans les groupes de femmes à salaires ≤50K et >50K, respectivement.

In [None]:
# Filtrer les données pour les femmes uniquement
women_data = dff[dff['sexe'] == 'Feminin']

# Calcul des âges moyens pour les deux groupes de salaire
average_age_women = women_data.groupby('salaire')['age'].mean()

# Afficher les âges moyens
average_age_women


Unnamed: 0_level_0,age
salaire,Unnamed: 1_level_1
<=50K,38.461988
>50K,43.155125


2.11. Différence entre les écarts types des heures par semaine pour le jeux complet et pour l’échantillon

In [None]:
import numpy as np

# Calcul de l'écart type pour le jeu de données complet
std_full = df['heures.par.semaine'].std()

# Calcul de l'écart type pour l'échantillon
std_sample = dff['heures.par.semaine'].std()

# Différence entre les écarts types
std_difference = std_full - std_sample

std_full, std_sample, std_difference


(12.347428681730833, 11.724674593989215, 0.6227540877416171)

# **Partie 3: Tests d’hypothèses**

3.1. z-test avec les données suivante:  **population = échantillon**, **écart type de la population = 12,35** ,**niveau de signification = 5%** et **x_bar = Moyenne des heures de travail pour l'échantillon**
- H0(Hypothèse nulle) : La moyenne des heures travaillées par semaine dans la population est inférieure ou égale à 40 heures (μ≤40).

- H1(Hypothèse alternative) : La moyenne des heures travaillées par semaine dans la population est supérieure à 40 heures (μ>40).


In [None]:
import math
from scipy.stats import norm

# Données
n = 3256  # Taille de l'échantillon
sigma = 12.35  # Écart-type de la population
mu_0 = 40  # Moyenne hypothétique
x_bar = dff['heures.par.semaine'].mean()  # Moyenne observée dans l'échantillon


# Calcul du z-score
z = (x_bar - mu_0) / (sigma / math.sqrt(n))

# Calcul du p-value
p_value = 1 - norm.cdf(z)

# Résultats
print(f"Z-score : {z:.2f}")
print(f"P-value : {p_value:.4f}")

# Conclusion
if p_value < 0.05:
    print("On rejette l'hypothèse nulle H0 : la moyenne des heures travaillées est significativement supérieure à 40.")
else:
    print("On ne peut pas rejeter l'hypothèse nulle H0 : il n'y a pas de preuve suffisante que la moyenne dépasse 40.")


Z-score : 20.51
P-value : 0.0000
On rejette l'hypothèse nulle H0 : la moyenne des heures travaillées est significativement supérieure à 40.


3.2.  z-test avec les données suivante:  **population = les femmes de l'échantillon**, **écart type de la population = écart type de population feminine** ,**niveau de signification = 10%** et **x_bar = Moyenne des heures de travail pour les femmes **

- H0(Hypothèse nulle) : La moyenne des heures travaillées par semaine pour les femmes est inférieure ou égale à 40 heures (μ≤40).

- H1(Hypothèse alternative) : La moyenne des heures travaillées par semaine pour les femmes est supérieure à 40 heures (μ>40).

In [None]:
import math
from scipy.stats import norm

# Données
population_feminine = dff[dff['sexe'] == 'Feminin'] # Population feminine
n = dff[dff['sexe']=='Feminin'].shape[0]  # Taille population feminine
sigma = population_feminine['heures.par.semaine'].std()  # Écart-type des heures de la population
mu_0 = 40  # Moyenne hypothétique
x_bar = population_feminine['heures.par.semaine'].mean()  # Moyenne observée pour les femmes (à remplacer par ta valeur)


# Calcul du z-score
z = (x_bar - mu_0) / (sigma / math.sqrt(n))

# Calcul du p-value
p_value = 1 - norm.cdf(z)

# Résultats
print(f"Z-score : {z:.2f}")
print(f"P-value : {p_value:.4f}")

# Conclusion
if p_value < 0.10:
    print("On rejette l'hypothèse nulle H0 : les femmes travaillent, en moyenne, plus de 40 heures par semaine.")
else:
    print("On ne peut pas rejeter l'hypothèse nulle H0 : il n'y a pas de preuve suffisante que les femmes travaillent plus de 40 heures par semaine.")


Z-score : -2.16
P-value : 0.9847
On ne peut pas rejeter l'hypothèse nulle H0 : il n'y a pas de preuve suffisante que les femmes travaillent plus de 40 heures par semaine.


3.3. z-test avec les données suivante:  **taille = les femmes de l'échantillon**, **écart type de la population = 0.43** ,**niveau de signification = 5%**,  **mu_population = Moyenne des salaires pour l'echantillon**  et **x_bar = Moyenne des salaires pour les femmes**

- H0 (Hypothèse nulle) : Le salaire moyen des femmes est égal à celui de la population (μ femmes = μ population).

- H1 (Hypothèse alternative) : Le salaire moyen des femmes est différent de celui de la population (μ femmes = μ population).

In [None]:
import math
from scipy.stats import norm

#Encodage
dff['salaire_code'] = dff['salaire'].apply(lambda x: 1 if x == '<=50K' else 2)

# Données
mu_population = dff['salaire_code'].mean()  # Moyenne salaire de la population
x_bar_femmes = dff[dff['sexe'] == 'Feminin']['salaire_code'].mean() # Moyenne salaire des femmes
sigma = 0.43  # Écart-type de la population
n =dff[dff['sexe'] == 'Feminin'].shape[0]  # Taille de l'échantillon des femmes

# Calcul du z-score
z = (x_bar_femmes - mu_population) / (sigma / math.sqrt(n))

# Calcul du p-value (test bilatéral)
p_value = 2 * (1 - norm.cdf(abs(z)))

# Résultats
print(f"Z-score : {z:.2f}")
print(f"P-value : {p_value:.4f}")

# Conclusion
if p_value < 0.05:
    print("On rejette l'hypothèse nulle H0 : il existe un écart significatif entre le salaire moyen de la population et celui des femmes.")
else:
    print("On ne peut pas rejeter l'hypothèse nulle H0 : il n'y a pas de preuve suffisante d'un écart significatif.")


Z-score : -11.93
P-value : 0.0000
On rejette l'hypothèse nulle H0 : il existe un écart significatif entre le salaire moyen de la population et celui des femmes.


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dff['salaire_code'] = dff['salaire'].apply(lambda x: 1 if x == '<=50K' else 2)
