<a href="https://colab.research.google.com/github/ugosamartins-commits/Sorbonne-M1-Analyse-Donnees-Portfolio-Ugo-Martins/blob/main/Seance_08/seance_08_code.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
#coding:utf8
import numpy as np
import pandas as pd
import scipy.stats as stats
import os
import urllib.request

# --- 0. TÉLÉCHARGEMENT DES DONNÉES (Pour Colab) ---
if not os.path.exists('data'):
    os.makedirs('data')
url = "https://raw.githubusercontent.com/MaximeForriez/Sorbonne-M1-Analyse-de-donnees/main/Seance-08/Exercice/src/data/Socioprofessionnelle-vs-sexe.csv"
try:
    urllib.request.urlretrieve(url, "data/Socioprofessionnelle-vs-sexe.csv")
except:
    print("Erreur de téléchargement. Vérifiez si le fichier est déjà uploadé.")

# --- 1. FONCTIONS LOCALES ---

def ouvrirUnFichier(nom):
    with open(nom, "r") as fichier:
        contenu = pd.read_csv(fichier)
    return contenu

def tableauDeContingence(nom, donnees):
    """
    Formate les données en tableau indexé par les catégories.
    """
    indexValeurs = {}
    for element in range(0, len(nom)):
        indexValeurs.update({element: nom[element]})
    # On crée le DF et on renome les index (lignes) avec les catégories
    return pd.DataFrame(donnees).rename(index = indexValeurs)

def calcul_chi2_manuel(tableau_obs):
    """
    BONUS : Algorithme manuel du Chi2
    1. Calcule le tableau théorique (indépendance)
    2. Calcule la distance (Observed - Expected)^2 / Expected
    """
    # Totaux
    total_general = tableau_obs.values.sum()
    sommes_lignes = tableau_obs.sum(axis=1).values
    sommes_colonnes = tableau_obs.sum(axis=0).values

    chi2_total = 0
    ddl = (len(sommes_lignes) - 1) * (len(sommes_colonnes) - 1)

    print("\n--- Détail du calcul manuel (Bonus) ---")

    # Double boucle pour parcourir chaque case (i, j)
    # i = ligne, j = colonne
    rows, cols = tableau_obs.shape
    for i in range(rows):
        for j in range(cols):
            obs = tableau_obs.iloc[i, j]

            # Calcul de l'effectif théorique (Attendu)
            # Formule : (Total Ligne * Total Colonne) / Total Général
            attendu = (sommes_lignes[i] * sommes_colonnes[j]) / total_general

            # Contribution au Chi2 : (O - E)² / E
            contribution = ((obs - attendu)**2) / attendu
            chi2_total += contribution

    return chi2_total, ddl

# --- 2. MAIN PROGRAM ---

# Chargement
raw_data = ouvrirUnFichier("./data/Socioprofessionnelle-vs-sexe.csv")

# Nettoyage et Formatage
# On s'assure que les colonnes numériques sont bien interprétées
df_clean = pd.DataFrame(raw_data)

# Création du tableau de contingence propre (Index = Catégorie, Colonnes = Femmes/Hommes)
# Note : on utilise la fonction locale demandée
tableau_croise = tableauDeContingence(
    df_clean["Catégorie"],
    {"Femmes": df_clean["Femmes"], "Hommes": df_clean["Hommes"]}
)

print("--- Tableau de Contingence Observé ---")
print(tableau_croise)

# --- Calcul des marges ---
print("\n--- Calcul des marges ---")
totaux_colonnes = tableau_croise.sum(axis=0)
totaux_lignes = tableau_croise.sum(axis=1)
total_N = totaux_colonnes.sum()

print(f"Total Général (N) : {total_N}")
print("Totaux Lignes :")
print(totaux_lignes.to_dict())

# --- Test du Chi2 (SCIPY - Méthode Automatique) ---
print("\n" + "="*30)
print("TEST DU CHI2 (Scipy - Automatique)")
print("="*30)
khi2, p_value, ddl, expected = stats.chi2_contingency(tableau_croise)

print(f"Statistique Chi2 : {khi2:.4f}")
print(f"Degrés de liberté : {ddl}")
print(f"P-value          : {p_value:.4e}")

if p_value < 0.05:
    print("=> Rejet de H0 : Il y a une dépendance significative entre Sexe et CSP.")
else:
    print("=> H0 acceptée : Indépendance.")

# --- Intensité de liaison (Phi2) ---
print("\n--- Intensité de liaison ---")
# Phi2 = Chi2 / N
phi2 = khi2 / total_N
print(f"Phi² de Pearson : {phi2:.4f}")
# V de Cramer (pour info, souvent plus lisible car entre 0 et 1)
v_cramer = np.sqrt(phi2 / (min(tableau_croise.shape) - 1))
print(f"V de Cramer     : {v_cramer:.4f}")


# ==============================================================================
# BONUS : ALGORITHME MANUEL DU CHI2
# ==============================================================================
print("\n" + "="*50)
print("BONUS : ALGORITHME MANUEL DU CHI2")
print("="*50)

# Appel de la fonction locale créée plus haut
chi2_manu, ddl_manu = calcul_chi2_manuel(tableau_croise)

print(f"\nRésultat Calcul Manuel : {chi2_manu:.4f}")
print(f"Résultat Scipy         : {khi2:.4f}")

diff = abs(chi2_manu - khi2)
if diff < 0.01:
    print("✅ SUCCÈS : L'algorithme manuel trouve le même résultat que Scipy !")
else:
    print("❌ ÉCART : Il y a une différence, vérifiez la formule.")

--- Tableau de Contingence Observé ---
                                                   Femmes  Hommes
Agriculteurs exploitants                               94     273
Artisans, commerçants et chefs d’entreprise           661    1295
Cadres et professions intellectuelles supérieures    2889    3797
Professions intermédiaires                           3918    3511
Employés                                             5770    1816
Ouvriers                                             1193    4638
Chômeurs n'ayant jamais travaillé                     167     166
Inactifs                                            13566   10645
Non classés                                            60      63

--- Calcul des marges ---
Total Général (N) : 54522
Totaux Lignes :
{'Agriculteurs exploitants': 367, 'Artisans, commerçants et chefs d’entreprise': 1956, 'Cadres et professions intellectuelles supérieures': 6686, 'Professions intermédiaires': 7429, 'Employés': 7586, 'Ouvriers': 5831, "Chômeurs n'ay