In [None]:
import pandas as pd
import numpy as np

# --- DÉFINITION DE LA POPULATION MÈRE ---
N_mere = 2185

pour = 852
contre = 911
sans_opinion = 422

P_pour = pour / N_mere
P_contre = contre / N_mere
P_sans_opinion = sans_opinion / N_mere

print(f"P(Pour) réel: {P_pour*100:.2f}%")

opinions = ['Pour'] * pour + ['Contre'] * contre + ['Sans opinion'] * sans_opinion

population_mere = pd.DataFrame({'Opinion': opinions})
population_mere = population_mere.sample(frac=1).reset_index(drop=True)

# --- ÉCHANTILLONNAGE ALÉATOIRE SIMPLE (SRS) ---
n = 300

echantillon = population_mere.sample(n=n, random_state=42)

# --- CALCUL DES ESTIMATIONS DE L'ÉCHANTILLON (p̂) ---
estimations_echantillon = echantillon['Opinion'].value_counts(normalize=True) * 100

print("-" * 30)
print(f"Résultats de l'échantillon (n={n}) :")
print(estimations_echantillon.sort_index())

P(Pour) réel: 38.99%
------------------------------
Résultats de l'échantillon (n=300) :
Opinion
Contre          41.0
Pour            39.0
Sans opinion    20.0
Name: proportion, dtype: float64


In [None]:
import pandas as pd
import numpy as np

# --- DÉFINITION DE LA FONCTION LOCALE ---

adresse_github = 'https://raw.githubusercontent.com/TessAlsg/Sorbonne-M1-Analyse-de-donnees/refs/heads/main/Seance-05/Exercice/src/data/Echantillonnage-100-Echantillons.csv'

# --- UTILISATION DE LA FONCTION LOCALE ---
df_echantillons = ouvrirUnFichier(adresse_github)

# --- VÉRIFICATION DU RÉSULTAT ---
if not df_echantillons.empty:
    print("-" * 50)
    print("Aperçu des 5 premières lignes (chaque ligne est un échantillon) :")
    print(df_echantillons.head())
    print(f"\nLe DataFrame contient {len(df_echantillons)} échantillons.")

Tentative d'ouverture du fichier : https://raw.githubusercontent.com/TessAlsg/Sorbonne-M1-Analyse-de-donnees/refs/heads/main/Seance-05/Exercice/src/data/Echantillonnage-100-Echantillons.csv
Fichier chargé avec succès.
--------------------------------------------------
Aperçu des 5 premières lignes (chaque ligne est un échantillon) :
   Pour  Contre  Sans opinion
0   395     396           209
1   379     432           189
2   384     426           190
3   395     407           198
4   389     413           198

Le DataFrame contient 100 échantillons.


In [None]:
# --- CALCUL DES MOYENNES DES ÉCHANTILLONS ---
colonnes_opinions = ['Pour', 'Contre', 'Sans opinion']

print("--- Calcul des moyennes des 100 échantillons (nombres d'individus) ---")

moyennes_brutes = df_echantillons[colonnes_opinions].mean()
moyennes_arrondies = round(moyennes_brutes)

print("Moyennes arrondies (E[Nombre]) :")
print(moyennes_arrondies)

M_pour = moyennes_arrondies['Pour']
M_contre = moyennes_arrondies['Contre']
M_sans = moyennes_arrondies['Sans opinion']

--- Calcul des moyennes des 100 échantillons (nombres d'individus) ---
Moyennes arrondies (E[Nombre]) :
Pour            391.0
Contre          416.0
Sans opinion    193.0
dtype: float64


In [None]:
import pandas as pd
import numpy as np

# --- PARAMÈTRES ET DONNÉES PRÉCÉDENTES ---
z_c = 1.96

n = moyennes_arrondies.sum()

p_chapeau = moyennes_arrondies / n

frequences_mere = pd.Series({
    'Pour': P_pour,
    'Contre': P_contre,
    'Sans opinion': P_sans_opinion
})

# --- CALCUL DE L'INTERVALLE DE FLUCTUATION ---
print("-" * 50)
print(f"Calcul des Intervalles de Fluctuation (IF) à 95% (n={n:.0f})")

resultats_if = pd.DataFrame(index=p_chapeau.index)
resultats_if['p̂ (Estimé)'] = p_chapeau
resultats_if['P (Réel)'] = frequences_mere

marge_erreur = z_c * np.sqrt(p_chapeau * (1 - p_chapeau) / n)

resultats_if['Borne Inf. IF'] = round(p_chapeau - marge_erreur, 4)
resultats_if['Borne Sup. IF'] = round(p_chapeau + marge_erreur, 4)

print(resultats_if)

--------------------------------------------------
Calcul des Intervalles de Fluctuation (IF) à 95% (n=1000)
              p̂ (Estimé)  P (Réel)  Borne Inf. IF  Borne Sup. IF
Pour                0.391  0.389931         0.3608         0.4212
Contre              0.416  0.416934         0.3855         0.4465
Sans opinion        0.193  0.193135         0.1685         0.2175


In [None]:
import pandas as pd

# --- EXTRACTION ET CONVERSION DU PREMIER ÉCHANTILLON ---
premier_echantillon_series = df_echantillons.iloc[0]

print("Premier échantillon (Pandas Series) extrait :")
print(premier_echantillon_series)

premier_echantillon_list = list(premier_echantillon_series)

print("-" * 50)
print("Premier échantillon (Liste Python) :")
print(premier_echantillon_list)

Premier échantillon (Pandas Series) extrait :
Pour            395
Contre          396
Sans opinion    209
Name: 0, dtype: int64
--------------------------------------------------
Premier échantillon (Liste Python) :
[395, 396, 209]


In [None]:
import pandas as pd
import numpy as np

# --- PRÉPARATION DU PREMIER ÉCHANTILLON ---
colonnes_opinions = ['Pour', 'Contre', 'Sans_Opinion']

effectifs_echantillon = pd.Series(premier_echantillon_list, index=colonnes_opinions)
print("Effectifs du premier échantillon :")
print(effectifs_echantillon)

# --- CALCUL DE LA TAILLE ET DES FRÉQUENCES ---
n_echantillon_isole = effectifs_echantillon.sum()
print(f"\nSomme de la ligne (Taille de l'échantillon, n) : {n_echantillon_isole}")

frequences_echantillon_isole_brutes = effectifs_echantillon / n_echantillon_isole
p_chapeau_isole = round(frequences_echantillon_isole_brutes, 2)

print("\nFréquences observées (p̂) du seul échantillon (arrondies à 2 décimales) :")
print(p_chapeau_isole)

Effectifs du premier échantillon :
Pour            395
Contre          396
Sans_Opinion    209
dtype: int64

Somme de la ligne (Taille de l'échantillon, n) : 1000

Fréquences observées (p̂) du seul échantillon (arrondies à 2 décimales) :
Pour            0.40
Contre          0.40
Sans_Opinion    0.21
dtype: float64


In [None]:
import pandas as pd
from scipy import stats

# --- FONCTION DE CHARGEMENT DE FICHIER ---

        df = pd.read_csv(url, header=None)
        if len(df.columns) == 1:
            series = df.iloc[:, 0]
            series = pd.to_numeric(series, errors='coerce').dropna()
            print(f"Fichier {nom} chargé (Taille: {len(series)}).")
            return series
        else:
            print(f"Erreur: Le fichier {nom} contient plus d'une colonne. Retourne un DataFrame vide.")
            return pd.Series([])
    except Exception as e:
        print(f"Échec du chargement de {nom}. Erreur: {e}")
        return pd.Series([])

# --- LIENS GITHUB ---
url_test1 = 'https://raw.githubusercontent.com/TessAlsg/Sorbonne-M1-Analyse-de-donnees/refs/heads/main/Seance-05/Exercice/src/data/Loi-normale-Test-1.csv'
url_test2 = 'https://raw.githubusercontent.com/TessAlsg/Sorbonne-M1-Analyse-de-donnees/refs/heads/main/Seance-05/Exercice/src/data/Loi-normale-Test-2.csv'

# Chargement des données
distribution1 = charger_fichier_test(url_test1, "Loi-normale-Test-1")
distribution2 = charger_fichier_test(url_test2, "Loi-normale-Test-2")

Fichier Loi-normale-Test-1 chargé (Taille: 2000).
Fichier Loi-normale-Test-2 chargé (Taille: 2000).


In [None]:
print("\n" + "=" * 50)
print("--- APPLICATION DU TEST DE SHAPIRO-WILK ---")

# --- Test sur la Distribution 1 ---
if not distribution1.empty:
    stat_test1, p_value1 = stats.shapiro(distribution1)
    decision1 = "Normale (On accepte H0)" if p_value1 > 0.05 else "PAS Normale (On rejette H0)"
    print(f"\n[Test 1] (Loi-normale-Test-1.csv)")
    print(f"  Statistique W : {stat_test1:.4f}")
    print(f"  P-Value (Probabilité) : {p_value1:.4f}")
    print(f"  Conclusion (Seuil 5%) : {decision1}")

# --- Test sur la Distribution 2 ---
if not distribution2.empty:
    stat_test2, p_value2 = stats.shapiro(distribution2)
    decision2 = "Normale (On accepte H0)" if p_value2 > 0.05 else "PAS Normale (On rejette H0)"
    print(f"\n[Test 2] (Loi-normale-Test-2.csv)")
    print(f"  Statistique W : {stat_test2:.4f}")
    print(f"  P-Value (Probabilité) : {p_value2:.4f}")
    print(f"  Conclusion (Seuil 5%) : {decision2}")

print("=" * 50)
# Conclusion finale
if 'decision1' in locals() and 'decision2' in locals():
    print("RÉPONSE À LA QUESTION :")
    if decision1.startswith("Normale") and not decision2.startswith("Normale"):
        print("La distribution qui est considérée comme Normale est : Loi-normale-Test-1.csv")
    elif decision2.startswith("Normale") and not decision1.startswith("Normale"):
        print("La distribution qui est considérée comme Normale est : Loi-normale-Test-2.csv")
    elif decision1.startswith("Normale") and decision2.startswith("Normale"):
        print("Les deux distributions sont considérées comme Normales (p-values > 0.05).")
    else:
        print("Aucune des deux distributions n'est considérée comme Normale (p-values <= 0.05).")


--- APPLICATION DU TEST DE SHAPIRO-WILK ---

[Test 1] (Loi-normale-Test-1.csv)
  Statistique W : 0.9639
  P-Value (Probabilité) : 0.0000
  Conclusion (Seuil 5%) : PAS Normale (On rejette H0)

[Test 2] (Loi-normale-Test-2.csv)
  Statistique W : 0.2609
  P-Value (Probabilité) : 0.0000
  Conclusion (Seuil 5%) : PAS Normale (On rejette H0)
RÉPONSE À LA QUESTION :
Aucune des deux distributions n'est considérée comme Normale (p-values <= 0.05).
