In [18]:
import pandas as pd
import statsmodels.api as sm

# Charger le fichier Excel
file_path = 'data/Données VI [GEN + MIG] + VD [SENSE + IND + INTER].xlsx'
df = pd.read_excel(file_path)

# Filtrer les données pour "1ST GEN" dans la colonne B et "EDI" dans la colonne C
filtered_df = df[(df['GEN (capital culturel) [VI]'] == '1ST GEN') & (df['MIG (ascendance migratoire) [VI]'] == 'EDI')]

# Sélectionner les colonnes pertinentes
# Colonne I : MOY SENSE [VD]
y = filtered_df['MOY SENSE [VD]'].astype(float)  # Convertir en float si nécessaire

# Créer une variable indépendante fictive pour l'intercept (une colonne de 1)
x = pd.DataFrame({'Intercept': [1] * len(y)}, index=y.index)  # Aligner les indices avec y
x = sm.add_constant(x)  # Ajouter une constante

# Ajuster le modèle de régression linéaire
model = sm.OLS(y, x).fit()

# Afficher le résumé des résultats de la régression
print(model.summary())


                            OLS Regression Results                            
Dep. Variable:         MOY SENSE [VD]   R-squared:                      -0.000
Model:                            OLS   Adj. R-squared:                 -0.000
Method:                 Least Squares   F-statistic:                       nan
Date:                Fri, 24 May 2024   Prob (F-statistic):                nan
Time:                        21:06:14   Log-Likelihood:                -47.266
No. Observations:                  61   AIC:                             96.53
Df Residuals:                      60   BIC:                             98.64
Df Model:                           0                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      4.3714      0.068     64.479      0.0

## Code pour comparer la motivation des étudiants d'origine imigrée selon le niveau d'étude des parents :

In [20]:
import pandas as pd
from scipy import stats

file_path = 'data/Données VI [GEN + MIG] + VD [SENSE + IND + INTER].xlsx'
df = pd.read_excel(file_path)

first_gen_edi = df[(df['GEN (capital culturel) [VI]'] == '1ST GEN') & (df['MIG (ascendance migratoire) [VI]'] == 'EDI')]['MOY SENSE [VD]'].astype(float)

second_gen_edi = df[(df['GEN (capital culturel) [VI]'] == '2ND GEN') & (df['MIG (ascendance migratoire) [VI]'] == 'EDI')]['MOY SENSE [VD]'].astype(float)

t_stat, p_value = stats.ttest_ind(first_gen_edi, second_gen_edi, nan_policy='omit')

print(f"T-statistic: {t_stat}")
print(f"P-value: {p_value}")

if p_value < 0.05:
    print("Il y a une différence statistiquement significative entre les deux groupes.")
else:
    print("Il n'y a pas de différence statistiquement significative entre les deux groupes.")


T-statistic: 0.06427219588276172
P-value: 0.9488680663294495
Il n'y a pas de différence statistiquement significative entre les deux groupes.


## Ce code effectue les étapes suivantes :
Charger les données depuis le fichier Excel.
Filtrer les données pour obtenir les valeurs de MOY SENSE [VD] des individus classés comme "1ST GEN" et "EDI".
Filtrer les données pour obtenir les valeurs de MOY SENSE [VD] des individus classés comme "2ND GEN" et "EDI".
Effectuer un test t pour comparer les moyennes des deux groupes.
Afficher les résultats du test t et une interprétation de ces résultats.


Résultats du Test T

T-statistic : 0.0643

P-value : 0.9489

Interprétation: 
La valeur de p (0.9489) est bien supérieure au seuil de signification couramment utilisé de 0.05. Par conséquent, nous n'avons pas suffisamment de preuves pour rejeter l'hypothèse nulle, ce qui signifie qu'il n'y a pas de différence statistiquement significative entre les valeurs moyennes de MOY SENSE [VD] des individus classés comme "1ST GEN" et "EDI" et ceux classés comme "2ND GEN" et "EDI".

En d'autres termes, les moyennes de MOY SENSE [VD] pour ces deux groupes sont très similaires selon les données disponibles.