<a href="https://colab.research.google.com/github/A-Mahla/serda-formation-python/blob/main/exercices/google_colab/Analyses_Statistiques_de_SPSS_vers_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Analyses Statistiques de SPSS vers Python

Lorsqu'on transfère des analyses de SPSS vers Python, on utilise souvent des bibliothèques comme pandas, statsmodels, scipy, et seaborn/matplotlib pour effectuer des analyses similaires. Voici quelques cas d'usage courants en SPSS et leurs équivalents en Python :

## 1. Importation des données


Syntax Editor :
```
GET FILE='/path/to/your/datafile.sav'.
```

En python, on utilise `pandas` pour lire des fichiers SPSS.

In [None]:
import pandas as pd

df = pd.read_spss('/path/to/your/datafile.sav')

In [None]:
# Lire un fichier SPSS
df = pd.read_spss('/path/to/your/datafile.sav')

# Lire un fichier CSV
df = pd.read_csv('/path/to/your/datafile.csv')

# Lire un fichier Excel
df = pd.read_excel('/path/to/your/datafile.xlsx')

## 2. Nettoyage des données


Syntax Editor : Manipulation de valeurs manquantes
```
MISSING VALUES var1 TO var5 (99).
```

En python, On utilise `pandas` pour gérer les valeurs manquantes.

In [None]:
df = df.replace(99, pd.NA)

In [None]:
# Remplacer une valeur spécifique par NaN
df.replace(99, pd.NA, inplace=True)

# Supprimer les lignes avec des valeurs manquantes
df.dropna(inplace=True)

# Remplir les valeurs manquantes avec la moyenne de la colonne
df.fillna(df.mean(), inplace=True)

> L'argument inplace=True permet de modifier directement le DataFrame. Sans celui-ci, la fonction retournerait un autre DataFrame (avec les modifications) mais laisserait le premier intact.

## 3. Statistiques descriptives


Syntax Editor : Calcul des statistiques descriptives.
```
DESCRIPTIVES VARIABLES=var1 TO var5.
```

En python, On utilise `pandas` pour les statistiques descriptives.

In [None]:
df.describe()

In [None]:
# Statistiques descriptives de base
df.describe()

# Statistiques pour une colonne spécifique
df['colonne'].describe()

# Fréquences pour les variables catégorielles
df['colonne_catégorielle'].value_counts()

## 4. Tests de corrélation


Syntax Editor : Calcul des corrélations entre variables.
```
CORRELATIONS /VARIABLES=var1 var2 var3.
```

En python, On utilise `pandas` ou `scipy` pour les corrélations.

In [None]:
correlation_matrix = df[['var1', 'var2', 'var3']].corr()

# ou pour un test spécifique
from scipy.stats import pearsonr

corr, p_value = pearsonr(df['var1'], df['var2'])


## 5. Régressions linéaires/logistiques


Syntax Editor : Exécution d'une régression linéaire.
```
REGRESSION /DEPENDENT var1 /METHOD=ENTER var2 var3.
```

En python, On utilise `sklearn` pour les régression linéaires/logistiques.

In [None]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression, LogisticRegression

# Example DataFrame setup
df = pd.DataFrame({
    'var1': np.random.normal(0, 1, 100),
    'var2': np.random.normal(0, 1, 100),
    'var3': np.random.normal(0, 1, 100),
    'var4': np.random.randint(0, 2, 100)
})

# Selecting features and target variable
X = df[['var1', 'var2']]
y = df['var3']

# Creating and fitting the linear regression model
model = LinearRegression()
model.fit(X, y)

# Printing model coefficients
print("Coefficients:", model.coef_)
print("Intercept:", model.intercept_)
print("linear prediction : ", model.predict(X))
print()

# Creating and fitting the logistic regression model
y = df['var4']
model = LogisticRegression()
model.fit(X, y)

# Printing model coefficients
print("Coefficients:", model.coef_)
print("Intercept:", model.intercept_)

print("logistic prediction : ", model.predict(X))

## 6. Tests t de Student


Syntax Editor : Exécution d'un test t pour comparer deux moyennes.
```
T-TEST GROUPS=groupvar(1 2) /VARIABLES=var1.
```

En python, on utilise `scipy` pour les tests t.

In [None]:
from scipy.stats import ttest_ind

group1 = df[df['groupvar'] == 1]['var1']
group2 = df[df['groupvar'] == 2]['var1']

t_stat, p_value = ttest_ind(group1, group2)

## 7. ANOVA


Syntax Editor : Analyse de la variance.
```
ONEWAY var1 BY groupvar.
```

En python, on utilise `statsmodels` pour l'ANOVA.

In [None]:
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

df = pd.DataFrame({
    'group': np.random.choice(['Group1', 'Group2', 'Group3'], size=100),
    'value': np.concatenate([np.random.normal(0, 1, 33), np.random.normal(1, 1, 33), np.random.normal(2, 1, 34)])
})

model = ols('value ~ C(group)', data=df).fit()
anova_results = anova_lm(model)
print(anova_results)

## 8. Analyses de clusters

In [None]:
from sklearn.cluster import KMeans

# Préparation des données
X = df[['var1', 'var2', 'var3']]

# Clustering avec K-Means
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)

# Ajouter les labels de clusters au DataFrame
df['cluster'] = kmeans.labels_

## 9. Analyses factorielles

In [None]:
from sklearn.decomposition import PCA

# Préparation des données
X = df[['var1', 'var2', 'var3']]

# Analyse en Composantes Principales (ACP)
pca = PCA(n_components=2)
principal_components = pca.fit_transform(X)

# Créer un DataFrame avec les composantes principales
df_pca = pd.DataFrame(data=principal_components, columns=['PC1', 'PC2'])

# Exercice Pratique

**Objectif : Appliquer les compétences acquises dans un projet pratique.**

*Description du projet : Analyse exploratoire, nettoyage des données, tests statistiques, régression linéaire et visualisation.*


Analyse des données du Titanic:

- Importation des données :
  - Charger les données du Titanic.
- Nettoyage des données :
  - Gérer les valeurs manquantes si nécessaire.
  - Transformer les colonnes nécessaires.
- Statistiques descriptives :
  - Obtenir des statistiques de base sur les variables principales.
- Tests statistiques :
  - Réaliser des tests de corrélation entre certaines variables.
  - Comparer les moyennes de certaines variables entre des groupes.
- Régression linéaire :
  - Ajuster un modèle de régression pour prédire la survie.
- Visualisation des données :
  - Créer des graphiques pour illustrer les résultats.

In [None]:
# Charger les données du Titanic
titanic_url = 'https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv'
df_titanic = pd.read_csv(titanic_url)

# Afficher les premières lignes du DataFrame
pd.set_option('display.max_columns', 8)
print(df_titanic.head())

############## Your Code ################





#########################################