In [14]:
import pandas as pd
from sklearn.model_selection import train_test_split

# Dataset Iris

In [15]:
# Chargement des données
iris_df = pd.read_csv("iris.csv")
print(iris_df.head())



   sepal.length  sepal.width  petal.length  petal.width variety
0           5.1          3.5           1.4          0.2  Setosa
1           4.9          3.0           1.4          0.2  Setosa
2           4.7          3.2           1.3          0.2  Setosa
3           4.6          3.1           1.5          0.2  Setosa
4           5.0          3.6           1.4          0.2  Setosa


In [16]:
# Séparation des variables
# Créer un df Y avec seulement la colonne variety, car c'est ce qu'on veut prédire
y = iris_df['variety']
# Créer un df X avec toutes les colonnes sauf variety, pour pouvoir la prédire grâce à ces variables
X = iris_df.drop(labels='variety', axis=1)

#sépare les données en deux groupes :
#Entraînement (80%) : pour que le modèle apprenne.
#Test (20%) : pour évaluer s’il a bien appris.
#random_state=42 pour le hasard, sinon on aurait toujours le même découpage ("The Hitchhiker's Guide to the Galaxy" de Douglas Adams)
train_X_iris, test_X_iris, train_y_iris, test_y_iris = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=42)

# Dataset Titanic

In [17]:
titanic_df = pd.read_csv("titanic.csv")
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [18]:
from sklearn.impute import SimpleImputer

# Création des nouvelles colonnes
titanic_df['FamilyNb'] = titanic_df['SibSp'] + titanic_df['Parch']
titanic_df['Alone'] = (titanic_df['FamilyNb'] == 0)

# transformes les colonnes Sex et Embarked (qui sont catégorielles) en variables numériques binaires
sex_df = pd.get_dummies(titanic_df['Sex'], prefix='sex', drop_first=True) #drop_first pour éviter de créer deux colonnes
embarked_df = pd.get_dummies(titanic_df['Embarked'], prefix='embarked', dummy_na=True) # Créer une colonne par catégorie
titanic_df = pd.concat([titanic_df, embarked_df, sex_df], axis=1)

# Suppression des colonnes non utilisées
titanic_df.drop(['PassengerId', 'Name', 'Ticket', 'Cabin',
'SibSp', 'Parch', 'Sex', 'Embarked'], axis=1, inplace=True) # inplace remplace le df original

# Séparation train-test
y = titanic_df['Survived']
X = titanic_df.drop(['Survived'], axis=1)
train_X_titanic, test_X_titanic, train_y_titanic, test_y_titanic = (train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=42))

# Imputation des données manquantes
col_names = train_X_titanic.columns
titanic_imputer = SimpleImputer(strategy='mean')
titanic_imputer.fit(train_X_titanic)
train_X_titanic = titanic_imputer.transform(train_X_titanic)
test_X_titanic = titanic_imputer.transform(test_X_titanic)

# /!\ : En raison du passage par Scikit, les datasets sont maintenant des numpy.array et non des DataFrame Pandas !
# Il faut recréer les DataFrame pour garder les noms des colonnes
train_X_titanic = pd.DataFrame(data=train_X_titanic, columns=col_names)
test_X_titanic = pd.DataFrame(data=test_X_titanic, columns=col_names)

In [19]:
titanic_df.head()

Unnamed: 0,Survived,Pclass,Age,Fare,FamilyNb,Alone,embarked_C,embarked_Q,embarked_S,embarked_nan,sex_male
0,0,3,34.5,7.8292,0,True,False,True,False,False,True
1,1,3,47.0,7.0,1,False,False,False,True,False,False
2,0,2,62.0,9.6875,0,True,False,True,False,False,True
3,0,3,27.0,8.6625,0,True,False,False,True,False,True
4,1,3,22.0,12.2875,2,False,False,False,True,False,False
