# First try - SGD -70% accuracy

In [33]:
import pandas as pd
from sklearn.linear_model import SGDClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from sklearn.impute import SimpleImputer  # Importez le module d'imputation

# Charger les données d'entraînement et de test
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

# Remplacer les valeurs dans la colonne "Sex"
train["Sex"] = train["Sex"].replace({"male": 0, "female": 1}).astype(float)
test["Sex"] = test["Sex"].replace({"male": 0, "female": 1}).astype(float)

# Séparer les caractéristiques (X) de la cible (y) pour l'ensemble d'entraînement
X_train = train.drop(["Name", "Ticket", "Cabin", "Embarked", "Survived"], axis=1)
y_train = train["Survived"]

# Séparer les caractéristiques de l'ensemble de test
X_test = test.drop(["Name", "Ticket", "Cabin", "Embarked"], axis=1)

# Créez un imputeur pour remplacer les valeurs manquantes par la médiane
imputer = SimpleImputer(strategy='median')

# Appliquez l'imputation sur les ensembles de données
X_train = imputer.fit_transform(X_train)
X_test = imputer.transform(X_test)

# Prétraitement des caractéristiques (normalisation) avec StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Créer et entraîner le modèle SGDClassifier
sgd_classifier = SGDClassifier()
sgd_classifier.fit(X_train, y_train)

# Prédire les étiquettes sur l'ensemble de test
y_pred = sgd_classifier.predict(X_test)
print(y_pred)

# Évaluer la performance du modèle
# Assurez-vous que vous avez les véritables valeurs cibles (Survived) pour évaluer le modèle.

submission = pd.DataFrame({
    "PassengerId": test["PassengerId"],  # Assurez-vous que le nom de la colonne est correct
    "Survived": y_pred
})

# Enregistrez le DataFrame dans un fichier CSV
submission.to_csv("gender_submission.csv", index=False)


[0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0 0 0 0 1 1 1 0 1 0 0 0 0 0 1 1 0 0 0
 0 0 0 0 1 0 1 1 0 0 0 1 1 0 0 1 1 0 0 0 0 0 1 0 0 0 0 1 1 0 0 1 1 0 0 0 1
 1 1 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 1 0 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0
 0 1 0 1 0 0 1 1 1 1 0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 1 1 0 0 0 1 0
 1 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 1 1 0 1 1 0 1 1 0 1
 0 1 0 0 0 0 1 0 0 1 0 1 0 0 0 0 1 1 1 0 1 0 0 1 0 0 0 0 0 0 0 0 1 1 0 0 0
 1 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 1 1 1 1 1 0 0 0 1 0 1 0 1 0 1 0 0 0 0 0 1
 0 0 0 1 1 0 0 0 0 0 0 1 0 1 0 0 1 0 0 0 0 0 0 0 1 1 0 0 1 0 0 1 0 0 1 0 0
 1 0 1 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 1 0 1 1 0 0 1 0 0
 1 0 1 0 0 0 0 0 0 1 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 1 1 0 1 1 0 1 1 0
 0 1 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 1 1 0 0 1 0 1 0 0 1 0 1 1 0 0 0
 1 0 1 0 1 0 0 1 0 0 0]


# Gaussian Kernel - 49% accuracy

In [36]:
import pandas as pd
from sklearn.linear_model import SGDClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from sklearn.kernel_approximation import RBFSampler
from sklearn.impute import SimpleImputer  # Importez le module d'imputation

# Charger les données d'entraînement et de test
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

# Remplacer les valeurs dans la colonne "Sex"
train["Sex"] = train["Sex"].replace({"male": 0, "female": 1}).astype(float)
test["Sex"] = test["Sex"].replace({"male": 0, "female": 1}).astype(float)

# Séparer les caractéristiques (X) de la cible (y) pour l'ensemble d'entraînement
X_train = train.drop(["Name", "Ticket", "Cabin", "Embarked", "Survived"], axis=1)
y_train = train["Survived"]

# Séparer les caractéristiques de l'ensemble de test
X_test = test.drop(["Name", "Ticket", "Cabin", "Embarked"], axis=1)

# Créez un imputeur pour remplacer les valeurs manquantes par la médiane
imputer = SimpleImputer(strategy='median')

# Appliquez l'imputation sur les ensembles de données
X_train = imputer.fit_transform(X_train)
X_test = imputer.transform(X_test)

# Prétraitement des caractéristiques (normalisation) avec StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Appliquer l'approximation du noyau RBF sur les caractéristiques
rbf_sampler = RBFSampler(n_components=100)  # Choisissez le nombre de composants souhaité
X_train = rbf_sampler.fit_transform(X_train)
X_test = rbf_sampler.transform(X_test)

# Créer et entraîner le modèle SGDClassifier
sgd_classifier = SGDClassifier()
sgd_classifier.fit(X_train, y_train)

# Prédire les étiquettes sur l'ensemble de test
y_pred = sgd_classifier.predict(X_test)
print(y_pred)

# Évaluer la performance du modèle
# Assurez-vous que vous avez les véritables valeurs cibles (Survived) pour évaluer le modèle.

submission = pd.DataFrame({
    "PassengerId": test["PassengerId"],  # Assurez-vous que le nom de la colonne est correct
    "Survived": y_pred
})

# Enregistrez le DataFrame dans un fichier CSV
submission.to_csv("gender_submission_Gaussian.csv", index=False)


[0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 1 1 0 0 1 0 0
 0 0 0 0 0 0 1 0 0 1 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0
 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 1 0 0
 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1
 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0
 0 0 0 0 0 0 1 0 1 1 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
 0 1 0 0 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0 1 0 0 1 0 0 0 1 1 0 1 1 0 0 1 1 1 1
 0 1 0 1 1 0 1 1 0 0 0 0 1 0 1 1 1 0 0 0 0 0 1 1 1 1 0 1 0 1 0 1 1 0 0 1 1
 0 1 0 1 0 1 1 0 1 0 0 0 0 1 0 0 0 0 0 1 1 0 1 0 1 1 0 0 1 0 1 0 1 1 0 0 1
 1 0 1 1 0 0 1 0 1 0 1 1 1 1 1 1 1 0 1 0 0 0 0 0 0 0 1 0 1 1 0 1 0 0 1 0 1
 0 1 0 1 0 1 1 0 1 1 0]


# Linear SVC - 76% accuracy

In [40]:
import pandas as pd
from sklearn.svm import LinearSVC
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer  # Importez SimpleImputer
from sklearn.metrics import accuracy_score

# Charger les données d'entraînement et de test
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

# Impute les valeurs manquantes dans les colonnes numériques avec la moyenne
imputer = SimpleImputer(strategy="mean")
train[["Age", "Fare"]] = imputer.fit_transform(train[["Age", "Fare"]])
test[["Age", "Fare"]] = imputer.transform(test[["Age", "Fare"]])

# Remplacer les valeurs dans la colonne "Sex"
train["Sex"] = train["Sex"].replace({"male": 0, "female": 1}).astype(float)
test["Sex"] = test["Sex"].replace({"male": 0, "female": 1}).astype(float)

# Séparer les caractéristiques (X) de la cible (y) pour l'ensemble d'entraînement
X_train = train.drop(["Name", "Ticket", "Cabin", "Embarked", "Survived"], axis=1)
y_train = train["Survived"]

# Séparer les caractéristiques de l'ensemble de test
X_test = test.drop(["Name", "Ticket", "Cabin", "Embarked"], axis=1)

# Prétraitement des caractéristiques (normalisation) avec StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Créer et entraîner le modèle LinearSVC
linear_svc = LinearSVC()
linear_svc.fit(X_train, y_train)

# Prédire les étiquettes sur l'ensemble de test
y_pred = linear_svc.predict(X_test)

submission = pd.DataFrame({
    "PassengerId": test["PassengerId"],
    "Survived": y_pred
})

# Enregistrez le DataFrame dans un fichier CSV
submission.to_csv("gender_submission_SVC.csv", index=False)
print(y_pred)


[0 0 0 0 1 0 1 0 1 0 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 0 1 0 0 0 0 0 1 1 0 0 1
 1 0 0 0 0 0 1 1 0 0 0 1 1 0 0 1 1 0 0 0 0 0 1 0 0 0 1 1 1 1 0 0 1 1 0 1 0
 1 1 0 1 0 1 0 0 0 0 0 0 1 1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 0 0 1 0 0 0 0 0 0
 1 1 1 1 0 0 1 0 1 1 0 1 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0
 0 0 1 0 0 1 0 0 1 1 0 1 1 0 1 0 0 1 0 0 1 1 0 0 0 0 0 1 1 0 1 1 0 0 1 0 1
 0 1 0 0 0 0 0 0 0 0 0 1 1 0 1 1 0 0 1 0 0 1 0 1 0 0 0 0 1 0 0 1 0 1 0 1 0
 1 0 1 1 0 1 0 0 0 1 0 0 0 0 0 0 1 1 1 1 0 0 0 0 1 0 1 1 1 0 0 0 0 0 0 0 1
 0 0 0 1 1 0 0 0 0 1 0 0 0 1 1 0 1 0 0 0 0 1 0 1 1 1 0 0 0 0 0 0 1 0 0 0 0
 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 1 0 0
 1 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 1 1 0 0 0 1 0 1 0 0 1 0 1 1 0 1 0 0 1 1 0
 0 1 0 0 1 1 1 0 0 0 0 0 1 1 0 1 0 0 0 0 1 1 0 0 0 1 0 1 0 0 1 0 1 1 0 0 0
 0 1 1 1 1 1 0 1 0 0 0]




# K-nearest neighbor - 77% 

In [45]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from sklearn.impute import SimpleImputer


# Charger les données d'entraînement et de test
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

# Imputer les valeurs manquantes dans les colonnes numériques avec la moyenne
imputer = SimpleImputer(strategy="mean")
train[["Age", "Fare"]] = imputer.fit_transform(train[["Age", "Fare"]])
test[["Age", "Fare"]] = imputer.transform(test[["Age", "Fare"]])

# Remplacer les valeurs dans la colonne "Sex"
train["Sex"] = train["Sex"].replace({"male": 0, "female": 1}).astype(float)
test["Sex"] = test["Sex"].replace({"male": 0, "female": 1}).astype(float)

# Séparer les caractéristiques (X) de la cible (y) pour l'ensemble d'entraînement
X_train = train.drop(["Name", "Ticket", "Cabin", "Embarked", "Survived"], axis=1)
y_train = train["Survived"]

# Séparer les caractéristiques de l'ensemble de test
X_test = test.drop(["Name", "Ticket", "Cabin", "Embarked"], axis=1)

# Prétraitement des caractéristiques (normalisation) avec StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Créer et entraîner le modèle K-Nearest Neighbors
knn_classifier = KNeighborsClassifier(n_neighbors=5)  # Vous pouvez ajuster le nombre de voisins (k) ici
knn_classifier.fit(X_train, y_train)

# Prédire les étiquettes sur l'ensemble de test
y_pred = knn_classifier.predict(X_test)

# Évaluer la performance du modèle
# Prédire les étiquettes sur l'ensemble de test
y_pred = knn_classifier.predict(X_test)

submission = pd.DataFrame({
    "PassengerId": test["PassengerId"],
    "Survived": y_pred
})

# Enregistrez le DataFrame dans un fichier CSV
submission.to_csv("gender_submission_KNN.csv", index=False)


# Grid Search

In [49]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

# Charger les données d'entraînement
train = pd.read_csv("train.csv")

# Imputer les valeurs manquantes dans les colonnes numériques avec la moyenne
imputer = SimpleImputer(strategy="mean")
train[["Age", "Fare"]] = imputer.fit_transform(train[["Age", "Fare"]])
test[["Age", "Fare"]] = imputer.transform(test[["Age", "Fare"]])

# Remplacer les valeurs dans la colonne "Sex"
train["Sex"] = train["Sex"].replace({"male": 0, "female": 1}).astype(float)
test["Sex"] = test["Sex"].replace({"male": 0, "female": 1}).astype(float)

# Séparer les caractéristiques (X) de la cible (y)
X = train.drop(["Survived", "Name", "Ticket", "Cabin", "Embarked"], axis=1)
y = train["Survived"]

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Prétraitement des caractéristiques (normalisation)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Créer le modèle K-NN
knn = KNeighborsClassifier()

# Définir la grille des hyperparamètres à explorer
param_grid = {
    'n_neighbors': [3, 5, 7, 9, 11],  # Différentes valeurs pour k
    'weights': ['uniform', 'distance'],  # Différentes options de poids
    'metric': ['euclidean', 'manhattan'],  # Différentes métriques de distance
}

# Créer un objet GridSearchCV pour la recherche des meilleurs hyperparamètres
grid_search = GridSearchCV(knn, param_grid, cv=5, scoring='accuracy')

# Exécuter la recherche des meilleurs hyperparamètres
grid_search.fit(X_train, y_train)

# Afficher les meilleurs hyperparamètres trouvés
print("Meilleurs hyperparamètres :", grid_search.best_params_)

# Utiliser le modèle avec les meilleurs hyperparamètres pour prédire
best_knn = grid_search.best_estimator_
y_pred = best_knn.predict(X_test)

# Évaluer la performance du modèle
accuracy = accuracy_score(y_test, y_pred)
print("Précision du modèle : {:.2f}%".format(accuracy * 100))


Meilleurs hyperparamètres : {'metric': 'manhattan', 'n_neighbors': 9, 'weights': 'uniform'}
Précision du modèle : 82.12%


# KNN fine-tuné -75%

In [51]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from sklearn.impute import SimpleImputer


# Charger les données d'entraînement et de test
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

# Imputer les valeurs manquantes dans les colonnes numériques avec la moyenne
imputer = SimpleImputer(strategy="mean")
train[["Age", "Fare"]] = imputer.fit_transform(train[["Age", "Fare"]])
test[["Age", "Fare"]] = imputer.transform(test[["Age", "Fare"]])

# Remplacer les valeurs dans la colonne "Sex"
train["Sex"] = train["Sex"].replace({"male": 0, "female": 1}).astype(float)
test["Sex"] = test["Sex"].replace({"male": 0, "female": 1}).astype(float)

# Séparer les caractéristiques (X) de la cible (y) pour l'ensemble d'entraînement
X_train = train.drop(["Name", "Ticket", "Cabin", "Embarked", "Survived"], axis=1)
y_train = train["Survived"]

# Séparer les caractéristiques de l'ensemble de test
X_test = test.drop(["Name", "Ticket", "Cabin", "Embarked"], axis=1)

# Prétraitement des caractéristiques (normalisation) avec StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Créer et entraîner le modèle K-Nearest Neighbors
knn_classifier = KNeighborsClassifier(n_neighbors=9, weights="uniform", metric="manhattan")  # Vous pouvez ajuster le nombre de voisins (k) ici
knn_classifier.fit(X_train, y_train)

# Prédire les étiquettes sur l'ensemble de test
y_pred = knn_classifier.predict(X_test)

# Évaluer la performance du modèle
# Prédire les étiquettes sur l'ensemble de test
y_pred = knn_classifier.predict(X_test)

submission = pd.DataFrame({
    "PassengerId": test["PassengerId"],
    "Survived": y_pred
})

# Enregistrez le DataFrame dans un fichier CSV
submission.to_csv("gender_submission_KNN_tuned.csv", index=False)
