In [1]:
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, MinMaxScaler


In [2]:
from multilayerPerceptron import MLP
# Load and prepare data
iris = datasets.load_iris()

# Load features and labels
X = iris.data  # Features
y = iris.target.reshape(-1, 1)  # Labels

# Normalize features (X) between 0 and 1
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# Apply one-hot encoding to labels
encoder = OneHotEncoder(sparse_output=False)
y_encoded = encoder.fit_transform(y)

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_encoded, test_size=0.2)
    # Step 2: Create and train the MLP
mlp = MLP(num_inputs=4, hidden_layers=[5], num_outputs=3)  # 4 inputs, 1 hidden layer with 5 neurons, 3 outputs
mlp.train(X_train, y_train, epochs=250, learning_rate=0.1)

    # Step 3: Test the MLP on the test data
correct = 0
for i, input in enumerate(X_test):
    # Make a prediction
    output = mlp.forward_propagate(input)

        # Find the index of the predicted class (with the highest probability)
    predicted_class = np.argmax(output)
        
        # Find the index of the real class
    true_class = np.argmax(y_test[i])
        
    if predicted_class == true_class:
        correct += 1

    # Show results
print()
print("Accuracy on the test set: {:.2f}%".format((correct / len(X_test)) * 100))

ModuleNotFoundError: No module named 'Code'

In [5]:
from random import randint
nb = randint(1,29)
print(X_test[nb], y_test[nb])
output = mlp.forward_propagate(X_test[nb])
predicted_class = np.argmax(output)
true_class = np.argmax(y_test[nb])
print("Predicted class", predicted_class, "true class", true_class)

[0.47222222 0.375      0.59322034 0.58333333] [0. 1. 0.]
Predicted class 1 true class 1


Import des datas

In [22]:
# #On va maintenant utiliser d'autres data plus complexe.
# from ucimlrepo import fetch_ucirepo  
# # fetch dataset 
# adult = fetch_ucirepo(id=2) 
  
# # metadata and variables informations
# print(adult.metadata) 
# print(adult.variables) 

# # data (as pandas dataframes) 
# X = adult.data.features 
# y = adult.data.targets 

# #nb de val: 48842
# X_raccourci = X[0:1000]
# Y_raccourci = y[0:1000]

# #Normalisé les données afin de rendre l'algo plus éfficace et performant
# #scaler = MinMaxScaler()
# #X_scaled = scaler.fit_transform(X)

In [6]:
import pandas as pd
train = pd.read_csv('../input/titanic/train.csv')
# BEGIN: Préparation des données pour le modèle MLP
# Sélectionner les colonnes pertinentes et gérer les valeurs manquantes
train = train[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']]
train = train.dropna()

# Convertir les colonnes catégorielles en numériques
train['Sex'] = train['Sex'].map({'male': 0, 'female': 1})
train = pd.get_dummies(train, columns=['Embarked'], drop_first=True)

# Normaliser les caractéristiques
scaler = MinMaxScaler()
X_train = scaler.fit_transform(train.drop('Pclass', axis=1))  # Supposons que 'Pclass' est la cible pour cet exemple

# Appliquer one-hot encoding à la cible
encoder = OneHotEncoder(sparse_output=False)
y_train = encoder.fit_transform(train[['Pclass']])
# END: Préparation des données pour le modèle MLP

print(X_train)
# Le nombre de sorties doit être 3 (one-hot encoding pour les classes 1, 2, 3)
mlp = MLP(num_inputs=7, hidden_layers=[3,4], num_outputs=3)
mlp.train(X_train, y_train, epochs=250, learning_rate=0.1)

# Préparation des données de test pour le modèle MLP
test = pd.read_csv('../input/titanic/test.csv')
test = test[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']]
test = test.dropna()

# Convertir les colonnes catégorielles en numériques
test['Sex'] = test['Sex'].map({'male': 0, 'female': 1})
test = pd.get_dummies(test, columns=['Embarked'], drop_first=True)

# Normaliser les caractéristiques
X_test = scaler.transform(test.drop('Pclass', axis=1))  # Supposons que 'Pclass' est la cible pour cet exemple
print(X_test)
# Appliquer one-hot encoding à la cible
y_test = encoder.transform(test[['Pclass']])

# Tester le modèle sur les données de test
correct = 0
for i, input in enumerate(X_test):
    output = mlp.forward_propagate(input)
    predicted_class = np.argmax(output)
    true_class = np.argmax(y_test[i])
    if predicted_class == true_class:
        correct += 1

print("Précision sur l'ensemble de test: {:.2f}%".format((correct / len(X_test)) * 100))

[[0.         0.27117366 0.2        ... 0.01415106 0.         1.        ]
 [1.         0.4722292  0.2        ... 0.13913574 0.         0.        ]
 [1.         0.32143755 0.         ... 0.01546857 0.         1.        ]
 ...
 [1.         0.23347575 0.         ... 0.0585561  0.         1.        ]
 [0.         0.32143755 0.         ... 0.0585561  0.         0.        ]
 [0.         0.39683338 0.         ... 0.01512699 1.         0.        ]]
Training complete!
=====
[[0.         0.4282483  0.         ... 0.01528158 1.         0.        ]
 [1.         0.58532295 0.2        ... 0.01366309 0.         1.        ]
 [0.         0.77381252 0.         ... 0.01890874 1.         0.        ]
 ...
 [1.         0.34656949 0.         ... 0.01517579 0.         1.        ]
 [1.         0.48479517 0.         ... 0.21255864 0.         0.        ]
 [0.         0.47851219 0.         ... 0.01415106 0.         1.        ]]
Précision sur l'ensemble de test: 87.31%


In [14]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler, OneHotEncoder

# Charger les données
train = pd.read_csv('../input/titanic/train.csv')

# BEGIN: Préparation des données pour le modèle MLP
# Sélectionner les colonnes pertinentes et gérer les valeurs manquantes
train = train[['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']]
train = train.dropna()

# Convertir les colonnes catégorielles en numériques
train['Sex'] = train['Sex'].map({'male': 0, 'female': 1})
train = pd.get_dummies(train, columns=['Embarked'], drop_first=True)

# Séparer les caractéristiques (X) et la cible (y)
X = train.drop('Survived', axis=1)
y = train['Survived']

# Diviser les données en ensembles d'entraînement et de test (80% train, 20% test)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normaliser les caractéristiques
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)  # Appliquer la même transformation aux données de test

# Appliquer one-hot encoding à la cible (binaire dans ce cas)
encoder = OneHotEncoder(sparse_output=False)
y_train = encoder.fit_transform(y_train.values.reshape(-1, 1))
y_test = encoder.transform(y_test.values.reshape(-1, 1))  # Appliquer la même transformation aux données de test
# END: Préparation des données pour le modèle MLP

# Afficher les données transformées
print("Train data (X_train):\n", X_train)
print("Test data (X_test):\n", X_test)

# Initialiser et entraîner le modèle MLP
mlp = MLP(num_inputs=X_train.shape[1], hidden_layers=[3, 4, 2], num_outputs=2)  # 2 sorties pour les classes 0 (non survécu) et 1 (survécu)
mlp.train(X_train, y_train, epochs=250, learning_rate=0.1)

# Tester le modèle sur les données de test
correct = 0
for i, input in enumerate(X_test):
    output = mlp.forward_propagate(input)
    predicted_class = np.argmax(output)  # Classe prédite
    true_class = np.argmax(y_test[i])    # Classe réelle
    
    if predicted_class == true_class:
        correct += 1

# Afficher les résultats
accuracy = (correct / len(X_test)) * 100
print("\nAccuracy on the test set: {:.2f}%".format(accuracy))

Train data (X_train):
 [[0.5        1.         0.40939935 ... 0.05416439 0.         1.        ]
 [0.5        1.         0.52249309 ... 0.05074862 0.         1.        ]
 [0.5        0.         0.30887158 ... 0.02537431 0.         1.        ]
 ...
 [1.         0.         0.560191   ... 0.01571255 0.         1.        ]
 [0.5        0.         0.09525006 ... 0.07173122 0.         1.        ]
 [1.         0.         0.24604172 ... 0.01376068 0.         1.        ]]
Test data (X_test):
 [[0.         1.         0.2963056  ... 0.13526459 0.         0.        ]
 [0.         1.         0.67328474 ... 0.15276642 0.         0.        ]
 [0.         0.         0.6481528  ... 0.15546645 0.         1.        ]
 ...
 [0.         0.         0.45966323 ... 0.1036443  0.         1.        ]
 [0.5        1.         0.22090978 ... 0.04489301 0.         1.        ]
 [1.         0.         0.39683338 ... 0.11027246 0.         1.        ]]
Training complete!
=====

Accuracy on the test set: 83.22%


In [5]:
import pandas as pd

# Lire les deux fichiers CSV
df1 = pd.read_csv('../input/titanic/test.csv')
df2 = pd.read_csv('../input/titanic/gender_submission.csv')

# Fusionner les deux DataFrames sur la colonne 'PassengerId'
# Par défaut, cela fait une jointure interne (inner join)
merged_df = pd.merge(df1, df2, on='PassengerId', how='inner')

# Afficher le DataFrame fusionné
print(merged_df.head())

# Si tu veux enregistrer le DataFrame fusionné dans un nouveau fichier CSV
merged_df.to_csv('fichier_fusionné.csv', index=False)


   PassengerId  Pclass                                          Name     Sex  \
0          892       3                              Kelly, Mr. James    male   
1          893       3              Wilkes, Mrs. James (Ellen Needs)  female   
2          894       2                     Myles, Mr. Thomas Francis    male   
3          895       3                              Wirz, Mr. Albert    male   
4          896       3  Hirvonen, Mrs. Alexander (Helga E Lindqvist)  female   

    Age  SibSp  Parch   Ticket     Fare Cabin Embarked  Survived  
0  34.5      0      0   330911   7.8292   NaN        Q         0  
1  47.0      1      0   363272   7.0000   NaN        S         1  
2  62.0      0      0   240276   9.6875   NaN        Q         0  
3  27.0      0      0   315154   8.6625   NaN        S         0  
4  22.0      1      1  3101298  12.2875   NaN        S         1  
