# Heart attack prediction

In [14]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.impute import SimpleImputer
import numpy as np

In [20]:
# 1. Charger le fichier train.csv

train_data = pd.read_csv('train.csv')

# Colonnes d'intérêt
columns = ["_RFHLTH", "_PHYS14D", "_MENT14D", "_HLTHPLN", "_HCVU652", 
           "_TOTINDA", "_EXTETH3", "_ALTETH3", "_DENVST3", "_LTASTH1", 
           "_CASTHM1", "_ASTHMS1", "_DRDXAR2", "_RACEPR1", "_SEX", "_AGEG5YR", "TARGET"]

# Extraction des colonnes
train_data = train_data[columns]

In [21]:
# 2. Nettoyage des données : remplacer les NaN par la moyenne (ou une autre stratégie)
imputer = SimpleImputer(strategy='mean')  # Utiliser la moyenne pour les valeurs manquantes
train_data_cleaned = pd.DataFrame(imputer.fit_transform(train_data), columns=columns)

# Séparer les données en variables explicatives (X) et cible (y)
X = train_data_cleaned.drop("TARGET", axis=1)
y = train_data_cleaned["TARGET"]

# Diviser en ensemble d'entraînement et de validation
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

In [22]:
# 3. Entraîner un modèle (Random Forest Classifier)
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# Évaluer le modèle sur l'ensemble de validation
y_pred = model.predict(X_val)
accuracy = accuracy_score(y_val, y_pred)
print(f"Accuracy sur l'ensemble de validation: {accuracy:.2f}")

Accuracy sur l'ensemble de validation: 0.90


In [25]:
# 4. Charger le fichier test.csv

test_data = pd.read_csv('test.csv')

# Conserver uniquement les colonnes d'intérêt
test_data = test_data[["_RFHLTH", "_PHYS14D", "_MENT14D", "_HLTHPLN", "_HCVU652", 
                       "_TOTINDA", "_EXTETH3", "_ALTETH3", "_DENVST3", "_LTASTH1", 
                       "_CASTHM1", "_ASTHMS1", "_DRDXAR2", "_RACEPR1", "_SEX", "_AGEG5YR", "ID"]]

# Nettoyer les données (remplacer les NaN)
# test_data_cleaned = pd.DataFrame(imputer.transform(test_data.drop("ID", axis=1)), columns=columns[:-1])
test_data_cleaned = test_data.drop("ID", axis=1)

In [26]:
# 5. Effectuer les prédictions
test_predictions = model.predict(test_data_cleaned)

# Ajouter les prédictions au dataframe original
test_data["TARGET"] = test_predictions

# Exporter les résultats dans un fichier prediction.csv
output_file = 'prediction.csv'
test_data[["ID", "TARGET"]].to_csv(output_file, index=False)

print(f"Les prédictions ont été enregistrées dans le fichier {output_file}.")

Les prédictions ont été enregistrées dans le fichier prediction.csv.
