# Rapport Final - Data Exploration & Visualisations
Ce notebook présente l'exploration graphique des datasets Titanic et Transactions, prêt à être exécuté sur Google Colab ou Jupyter.

## 1. Dataset Titanic
Nettoyage appliqué et visualisations

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Chargement et nettoyage
df = pd.read_csv('TITANIC.csv')
df['Age'] = df['Age'].fillna(df.groupby(['Sex','Pclass'])['Age'].transform('median'))
df['Deck'] = df['Cabin'].str[0].fillna('Unknown')
df['Embarked'] = df['Embarked'].fillna(df['Embarked'].mode()[0])

# 1. Distribution des âges
plt.hist(df['Age'], bins=30)
plt.title('Distribution des âges')
plt.xlabel('Âge')
plt.ylabel('Fréquence')
plt.show()

In [None]:
# 2. Passagers par classe
counts = df['Pclass'].value_counts().sort_index()
plt.bar(counts.index.astype(str), counts.values)
plt.title('Nombre de passagers par classe')
plt.xlabel('Classe')
plt.ylabel('Nombre')
plt.show()

In [None]:
# 3. Taux de survie par classe
rates = df.groupby('Pclass')['Survived'].mean()*100
plt.bar(rates.index.astype(str), rates.values)
plt.title('Taux de survie par classe (%)')
plt.xlabel('Classe')
plt.ylabel('Taux de survie')
plt.show()

In [None]:
# 4. Tarif par classe
data = [df[df['Pclass']==c]['Fare'] for c in sorted(df['Pclass'].unique())]
plt.boxplot(data, labels=[str(c) for c in sorted(df['Pclass'].unique())])
plt.title('Distribution des tarifs par classe')
plt.xlabel('Classe')
plt.ylabel('Fare')
plt.show()

In [None]:
# 5. Survivants vs Décédés par sexe
counts = df.groupby('Sex')['Survived'].value_counts().unstack(fill_value=0)
x = np.arange(len(counts))
plt.bar(x-0.2, counts[0], 0.4, label='Décédés')
plt.bar(x+0.2, counts[1], 0.4, label='Survivants')
plt.xticks(x, counts.index)
plt.title('Survivants vs Décédés par sexe')
plt.xlabel('Sexe')
plt.ylabel('Nombre')
plt.legend()
plt.show()

## 2. Dataset Transactions
Nettoyage appliqué et visualisations

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Chargement et nettoyage
df2 = pd.read_csv('Transactions_data_complet.csv', parse_dates=['TransactionStartTime'])
df2['TransactionStartTime'] = pd.to_datetime(df2['TransactionStartTime'], errors='coerce')

# 1. Histogramme du montant (linéaire)
plt.hist(df2['Amount'], bins=50)
plt.title('Distribution du montant (linéaire)')
plt.xlabel('Montant')
plt.ylabel('Fréquence')
plt.show()

In [None]:
# 2. Histogramme du montant (log)
plt.hist(df2['Amount'], bins=50)
plt.xscale('log')
plt.title('Distribution du montant (log)')
plt.xlabel('Montant (log)')
plt.ylabel('Fréquence')
plt.show()

In [None]:
# 3. Transactions par statut de fraude
counts = df2['FraudResult'].value_counts()
plt.bar(counts.index.astype(str), counts.values)
plt.title('Transactions par statut de fraude')
plt.xlabel('Fraude (0=non, 1=oui)')
plt.ylabel('Nombre')
plt.show()

In [None]:
# 4. Taux de fraude par canal
ct = pd.crosstab(df2['ChannelId'], df2['FraudResult'], normalize='index')*100
for col in ct.columns:
    plt.bar(ct.index, ct[col], label=f'FraudResult={col}')
plt.xticks(rotation=45)
plt.title('Taux de fraude par ChannelId (%)')
plt.xlabel('ChannelId')
plt.ylabel('Taux (%)')
plt.legend()
plt.show()

In [None]:
# 5. Heatmap de corrélation
corr = df2.select_dtypes(include=[np.number]).corr()
plt.imshow(corr, interpolation='nearest')
plt.colorbar()
plt.xticks(range(len(corr.columns)), corr.columns, rotation=90)
plt.title('Corrélation variables numériques')
plt.show()

In [None]:
# 6. Boxplot par catégorie
cats = df2['ProductCategory'].unique()
data = [df2[df2['ProductCategory']==c]['Amount'] for c in cats]
plt.boxplot(data, labels=cats)
plt.xticks(rotation=45)
plt.title('Montant par catégorie de produit')
plt.xlabel('Catégorie')
plt.ylabel('Montant')
plt.show()

In [None]:
# 7. Transactions par jour
df2['Date'] = df2['TransactionStartTime'].dt.date
ts = df2.groupby('Date').size()
plt.plot(ts.index, ts.values)
plt.xticks(rotation=45)
plt.title('Nombre de transactions par jour')
plt.xlabel('Date')
plt.ylabel('Nombre')
plt.show()