# EDA (Exploratory Data Analysis) - Abalone Dataset

Ce notebook explore le dataset Abalone pour comprendre les caractéristiques des données et identifier les patterns pour la prédiction de l'âge.

# Imports

In [None]:
%load_ext autoreload
%autoreload 2

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

pd.set_option('display.max_columns', 500)
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 6)

# Data

In [None]:
# Load the dataset
df = pd.read_csv("../abalone.csv")

# Display basic information
print(f"Dataset shape: {df.shape}")
print(f"\nColumn names: {df.columns.tolist()}")
df.head()

# EDA

In [None]:
# Data types and missing values
print("Data Info:")
print(df.info())
print("\nMissing values:")
print(df.isnull().sum())
print("\nBasic statistics:")
df.describe()


## Distribution de la variable cible (Rings)


In [None]:
# Distribution of target variable (Rings = Age)
plt.figure(figsize=(14, 5))

plt.subplot(1, 2, 1)
sns.histplot(df['Rings'], bins=30, kde=True)
plt.title('Distribution des Rings (Age)')
plt.xlabel('Nombre de Rings')

plt.subplot(1, 2, 2)
sns.boxplot(y=df['Rings'])
plt.title('Boxplot des Rings')

plt.tight_layout()
plt.show()

print(f"Rings - Mean: {df['Rings'].mean():.2f}, Median: {df['Rings'].median()}, Std: {df['Rings'].std():.2f}")


## Analyse des variables catégorielles


In [None]:
# Sex distribution
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
df['Sex'].value_counts().plot(kind='bar')
plt.title('Distribution du Sexe')
plt.xlabel('Sexe')
plt.ylabel('Count')

plt.subplot(1, 2, 2)
sns.boxplot(data=df, x='Sex', y='Rings')
plt.title('Rings par Sexe')

plt.tight_layout()
plt.show()


## Corrélations entre les variables


In [None]:
# Correlation matrix (numerical features only)
numerical_cols = df.select_dtypes(include=[np.number]).columns
correlation_matrix = df[numerical_cols].corr()

plt.figure(figsize=(12, 10))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, fmt='.2f')
plt.title('Matrice de Corrélation')
plt.tight_layout()
plt.show()

# Features most correlated with Rings
print("\nCorrélation avec Rings (target):")
print(correlation_matrix['Rings'].sort_values(ascending=False))


## Conclusions

**Observations clés :**

1. **Distribution des Rings** : La variable cible suit une distribution approximativement normale, avec une légère asymétrie positive
2. **Variable Sexe** : Trois catégories (M, F, I pour infant) avec des distributions de rings similaires
3. **Corrélations** : Les variables de poids (Shell weight, Shucked weight, Whole weight) montrent les corrélations les plus fortes avec les Rings
4. **Features physiques** : Toutes les mesures physiques (longueur, diamètre, hauteur, poids) sont fortement corrélées entre elles

**Pour le modèle :**
- Utiliser toutes les features numériques car elles sont toutes corrélées avec la cible
- Encoder la variable Sex
- Possibilité de multicolinéarité entre les features de poids
