In [3]:
import os
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns



### Chargement des données


In [5]:
DATA_DIR = 'data'
TRAIN_DATA_PATH = os.path.join(DATA_DIR, 'train_submission.csv')

In [None]:
# Lecture des données d'entraînement
data = pd.read_csv(TRAIN_DATA_PATH)  

# Aperçu des données
print("Aperçu des données :")
data.head()

### Dataset Information


In [None]:
print(f"\nDimensions du dataset : {data.shape}")

### Valeurs manquantes


In [None]:
# Vérification des valeurs manquantes plot
plt.figure(figsize=(10, 5))
sns.heatmap(data.isnull(), cbar=False, cmap='viridis')
plt.title('Missing values in the dataset')
plt.show()


### Distribution des labels


In [None]:
# Distribution des labels
label_counts = data['Label'].value_counts()
# print("\nDistribution des labels :")
# print(label_counts)

# number of unique labels
print(f"\nNombre de classes : {len(label_counts)}")

# Visualisation de la distribution des classes
plt.figure(figsize=(18, 6))
sns.barplot(x=label_counts.index, y=label_counts.values, palette="viridis")
plt.xticks(rotation=90)
plt.tight_layout()
plt.title("Répartition des classes dans les données d'entraînement")
plt.xlabel("Classe")
plt.ylabel("Nombre d'échantillons")
plt.show()


### Longueur des échantillons


In [None]:
# Longueur des textes
data['text_length'] = data['Text'].apply(len)
print("\nStatistiques sur la longueur des textes :")
print(data['text_length'].describe())

# Visualisation de la distribution des longueurs de texte
plt.figure(figsize=(10, 6))
sns.histplot(data['text_length'], kde=True, bins=50, color='blue')
plt.title("Distribution des longueurs de texte")
plt.xlabel("Longueur du texte")
plt.ylabel("Fréquence")
plt.show()



In [None]:
# index du texte de longueur maximale
max_length_index = data['text_length'].idxmax()
print("\nExemple de texte le plus long :")
print(data.loc[max_length_index, 'Text'])

# nnombre d'échantillon: longueur > 1000
num_samples = data[data['text_length'] > 1000].shape[0]
print(f"\nNombre d'échantillons avec une longueur de texte > 1000 : {num_samples}")

In [None]:
# zoom sur les textes de longueur < 1000
plt.figure(figsize=(10, 6))
sns.histplot(data[data['text_length'] < 1000]['text_length'], kde=True, bins=50, color='blue')
plt.title("Distribution des longueurs de texte")
plt.xlabel("Longueur du texte")
plt.ylabel("Fréquence")
plt.show()
