In [None]:
import os
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

### Chargement des données


In [None]:
DATA_DIR = 'data'
TRAIN_DATA_PATH = os.path.join(DATA_DIR, 'train_submission.csv')

In [None]:
# Lecture des données d'entraînement
data = pd.read_csv(TRAIN_DATA_PATH)  

# Aperçu des données
print("Aperçu des données :")
data.head()

### Dataset Information


In [None]:
print(f"\nDimensions du dataset : {data.shape}")

### Valeurs manquantes


In [None]:
# Vérification des valeurs manquantes plot
plt.figure(figsize=(10, 5))
sns.heatmap(data.isnull(), cbar=False, cmap='viridis')
plt.title('Missing values in the dataset')
plt.show()


### Distribution des labels


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Calcul du nombre de classes
label_counts = data['Label'].value_counts()
num_classes = len(label_counts)
print(f"\nNombre de classes : {num_classes}")

# Visualisation sans suppression des classes rares
plt.figure(figsize=(18, 6))
sns.barplot(x=label_counts.index, y=label_counts.values, palette="viridis")

# Supprimer les labels sur l'axe X mais agrandir les valeurs sur l'axe Y
plt.xticks([], [])  # Cache les labels des classes
plt.yticks(fontsize=25)  # Augmente la taille des valeurs sur l'axe Y

# Titres et labels
# plt.title("Répartition des classes", fontsize=30)
plt.xlabel("Classe", fontsize=30)
plt.ylabel("Nombre d'échantillons", fontsize=30)

plt.tight_layout()
plt.show()


In [None]:
import pandas as pd

# Calcul du nombre d'occurrences et des pourcentages
label_counts = data['Label'].value_counts()
label_percentages = (label_counts / len(data)) * 100  # Conversion en pourcentage

# Création du tableau
df_distribution = pd.DataFrame({'Classe': label_counts.index, 
                                'Occurrences': label_counts.values, 
                                'Pourcentage (%)': label_percentages.values})

# Affichage du tableau
df_distribution

# Optionnel : Afficher seulement les premières lignes
# print(df_distribution.head(20))  # Pour voir uniquement les 20 classes les plus fréquentes


In [None]:
import pandas as pd

# Afficher toutes les lignes et colonnes sans troncature
pd.set_option("display.max_rows", None)  # Afficher toutes les lignes
pd.set_option("display.max_columns", None)  # Afficher toutes les colonnes
pd.set_option("display.max_colwidth", None)  # Afficher le contenu complet des colonnes
pd.set_option("display.expand_frame_repr", False)  # Évite que le tableau soit coupé sur plusieurs lignes

# Affichage du DataFrame complet
print(df_distribution)


In [None]:
# Distribution des labels
label_counts = data['Label'].value_counts()
# print("\nDistribution des labels :")
# print(label_counts)

# number of unique labels
print(f"\nNombre de classes : {len(label_counts)}")

# Visualisation de la distribution des classes
plt.figure(figsize=(18, 6))
sns.barplot(x=label_counts.index, y=label_counts.values, palette="viridis")
plt.xticks(rotation=135)
plt.tight_layout()
plt.title("Répartition des classes dans les données d'entraînement")
plt.xlabel("Classe")
plt.ylabel("Nombre d'échantillons")
plt.show()


In [None]:
fig, axes = plt.subplots(1, 2, figsize=(18, 6))

classes_plus_1000 = df_distribution[df_distribution["Occurrences"] >= 1000]
classes_moins_10 = df_distribution[df_distribution["Occurrences"] < 10]

sns.barplot(x=classes_plus_1000["Classe"], y=classes_plus_1000["Occurrences"], ax=axes[0], palette="viridis")
axes[0].set_title("Classes avec plus de 1000 instances", fontsize=24)
axes[0].set_xlabel("Classe", fontsize=22)
axes[0].set_ylabel("Occurrences", fontsize=22)
axes[0].tick_params(axis='x', rotation=90, labelsize=18)
axes[0].tick_params(axis='y', labelsize=18)

sns.barplot(x=classes_moins_10["Classe"], y=classes_moins_10["Occurrences"], ax=axes[1], palette="magma")
axes[1].set_title("Classes avec moins de 10 instances", fontsize=24)
axes[1].set_xlabel("Classe", fontsize=22)
axes[1].set_ylabel("Occurrences", fontsize=22)
axes[1].tick_params(axis='x', rotation=90, labelsize=18)
axes[1].tick_params(axis='y', labelsize=18)

plt.tight_layout()
plt.show()


### Longueur des échantillons


In [None]:
# Longueur des textes
data['text_length'] = data['Text'].apply(len)
print("\nStatistiques sur la longueur des textes :")
print(data['text_length'].describe())

# Visualisation de la distribution des longueurs de texte
plt.figure(figsize=(10, 6))
sns.histplot(data['text_length'], kde=False, bins=50, color='blue')
# plt.title("Distribution des longueurs de texte", fontsize=20)
plt.xlabel("Longueur du texte", fontsize = 18)
plt.ylabel("Fréquence", fontsize = 18)
plt.show()



In [None]:
# index du texte de longueur maximale
max_length_index = data['text_length'].idxmax()
print("\nExemple de texte le plus long :")
print(data.loc[max_length_index, 'Text'])

# nombre d'échantillons: longueur > 1000
num_samples = data[data['text_length'] > 1000].shape[0]
print(f"\nNombre d'échantillons avec une longueur de texte > 1000 : {num_samples}")

In [None]:
# zoom sur les textes de longueur < 1000
plt.figure(figsize=(10, 6))
sns.histplot(data[data['text_length'] < 1000]['text_length'], kde=True, bins=50, color='blue')
# plt.title("Distribution des longueurs de texte")
plt.xlabel("Longueur du texte", fontsize= 25)
plt.xticks(fontsize = 18)
plt.ylabel("Fréquence", fontsize = 25)
plt.yticks(fontsize = 18)
plt.show()


In [None]:
# Vérification si la colonne 'text_length' est disponible
if "text_length" in data.columns:
    # Calcul du nombre total d'instances
    total_instances = len(data)

    # Calcul du nombre d'instances ayant plus de 1000 mots
    instances_plus_1000 = (data["text_length"] > 1000).sum()

    # Calcul du pourcentage
    part_instances_plus_1000 = (instances_plus_1000 / total_instances) * 100

    # Affichage du résultat
    part_instances_plus_1000
else:
    "La colonne 'text_length' n'est pas présente dans les données."


In [None]:
part_instances_plus_1000

In [None]:
import pandas as pd

# Vérification si la colonne 'text_length' est disponible
if "text_length" in data.columns:
    # Comptage du nombre d'échantillons pour chaque longueur de texte
    text_length_distribution = data["text_length"].value_counts().sort_index()

    # Sauvegarde dans un fichier texte
    output_file = "output.txt"
    text_length_distribution.to_csv(output_file, header=["Occurrences"], index_label="Text Length", sep="\t")

    # Afficher le chemin du fichier généré
    output_file
else:
    "La colonne 'text_length' n'est pas présente dans les données."
