In [None]:
import pandas as pd

In [None]:
from matplotlib import pyplot as plt

In [None]:
data_frame = pd.read_excel('data-sell4all.xlsx')

In [None]:
data_frame.head()

In [None]:
# Affiicher Nombre de Lignes et Colonnes
print("Nombre de lignes:", data_frame.shape[0])
print("Les colonnes du fichier CSV:", data_frame.columns.tolist())

In [None]:
# Afficher les types de données avant nettoyage
print("Initial data types:\n", data_frame.dtypes)

In [None]:
# Gérer les valeurs manquantes
data_frame = data_frame.dropna()

In [None]:
# Convertir les colonnes en types de données appropriés
data_frame[' Age '] = pd.to_numeric(data_frame[' Age '], errors='coerce')  # Convert Age to numeric, coerce errors
data_frame['Dépenses des clients'] = pd.to_numeric(data_frame['Dépenses des clients'], errors='coerce')  # Convert to numeric

In [None]:
# Supprimer les lignes où la conversion a échoué entraînant des NaN(not a number)
data_frame = data_frame.dropna()

In [None]:
# Réinitialiser l'index après le nettoyage
data_frame.reset_index(drop=True, inplace=True)

In [None]:
# conversion Age (float to int)
data_frame[' Age '] = data_frame[' Age '].astype(int)

In [None]:
#Types de données des champs du fichier CSV (Après Nettoyage)
print(data_frame.dtypes)

## Résumé Technique des Données Nettoyées

Après avoir nettoyé les données manquantes, voici un résumé technique du fichier CSV :

1. **Nombre de lignes :** Le nombre total d'enregistrements dans le DataFrame nettoyé.

2. **Colonnes du fichier CSV :** La liste des colonnes présentes dans le DataFrame après le nettoyage. Chaque colonne correspond à un attribut des données, comme "Pays", "Âge", "Genre", et "Dépenses des clients".

3. **Types de données des champs du fichier CSV :** Les types de données pour chaque colonne du DataFrame. Cela indique le type de données stockées dans chaque colonne, telles que :
   - **object :** Généralement des chaînes de caractères ou des valeurs mixtes.
   - **int :** Entiers.
   - **float :** Nombres à virgule flottante.

   Par exemple :
   - **Pays** est de type `object` car il contient des noms de pays.
   - **Âge** est de type `int`.
   - **Genre** est de type `object` car il contient des chaînes de caractères représentant les genres.
   - **Dépenses des clients** est de type `float` car il représente des montants monétaires.

4. **Détails après nettoyage :** Les informations affichées montrent les modifications effectuées lors du nettoyage, telles que la suppression des lignes avec des valeurs manquantes (`NaN`), et la conversion des données en types appropriés. Cela garantit que toutes les données restantes sont valides et cohérentes pour les analyses ultérieures.

In [None]:
# Calculer la médiane et la moyenne pour la colonne "Âge"
age_median = data_frame[' Age '].median()
age_mean = data_frame[' Age '].mean()

# Calculer la médiane et la moyenne pour la colonne "Dépenses des clients"
depenses_median = data_frame['Dépenses des clients'].median()
depenses_mean = data_frame['Dépenses des clients'].mean()

# Afficher les résultats
print("Médiane de l'âge :", age_median)
print("Moyenne de l'âge :", age_mean)
print("Médiane des dépenses des clients :", depenses_median)
print("Moyenne des dépenses des clients :", depenses_mean)

In [None]:
# Grouper les données par pays et calculer la somme des dépenses
depenses_par_pays = data_frame.groupby('Pays')['Dépenses des clients'].sum()

In [None]:
# Créer le graphique à barres
plt.figure(figsize=(10, 6))
depenses_par_pays.plot(kind='bar', color='green')
# Ajouter un titre et des étiquettes
plt.title('Dépenses des clients par pays')
plt.xlabel('Pays')
plt.ylabel('Dépenses des clients (en €)')
plt.xticks(rotation=45)
plt.ylim(0, 1000000)
plt.grid(axis='y', linestyle='--', alpha=0.7)
# Afficher le graphique
plt.tight_layout()
plt.show()

In [None]:
# Filtrer les données pour ne conserver que les lignes avec « Dépenses des clients » >= 10
data_frame = data_frame[data_frame['Dépenses des clients'] >= 10]

In [None]:
# Nettoyage des doublons
data_frame = data_frame.drop_duplicates()

In [None]:
data_frame = data_frame.dropna(how='all')

In [None]:
# enregistrement des données nettoyées dans un nouveau fichier CSV
data_frame.to_csv('donnees_nettoyes.csv', columns=['Pays', ' Age ', 'Genre', 'Dépenses des clients'], index=False)