In [None]:
!pip install numpy
!pip install pandas

1. `!pip install numpy`:
   - Cette ligne installe la bibliothèque NumPy en utilisant le gestionnaire de packages pip de Python.
   - NumPy est une bibliothèque fondamentale pour le calcul numérique en Python, offrant des structures de données et des fonctions pour travailler efficacement avec des tableaux et des matrices.

2. `!pip install pandas`:
   - Cette ligne installe la bibliothèque pandas en utilisant le gestionnaire de packages pip de Python.
   - Pandas est une bibliothèque populaire pour la manipulation et l'analyse des données en Python, offrant des structures de données flexibles (comme les DataFrames) pour travailler avec des données tabulaires et des séries chronologiques.


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

1. `import numpy as np`:
   - Cette ligne importe la bibliothèque NumPy sous le pseudonyme `np`, ce qui est une pratique courante pour rendre le code plus concis en utilisant des abréviations.
   - NumPy est une bibliothèque fondamentale pour le calcul numérique en Python, offrant des structures de données et des fonctions pour travailler efficacement avec des tableaux et des matrices.

2. `import pandas as pd`:
   - Cette ligne importe la bibliothèque pandas sous le pseudonyme `pd`, une bibliothèque populaire pour la manipulation et l'analyse des données en Python, offrant des structures de données flexibles (comme les DataFrames) pour travailler avec des données tabulaires et des séries chronologiques.

3. `import matplotlib.pyplot as plt`:
   - Cette ligne importe la sous-bibliothèque pyplot de Matplotlib sous le pseudonyme `plt`, qui est souvent utilisée pour créer des graphiques et des visualisations dans Python.

4. `import seaborn as sns`:
   - Cette ligne importe la bibliothèque Seaborn sous le pseudonyme `sns`, qui est une extension de Matplotlib offrant des fonctionnalités supplémentaires pour la visualisation de données et la création de graphiques statistiques plus complexes.


In [None]:
shoes_dataset = pd.read_csv('Shoe prices.csv')

1. `shoes_dataset = pd.read_csv('Shoe prices.csv')`:
   - Cette ligne utilise la fonction `read_csv` de la bibliothèque pandas pour charger un fichier CSV appelé 'Shoe prices.csv' dans un DataFrame appelé `shoes_dataset`.
   - Le fichier CSV doit être situé dans le même répertoire que votre notebook ou vous devez fournir le chemin complet du fichier.
   - Cette opération est couramment utilisée pour importer des données tabulaires à partir de fichiers CSV dans Python pour les analyser et les manipuler à l'aide de pandas.


In [None]:
shoes_dataset.info()

1. `shoes_dataset.info()`:
   - Cette ligne utilise la méthode `info()` du DataFrame `shoes_dataset` pour afficher des informations sur les données.
   - Plus précisément, cette méthode affiche des détails tels que le nombre total d'entrées, le nombre de colonnes, les noms des colonnes, le type de données de chaque colonne, et s'il y a des valeurs manquantes (NaN) dans le DataFrame.
   - C'est une étape utile pour comprendre rapidement la structure des données, le type de données de chaque colonne et pour identifier d'éventuels problèmes de données manquantes.


In [None]:
shoes_dataset.columns

1. `shoes_dataset.columns`:
   - Cette ligne accède à l'attribut `columns` du DataFrame `shoes_dataset`, ce qui renvoie une liste des noms des colonnes dans le DataFrame.
   - C'est utile pour connaître les noms exacts des colonnes dans votre jeu de données, ce qui peut être nécessaire lors de la manipulation ou de l'analyse des données, comme sélectionner des colonnes spécifiques, renommer des colonnes, etc.


In [None]:
shoes_dataset.isnull().sum()

1. `shoes_dataset.isnull().sum()`:
   - Cette ligne utilise la méthode `isnull()` du DataFrame `shoes_dataset` pour vérifier la présence de valeurs manquantes (NaN) dans chaque colonne du DataFrame.
   - En ajoutant `.sum()` à la fin, cela calcule le nombre total de valeurs manquantes par colonne en les comptant (car les valeurs manquantes sont représentées par True dans le résultat de `isnull()` qui est équivalent à 1 lorsqu'elles sont sommées).
   - C'est une étape importante pour identifier et traiter les données manquantes dans votre jeu de données, car les données manquantes peuvent affecter la qualité de vos analyses et de vos modèles.


In [None]:
shoes_dataset.describe()

1. `shoes_dataset.describe()`:
   - Cette ligne utilise la méthode `describe()` du DataFrame `shoes_dataset` pour générer des statistiques descriptives sur les colonnes numériques de votre jeu de données.
   - Les statistiques générées incluent le nombre d'entrées, la moyenne, l'écart-type, les valeurs minimales et maximales, ainsi que les quartiles (25%, 50%, 75%) des données pour chaque colonne numérique.
   - Cela permet d'avoir un aperçu rapide des tendances centrales et de la dispersion des données numériques, ce qui peut être utile pour comprendre la distribution des valeurs et détecter d'éventuelles anomalies ou valeurs aberrantes.


In [None]:
shoes_dataset.shape

1. `shoes_dataset.shape`:
   - Cette ligne accède à l'attribut `shape` du DataFrame `shoes_dataset`, ce qui renvoie un tuple représentant les dimensions du DataFrame.
   - Plus précisément, le tuple retourné contient le nombre de lignes (nombre d'entrées) et le nombre de colonnes dans le DataFrame `shoes_dataset`.
   - Connaître la forme (shape) de votre jeu de données est important pour comprendre sa taille et sa structure, ce qui peut influencer la façon dont vous manipulez et analysez les données.


In [None]:
shoes_dataset.sample(4)

1. `shoes_dataset.sample(4)`:
   - Cette ligne utilise la méthode `sample()` du DataFrame `shoes_dataset` pour sélectionner un échantillon aléatoire de 4 lignes dans le DataFrame.
   - L'utilisation de `sample()` avec l'argument `4` signifie que vous souhaitez obtenir 4 lignes aléatoires de votre jeu de données.
   - Cela est utile pour examiner un échantillon aléatoire de données et obtenir un aperçu de leur structure et de leur contenu, notamment lorsqu'il s'agit de jeux de données volumineux.


In [None]:
# Model
shoes_dataset = shoe_dataset.drop('Model', axis=1)

1. `shoes_dataset = shoe_dataset.drop('Model', axis=1)`:
   - Cette ligne utilise la méthode `drop()` du DataFrame `shoe_dataset` pour supprimer la colonne 'Model' du DataFrame et stocke le résultat dans un nouveau DataFrame appelé `shoes_dataset`.
   - L'argument `axis=1` spécifie que vous voulez supprimer une colonne (l'axe 1 représente les colonnes), tandis que `axis=0` serait utilisé pour supprimer des lignes.
   - La suppression de colonnes peut être utile lorsqu'une colonne n'est pas nécessaire pour votre analyse ou votre modèle, ou si elle contient des données redondantes ou inutiles.


In [None]:
shoes_dataset.head()

1. `shoes_dataset.head()`:
   - Cette ligne utilise la méthode `head()` du DataFrame `shoes_dataset` pour afficher les premières lignes du DataFrame.
   - Par défaut, la méthode `head()` affiche les 5 premières lignes du DataFrame, ce qui permet d'avoir un aperçu rapide des données et de leur structure.
   - C'est une étape courante lors de l'exploration de données pour examiner les premières lignes et vérifier les noms des colonnes, les types de données et les valeurs des données.


In [None]:
# Brand
shoes_dataset['Brand'].value_counts()

1. `shoes_dataset['Brand'].value_counts()`:
   - Cette ligne utilise la méthode `value_counts()` de pandas sur la colonne 'Brand' du DataFrame `shoes_dataset`.
   - La méthode `value_counts()` compte le nombre d'occurrences de chaque valeur unique dans la colonne 'Brand' et renvoie ces comptages sous forme d'une série pandas, triée par ordre décroissant.
   - C'est une étape utile pour comprendre la répartition des marques de chaussures dans vos données, en identifiant les marques les plus fréquentes et leur fréquence respective.


In [None]:
shoes_dataset['Brand'].value_counts().plot(kind='bar', legend='false')

1. `shoes_dataset['Brand'].value_counts().plot(kind='bar', legend='false')`:
   - Cette ligne utilise la méthode `value_counts()` pour compter le nombre d'occurrences de chaque valeur unique dans la colonne 'Brand' du DataFrame `shoes_dataset`.
   - Ensuite, la méthode `plot()` est utilisée avec l'argument `kind='bar'` pour créer un graphique en barres représentant ces comptages.
   - L'argument `legend='false'` est utilisé pour ne pas afficher la légende dans le graphique, car il n'y a qu'une seule série de données (les comptages de marques) et la légende n'est pas nécessaire dans ce cas.
   - Cette visualisation permet de voir visuellement la distribution des marques de chaussures dans vos données sous forme de graphique à barres.


In [None]:
df['Brand'].value_counts().plot(kind='bar', legend='false')
plt.title('Brand Counts')
plt.xlabel('Brand names')
plt.ylabel('Counts')
plt.show()

1. `df['Brand'].value_counts().plot(kind='bar', legend='false')`:
   - Cette ligne utilise la méthode `value_counts()` pour compter le nombre d'occurrences de chaque valeur unique dans la colonne 'Brand' du DataFrame `df`.
   - Ensuite, la méthode `plot()` est utilisée avec l'argument `kind='bar'` pour créer un graphique en barres représentant ces comptages.
   - L'argument `legend='false'` est utilisé pour ne pas afficher la légende dans le graphique, car il n'y a qu'une seule série de données (les comptages de marques) et la légende n'est pas nécessaire dans ce cas.

2. `plt.title('Brand Counts')`:
   - Cette ligne définit le titre du graphique comme "Brand Counts", ce qui donne une indication sur ce que représente le graphique.

3. `plt.xlabel('Brand names')` et `plt.ylabel('Counts')`:
   - Ces lignes ajoutent des étiquettes aux axes x et y respectivement pour indiquer ce que chaque axe représente dans le graphique.

4. `plt.show()`:
   - Cette ligne affiche le graphique complet avec les données, le titre et les étiquettes d'axes.

Ces lignes combinées créent un graphique en barres montrant la distribution des marques ('Brand') dans votre DataFrame `df` en fonction de leur nombre d'occurrences.


In [None]:
# Type
shoes_dataset['Type'] = shoes_dataset['Type'].str.lower()

1. `shoes_dataset['Type'] = shoes_dataset['Type'].str.lower()`:
   - Cette ligne utilise la méthode `str.lower()` pour convertir toutes les valeurs de la colonne 'Type' du DataFrame `shoes_dataset` en minuscules.
   - Cela est utile pour normaliser les valeurs de la colonne 'Type' en minuscules, ce qui facilite la comparaison et la manipulation des données, car les comparaisons de chaînes de caractères seront insensibles à la casse.
   - Par exemple, si vous avez des valeurs comme 'Running', 'running', 'RUNNING', elles seront toutes converties en 'running' après cette opération.


In [None]:
shoes_dataset['Type'].value_counts()

1. `shoes_dataset['Type'].value_counts()`:
   - Cette ligne utilise la méthode `value_counts()` sur la colonne 'Type' du DataFrame `shoes_dataset`.
   - La méthode `value_counts()` compte le nombre d'occurrences de chaque valeur unique dans la colonne 'Type' et renvoie ces comptages sous forme d'une série pandas, triée par ordre décroissant.
   - Cela permet d'avoir un aperçu de la répartition des différents types de chaussures dans vos données, en affichant le nombre d'occurrences de chaque type.


In [None]:
shoes_dataset['Type'].value_counts().plot(kind='bar', legend='false', color = 'green')
plt.title('New Type Counts')
plt.xlabel('Type names')
plt.ylabel('Counts')
plt.show()

1. `shoes_dataset['Type'].value_counts().plot(kind='bar', legend='false', color='green')`:
   - Cette ligne utilise la méthode `value_counts()` pour compter le nombre d'occurrences de chaque valeur unique dans la colonne 'Type' du DataFrame `shoes_dataset`.
   - Ensuite, la méthode `plot()` est utilisée avec l'argument `kind='bar'` pour créer un graphique en barres représentant ces comptages.
   - L'argument `legend='false'` est utilisé pour ne pas afficher la légende dans le graphique, car il n'y a qu'une seule série de données (les comptages de types) et la légende n'est pas nécessaire dans ce cas.
   - L'argument `color='green'` définit la couleur des barres du graphique comme vert.

2. `plt.title('Type Counts')`:
   - Cette ligne définit le titre du graphique comme "Type Counts", ce qui donne une indication sur ce que représente le graphique.

3. `plt.xlabel('Type names')` et `plt.ylabel('Counts')`:
   - Ces lignes ajoutent des étiquettes aux axes x et y respectivement pour indiquer ce que chaque axe représente dans le graphique.

4. `plt.show()`:
   - Cette ligne affiche le graphique complet avec les données, le titre et les étiquettes d'axes.

Ces lignes combinées créent un graphique en barres de couleur verte montrant la distribution des différents types de chaussures dans votre DataFrame `shoes_dataset` en fonction de leur nombre d'occurrences.


In [None]:
## Gender
shoes_dataset['Gender'].value_counts()

1. `shoes_dataset['Gender'].value_counts()`:
   - Cette ligne utilise la méthode `value_counts()` sur la colonne 'Gender' du DataFrame `shoes_dataset`.
   - La méthode `value_counts()` compte le nombre d'occurrences de chaque valeur unique dans la colonne 'Gender' et renvoie ces comptages sous forme d'une série pandas, triée par ordre décroissant.
   - Cela permet d'avoir un aperçu de la répartition des différents genres (homme, femme, non binaire, etc.) dans vos données, en affichant le nombre d'occurrences de chaque genre.



In [None]:
shoes_dataset['Gender'].value_counts().plot(kind='pie', autopct='%1.1f%%', startangle = 90)
plt.title('Gender Distribution')
plt.axis('equal')
plt.show()

1. `shoes_dataset['Gender'].value_counts().plot(kind='pie', autopct='%1.1f%%', startangle=90)`:
   - Cette ligne utilise la méthode `value_counts()` pour compter le nombre d'occurrences de chaque valeur unique dans la colonne 'Gender' du DataFrame `shoes_dataset`.
   - Ensuite, la méthode `plot()` est utilisée avec l'argument `kind='pie'` pour créer un graphique en secteurs représentant la répartition des genres.
   - L'argument `autopct='%1.1f%%'` est utilisé pour afficher les pourcentages sur chaque secteur du graphique avec une précision d'un chiffre après la virgule.
   - L'argument `startangle=90` définit l'angle de départ du premier secteur à 90 degrés, ce qui fait que le secteur 'hommes' est positionné en haut à gauche du graphique.

2. `plt.title('Gender Distribution')`:
   - Cette ligne définit le titre du graphique comme "Gender Distribution", ce qui donne une indication sur ce que représente le graphique.

3. `plt.axis('equal')`:
   - Cette ligne ajuste l'aspect du graphique pour qu'il ait un aspect de cercle (un aspect égal), ce qui est important pour les graphiques en secteurs pour éviter toute déformation.

4. `plt.show()`:
   - Cette ligne affiche le graphique complet avec les données, le titre et les pourcentages sur les secteurs.

Ces lignes combinées créent un graphique en secteurs montrant la distribution des genres dans votre DataFrame `shoes_dataset`, avec les pourcentages indiqués sur chaque secteur.


In [None]:
## Size
shoes_dataset['Size'] = shoes_dataset['Size'].str.replace('US','')

1. `shoes_dataset['Size'] = shoes_dataset['Size'].str.replace('US','')`:
   - Cette ligne utilise la méthode `str.replace('US','')` pour supprimer le texte 'US' de toutes les valeurs de la colonne 'Size' dans le DataFrame `shoes_dataset`.
   - Cela est utile lorsque les tailles des chaussures sont enregistrées avec le préfixe 'US' et que vous souhaitez nettoyer les données pour ne conserver que les tailles numériques.
   - Par exemple, si une valeur dans la colonne 'Size' était 'US9', elle serait transformée en '9' après cette opération.

Cela explique comment cette ligne de code nettoie les valeurs de la colonne 'Size' dans votre DataFrame `shoes_dataset` en supprimant le préfixe 'US' pour obtenir des tailles numériques.


In [None]:
shoes_dataset.head()

1. `shoes_dataset.head()`:
   - Cette ligne de code affiche les cinq premières lignes du DataFrame `shoes_dataset` après toutes les transformations et opérations qui ont été effectuées sur les données.
   - Cela permet de visualiser rapidement les premières lignes du DataFrame pour vérifier les modifications apportées, telles que le nettoyage des données, les transformations de colonnes, etc.
   - Les données affichées comprennent les noms de colonnes et les valeurs pour les cinq premières entrées dans le DataFrame.

Cela vous donne un aperçu des données modifiées dans votre DataFrame `shoes_dataset` après avoir appliqué la fonction `head()`.


In [None]:
shoes_dataset['Size'] = shoes_dataset['Size'].astype(float)

1. `shoes_dataset['Size'] = shoes_dataset['Size'].astype(float)`:
   - Cette ligne de code utilise la méthode `astype(float)` pour convertir les valeurs de la colonne 'Size' du DataFrame `shoes_dataset` en type float.
   - La conversion en type float est utile lorsque vous avez des données numériques qui sont initialement stockées sous forme de chaînes de caractères ('string') ou d'autres types non numériques.
   - Cela permet de s'assurer que les valeurs de la colonne 'Size' sont numériques et peuvent être utilisées pour des calculs mathématiques ou des analyses basées sur des nombres.

Cela vous donne une explication claire de ce que fait cette ligne de code pour convertir les valeurs de la colonne 'Size' en type float dans votre DataFrame `shoes_dataset`.


In [None]:
shoes_dataset.info()

1. `shoes_dataset.info()`:
   - Cette ligne de code utilise la méthode `info()` pour afficher des informations sur le DataFrame `shoes_dataset`.
   - La sortie inclut des détails tels que le nombre total d'entrées non nulles dans chaque colonne, les noms des colonnes, les types de données de chaque colonne, et la mémoire utilisée par le DataFrame.
   - Ces informations sont utiles pour comprendre la structure de votre ensemble de données, notamment pour vérifier les types de données de chaque colonne et repérer les valeurs manquantes (NaN).
   - Les types de données indiqués peuvent être 'int64' pour les entiers, 'float64' pour les nombres décimaux, 'object' pour les chaînes de caractères, etc.

Cela vous donne une vue d'ensemble des types de données et de la structure de votre DataFrame `shoes_dataset`, ce qui est utile lors de l'exploration et de la manipulation des données.


In [None]:
## Color
shoes_dataset['Color'] = shoes_dataset['Color'].str.lower()

1. `shoes_dataset['Color'] = shoes_dataset['Color'].str.lower()` :
   - Cette ligne de code utilise la méthode `str.lower()` pour convertir toutes les valeurs de la colonne 'Color' du DataFrame `shoes_dataset` en minuscules.
   - La méthode `str.lower()` est utilisée sur une colonne de type chaîne de caractères ('string') pour normaliser la casse des chaînes de caractères.
   - Cela permet de garantir que les valeurs de la colonne 'Color' sont uniformes en termes de casse (minuscules), ce qui facilite la manipulation et l'analyse des données, en évitant les problèmes de casse dans les opérations de recherche ou de filtrage.

Cette ligne de code est utile lorsque vous souhaitez uniformiser la casse des données dans une colonne de chaînes de caractères, comme la colonne 'Color' dans votre DataFrame `shoes_dataset`.


In [None]:
shoes_dataset['Color'].value_counts()

1. `shoes_dataset['Color'].value_counts()`:
   - Cette ligne utilise la méthode `value_counts()` sur la colonne 'Color' du DataFrame `shoes_dataset`.
   - La méthode `value_counts()` compte le nombre d'occurrences de chaque valeur unique dans la colonne 'Color' et renvoie ces comptages sous forme d'une série pandas, triée par ordre décroissant.
   - Cela permet de voir la distribution des différentes couleurs utilisées pour les chaussures dans votre ensemble de données, en affichant le nombre d'occurrences de chaque couleur.

Cela vous donne un aperçu de la répartition des couleurs dans la colonne 'Color' de votre DataFrame `shoes_dataset`, ce qui peut être utile pour des analyses sur les couleurs les plus couramment utilisées.


In [None]:
shoes_dataset['Color'].value_counts().plot(kind='bar', legend='false',  = 'green')
plt.title('Color Counts')
plt.xlabel('Color names')
plt.ylabel('Counts')
plt.show()

1. `shoes_dataset['Color'].value_counts().plot(kind='bar', legend=False, color='green')`:
   - Cette ligne de code utilise la méthode `value_counts()` pour compter le nombre d'occurrences de chaque valeur unique dans la colonne 'Color' du DataFrame `shoes_dataset`.
   - Ensuite, la méthode `plot()` est utilisée avec l'argument `kind='bar'` pour créer un graphique en barres représentant ces comptages.
   - L'argument `legend=False` est utilisé pour ne pas afficher la légende dans le graphique, car il n'y a qu'une seule série de données (les comptages de couleurs) et la légende n'est pas nécessaire dans ce cas.
   - L'argument `color='green'` définit la couleur des barres du graphique comme vert.

2. `plt.title('Color Counts')`:
   - Cette ligne définit le titre du graphique comme "Color Counts", ce qui donne une indication sur ce que représente le graphique.

3. `plt.xlabel('Color names')` et `plt.ylabel('Counts')`:
   - Ces lignes ajoutent des étiquettes aux axes x et y respectivement pour indiquer ce que chaque axe représente dans le graphique.

4. `plt.show()`:
   - Cette ligne affiche le graphique complet avec les données, le titre et les étiquettes d'axes.

Ces lignes combinées créent un graphique en barres de couleur verte montrant la distribution des différentes couleurs dans votre DataFrame `shoes_dataset` en fonction de leur nombre d'occurrences.


In [None]:
def add_Color(inpt):
    if inpt=='black' or inpt=='white' or inpt=='grey' or inpt=='black/white' or inpt=='pink' :
        return inpt
    else :
        return 'other'
shoes_dataset['Color'] = shoes_dataset['Color'].apply(add_Color)

1. Fonction `add_Color` :
   - Cette fonction prend en entrée un élément `inpt` de la colonne 'Color' et vérifie s'il appartient à une liste de couleurs spécifiques ('black', 'white', 'grey', 'black/white', 'pink').
   - Si `inpt` est l'une de ces couleurs spécifiques, la fonction renvoie simplement cette couleur (`inpt`).
   - Sinon, la fonction renvoie la chaîne de caractères 'other'.

2. `shoes_dataset['Color'] = shoes_dataset['Color'].apply(add_Color)` :
   - Cette ligne applique la fonction `add_Color` à chaque élément de la colonne 'Color' du DataFrame `shoes_dataset` en utilisant la méthode `apply()`.
   - La méthode `apply()` permet d'appliquer une fonction personnalisée à chaque élément d'une colonne (ou d'un DataFrame) et de remplacer les valeurs de la colonne par les valeurs renvoyées par la fonction.
   - Ainsi, cette ligne remplace chaque valeur de la colonne 'Color' par le résultat de la fonction `add_Color`, qui est soit la couleur d'origine (si elle est dans la liste spécifique), soit 'other' (si elle n'est pas dans la liste).

Cela montre comment la fonction `add_Color` est utilisée pour regrouper certaines couleurs spécifiques et les autres sous la catégorie 'other' dans la colonne 'Color' de votre DataFrame `shoes_dataset`.


In [None]:
shoes_dataset['Color'].value_counts()

1. `shoes_dataset['Color'].value_counts()`:
   - Cette ligne utilise la méthode `value_counts()` sur la colonne 'Color' du DataFrame `shoes_dataset`.
   - La méthode `value_counts()` compte le nombre d'occurrences de chaque valeur unique dans la colonne 'Color' et renvoie ces comptages sous forme d'une série pandas, triée par ordre décroissant.
   - Cela permet de voir la distribution des différentes couleurs utilisées pour les chaussures dans votre ensemble de données, en tenant compte de la fonction `add_Color` qui a regroupé certaines couleurs spécifiques sous la catégorie 'other'.

Cela vous donne un aperçu de la répartition des couleurs dans la colonne 'Color' de votre DataFrame `shoes_dataset` après l'application de la fonction `add_Color`, ce qui peut être utile pour des analyses sur les couleurs les plus couramment utilisées après la transformation.


In [None]:
shoes_dataset['Color'].value_counts().plot(kind='bar', legend='false',  = 'green')
plt.title('New Color Counts')
plt.xlabel('Color names')
plt.ylabel('Counts')
plt.show()

1. `shoes_dataset['Color'].value_counts().plot(kind='bar', legend=False, color='green')` :
   - Cette ligne de code utilise la méthode `value_counts()` pour compter le nombre d'occurrences de chaque valeur unique dans la colonne 'Color' du DataFrame `shoes_dataset`.
   - Ensuite, la méthode `plot()` est utilisée avec l'argument `kind='bar'` pour créer un graphique en barres représentant ces comptages.
   - L'argument `legend=False` est utilisé pour ne pas afficher la légende dans le graphique, car il n'y a qu'une seule série de données (les comptages de couleurs) et la légende n'est pas nécessaire dans ce cas.
   - L'argument `color='green'` définit la couleur des barres du graphique comme vert.

2. `plt.title('New Color Counts')` :
   - Cette ligne définit le titre du graphique comme "New Color Counts", ce qui donne une indication sur ce que représente le graphique.

3. `plt.xlabel('Color names')` et `plt.ylabel('Counts')` :
   - Ces lignes ajoutent des étiquettes aux axes x et y respectivement pour indiquer ce que chaque axe représente dans le graphique.

4. `plt.show()` :
   - Cette ligne affiche le graphique complet avec les données, le titre et les étiquettes d'axes.

Ces lignes combinées créent un graphique en barres de couleur verte montrant la distribution des différentes couleurs dans votre DataFrame `shoes_dataset` en fonction de leur nombre d'occurrences après l'application de la fonction `add_Color`.


In [None]:
## Material
shoes_dataset['Material'] = shoes_dataset['Material'].str.lower()

1. `shoes_dataset['Material'] = shoes_dataset['Material'].str.lower()` :
   - Cette ligne de code utilise la méthode `str.lower()` pour convertir toutes les valeurs de la colonne 'Material' du DataFrame `shoes_dataset` en minuscules.
   - La méthode `str.lower()` est utilisée sur une colonne de type chaîne de caractères ('string') pour normaliser la casse des chaînes de caractères.
   - Cela permet de garantir que les valeurs de la colonne 'Material' sont uniformes en termes de casse (minuscules), ce qui facilite la manipulation et l'analyse des données, en évitant les problèmes de casse dans les opérations de recherche ou de filtrage.

Cette ligne de code est utile lorsque vous souhaitez uniformiser la casse des données dans une colonne de chaînes de caractères, comme la colonne 'Material' dans votre DataFrame `shoes_dataset`.


In [None]:
shoes_dataset['Material'].value_counts()

1. `shoes_dataset['Material'].value_counts()`:
   - Cette ligne utilise la méthode `value_counts()` sur la colonne 'Material' du DataFrame `shoes_dataset`.
   - La méthode `value_counts()` compte le nombre d'occurrences de chaque valeur unique dans la colonne 'Material' et renvoie ces comptages sous forme d'une série pandas, triée par ordre décroissant.
   - Cela permet de voir la distribution des différents matériaux utilisés pour les chaussures dans votre ensemble de données, en affichant le nombre d'occurrences de chaque matériau.

Cela vous donne un aperçu de la répartition des matériaux dans la colonne 'Material' de votre DataFrame `shoes_dataset`, ce qui peut être utile pour des analyses sur les types de matériaux les plus couramment utilisés.


In [None]:
shoes_dataset['Material'].value_counts().plot(kind='bar', legend='false',  = 'green')
plt.title('Material Counts')
plt.xlabel('Material names')
plt.ylabel('Counts')
plt.show()

1. `shoes_dataset['Material'].value_counts().plot(kind='bar', legend=False, color='green')`:
   - Cette ligne utilise la méthode `value_counts()` pour compter le nombre d'occurrences de chaque valeur unique dans la colonne 'Material' du DataFrame `shoes_dataset`.
   - Ensuite, la méthode `plot()` est utilisée avec l'argument `kind='bar'` pour créer un graphique en barres représentant ces comptages.
   - L'argument `legend=False` est utilisé pour ne pas afficher la légende dans le graphique, car il n'y a qu'une seule série de données (les comptages de matériaux) et la légende n'est pas nécessaire dans ce cas.
   - L'argument `color='green'` définit la couleur des barres du graphique comme vert.

2. `plt.title('Material Counts')`:
   - Cette ligne définit le titre du graphique comme "Material Counts", ce qui donne une indication sur ce que représente le graphique.

3. `plt.xlabel('Material names')` et `plt.ylabel('Counts')`:
   - Ces lignes ajoutent des étiquettes aux axes x et y respectivement pour indiquer ce que chaque axe représente dans le graphique.

4. `plt.show()`:
   - Cette ligne affiche le graphique complet avec les données, le titre et les étiquettes d'axes.

Ces lignes combinées créent un graphique en barres de couleur verte montrant la distribution des différents matériaux dans votre DataFrame `shoes_dataset` en fonction de leur nombre d'occurrences.


In [None]:
def add_Material(inpt):
    if inpt=='mech' or inpt=='leather' or inpt=='canvas' or inpt=='primeknit' or inpt=='synthetic' or inpt=='suede' or inpt=='knit' or inpt=='nylon' :
        return inpt
    else :
        return 'other'
shoes_dataset['Material'] = shoes_dataset['Material'].apply(add_Material)

1. Fonction `add_Material`:
   - Cette fonction prend en entrée un élément `inpt` de la colonne 'Material' et vérifie s'il appartient à une liste de matériaux spécifiques ('mech', 'leather', 'canvas', 'primeknit', 'synthetic', 'suede', 'knit', 'nylon').
   - Si `inpt` est l'un de ces matériaux spécifiques, la fonction renvoie simplement cet élément (`inpt`).
   - Sinon, la fonction renvoie la chaîne de caractères 'other'.

2. `shoes_dataset['Material'] = shoes_dataset['Material'].apply(add_Material)`:
   - Cette ligne applique la fonction `add_Material` à chaque élément de la colonne 'Material' du DataFrame `shoes_dataset` en utilisant la méthode `apply()`.
   - La méthode `apply()` permet d'appliquer une fonction personnalisée à chaque élément d'une colonne (ou d'un DataFrame) et de remplacer les valeurs de la colonne par les valeurs renvoyées par la fonction.
   - Ainsi, cette ligne remplace chaque valeur de la colonne 'Material' par le résultat de la fonction `add_Material`, qui est soit le matériau d'origine (s'il est dans la liste spécifique), soit 'other' (s'il n'est pas dans la liste).

Cela montre comment la fonction `add_Material` est utilisée pour regrouper certains matériaux spécifiques et les autres sous la catégorie 'other' dans la colonne 'Material' de votre DataFrame `shoes_dataset`.


In [None]:
shoes_dataset['Material'].value_counts()

1. `shoes_dataset['Material'].value_counts()`:
   - Cette ligne utilise la méthode `value_counts()` sur la colonne 'Material' du DataFrame `shoes_dataset`.
   - La méthode `value_counts()` compte le nombre d'occurrences de chaque valeur unique dans la colonne 'Material' et renvoie ces comptages sous forme d'une série pandas, triée par ordre décroissant.
   - Cela permet d'avoir un aperçu de la répartition des différents matériaux utilisés pour les chaussures dans vos données, en affichant le nombre d'occurrences de chaque matériau.



In [None]:
shoes_dataset['Material'].value_counts().plot(kind='bar', legend='false',  = 'green')
plt.title('New Material Counts')
plt.xlabel('Material names')
plt.ylabel('Counts')
plt.show()

1. `shoes_dataset['Material'].value_counts().plot(kind='bar', legend=False, color='green')`:
   - Cette ligne utilise la méthode `value_counts()` pour compter le nombre d'occurrences de chaque valeur unique dans la colonne 'Material' du DataFrame `shoes_dataset`.
   - Ensuite, la méthode `plot()` est utilisée avec l'argument `kind='bar'` pour créer un graphique en barres représentant ces comptages.
   - L'argument `legend=False` est utilisé pour ne pas afficher la légende dans le graphique, car il n'y a qu'une seule série de données (les comptages de matériaux) et la légende n'est pas nécessaire dans ce cas.
   - L'argument `color='green'` définit la couleur des barres du graphique comme vert.

2. `plt.title('New Material Counts')`:
   - Cette ligne définit le titre du graphique comme "New Material Counts", ce qui donne une indication sur ce que représente le graphique.

3. `plt.xlabel('Material names')` et `plt.ylabel('Counts')`:
   - Ces lignes ajoutent des étiquettes aux axes x et y respectivement pour indiquer ce que chaque axe représente dans le graphique.

4. `plt.show()`:
   - Cette ligne affiche le graphique complet avec les données, le titre et les étiquettes d'axes.

Ces lignes combinées créent un graphique en barres de couleur verte montrant la distribution des différents matériaux dans votre DataFrame `shoes_dataset` en fonction de leur nombre d'occurrences.


In [None]:
## Price
shoes_dataset['Price (USD)'] = shoes_dataset['Price (USD)'].str.replace('$','').astype(float)
shoes_dataset.head(5)

1. `shoes_dataset['Price (USD)'] = shoes_dataset['Price (USD)'].str.replace('$','').astype(float)`:
   - Cette ligne utilise la méthode `str.replace('$','')` pour supprimer le symbole dollar ('$') de toutes les valeurs de la colonne 'Price (USD)' dans le DataFrame `shoes_dataset`.
   - Ensuite, la méthode `astype(float)` est utilisée pour convertir les valeurs de la colonne 'Price (USD)' en type float, ce qui est nécessaire pour manipuler des valeurs numériques décimales.
   - Cette étape est souvent nécessaire lorsque les données contiennent des symboles ou des caractères non numériques qui doivent être nettoyés pour effectuer des opérations mathématiques sur les données.

2. `shoes_dataset.head(5)`:
   - Cette ligne affiche les cinq premières lignes du DataFrame `shoes_dataset` après la transformation des valeurs de la colonne 'Price (USD)'.
   - Cela permet de vérifier visuellement que les modifications ont été appliquées correctement aux données.

Ces lignes de code nettoient la colonne 'Price (USD)' en supprimant le symbole dollar ('$') et en convertissant les valeurs en type float, ce qui rend les données prêtes pour les calculs et les analyses impliquant les prix des chaussures.


In [None]:
sns.set()
sns.scatterplot(data=shoes_dataset, x="Brand", y="Price (USD)")

1. `sns.set()`:
   - Cette ligne configure les paramètres par défaut de seaborn pour améliorer l'esthétique des graphiques.

2. `sns.scatterplot(data=shoes_dataset, x="Brand", y="Price (USD)")`:
   - Cette ligne crée un nuage de points (scatter plot) en utilisant la fonction `scatterplot()` de seaborn.
   - L'argument `data=shoes_dataset` spécifie que les données à utiliser proviennent du DataFrame `shoes_dataset`.
   - L'argument `x="Brand"` indique que la variable 'Brand' sera représentée sur l'axe des abscisses (x-axis) du graphique.
   - L'argument `y="Price (USD)"` indique que la variable 'Price (USD)' sera représentée sur l'axe des ordonnées (y-axis) du graphique.
   - Cette visualisation permet de voir la répartition des prix des chaussures en fonction de leur marque, ce qui peut aider à identifier des tendances ou des relations entre ces variables.

Ce code nécessite que seaborn (`import seaborn as sns`) soit importé au début de votre notebook pour utiliser ses fonctionnalités de visualisation avancée.


In [None]:
shoes_dataset.info()

1. `shoes_dataset.info()`:
   - Cette ligne utilise la méthode `info()` du DataFrame `shoes_dataset` pour afficher des informations détaillées sur les données.
   - Les informations fournies incluent le nombre total d'entrées, le nombre de colonnes, les noms des colonnes, le nombre d'entrées non nulles par colonne, les types de données de chaque colonne, et la mémoire utilisée par le DataFrame.
   - Cette méthode est utile pour avoir un aperçu complet de la structure des données, le type de données de chaque colonne, et pour détecter d'éventuelles valeurs manquantes ou des colonnes nouvellement créées suite à des transformations telles que l'encodage one-hot.


In [None]:
shoes_dataset = pd.get_dummies(shoes_dataset,dtype=int)
shoes_dataset.head(5)
shoes_dataset.info()

1. `shoes_dataset = pd.get_dummies(shoes_dataset, dtype=int)`:
   - Cette ligne utilise la fonction `get_dummies()` de pandas pour effectuer un encodage one-hot des variables catégorielles dans le DataFrame `shoes_dataset`.
   - L'encodage one-hot transforme les variables catégorielles en variables indicatrices (0 ou 1) pour chaque catégorie unique, ce qui est souvent nécessaire pour traiter les variables catégorielles dans les modèles d'apprentissage automatique.
   - L'argument `dtype=int` est utilisé pour spécifier que les variables indicatrices générées seront de type entier (int) plutôt que booléen (bool), ce qui peut être préférable dans certains cas.
  
2. `shoes_dataset.head(5)`:
   - Cette ligne affiche les cinq premières lignes du DataFrame `shoes_dataset` après l'encodage one-hot, ce qui permet de vérifier visuellement les transformations effectuées sur les variables catégorielles.

3. `shoes_dataset.info()`:
   - Cette ligne utilise la méthode `info()` du DataFrame `shoes_dataset` pour afficher des informations détaillées sur les données après l'encodage one-hot.
   - Cela inclut des informations sur le nombre de colonnes, les types de données, la mémoire utilisée, et d'autres détails utiles pour comprendre la structure des données après les transformations effectuées.


In [None]:
x = shoes_dataset.drop('Price (USD)', axis=1)


1. `x = shoes_dataset.drop('Price (USD)', axis=1)`:
   - Cette ligne utilise la méthode `drop()` du DataFrame `shoes_dataset` pour supprimer la colonne 'Price (USD)' du DataFrame et stocker le résultat dans un nouveau DataFrame appelé `x`.
   - L'argument `axis=1` spécifie que vous voulez supprimer une colonne (l'axe 1 représente les colonnes), tandis que `axis=0` serait utilisé pour supprimer des lignes.
   - La variable `x` contient maintenant toutes les colonnes restantes de votre DataFrame après avoir supprimé la colonne des prix.
   - En général, `x` est utilisé pour représenter les caractéristiques ou les variables indépendantes dans un contexte de modélisation, où vous pouvez utiliser ces caractéristiques pour prédire la variable cible `y` (dans ce cas, les prix des chaussures).


In [None]:
y = shoes_dataset['Price (USD)']


1. `y = shoes_dataset['Price (USD)']`:
   - Cette ligne extrait la colonne 'Price (USD)' du DataFrame `shoes_dataset` et l'assigne à la variable `y`.
   - La variable `y` contient maintenant les prix des chaussures en dollars, ce qui est utile lorsque vous effectuez des analyses ou des modèles prédictifs basés sur les prix.
   - En général, `y` est utilisé pour représenter la variable cible dans un contexte de modélisation, où vous pourriez essayer de prédire les prix en fonction d'autres caractéristiques des chaussures.
