# Analyse du jeu de données

Le but de ce notebook est d'analyser le jeu de données afin d'identifier les incohérences et établir une stratégie afin de le nettoyer.

## Importation des modules et du dataset

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

ModuleNotFoundError: No module named 'pandas'

In [None]:
pd.set_option('display.max_rows', 200)

In [None]:
df = pd.read_csv('KaDo.csv')

In [None]:
df.info()

Le jeu de données contient 8 colonnes et plus de 7.2 millions d'entrées. Chaque entrée correspond à un article vendu avec les informations sur son prix, le mois de la vente, ses catégories, l'id du ticket et l'id du client.

## Analyse colonne par colonne

### Colonne TICKET_ID

In [None]:
df['TICKET_ID'].value_counts()

Il y a 2 734 841 tickets différents, le plus gros panier contient 225 articles et les plus petits paniers contiennent un seul articles.

Rien de surprenant à ce niveau, un panier de 0 articles ou avec une valeurs extremement grande ou négative aurait attiré notre attention mais d'après cette première analyse on peut considérer que la colonnes ticket_id est propre.


### Colonne MOIS_VENTE

In [None]:
df['MOIS_VENTE'].value_counts()

Ici nous avons bien des valeurs allant de 1 à 12 correspondant à chaque mois de l'année. A 1ère vue, le plus gros mois en terme de volume d'articles est Décembre ce qui corresponds aux fêtes de Noël.

On peut considérer que cette colonnes est propre. Elle devra cependant être converti en variable muette si on veut utiliser un algorithme de Machine Learning.

### Colonne PRIX_NET

In [None]:
df['PRIX_NET'].value_counts().sort_index()

Le prix des articles du shop vont de 0.01 euro à 1575 euros.

### Analyse des produits valant 0.01 euro

In [None]:
df[df['PRIX_NET'] == 0.01]

In [None]:
df[df['LIBELLE'] == 'MASQUE PURE SYSTEM T50 50ML']['PRIX_NET'].value_counts()

On remarque qu'un meme article peut-être vendu entre 59.4 et 0.01. Un travail devra surement être fait lors de l'analyse afin d'homogénéiser les prix.

### Colonnes FAMILLE

In [None]:
familles = df['FAMILLE'].value_counts().index
for famille in familles:
    print(famille)
    print('------------')
    print(df[df['FAMILLE'] == famille]['UNIVERS'].value_counts())
    print('   ')

In [None]:
familles = df['FAMILLE'].value_counts().index
for famille in familles:
    print(famille)
    print('------------')
    print(df[df['FAMILLE'] == famille]['MAILLE'].value_counts())
    print('   ')

In [None]:
df['FAMILLE'].value_counts()

On remarque ici qu'une famille contient bien plusieurs univers et plusieurs maille. Famille est donc la catégorie la plus large.

On remarque aussi que les familles MULTI FAMILLES et SANTE NATURELLE comprote que très peu d'articles. On poura donc se permettre de les supprimers

### Colonne UNIVERS et MAILLE

In [None]:
df['MAILLE'].value_counts()

In [None]:
univers = df['UNIVERS'].value_counts().index
for uni in univers:
    print(uni)
    print('-----')
    print(df[df['UNIVERS'] == uni]['MAILLE'].value_counts())
    print('    ')

In [None]:
mailles = df['MAILLE'].value_counts().index
for maille in mailles:
    print(maille)
    print('-----')
    print(df[df['MAILLE'] == maille]['UNIVERS'].value_counts())
    print('    ')

In [None]:
df['UNIVERS'].value_counts()

In [None]:
df['MAILLE'].value_counts()

On remarque qu'un univers n'a qu'une seule maille mais qu'une maille a plusieurs univers. Cela va à l'encontre du sujet qui indique que l'univers doit englober plusieurs mailles.

On peut donc en déduire que le nom des colonnes maille et univers ont été inversé.

On remarque egalement que certains univers ou mailles sont en double (HOMME, HOMMES) et que certaines catégories sont flous

## Conclusion

Après analyse, on se rend compte qu'un gros travail de nettoyage au niveau des catégories doit être fait.