# Imports

In [279]:
# Librairies
import numpy as np
import pandas as pd

In [280]:
# Fichiers
# url = 'sources/' # Jupyter (local)
url = 'https://raw.githubusercontent.com/gllmfrnr/oc/master/p4/sources/' # Github
customers =       pd.read_csv(url + 'customers.csv')
products =        pd.read_csv(url + 'products.csv')    
transactions =    pd.read_csv(url + 'transactions.csv')

In [281]:
# Styles
# Exemple : print(color.bold + 'Hello' + color.end)
class style:
   blue = '\033[94m'
   green = '\033[92m'
   red = '\033[91m'
   bold = '\033[1m'
   underline = '\033[4m'
   end = '\033[0m' 

In [282]:
# Fonction d'exploration des datasets
def exploration(df):
    print( 
        style.red + 'SAMPLE ↓ \n' + style.end,
        df.sample(3), '\n'                                              # Sample
        ) 
    print(style.red + 'INFO ↓ \n' + style.end)
    print(df.info(), '\n')                                              # Colonnes, null-count, types d'objets
    for i in range(0, len(df.columns)):
        print(
            style.red + 'COLONNE',
            style.bold + df.columns[i], ': \n' + style.end,             # Nom de colonne
             df.iloc[:, i].describe(), '\n',                            # .describe()
            sum(df.iloc[:, i].isna()), 'Nan \n',                        # Nbre de Nan 
            df.shape[0] - np.count_nonzero(df.iloc[:, i]), 'zéros \n',  # Nbre de 0
            len(df.iloc[:, i].unique()), 'valeurs uniques : \n',
            df.iloc[:, i].unique(), '\n'                                # Nombre de valeurs uniques 
        )

In [283]:
# Fonction de recherche de clé primaire (une seule colonne)
def pk(df,col): # Ne pas oublier les guillemets en déclarant le paramètre col
    x = 0
    df = df.reset_index()  
    for i in range(0,len(df)):   
        
        searched = df.loc[i][col] # Valeur à rechercher
    
        s = df[df[col]==searched].drop_duplicates() # Rechercher cette valeur dans toute la df, et supprimer les duplicates pour vérifier combien de lignes on obtient
  
        if len(s) == 1: # Si on obtient une seule ligne, c'est a priori une clé primaire
            x += 1
       
    if x == len(df): # Si pour chaque ligne de la df, la requêtes a ajouté 1 à x, alors x = la longueur de la dataframe
        print('\'', col, '\' est bien une clé primaire.')
    else:
        print('\'', col, '\' n\'est pas une clé primaire.')

# Fonction de recherche sur toute la dataframe
def dataframekeys(df):
  for i in range(0, len(df.columns)):
      print(pk(df, df.columns[i]))

# Exploration

## Datasets

### Customers
- 3 colonnes
    - client_id → identifiant unique pour chaque client (aucun doublon)
    - sex → genre (2 valeurs possibles : f ou m)
    - birth → année de naissance
- Clé primaire : **'client_id'**
- Aucune valeur dans le dataset n'est manquante
- Aucune valeur dans le dataset ne parait aberrante

In [284]:
# dataframekeys(customers)

# ' client_id ' est bien une clé primaire.
# ' sex ' n'est pas une clé primaire.
# ' birth ' n'est pas une clé primaire.

In [285]:
exploration(customers)

[91mSAMPLE ↓ 
[0m      client_id sex  birth
2744    c_1088   f   2004
1246    c_7291   m   1959
6744    c_5241   f   1952 

[91mINFO ↓ 
[0m
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8623 entries, 0 to 8622
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   client_id  8623 non-null   object
 1   sex        8623 non-null   object
 2   birth      8623 non-null   int64 
dtypes: int64(1), object(2)
memory usage: 202.2+ KB
None 

[91mCOLONNE [1mclient_id : 
[0m count       8623
unique      8623
top       c_4085
freq           1
Name: client_id, dtype: object 
 0 Nan 
 0 zéros 
 8623 valeurs uniques : 
 ['c_4410' 'c_7839' 'c_1699' ... 'c_5119' 'c_5643' 'c_84'] 

[91mCOLONNE [1msex : 
[0m count     8623
unique       2
top          f
freq      4491
Name: sex, dtype: object 
 0 Nan 
 0 zéros 
 2 valeurs uniques : 
 ['f' 'm'] 

[91mCOLONNE [1mbirth : 
[0m count    8623.000000
mean     1978.280877
std        16.91

### Products
- 3 colonnes
  - id_prod : identifiant produit unique
  - price : prix (1455 valeurs différentes, pour 3287 produits-lignes)
  - categ : catégorie (3 valeurs différentes : 0, 1, 2)
- Clé primaire : **id_prod**
- Aucune valeur n'est manquante dans le dataset
- La colonne prix semble contenir des valeurs aberrantes (inférieures à 0)

In [286]:
# dataframekeys(products)

# ' id_prod ' est bien une clé primaire.
# ' price ' n'est pas une clé primaire.
# ' categ ' n'est pas une clé primaire.

In [287]:
exploration(products)

[91mSAMPLE ↓ 
[0m      id_prod  price  categ
2523    0_12  13.48      0
1014  0_2119   9.99      0
3039   0_893  10.99      0 

[91mINFO ↓ 
[0m
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3287 entries, 0 to 3286
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   id_prod  3287 non-null   object 
 1   price    3287 non-null   float64
 2   categ    3287 non-null   int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 77.2+ KB
None 

[91mCOLONNE [1mid_prod : 
[0m count     3287
unique    3287
top       0_62
freq         1
Name: id_prod, dtype: object 
 0 Nan 
 0 zéros 
 3287 valeurs uniques : 
 ['0_1421' '0_1368' '0_731' ... '0_802' '1_140' '0_1920'] 

[91mCOLONNE [1mprice : 
[0m count    3287.000000
mean       21.856641
std        29.847908
min        -1.000000
25%         6.990000
50%        13.060000
75%        22.990000
max       300.000000
Name: price, dtype: float64 
 0 Nan 
 0 zéros 
 1455 valeurs 

### Transactions
*4 colonnes :*
- 2 clés étrangères
  - id_prod (vers **products**)
  - client_id (vers **customers**)
- date : date de la transaction (336855 valeurs uniques)
- session_id : identifiant de session (169195 valeurs uniques)

*Insights :*
- Une session peut contenir plusieurs dates
- Il y a sensiblement moins de produits et de clients que dans les tables étrangères que référencent id_prod et client_id
- On constate que la valeur top de 'date' semble aberrante


In [288]:
exploration(transactions)

[91mSAMPLE ↓ 
[0m        id_prod                        date session_id client_id
160245   1_378  2021-05-28 23:25:55.017694    s_40924    c_1609
198019  0_2098  2021-04-25 18:41:52.306283    s_25676    c_3454
293906   1_437  2021-12-31 04:50:09.516322   s_142684    c_3535 

[91mINFO ↓ 
[0m
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 337016 entries, 0 to 337015
Data columns (total 4 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   id_prod     337016 non-null  object
 1   date        337016 non-null  object
 2   session_id  337016 non-null  object
 3   client_id   337016 non-null  object
dtypes: object(4)
memory usage: 10.3+ MB
None 

[91mCOLONNE [1mid_prod : 
[0m count     337016
unique      3266
top        1_369
freq        1081
Name: id_prod, dtype: object 
 0 Nan 
 0 zéros 
 3266 valeurs uniques : 
 ['0_1483' '2_226' '1_374' ... '0_833' '0_1284' '0_1116'] 

[91mCOLONNE [1mdate : 
[0m count                              3

## Data (jointures)

In [None]:
# Jointure de customers sur transactions
data = pd.merge(transactions, customers, on="client_id")

# Jointure de products sur transactions
data = pd.merge(data, products, on="id_prod")

data

In [None]:
exploration(data)

## Valeurs aberrantes

### Colonne **price**
- contient 200 fois la valeur '-1' (le minimum) 
- contient 8 fois la valeur '300' (le maximum) : la colonne ne contient pourtant pas d'entiers (***à vérifier***), ni les valeurs '100' ou '200'

In [None]:
# 200 fois la valeur '-1'
data.sort_values(by=['price']).head(202)

In [None]:
# 8 fois la valeur '300'
data.sort_values(by=['price'], ascending=False).head(10)

In [None]:
# 100 et 200 ne figurent pas dans la colonne
print(
    data[data['price']==100], '\n\n',
    data[data['price']==200], '\n\n',
    data[data['price']==300]
    )

### (essai : liste des entiers dans price)

In [None]:
# 5.00.is_integer()

#a = []

#for i in range(0, len(data)):
  #a.append(data['price'].loc[i].is_integer())

In [None]:
# pd.DataFrame([data['price'].loc[i].is_integer()], columns=['A']) for i in range(0, len(data)], ignore_index=True)

In [None]:


#dftest = pd.DataFrame(columns = ["a", "b"])


#for i in range(0, len(data)):


 # dftest = dftest.append({'a': data['price'].loc[i]}, ignore_index=True)
  #dftest = dftest.append({'b': data['price'].loc[i].is_integer()}, ignore_index=True)

### Colonne **date**
- Toutes les valeurs sont postérieures à la date d'extraction des données (2 avril 2020)
- 2 années seulement : 2021 et 2022

In [None]:
# Les 200 dernières valeurs sont contiennent le préfixe 'test_'
data.sort_values(by=['date'], ascending=False).head(202)

In [None]:
# Vérifier si la colonne ne contient effectivement que 200 x la chaîne 'test'
data['date'].str.contains('test').value_counts()

# Nettoyage

## Suppression des 200 lignes-test
La valeur '200' revient plusieurs fois dans l'analyse des aberrations : 
- 200 fois le préfixe 'test_' dans la colonne date
- 200 fois la valeur '-1' dans la colonne price'

Elles figurent dans les mêmes lignes : on supprime ces données

In [None]:
# Montrer que la combinaison des 2 valeurs ne renvoie bien que 200 lignes
lignes_test = data[(data['price']==-1) & (data['date'].str.contains('test'))]

print(lignes_test)

In [None]:
# Nombre de lignes avant nettoyage
print('Nombre de lignes avant nettoyage :', len(data))

# Supprimer les lignes test de la dataframe, via leur index
data.drop(lignes_test.index, inplace=True)

# Nombre de lignes après nettoyage
print('Nombre de lignes après nettoyage :', len(data))