# Analyse du jeu de données

Dans un premier temps, nous allons explorer le jeu données mis à notre disposition. L'objectif est de repérer les éventuelles anomalies comme par exemple:

 * des données abérantes (ex : dimension);
 * des données manquantes, auquel cas nous proposerons une stratégies pour palier ce problème;
 * la non conformité avec l'énoncé.
 
Pour effectuer cette phase d'analyse exploratoire, nous allons utiliser la bibliothèque **pandas**.

In [1]:
import pandas as pd 

In [2]:
# Chemin vers le fichier csv contenant les données à explorer.
path = "data/original/mower_market_snapshot.csv"

# Délimiteur utilisé dans le fichier csv
delimiter=";"

# Création de la dataframe à partir du fichier csv
mower_df = pd.read_csv(path, delimiter=delimiter)

## 1. Déscription générale de la dataframe

Nous allons utiliser la méthode **describe** pour obtenir une première synthèse globale des données

Pour les variables continues, les information affichées par cette méthode sont : 

* count qui permet de voir le nombre de cellules non vides par colonnes;
* mean, la moyenne par colonnes;
* std, la déviation standard par colonnes;
* min, la valeur miniale par colonnes;
* 25%, la valeur du 25ème centile par colonnes;
* 50%, la médiane par colonnes;
* 75%, la valeur du 75ème centile par colonnes;
* max, la valeur maximale par colonnes.

Pour les variables catégorielles, l'information intéréssante est la valeur **unique** qui permet de calculer le nombre de varibles distinctes par colonnes.

In [3]:
mower_df.describe(include='all')

Unnamed: 0,capacity,failure_rate,id,margin,price,prod_cost,product_type,quality,warranty,market_share,attractiveness
count,1399.0,1399.0,1399.0,1399.0,1399.0,1381.0,1399,1399,1399,1399.0,1399.0
unique,,,,,,1333.0,3,3,27,,
top,,,,,,0.0,essence,Low,1 an.,,
freq,,,,,,20.0,844,971,103,,
mean,47.663266,0.166448,18958.0,186.262609,260.075165,,,,,0.002144,0.636507
std,19.840501,0.073605,404.000825,191.011102,259.949127,,,,,0.00179,0.124016
min,0.013884,0.028906,18259.0,52.943989,62.1622,,,,,0.000564,0.297384
25%,35.85389,0.095678,18608.5,62.247602,73.379425,,,,,0.001135,0.549369
50%,50.309242,0.199796,18958.0,66.299672,78.439753,,,,,0.001399,0.641351
75%,61.905015,0.228011,19307.5,265.370973,384.265263,,,,,0.002446,0.726746


Ce que nous remarquons dans un premier temps, c'est la présence des varibles *marge* et *warranty*, qui sont en plus par rapport à la description de l'énoncé. Cependant, la marge commerciale n'est autre que le prix moins le coût de production, aussi, il y a des chances que des **corrélations** aparaissent entre ces trois variable. C'est ce que nous vérifierons dans la phase suivante. 

Analysons maintenant en détail chaques variable de notre dataframe.

## 2. Analyse détaillée de chaque variable

### 2.1 La capacité

In [48]:
mower_df.capacity.describe()

count    1399.000000
mean       47.663266
std        19.840501
min         0.013884
25%        35.853890
50%        50.309242
75%        61.905015
max       104.614865
Name: capacity, dtype: float64

Des capacités comme la valeur min = 0.013 n'est pas possible puisque cette valeur est un litrage. Il est probable que certaines valeurs soient en m^^3^^ et non en litres (L). Pour en être certains, il faudrait s'en assurer auprès du métier. Dans notre cas, nous prendrons l'hypothèse que les capacités infiérieurs à 1 sont en m^^3^^, et nous les mettrons en L (* 1000).

### 2.2 Le taux de panne

In [49]:
mower_df.failure_rate.describe()

count    1399.000000
mean        0.166448
std         0.073605
min         0.028906
25%         0.095678
50%         0.199796
75%         0.228011
max         0.302465
Name: failure_rate, dtype: float64

Le taux de pannes sont entre 0 et 1, aucune incohérence majeure n'est à relever pour cette variable.

### 2.3. La marge

In [23]:
mower_df.margin.describe()

count    1399.000000
mean      186.262609
std       191.011102
min        52.943989
25%        62.247602
50%        66.299672
75%       265.370973
max       790.012898
Name: margin, dtype: float64

### 2.4. Le prix de vente

In [29]:
mower_df.price.describe()

count    1399.000000
mean      260.075165
std       259.949127
min        62.162200
25%        73.379425
50%        78.439753
75%       384.265263
max       964.973926
Name: price, dtype: float64

### 2.5. Le coût de fabrication

In [25]:
mower_df.prod_cost.describe()

count     1381
unique    1333
top          0
freq        20
Name: prod_cost, dtype: object

Cette colonne devrait être de type float64. Il y a donc potentiellement des Strings. Ceci explique que le "count" soit à 1381 et non à 1399: il doit y avoir des Strings vides. Il faudra donc effectuer une conversion pour analyser en profondeur cette variable.
 
### 2.6. Les types de produits

In [37]:
dfGroupBy = df.groupby("product_type")

In [40]:
dfGroupBy.describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,capacity,failure_rate,id,margin,price,market_share,attractiveness
product_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
auto-portee,count,142.0,142.0,142.0,142.0,142.0,142.0,142.0
auto-portee,mean,18.199994,0.037475,19024.161972,683.913626,821.349177,0.007042,0.72044
auto-portee,std,7.728494,0.003377,395.089821,39.139783,146.095136,0.00092,0.094094
auto-portee,min,0.013884,0.028906,18268.0,581.400879,69.359766,0.005066,0.518288
auto-portee,25%,14.024788,0.035429,18726.5,655.60789,819.375259,0.006314,0.645955
auto-portee,50%,18.349754,0.037523,18998.5,682.472046,846.98279,0.006979,0.713964
auto-portee,75%,21.739153,0.039991,19375.5,709.713343,882.497669,0.007653,0.782909
auto-portee,max,39.56656,0.044026,19655.0,790.012898,964.973926,0.009314,0.952877
electrique,count,413.0,413.0,413.0,413.0,413.0,413.0,413.0
electrique,mean,38.009129,0.095907,18958.624697,266.826354,385.06849,0.002421,0.630903


Les types ne correspondent pas à l'énoncé, on devrait avoir 1, 2, ou 3. La conversion sera possible en appliuant un dictionnaire sur cette variable.

### 2.7. L'indice de qualité

In [42]:
dfByQuality = df.groupby("quality")

In [43]:
dfByQuality.describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,attractiveness,capacity,failure_rate,id,margin,market_share,price
quality,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Hight,count,133.0,133.0,133.0,133.0,133.0,133.0,133.0
Hight,mean,0.64453,45.810637,0.156217,18978.849624,214.668704,0.00242,290.89662
Hight,std,0.13574,20.463533,0.073417,353.926171,210.630098,0.002302,270.623708
Hight,min,0.387732,0.015932,0.029659,18282.0,58.164394,0.000735,69.341855
Hight,25%,0.542442,33.92663,0.093689,18716.0,65.652572,0.001107,77.364718
Hight,50%,0.621892,49.682095,0.186253,18983.0,70.407105,0.001515,84.28192
Hight,75%,0.742652,59.795706,0.220487,19252.0,282.545552,0.002368,403.246334
Hight,max,0.952877,90.847604,0.261196,19647.0,790.012898,0.009314,935.661633
Low,count,971.0,971.0,971.0,971.0,971.0,971.0,971.0
Low,mean,0.630715,47.529465,0.167511,18962.61792,182.296985,0.002084,255.362849


La qualité est une variable catégorielle, pour plus de facilité, nous allons mapper les différentes catégories vers des entiers:

* Low : -1
* Medium : 0
* High : 1

### 2.8. La période de garantie

In [7]:
mower_df.warranty.values

array(['3ans', '3 ans.', '3_ans', ..., '1an.', '1 an', '1an.'], dtype=object)

Afin d'utiliser cette nouvelle variable, nous devrons l'uniformiser : 3ans, 3 ans. etc

### 2.9. Notre cible : l'attractivité

In [8]:
mower_df.attractiveness.describe()

count    1399.000000
mean        0.636507
std         0.124016
min         0.297384
25%         0.549369
50%         0.641351
75%         0.726746
max         0.952877
Name: attractiveness, dtype: float64

### 2.10 La part de marché

In [9]:
mower_df.market_share.describe()

count    1399.000000
mean        0.002144
std         0.001790
min         0.000564
25%         0.001135
50%         0.001399
75%         0.002446
max         0.009314
Name: market_share, dtype: float64

Comme spécifié dans l'énoncé, cette variable est une renormalisation de la variable "attractiveness", il y a donc un risque de **corr