# 1.Data cleaning

## 1.1 Loading Data

In [1]:
# We load our train data into a dataFrame

import pandas as pd

trainDf = pd.read_excel('resources/referentiel_foodex.xlsx',sheet_name='Feuil1')
trainDf


Unnamed: 0,Désignation commerciale,Catégorie de référence
0,Lait au chocolat,Chocolat chaud
1,Poisson en chocolat,Produits de chocolat (cacao)
2,Chocapic en poudre,Poudre de cacao
3,Cola light sans bulles,"Boissons au cola, caféiniques, faibles en calo..."
4,Jus de pomme bio,Jus de pomme
...,...,...
95,Crème brûlée vanille,"Collations, desserts et autres aliments"
96,Macaron framboise,Pâtisseries et gâteaux
97,Tarte tatin,Tarte aux fruits
98,Clafoutis aux cerises,Gâteau aux fruits


## 1.2 Cleaning steps

### Duplicated rows

In [2]:
# Check if there are duplicated rows 
# No duplicated rows 

duplicates = trainDf[trainDf.duplicated()]
duplicates

Unnamed: 0,Désignation commerciale,Catégorie de référence


### Missing values

In [3]:
# How much missing values
trainDf.isnull().sum()

Désignation commerciale    0
Catégorie de référence     3
dtype: int64

In [5]:
# There 3 missing categories, for the moment we just remove them 
#-> (any row that has a missing value in a column will be dropped)

trainDf_Cleaned = trainDf.dropna()
trainDf_Cleaned

Unnamed: 0,Désignation commerciale,Catégorie de référence
0,Lait au chocolat,Chocolat chaud
1,Poisson en chocolat,Produits de chocolat (cacao)
2,Chocapic en poudre,Poudre de cacao
3,Cola light sans bulles,"Boissons au cola, caféiniques, faibles en calo..."
4,Jus de pomme bio,Jus de pomme
...,...,...
95,Crème brûlée vanille,"Collations, desserts et autres aliments"
96,Macaron framboise,Pâtisseries et gâteaux
97,Tarte tatin,Tarte aux fruits
98,Clafoutis aux cerises,Gâteau aux fruits


### Special caracters and Lowercasing

In [6]:
import re

def cleanText(text):
    text = re.sub(r"[^a-zA-Z0-9àâäéèêëîïôöùûüÿçœæÀÂÄÉÈÊËÎÏÔÖÙÛÜŸÇŒÆ\s]"," ",text) # Replace special caracters with white space.
    return text.lower() # lowercase

In [7]:
trainDf_Cleaned = trainDf_Cleaned.map(cleanText)
trainDf_Cleaned

Unnamed: 0,Désignation commerciale,Catégorie de référence
0,lait au chocolat,chocolat chaud
1,poisson en chocolat,produits de chocolat cacao
2,chocapic en poudre,poudre de cacao
3,cola light sans bulles,boissons au cola caféiniques faibles en calo...
4,jus de pomme bio,jus de pomme
...,...,...
95,crème brûlée vanille,collations desserts et autres aliments
96,macaron framboise,pâtisseries et gâteaux
97,tarte tatin,tarte aux fruits
98,clafoutis aux cerises,gâteau aux fruits


### Save the cleaned dataframe

In [10]:
# Before saving we need to rename columns

trainDf_Cleaned = trainDf_Cleaned.rename(columns={
    'Désignation commerciale':'Product_Name',
    'Catégorie de référence':'Raw_Category'})

trainDf_Cleaned.to_excel('data/train.xlsx',index=False)

## 1.3 Working on Categories