# television (nettoyage)

cet exercice est originellement proposé ici:

<http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx3/notebooks/td1a_cenonce_session_10.html#exercice-1-creer-un-fichier-excel>

## imports

In [1]:
import numpy as np
import pandas as pd

## la source

l'idée est de se mettre en vraie situation; les données qu'on trouve ici ou là sont souvent très sales !

In [None]:
# sauf que si on le charge: ouh là !

df = pd.read_csv("data/television.txt", sep="\t")
df

In [None]:
# et en particulier, ceci n'est pas du tout ce qu'on veut

df.shape

## survol de ce qu'il faut faire

le TP comporte plusieurs étapes

1. enlever les colonnes pleines de vide; pour fixer les idées, nous nettoyons **les colonnes qui contiennent seulement des n/a ou des 0**
 
   dans le corrigé on va voir deux méthodes
  * rapide
  * manuelle: comment on ferait si le nettoyage devait être fait sur un critère plus spécifique; on verra comment faire sur la base d'une fonction qui, pour une colonne, indique si elle doit être gardée ou pas

1. calculer les valeurs uniques de la colonne `cLT2FREQ`; le texte de l'exercice suggère qu'on doit trouver une poignée de valeurs

1. à ce stade, combien de lignes ont leur `cLT2FREQ` non renseignée ?  
  combien doit-on avoir de lignes si on nettoie sur cette base ?  
  (i.e. si on enlève toutes les lignes qui n'ont pas cette colonne renseignée)
  faites ce nettoyage et vérifiez votre résultat

1. sauver le résultat dans un fichier excel

toujours pour fixer les idées, on doit trouver à la fin une dataframe qui a une forme de `(7386, 4)`

---

## colonnes vides

la première étape donc, consiste à supprimer les colonnes vides

In [None]:
# on recharge pour être sûr
df = pd.read_csv("data/television.txt", sep="\t")
df.shape

### la méthode rapide

le mieux c'est d'utiliser `dropna`: écrivez le code ci-dessous et **expliquez votre approche**.

In [None]:
# à vous
...

In [None]:
# ceci doit afficher True
df.shape == (8403, 4)

In [None]:
df.head()

### la méthode pédestre

dans ce cas précis, `dropna` est le mieux bien sûr

maintenant, dans certains cas le critère pour 'oublier' des colonnes peut être moins simple - imaginez par exemple qu'on veuille supprimer toutes les colonnes qui contiennent un certain pourcentage de valeurs parmi `GARBAGE` et `TRASH` et un vrai n/a...

donc voyons comment on peut faire le même nettoyage, mais de manière plus fine

In [None]:
# on recharge pour être sûr
df = pd.read_csv("data/television.txt", sep="\t")

en deux étapes:

d'abord comment feriez-vous, étant donné le nom d'une colonne, pour savoir si elle est pleine de vide ?

In [None]:
# à vous 
def is_empty_column(df, colname):
    ...

In [None]:
# ceci doit afficher True

# on teste
col1 = 'POIDLOG'
not is_empty_column(df, col1)

In [None]:
# ceci doit afficher True

col5 = 'Unnamed: 4'
is_empty_column(df, col5)

ensuite il ne reste qu'à calculer la liste des colonnes vides, pour la passer à `df.drop()`

In [None]:
# à vous

# calculez la liste des colonnes vides
empty_columns = ...

# puis utilisez df.drop

In [None]:
# ceci doit afficher True
df.shape == (8403, 4)

Bien sûr on a découpé le problème en deux mais en fait ça peut se récrire en une seule ligne

In [None]:
# en option

# à vous

# récrire tout ceci en une seule passe

In [None]:
# ceci doit afficher True
df.shape == (8403, 4)

## obtenir les valeurs distinctes

comment obtenir les valeurs distinctes de la colonne `cLT2FREQ`

le texte de l'exercice initial nous apprend qu'on ne devrait avoir que 3 valeurs; 
et une inspection visuelle rapide vous le confirme, plus la présence de pas mal de vide dans cette colonne

la méthode la plus simple consiste à utiliser [`Series.unique`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.unique.html) qui renvoie le résultat sous la forme d'un `numpy.ndarray`

In [None]:
# à vous
uniques = ...

In [None]:
uniques

In [None]:
# ceci doit afficher True
uniques.sort()
np.all(uniques[:-1] == np.arange(1, 4)) and np.isnan(uniques[-1])

In [None]:
# point de réflexion : pourquoi ceci ne renvoie-t-il pas True ?
uniques.sort()
np.all(uniques == np.array([1., 2., 3., np.nan]))

## compter les lignes à nettoyer

on veut maintenant nettoyer les données en enlevant les lignes qui n'ont pas la colonne `cLT2FREQ` renseignée

dans un premier temps on vous demande de calculer le nombre de lignes concernées

In [None]:
# à vous
nb_lines_to_clean = ...

In [None]:
# ceci doit afficher True

nb_lines_to_clean == 1017

In [None]:
# ce qui signifie qu'à la fin on doit avoir ce nombre de lignes
8403-1017

In [None]:
# ou encore, plus proprement
expected_lines = len(df) - nb_lines_to_clean
expected_lines

## nettoyage des lignes

### option 1: `df.drop()`

In [None]:
# on recharge à tout hasard (ré-utilisez le code de nettoyage que vous avez réalisé préalablement)
df = pd.read_csv("data/television.txt", sep="\t").dropna(...)
print(df.shape)

remarquez que `df.drop` prend un paramètre optionnel `inplace` qui peut être souvent utile

In [None]:
#df.drop?

option 1: on peut utiliser `df.drop()`, l'avantage étant qu'on peut faire l'opération en place

In [None]:
# à vous


In [None]:
# ceci doit afficher True

# la forme après nettoyage
df.shape == (7386, 4)

### option 2: sélection avec un masque et `[]`

In [None]:
# on recharge à tout hasard (ré-utilisez le code de nettoyage que vous avez réalisé préalablement)
df = pd.read_csv("data/television.txt", sep="\t").dropna(...)
print(df.shape)

option 2: il y a plein d'autres façons de faire, on peut aussi utiliser tout simplement un masque

In [None]:
# à vous
df = ...

In [None]:
# ceci doit afficher True

# la forme après nettoyage
df.shape == (7386, 4)

## sauver un fichier excel

In [None]:
!pip install openpyxl

je vous laisse conclure le TP, il s'agit d'enregistrer nos données nettoyées dans un fichier excel

In [None]:
# à vous

filename = "television.xlsx"


je vous laisse éventuellement vérifier votre code en rechargeant sous excel le fichier produit

![](media/television.png)

***