# 7. Modifier les données en masse

## apply
Avec `apply`, les valeurs manquantes génèrent souvent des erreurs. Il faut soit les compléter soit les supprimer au préalable. En général, il vaut mieux éviter `apply` si possible. Cette méthode n'est pas très rapide.

Cette fonction est toutefois très utile pour nettoyer les données quand elles doivent être normalisées ou présentent de nombreuses petites variantes qu'il faut standardiser.

Pour les modification de type, il vaut mieux utiliser `astype` qui est bien pèlus rapide.


## apply sur une seule colonne

```python
# Transformer des données avec une fonction lambda (ici la longueur du champ)
df['nom_colonne'] = df['nom_colonne'].apply(lambda x:len(x))

# Créer une nouvelle colonne sur la base des données d'une seule colonne
df['nom_colonne_B'] = df['nom_colonne_A'].apply(lambda x:len(x))

# Utiliser une fonction
def fn(txt):
    """Récupère le premier isbn et le normalise
    - Sépare par ";"
    - Récupère la première occurrence
    - Supprime les "-"
    - Supprime les éventuels espaces résiduels
    """
    txt_mod = txt.split(';')[0]
    txt_mod = txt_mod.replace('-', '')
    txt_mod = txt_modt.strip()
    return txt_mod
df['nom_colonne'] = df['nom_colonne'].apply(fn)
```

## apply sur un dataframe

```python
def fn_vers_col(row):
    """Retourne la valeur de la colonne B si la valeur de la colonne A est manquante. 
    """
    if pd.isnull(row['nom_colonne_A']):
        return row['nom_colonne_B']
    
    return row['nom_colonne_A']

# Modifie ou crée une colonne de df en fonction de plusieurs colonnes
df['nom_colonne_C'] = df.apply(fn_vers_col, axis=1)

def fn_vers_df(row):
    """Modifie plusieurs colonnes
    - Soustrait la colonne A avec la colonne B et enregistre le résultat dans la colonne C
    - La colonne D vaut True si C est négatif
    """
    row['nom_colonne_C'] = row['nom_colonne_A'] - row['nom_colonne_B']
    if row['nom_colonne_C'] < 0:
        row['nom_colonne_D'] = True
    return row

df.apply(fn_vers_df, axis=1)
```

Souvent il est utile de créer les colonnes avec des valeurs par défaut avant d'utiliser `apply`.

### Eviter apply sur l'exemple précédent
```python
df['nom_colonne_C'] = df['nom_colonne_A'] - df['nom_colonne_B']
df['nom_colonne_D'] = df['nom_colonne_C'] < 0
```

In [5]:
# Importer les bibliothèques essentielles
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Afficher toutes les colonnes
pd.set_option('display.max_columns', None)

In [6]:
# Chargement des données
df = pd.read_csv('Data/titles_withdrawn.csv')

In [7]:
# Affichage des dix premières lignes
df.head(10)

Unnamed: 0,Title,ISBN,Publication Date,Num of Physical Items (Deleted)
0,"""... ein bemerkenswertes Kapitel des jüdische...",3730815229; 9783730815229,[2019],10
1,"""... einziges Land, in dem Judenfrage und Zige...",3980311813; 9783980311816,[1992?],10
2,"""... mehr Bäume, mehr Wiesen und mehr Menschen...",3952023809; 9783952023808,1992,10
3,"""...wortlos der Sprache mächtig"" Schweigen und...",3476452085; 9783476452085,[1999],10
4,"""A dos luces, a dos visos"" Calderón y el géner...",3967280012; 9783967280012,2020,10
5,"""A honra alheia por um fio"" os estatutos de li...",9723113937; 9789723113938,2011,10
6,"""Ai pochi felici"" Leonardo Sciascia e le arti ...",9788832240221; 883224022X,[2020],10
7,"""Al tempo del Belli..."" il dialetto dei Sonett...",8883197836; 9788883197833,2002,10
8,"""Als Kafka mir entgegen kam- "" Erinnerungen an...",3803125286; 9783803125286,2005,10
9,"""Antibirokratska revolucija"" (1987-1989)",9788651903048; 8651903049,2009,10


## Apply sur une seule colonne

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18266 entries, 0 to 18265
Data columns (total 4 columns):
 #   Column                           Non-Null Count  Dtype 
---  ------                           --------------  ----- 
 0   Title                            18266 non-null  object
 1   ISBN                             18266 non-null  object
 2   Publication Date                 18258 non-null  object
 3   Num of Physical Items (Deleted)  18266 non-null  object
dtypes: object(4)
memory usage: 570.9+ KB


In [9]:
# La colonne "Num of Physical Items (Deleted)" est en réalité de type "string"
# Il faut la changer en nombre

# Option 1 => apply, on prend la première partie avant la virgule et on convertit en entier
df = pd.read_csv('Data/titles_withdrawn.csv')
df['Num of Physical Items (Deleted)'] = df['Num of Physical Items (Deleted)'].apply(lambda x: int(x.split(',')[0]))
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18266 entries, 0 to 18265
Data columns (total 4 columns):
 #   Column                           Non-Null Count  Dtype 
---  ------                           --------------  ----- 
 0   Title                            18266 non-null  object
 1   ISBN                             18266 non-null  object
 2   Publication Date                 18258 non-null  object
 3   Num of Physical Items (Deleted)  18266 non-null  int64 
dtypes: int64(1), object(3)
memory usage: 570.9+ KB


In [6]:
# Option 2 => sans apply, on change la virgule en ".", on transforme le type en flottant, puis on passe en entier.
df = pd.read_csv('Data/titles_withdrawn.csv')
df['Num of Physical Items (Deleted)'] = df['Num of Physical Items (Deleted)'].str.replace(',', '.').astype(float).astype(int)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18266 entries, 0 to 18265
Data columns (total 4 columns):
 #   Column                           Non-Null Count  Dtype 
---  ------                           --------------  ----- 
 0   Title                            18266 non-null  object
 1   ISBN                             18266 non-null  object
 2   Publication Date                 18258 non-null  object
 3   Num of Physical Items (Deleted)  18266 non-null  int64 
dtypes: int64(1), object(3)
memory usage: 570.9+ KB


## Opération en fonction de plusieurs colonnes
### Création d'une nouvelle colonne

In [10]:
# Ajouter une colonne avec la valeur True si au moins deux exemplaires
# de titres de 2020 ou de 2021 ont été  supprimés et sinon False

def is_more_than_1_item_suppressed_from_2020_or_2021(row):
    """
    Retourne une colonne: True quand le nombre d'exemplaires éliminés est supérieur à 1
    et la date de publication en 2021 et 2020; dans les autres cas False.
    """
    if row['Num of Physical Items (Deleted)'] > 1 and \
        ('2020' in row['Publication Date'] or
         '2021' in row['Publication Date']):
        return True
    else:
        return False

df['Publication Date'] = df['Publication Date'].fillna('')

df['More than 1 item suppressed of 2020 or 2021'] = df.apply(is_more_than_1_item_suppressed_from_2020_or_2021, axis=1)

# Pour savoir combien il y a de True dans une colonne, le plus simple est d'en faire la somme
df['More than 1 item suppressed of 2020 or 2021'].sum()

248

### Modification directe du DataFrame

In [8]:
# Récupération des données
df = pd.read_csv('Data/titles_withdrawn.csv')

# Transformation de la chaîne de caractère en nombre entier: '3,0' => 3 
df['Num of Physical Items (Deleted)'] = df['Num of Physical Items (Deleted)'].apply(lambda x: int(x.split(',')[0]))

# La colonne est initialisée
df['More than 1 item suppressed of 2020 or 2021'] = False

In [9]:
def is_more_than_1_item_suppressed_from_2020_or_2021(row):
    """
    Modifie la colonne 'More than 1 item suppressed of 2020 or 2021' vers
    True lorsque le nombre d'exemplaires éliminés est supérieur à 1
    et la date de publication en 2021 et 2020.
    """
    if row['Num of Physical Items (Deleted)'] > 1 and \
        ('2020' in row['Publication Date'] or
         '2021' in row['Publication Date']):
        row['More than 1 item suppressed of 2020 or 2021'] = True
        
    # Ne pas oublier de retourner l'intégralité de la ligne
    return row

df['Publication Date'] = df['Publication Date'].fillna('')

df = df.apply(is_more_than_1_item_suppressed_from_2020_or_2021, axis=1)

# Pour savoir combien il y a de True dans une colonne, le plus simple est d'en faire la somme
df['More than 1 item suppressed of 2020 or 2021'].sum()

248