# Fonctions récapitulatives et cartes
Extrayez des informations de vos données.

### Introduction
Dans le dernier tutoriel, nous avons appris à sélectionner des données pertinentes à partir d’un DataFrame ou d’une Series. Extraire les bonnes données est essentiel pour avancer dans une analyse, comme nous l’avons démontré dans les exercices.

Cependant, les données ne sont pas toujours dans le format que nous souhaitons dès le départ. Parfois, il est nécessaire de les reformater pour répondre aux besoins spécifiques de la tâche. Ce tutoriel couvre différentes opérations permettant d’ajuster les données pour obtenir le format souhaité.

Nous utiliserons les données de ***Wine Magazine*** pour illustration.

### Fonctions récapitulatives
Pandas propose de nombreuses fonctions simples dites "récapitulatives" (terme non officiel) pour restructurer les données de manière utile.

Exemple avec **describe()**
La méthode describe() génère un résumé global des caractéristiques d’une colonne :

In [10]:
import pandas as pd
reviews = pd.read_csv('winemag_data_130k_v2.csv', index_col=0)

# Méthode describtive avec Points
reviews.points.describe()

count    129971.000000
mean         88.447138
std           3.039730
min          80.000000
25%          86.000000
50%          88.000000
75%          91.000000
max         100.000000
Name: points, dtype: float64

Cet exemple montre un résumé de données numériques. Pour des **données textuelles**, voici le résultat :

In [13]:
# Données textuelles
reviews.taster_name.describe()

count         103727
unique            19
top       Roger Voss
freq           25514
Name: taster_name, dtype: object

### Statistiques simples
Pour calculer une statistique spécifique, utilisez les fonctions adaptées de pandas.

Exemple : calculer la moyenne des points :

In [19]:
# calculer la moyenne des points :
reviews.points.mean()

88.44713820775404

In [21]:
# Lister les valeurs uniques dans une colonne :
reviews.taster_name.unique()

array(['Kerin O’Keefe', 'Roger Voss', 'Paul Gregutt',
       'Alexander Peartree', 'Michael Schachner', 'Anna Lee C. Iijima',
       'Virginie Boone', 'Matt Kettmann', nan, 'Sean P. Sullivan',
       'Jim Gordon', 'Joe Czerwinski', 'Anne Krebiehl\xa0MW',
       'Lauren Buzzeo', 'Mike DeSimone', 'Jeff Jenssen',
       'Susan Kostrzewa', 'Carrie Dykes', 'Fiona Adams',
       'Christina Pickard'], dtype=object)

In [23]:
# Compter la fréquence d’apparition des valeurs uniques :
reviews.taster_name.value_counts()

taster_name
Roger Voss            25514
Michael Schachner     15134
Kerin O’Keefe         10776
Virginie Boone         9537
Paul Gregutt           9532
Matt Kettmann          6332
Joe Czerwinski         5147
Sean P. Sullivan       4966
Anna Lee C. Iijima     4415
Jim Gordon             4177
Anne Krebiehl MW       3685
Lauren Buzzeo          1835
Susan Kostrzewa        1085
Mike DeSimone           514
Jeff Jenssen            491
Alexander Peartree      415
Carrie Dykes            139
Fiona Adams              27
Christina Pickard         6
Name: count, dtype: int64

## Cartes
Une carte (ou "**map**") est une fonction qui transforme un ensemble de valeurs en un autre ensemble de valeurs. Cela est souvent nécessaire pour :

- créer de nouvelles représentations des données ;
- reformater les données.

**Méthode map()**

La méthode map() transforme les valeurs d’une colonne selon une fonction donnée.

Exemple : **recentrer les points autour de la moyenne (décalage à zéro) :**

In [28]:
review_points_mean = reviews.points.mean()
reviews.points.map(lambda p: p - review_points_mean)

0        -1.447138
1        -1.447138
2        -1.447138
3        -1.447138
4        -1.447138
            ...   
129966    1.552862
129967    1.552862
129968    1.552862
129969    1.552862
129970    1.552862
Name: points, Length: 129971, dtype: float64

**Méthode apply()**

Pour transformer un DataFrame entier, utilisez apply() en appliquant une fonction personnalisée à chaque ligne ou colonne.

Exemple :

In [31]:
def remean_points(row):
    row.points = row.points - review_points_mean
    return row

reviews.apply(remean_points, axis='columns')

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,-1.447138,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,-1.447138,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,-1.447138,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,-1.447138,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,-1.447138,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129966,Germany,Notes of honeysuckle and cantaloupe sweeten th...,Brauneberger Juffer-Sonnenuhr Spätlese,1.552862,28.0,Mosel,,,Anna Lee C. Iijima,,Dr. H. Thanisch (Erben Müller-Burggraef) 2013 ...,Riesling,Dr. H. Thanisch (Erben Müller-Burggraef)
129967,US,Citation is given as much as a decade of bottl...,,1.552862,75.0,Oregon,Oregon,Oregon Other,Paul Gregutt,@paulgwine,Citation 2004 Pinot Noir (Oregon),Pinot Noir,Citation
129968,France,Well-drained gravel soil gives this wine its c...,Kritt,1.552862,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,1.552862,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss


Si vous utilisez ***axis='index'***, la fonction transforme chaque colonne au lieu de chaque ligne.

### Remarque :
**map()** et **apply()** retournent de nouveaux objets (Series ou DataFrame). Les données originales restent inchangées.

### Opérations optimisées
Pour des transformations simples, pandas propose des opérateurs optimisés.

Exemple : recentrer les points autour de la moyenne sans utiliser map() :

In [36]:
reviews.points - review_points_mean

0        -1.447138
1        -1.447138
2        -1.447138
3        -1.447138
4        -1.447138
            ...   
129966    1.552862
129967    1.552862
129968    1.552862
129969    1.552862
129970    1.552862
Name: points, Length: 129971, dtype: float64

In [38]:
# concaténer les colonnes country et region_1 :
reviews.country + " - " + reviews.region_1

0                     Italy - Etna
1                              NaN
2           US - Willamette Valley
3         US - Lake Michigan Shore
4           US - Willamette Valley
                    ...           
129966                         NaN
129967                 US - Oregon
129968             France - Alsace
129969             France - Alsace
129970             France - Alsace
Length: 129971, dtype: object

Ces opérations sont plus rapides que map() ou apply() car elles utilisent des optimisations internes de pandas.

**Limites des opérateurs :** Les opérateurs pandas sont pratiques et rapides, mais moins flexibles que map() ou apply(), qui peuvent gérer des cas complexes (comme une logique conditionnelle).

#### Conclusion
Pandas propose une gamme d’outils pour résumer, transformer et reformater vos données selon vos besoins. Maîtriser ces outils est essentiel pour manipuler efficacement des ensembles de données.