# Opérations

Il existe de nombreuses opérations avec Pandas qui vous seront vraiment utiles, mais qui n'entrent pas dans une catégorie distincte. Nous allons les montrer ici dans cette session :

In [None]:
import pandas as pd

df_one = pd.DataFrame({'k1':['A','A','B','B','C','C'],
                      'col1':[100,200,300,300,400,500],
                      'col2':['NY','CA','WA','WA','AK','NV']})

In [None]:
df_one

### Informations sur les valeurs uniques

In [None]:
df_one['col2'].unique()

In [None]:
df_one['col2'].nunique()

In [None]:
df_one['col2'].value_counts()

In [None]:
df_one

In [None]:
df_one.drop_duplicates()

### Créer de nouvelles colonnes avec des opérations et des fonctions

Nous savons déjà que nous pouvons facilement créer de nouvelles colonnes par des opérations arithmétiques de base :

In [None]:
df_one

In [None]:
df_one['New Col'] = df_one['col1'] * 10

In [None]:
df_one

Mais nous pouvons également créer de nouvelles colonnes en appliquant n'importe quelle fonction personnalisée, comme vous pouvez l'imaginer, cela peut être aussi complexe que nous le souhaitons et cela nous donne une grande flexibilité.

Étape 1 : Définir la fonction qui opérera sur chaque entrée de ligne dans une colonne

In [None]:
def grab_first_letter(state):
    # Pour un Etat donné, retourne la première lettre
    return state[0]

In [None]:
grab_first_letter('NY')

In [None]:
# Remarquez que nous ne faisons que passer la fonction, nous ne l'appelons pas avec ()
df_one['col2'].apply(grab_first_letter)

In [None]:
df_one['first letter'] = df_one['col2'].apply(grab_first_letter)

In [None]:
df_one

Ces fonctions peuvent être aussi complexes que vous le souhaitez, pour autant qu'elles puissent accepter les éléments de chaque ligne. Attention aux problèmes de type de données !

In [None]:
def complex_letter(state):
    
    if state[0] == "W":
        return "Washington"
    else:
        return 'Error'

In [None]:
df_one['State Check'] = df_one['col2'].apply(complex_letter)

In [None]:
df_one

In [None]:
# Attention aux erreurs de saisie de données
# Vous ne pouvez pas indexer les numéros !
df_one['col1'].apply(complex_letter)
# retourne KeyError ou TypeError ci-dessous

### Mapping

In [None]:
df_one['k1']

In [None]:
df_one['k1'].map({'A':1,'B':2,'C':3})

### Repérage des positions de l'index des valeurs max et min

In [None]:
df_one

In [None]:
df_one['col1'].max()

In [None]:
df_one['col1'].min()

In [None]:
df_one['col1'].idxmin()

In [None]:
df_one['col1'].idxmax()

### Obtenir les noms des colonnes et des index

In [None]:
df_one.columns

In [None]:
df_one.index

In [None]:
df_one.columns = ['C1','C2','C3','C4','C5','C6']

In [None]:
df_one

### Tri et ordre d'un DataFrame

In [None]:
df_one

In [None]:
df_one.sort_values('C3')

# Concaténer des DataFrames

In [None]:
features = pd.DataFrame({'A':[100,200,300,400,500],
                        'B':[12,13,14,15,16]})

predictions = pd.DataFrame({'pred':[0,1,1,0,1]})

In [None]:
features

In [None]:
predictions

In [None]:
# Faites bien attention au paramètre axis !
pd.concat([features,predictions])

In [None]:
pd.concat([features,predictions],axis=1)

## Création de variables Dummies


In [None]:
df_one

In [None]:
df_one['C1']

In [None]:
pd.get_dummies(df_one['C1'])