<a href='http://moncoachdata.com'><img src= 'https://moncoachdata.com/wp-content/uploads/MonCoachData-cours/MonCoachData.jpg' width=400/></a>


---


<center><em>Copyright MonCoachData (tous droits réservés)</em></center>
<center><em>Pour plus d'informations, visitez notre site <a href='http://moncoachdata.com'>moncoachdata.com</a></em></center>



---

# Opérations

Il existe de nombreuses opérations avec Pandas qui vous seront vraiment utiles, mais qui n'entrent pas dans une catégorie distincte. Nous allons les montrer ici dans cette session :

In [None]:
import pandas as pd

df_one = pd.DataFrame({'k1':['A','A','B','B','C','C'],
                      'col1':[100,200,300,300,400,500],
                      'col2':['NY','CA','WA','WA','AK','NV']})

In [None]:
df_one

Unnamed: 0,k1,col1,col2
0,A,100,NY
1,A,200,CA
2,B,300,WA
3,B,300,WA
4,C,400,AK
5,C,500,NV


### Informations sur les valeurs uniques

In [None]:
df_one['col2'].unique()

array(['NY', 'CA', 'WA', 'AK', 'NV'], dtype=object)

In [None]:
df_one['col2'].nunique()

5

In [None]:
df_one['col2'].value_counts()

WA    2
CA    1
NV    1
NY    1
AK    1
Name: col2, dtype: int64

In [None]:
df_one

Unnamed: 0,k1,col1,col2
0,A,100,NY
1,A,200,CA
2,B,300,WA
3,B,300,WA
4,C,400,AK
5,C,500,NV


In [None]:
df_one.drop_duplicates()

Unnamed: 0,k1,col1,col2
0,A,100,NY
1,A,200,CA
2,B,300,WA
4,C,400,AK
5,C,500,NV


### Créer de nouvelles colonnes avec des opérations et des fonctions

Nous savons déjà que nous pouvons facilement créer de nouvelles colonnes par des opérations arithmétiques de base :

In [None]:
df_one

Unnamed: 0,k1,col1,col2
0,A,100,NY
1,A,200,CA
2,B,300,WA
3,B,300,WA
4,C,400,AK
5,C,500,NV


In [None]:
df_one['New Col'] = df_one['col1'] * 10

In [None]:
df_one

Unnamed: 0,k1,col1,col2,New Col
0,A,100,NY,1000
1,A,200,CA,2000
2,B,300,WA,3000
3,B,300,WA,3000
4,C,400,AK,4000
5,C,500,NV,5000


Mais nous pouvons également créer de nouvelles colonnes en appliquant n'importe quelle fonction personnalisée, comme vous pouvez l'imaginer, cela peut être aussi complexe que nous le souhaitons et cela nous donne une grande flexibilité.

Étape 1 : Définir la fonction qui opérera sur chaque entrée de ligne dans une colonne

In [None]:
def grab_first_letter(state):
    # Pour un Etat donné, retourne la première lettre
    return state[0]

In [None]:
grab_first_letter('NY')

'N'

In [None]:
# Remarquez que nous ne faisons que passer la fonction, nous ne l'appelons pas avec ()
df_one['col2'].apply(grab_first_letter)

0    N
1    C
2    W
3    W
4    A
5    N
Name: col2, dtype: object

In [None]:
df_one['first letter'] = df_one['col2'].apply(grab_first_letter)

In [None]:
df_one

Unnamed: 0,k1,col1,col2,New Col,first letter
0,A,100,NY,1000,N
1,A,200,CA,2000,C
2,B,300,WA,3000,W
3,B,300,WA,3000,W
4,C,400,AK,4000,A
5,C,500,NV,5000,N


Ces fonctions peuvent être aussi complexes que vous le souhaitez, pour autant qu'elles puissent accepter les éléments de chaque ligne. Attention aux problèmes de type de données !

In [None]:
def complex_letter(state):
    
    if state[0] == "W":
        return "Washington"
    else:
        return 'Error'

In [None]:
df_one['State Check'] = df_one['col2'].apply(complex_letter)

In [None]:
df_one

Unnamed: 0,k1,col1,col2,New Col,first letter,State Check
0,A,100,NY,1000,N,Error
1,A,200,CA,2000,C,Error
2,B,300,WA,3000,W,Washington
3,B,300,WA,3000,W,Washington
4,C,400,AK,4000,A,Error
5,C,500,NV,5000,N,Error


In [None]:
# Attention aux erreurs de saisie de données
# Vous ne pouvez pas indexer les numéros !
df_one['col1'].apply(complex_letter)
# retourne KeyError ou TypeError ci-dessous

KeyError: ignored

### Mapping

In [None]:
df_one['k1']

0    A
1    A
2    B
3    B
4    C
5    C
Name: k1, dtype: object

In [None]:
df_one['k1'].map({'A':1,'B':2,'C':3})

0    1
1    1
2    2
3    2
4    3
5    3
Name: k1, dtype: int64

### Repérage des positions de l'index des valeurs max et min

In [None]:
df_one

Unnamed: 0,k1,col1,col2,New Col,first letter,State Check
0,A,100,NY,1000,N,Error
1,A,200,CA,2000,C,Error
2,B,300,WA,3000,W,Washington
3,B,300,WA,3000,W,Washington
4,C,400,AK,4000,A,Error
5,C,500,NV,5000,N,Error


In [None]:
df_one['col1'].max()

500

In [None]:
df_one['col1'].min()

100

In [None]:
df_one['col1'].idxmin()

0

In [None]:
df_one['col1'].idxmax()

5

### Obtenir les noms des colonnes et des index

In [None]:
df_one.columns

Index(['k1', 'col1', 'col2', 'New Col', 'first letter', 'State Check'], dtype='object')

In [None]:
df_one.index

RangeIndex(start=0, stop=6, step=1)

In [None]:
df_one.columns = ['C1','C2','C3','C4','C5','C6']

In [None]:
df_one

Unnamed: 0,C1,C2,C3,C4,C5,C6
0,A,100,NY,1000,N,Error
1,A,200,CA,2000,C,Error
2,B,300,WA,3000,W,Washington
3,B,300,WA,3000,W,Washington
4,C,400,AK,4000,A,Error
5,C,500,NV,5000,N,Error


### Tri et ordre d'un DataFrame

In [None]:
df_one

Unnamed: 0,C1,C2,C3,C4,C5,C6
0,A,100,NY,1000,N,Error
1,A,200,CA,2000,C,Error
2,B,300,WA,3000,W,Washington
3,B,300,WA,3000,W,Washington
4,C,400,AK,4000,A,Error
5,C,500,NV,5000,N,Error


In [None]:
df_one.sort_values('C3')

Unnamed: 0,C1,C2,C3,C4,C5,C6
4,C,400,AK,4000,A,Error
1,A,200,CA,2000,C,Error
5,C,500,NV,5000,N,Error
0,A,100,NY,1000,N,Error
2,B,300,WA,3000,W,Washington
3,B,300,WA,3000,W,Washington


# Concaténer des DataFrames

In [None]:
features = pd.DataFrame({'A':[100,200,300,400,500],
                        'B':[12,13,14,15,16]})

predictions = pd.DataFrame({'pred':[0,1,1,0,1]})

In [None]:
features

Unnamed: 0,A,B
0,100,12
1,200,13
2,300,14
3,400,15
4,500,16


In [None]:
predictions

Unnamed: 0,pred
0,0
1,1
2,1
3,0
4,1


In [None]:
# Faites bien attention au paramètre axis !
pd.concat([features,predictions])

Unnamed: 0,A,B,pred
0,100.0,12.0,
1,200.0,13.0,
2,300.0,14.0,
3,400.0,15.0,
4,500.0,16.0,
0,,,0.0
1,,,1.0
2,,,1.0
3,,,0.0
4,,,1.0


In [None]:
pd.concat([features,predictions],axis=1)

Unnamed: 0,A,B,pred
0,100,12,0
1,200,13,1
2,300,14,1
3,400,15,0
4,500,16,1


## Création de variables Dummies


In [None]:
df_one

Unnamed: 0,C1,C2,C3,C4,C5,C6
0,A,100,NY,1000,N,Error
1,A,200,CA,2000,C,Error
2,B,300,WA,3000,W,Washington
3,B,300,WA,3000,W,Washington
4,C,400,AK,4000,A,Error
5,C,500,NV,5000,N,Error


In [None]:
df_one['C1']

0    A
1    A
2    B
3    B
4    C
5    C
Name: C1, dtype: object

In [None]:
pd.get_dummies(df_one['C1'])

Unnamed: 0,A,B,C
0,1,0,0
1,1,0,0
2,0,1,0
3,0,1,0
4,0,0,1
5,0,0,1
