### Les series en pandas

Avant de parler de pandas je vais vous parler des tableaux sur numpy

In [8]:
#import des modules
import numpy as np
import pandas as pd

qu'est ce qu'un tableau / array numpy ?

Un numpy. ndarray (généralement appelé array ) est un tableau multidimensionnel homogène: tous les éléments doivent avoir le même type, en général numérique.

C'est une grille de valeur qui contient de l'information sur de la donnée brute.

In [9]:
 a = np.array([1, 2, 3, 4])

In [10]:
a

array([1, 2, 3, 4])

In [11]:
type(a)

numpy.ndarray

In [12]:
a[0]

1

In [13]:
a[3]

4

Le numpy array peut avoir plusieurs dimensions

In [14]:
#tableau à deux dimensions
b = np.array([[1, 2, 3], [4, 5, 6]])

In [15]:
b

array([[1, 2, 3],
       [4, 5, 6]])

In [16]:
type(b)

numpy.ndarray

In [17]:
# accès aux elements des tablaux.
b[0,1]

2

In [18]:
b[1,2]

6

### Les series Pandas

Les series sont un type de données en Pandas.
Les series sont très similaires à un numpy array (car c'est construit au dessus du numpy array). C'est un tableau étiqueté unidimensionnel qui peut contenir tout type de données.

In [19]:
labels = ['a','b','c']
my_list = [10,20,30]
arr = np.array([10,20,30])
d = {'a':10,'b':20,'c':30}

In [20]:
# je vais utiliser une liste pour créer une serie Pandas
pd.Series(data=my_list)

0    10
1    20
2    30
dtype: int64

Cela ressemble un peu à un array sauf qu'il y a un index pour chaque type de données.

In [21]:
# je peux assigner un type de données les labels que je souhaites
pd.Series(data=my_list,index=labels)

a    10
b    20
c    30
dtype: int64

In [22]:
#On peut également spécifier de cette manière ci pour aller plus vite
pd.Series(my_list,labels)

a    10
b    20
c    30
dtype: int64

In [23]:
# On peut faire pareil avec numpy array
pd.Series(arr)

0    10
1    20
2    30
dtype: int64

In [24]:
pd.Series(arr,labels)

a    10
b    20
c    30
dtype: int64

In [25]:
#dictionnaire
pd.Series(d)

a    10
b    20
c    30
dtype: int64

On peut avoir une grande variétés d'objet dans une serie Pandas

In [26]:
#chaines de caractères

pd.Series(data=labels)

0    a
1    b
2    c
dtype: object

In [27]:
# même des fonctions en python

pd.Series([sum,print,len])

0      <built-in function sum>
1    <built-in function print>
2      <built-in function len>
dtype: object

## L'utilisation des index

Pour comprendre comment utiliser une serie il faut bien comprendre comment on utilise les index.

In [23]:
ser1 = pd.Series([1,2,3,4],index = ['USA', 'Germany','Russie', 'Japan'])

In [24]:
ser1

USA        1
Germany    2
Russie     3
Japan      4
dtype: int64

In [25]:
ser2 = pd.Series([1,2,5,4],index = ['USA', 'Germany','Italy', 'Japan'])

In [26]:
ser2

USA        1
Germany    2
Italy      5
Japan      4
dtype: int64

In [27]:
# si je veux recuperer les données sur les USA
ser1['USA']

1

In [28]:
# on peut faire une somme entre deux series
ser1+ser2

Germany    4.0
Italy      NaN
Japan      8.0
Russie     NaN
USA        2.0
dtype: float64

## Le DataFrame pandas

le DataFrame est l’objet central de la librairie pandas. Il s’agit d’une collection de pandas.Series (colonnes) alignées par les index. Les types des variables peuvent différer.

In [29]:
#on va generer des nombres aléatoires
from numpy.random import randn

In [30]:
#permet d'avoir les mêmes nombres aléatoires
np.random.seed(101)

In [31]:
randn(5,4)

array([[ 2.70684984,  0.62813271,  0.90796945,  0.50382575],
       [ 0.65111795, -0.31931804, -0.84807698,  0.60596535],
       [-2.01816824,  0.74012206,  0.52881349, -0.58900053],
       [ 0.18869531, -0.75887206, -0.93323722,  0.95505651],
       [ 0.19079432,  1.97875732,  2.60596728,  0.68350889]])

In [32]:
df = pd.DataFrame(randn(5,4),index='A B C D E'.split(),columns='W X Y Z'.split())

In [33]:
df

Unnamed: 0,W,X,Y,Z
A,0.302665,1.693723,-1.706086,-1.159119
B,-0.134841,0.390528,0.166905,0.184502
C,0.807706,0.07296,0.638787,0.329646
D,-0.497104,-0.75407,-0.943406,0.484752
E,-0.116773,1.901755,0.238127,1.996652


Chaque colonne est une serie. Le DataFrame est un ensemble de series qui partagent le même index

In [34]:
df['W']

A    0.302665
B   -0.134841
C    0.807706
D   -0.497104
E   -0.116773
Name: W, dtype: float64

In [35]:
type(df)

pandas.core.frame.DataFrame

In [36]:
type(df['W'])

pandas.core.series.Series

In [37]:
# je peux passer une liste pour avoir plusieurs series d'affiché

df[['W','Z']]

Unnamed: 0,W,Z
A,0.302665,-1.159119
B,-0.134841,0.184502
C,0.807706,0.329646
D,-0.497104,0.484752
E,-0.116773,1.996652


In [38]:
# creer une nouvelle colonne
df['new']= df['W']+ df['Y']

In [43]:
df

Unnamed: 0,W,X,Y,Z,new
A,0.302665,1.693723,-1.706086,-1.159119,-1.40342
B,-0.134841,0.390528,0.166905,0.184502,0.032064
C,0.807706,0.07296,0.638787,0.329646,1.446493
D,-0.497104,-0.75407,-0.943406,0.484752,-1.44051
E,-0.116773,1.901755,0.238127,1.996652,0.121354


In [44]:
# supprimer une colonne
#df.drop('new')
# donne une erreur

In [47]:
df.drop(index = "A", axis = 0)

Unnamed: 0,W,X,Y,Z,new
B,-0.134841,0.390528,0.166905,0.184502,0.032064
C,0.807706,0.07296,0.638787,0.329646,1.446493
D,-0.497104,-0.75407,-0.943406,0.484752,-1.44051
E,-0.116773,1.901755,0.238127,1.996652,0.121354


In [42]:
#j'ai tjs la colonne
df

Unnamed: 0,W,X,Y,Z,new
A,0.302665,1.693723,-1.706086,-1.159119,-1.40342
B,-0.134841,0.390528,0.166905,0.184502,0.032064
C,0.807706,0.07296,0.638787,0.329646,1.446493
D,-0.497104,-0.75407,-0.943406,0.484752,-1.44051
E,-0.116773,1.901755,0.238127,1.996652,0.121354


In [43]:
df.drop('new',axis = 1, inplace=True)

In [44]:
df

Unnamed: 0,W,X,Y,Z
A,0.302665,1.693723,-1.706086,-1.159119
B,-0.134841,0.390528,0.166905,0.184502
C,0.807706,0.07296,0.638787,0.329646
D,-0.497104,-0.75407,-0.943406,0.484752
E,-0.116773,1.901755,0.238127,1.996652


In [45]:
#supprimer une ligne
df.drop('E',axis = 0)

Unnamed: 0,W,X,Y,Z
A,0.302665,1.693723,-1.706086,-1.159119
B,-0.134841,0.390528,0.166905,0.184502
C,0.807706,0.07296,0.638787,0.329646
D,-0.497104,-0.75407,-0.943406,0.484752


In [46]:
# pour connaitre la structure du tableau
df.shape

(5, 4)

On a un tableau de 5 lignes et 4 colonnes

In [47]:
# colonnes
df[['W','Z']]

Unnamed: 0,W,Z
A,0.302665,-1.159119
B,-0.134841,0.184502
C,0.807706,0.329646
D,-0.497104,0.484752
E,-0.116773,1.996652


In [48]:
# recuperer des lignes
df.loc['A']

W    0.302665
X    1.693723
Y   -1.706086
Z   -1.159119
Name: A, dtype: float64

In [49]:
# je peux egalemet recupérer des lignes en utilisant le numero d'index
df.iloc[0]

W    0.302665
X    1.693723
Y   -1.706086
Z   -1.159119
Name: A, dtype: float64

In [50]:
# si je veux selectionner un nombre spécifique
df.loc['B','Y']

0.16690463609281317

le premier argument est la ligne B le deuxième la colonne Y

In [51]:
df

Unnamed: 0,W,X,Y,Z
A,0.302665,1.693723,-1.706086,-1.159119
B,-0.134841,0.390528,0.166905,0.184502
C,0.807706,0.07296,0.638787,0.329646
D,-0.497104,-0.75407,-0.943406,0.484752
E,-0.116773,1.901755,0.238127,1.996652


In [52]:
#pour avoir un sous ensemble je passe une liste de ligne et de colonnes
df.loc[['A','B'],['W','Y']]

Unnamed: 0,W,Y
A,0.302665,-1.706086
B,-0.134841,0.166905


recap

## conditionnal selection

In [53]:
#si je ne veux que des valeurs positives
df>0

Unnamed: 0,W,X,Y,Z
A,True,True,False,False
B,False,True,True,True
C,True,True,True,True
D,False,False,False,True
E,False,True,True,True


In [68]:
# les selectionner dans le tableau
df = df[df>0]

Il va me renvoyer NaN pour les valeurs qui sont en dessous.

In [69]:
df

Unnamed: 0,W,X,Y,Z
A,0.302665,1.693723,,
B,,0.390528,0.166905,0.184502
C,0.807706,0.07296,0.638787,0.329646
D,,,,0.484752
E,,1.901755,0.238127,1.996652


In [73]:
import pandas as pd
import numpy as np

In [75]:
df.fillna(0)

Unnamed: 0,W,X,Y,Z
A,0.302665,1.693723,0.0,0.0
B,0.0,0.390528,0.166905,0.184502
C,0.807706,0.07296,0.638787,0.329646
D,0.0,0.0,0.0,0.484752
E,0.0,1.901755,0.238127,1.996652


In [55]:
# si je veux filtrer uniquement les données qui m'interessent
df['W']>0

A     True
B    False
C     True
D    False
E    False
Name: W, dtype: bool

In [56]:
# je met ce "masque" dans le dataframe
df[df['W']>0]

Unnamed: 0,W,X,Y,Z
A,0.302665,1.693723,-1.706086,-1.159119
C,0.807706,0.07296,0.638787,0.329646


je ne vais avoir que les lignes où les valeurs sont positives sont positive pour la colonne W

In [57]:
#si parmi ces données je ne veux que la colonne Y
df[df['W']>0]['Y']

A   -1.706086
C    0.638787
Name: Y, dtype: float64

In [58]:
df[df['W']>0][['Y','X']]

Unnamed: 0,Y,X
A,-1.706086,1.693723
C,0.638787,0.07296


**decomposons pour mieux comprendre**

In [59]:
boolser = df['W']>0
boolser

A     True
B    False
C     True
D    False
E    False
Name: W, dtype: bool

In [60]:
result = df[boolser]
result

Unnamed: 0,W,X,Y,Z
A,0.302665,1.693723,-1.706086,-1.159119
C,0.807706,0.07296,0.638787,0.329646


In [61]:
mycols= ['Y','X']
result[mycols]

Unnamed: 0,Y,X
A,-1.706086,1.693723
C,0.638787,0.07296


Cela peut être utile de decomposer quand on a pas l'habitude.

## plusieurs conditions

Si on veut utiliser deux conditions on utilise ce symbole **&** et non and.

Pour le or on utilise | (alt maj l pour mac)

In [62]:
df[(df['W']>0) & (df['X'] > 1)]

Unnamed: 0,W,X,Y,Z
A,0.302665,1.693723,-1.706086,-1.159119


In [63]:
df[(df['W']>0)|(df['X'] > 1)]

Unnamed: 0,W,X,Y,Z
A,0.302665,1.693723,-1.706086,-1.159119
C,0.807706,0.07296,0.638787,0.329646
E,-0.116773,1.901755,0.238127,1.996652


### Les index

In [64]:
df

Unnamed: 0,W,X,Y,Z
A,0.302665,1.693723,-1.706086,-1.159119
B,-0.134841,0.390528,0.166905,0.184502
C,0.807706,0.07296,0.638787,0.329646
D,-0.497104,-0.75407,-0.943406,0.484752
E,-0.116773,1.901755,0.238127,1.996652


In [65]:
# si on veut changer l'index en numerique
df.reset_index()

Unnamed: 0,index,W,X,Y,Z
0,A,0.302665,1.693723,-1.706086,-1.159119
1,B,-0.134841,0.390528,0.166905,0.184502
2,C,0.807706,0.07296,0.638787,0.329646
3,D,-0.497104,-0.75407,-0.943406,0.484752
4,E,-0.116773,1.901755,0.238127,1.996652


Si je veux complètement changer l'index.

In [None]:
newind = 'CA NY WY OR CO'.split()

In [None]:
newind

In [None]:
# je rajoute une nouvelle colonne
df['States'] = newind

In [None]:
df

In [None]:
# je le met comme un nouvel index avec set_index
df.set_index('States')

In [None]:
df

## Les données manquantes

In [4]:
# je crée un dataframe pour l'exemple avec des données manquantes

df = pd.DataFrame({'A':[1,2,np.nan],
                  'B':[5,np.nan,np.nan],
                  'C':[1,2,3]})

In [5]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


***on peut les supprimer (si par exemple on en a pas beaucoup)***

In [6]:


df.dropna()


Unnamed: 0,A,B,C
0,1.0,5.0,1


pour enlever les colonnes lignes avec des nan

In [None]:
# pour supprimer les colonnes avec nan values
df.dropna(axis= 1)

In [None]:
#shift + tab pour regarder la doc
# si je veux garder les lignes qui ont moins de deux valeurs nulle
df.dropna(thresh=2)

***on peut les remplacer***

In [None]:
df.fillna(value='FILL VALUE')

In [None]:
# on peut les remplacer par la moyenne pour la colonne A par exemple
df['A'].fillna(value=df['A'].mean())

### Groupby

LE GROUPBY permet de grouper des lignes de donnes ensemble avec une fonction agregate comme la somme, me moyenne, la mediane, le compte  ect...

In [None]:
# Create dataframe à partir d'un dictionnaire
data = {'Company':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
       'Person':['Sam','Charlie','Amy','Vanessa','Carl','Sarah'],
       'Sales':[200,120,340,124,243,350]}

In [None]:
df = pd.DataFrame(data)

In [None]:
df

In [None]:
# si on groupby company
df.groupby('Company')

In [None]:
# on va les grouper par moyenne
df.groupby('Company').mean()

In [None]:
#avec la sum
df.groupby('Company').sum()

In [None]:
# je veux selectionner juste une
df.groupby('Company').sum().loc['FB']

In [None]:
# par variance
df.groupby('Company').std()

In [None]:
# min
df.groupby('Company').min()

In [None]:
df.groupby('Company').count()

In [None]:
# fonction qu'on utilise trèes souvent c'est describe
df.groupby('Company').describe()

In [None]:
# si on veut transposer
df.groupby('Company').describe().transpose()

In [None]:
df.groupby('Company').describe().transpose()['FB']

## Merge, Join, Concat

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

In [None]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7])

In [None]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']},
                        index=[8, 9, 10, 11])

In [None]:
df1

In [None]:
df2

In [None]:
df3

In [None]:
# concatener : mettre les un sur les autres
pd.concat([df1,df2,df3])

In [None]:
# si on veut concatener les lignes
pd.concat([df1,df2,df3],axis=1)

In [None]:
# autres dataframe
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})

In [None]:
left

In [None]:
right

## Merge

ça nous permet de joindre deux dataframe en utilisant la même logique que SQL.
Rappel des differente manières de joindre deux tableaux

![Capture%20d%E2%80%99e%CC%81cran%202023-06-09%20a%CC%80%2012.21.43.png](attachment:Capture%20d%E2%80%99e%CC%81cran%202023-06-09%20a%CC%80%2012.21.43.png)

In [None]:
pd.merge(left,right,how='inner',on='key')

## Join
Le join est quasiment identique au merge sauf que la clé avec laquelle on va les joindre c'est l'index et non pas une colonne

In [None]:
# deux dataframe avec un index
left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2'])

right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

In [None]:
left.join(right)

In [None]:
left.join(right, how='outer')

## les operations

In [None]:
df = pd.DataFrame({'col1':[1,2,3,4],'col2':[444,555,666,444],'col3':['abc','def','ghi','xyz']})
# Pour voir les 5 premières lignes très très utile
df.head()

### pour voir les valeurs uniques

In [None]:
df['col2'].unique()

In [None]:
# si je veux juste les nombre de valeur unique
df['col2'].nunique()

In [None]:
# value counts pour savoir combien de fois j'ai chaque valeur
df['col2'].value_counts()

### selectionner des données



In [None]:
df[(df['col1']>2) & (df['col2']==444)]

## appliquer sa propre fonction à un tableau

In [None]:
def times2(x):
    return x*2

In [None]:
#on l'applique à la colonne 1 avec la méthode apply
df['col1'].apply(times2)

In [None]:
# on peut egalement appliquer des fonctions natives
#longeur de chaque chaine
#attention ne fonctionne pas avec des nombres
df['col3'].apply(len)

In [None]:
# avec une fonction lambda (très pratique)
df['col1'].apply(lambda x :x*2)

### supprimer une colonne

In [None]:
df

In [None]:
df.drop('col1',axis = 1)

In [None]:
#recuperer le nom des colonnes
df.columns

In [None]:
#recuperer le nom des index
df.index

In [None]:
#ranger les colonnes par valeur
df.sort_values('col2')

### Trouver les valeurs nulles ou vérifier les valeurs nulles


In [None]:
df.isnull()

In [None]:
# supprimer le valeurs nulles
df.dropna()

In [None]:
# remplacer les nan par autre chose
df = pd.DataFrame({'col1':[1,2,3,np.nan],
                   'col2':[np.nan,555,666,444],
                   'col3':['abc','def','ghi','xyz']})
df.head()

In [None]:
df.fillna('FILL')

### Pivot Table

In [None]:
df = pd.DataFrame({
    "nom": ["Bastien", "Bastien", "Bastien", "Salma", "Salma", "Salma", "Alain", "Alain", "Alain"],
    "cours": ["A", "B", "C", "A", "B", "C", "A", "B", "C"],
    "note": [66, 75, 80, 70, 77, 81, 80, 85, 90],
    "genre": ["H", "H", "H", "F", "F", "F", "H", "H", "H"],
})

In [None]:
df

Comme vous pouvez le constater, afin de représenter les données sous forme tabulaire, le nom de la même personne et le cours apparaissent de manière répétée dans de nombreuses lignes.

On peut réorganiser les tableau de manière à résumer l'information

In [None]:
#on veut les noms des eleèves avec le cours et leur note
df.pivot_table(index="nom", columns="cours", values="note")


Si nous voulons compter le nombre de cours et la moyenne des notes pour chaque étudiant, nous pouvons utiliser le code ci-dessous :

In [None]:
#pwd

### Les inputs et outputs

In [1]:
# pour lire un csv
pd.read_csv('example.csv')

NameError: name 'pd' is not defined

In [None]:
#on peut lire differents format
df = pd.read_csv('example.csv')

In [None]:
df

In [None]:
# pour  exporter le tableau
df.to_csv('export')

In [None]:
pd.read_csv('export')

In [None]:
# pour enlever l'index en trop
df.to_csv('export',index = False )

In [None]:
pd.read_csv('export')

In [None]:
df = pd.read_excel('Excel_Sample.xlsx',sheet_name='Sheet1')

In [None]:
df

In [None]:
df.to_excel('Excel_Sample.xlsx',sheet_name='new_sheet')