In [1]:
import numpy as np
import pandas as pd

# **Texte**

# Series

Les séries sont des tableaux à une dimension de données indexées.
exemple:
Une série est un tableau étiqueté unidimensionnel capable de contenir n'importe quel type de données (entiers, chaînes, nombres à virgule flottante, objets Python, etc.). Les étiquettes des axes sont collectivement appelées index.

pandas-series-rsub-image-1.svg


Il existe différents types de données :
###- un dictionnaire Python
###- un ndarray
###- une valeur scalaire ou liste de valeurs

**Exemple**

###**Depuis ndarray :**-

Si les données sont un ndarray, l'index doit avoir la même longueur que les données. Si aucun index n'est transmis, un index sera créé avec les valeurs [0, ..., len(data) - 1].


In [17]:
s = pd.Series(np.random.randn(6),index=['z',1,'z',2,'l',6])
s

z    0.458358
1    0.506887
z   -1.227854
2   -0.119424
l    1.364436
6    0.225776
dtype: float64

In [3]:
p=pd.Series(np.random.randn(6))
p

0   -1.106336
1    1.472117
2    0.419028
3   -0.606448
4   -1.128435
5   -0.468028
dtype: float64

In [4]:
s.index,p.index

(Index(['p', 'q', 'r', 'n', 't', 'v'], dtype='object'),
 RangeIndex(start=0, stop=6, step=1))

###**- Depuis un Dictionnaire :**

In [18]:
dictionnaire = {"Roi": "Arthur", "Chevalier_pays_galles": "Perceval", "Druide": "Merlin"}
s = pd.Series(dictionnaire)
print(s)

Roi                        Arthur
Chevalier_pays_galles    Perceval
Druide                     Merlin
dtype: object


In [21]:
dictionnaire = {"Roi": "Arthur", "Chevalier_pays_galles": "Perceval","Druide": "Merlin"}
s = pd.Series(dictionnaire, index = ["Roi", "Druide","clé"])
print(s)

Roi       Arthur
Druide    Merlin
clé          NaN
dtype: object


##**- une valeur scalaire **


In [23]:
pd.Series(-5, index=['p', 'q', 'r', 'n', 't'])

p   -5
q   -5
r   -5
n   -5
t   -5
dtype: int64

##**- liste de valeurs**

In [37]:
D=pd.Series([4.0,['a',3],1,,6],index=['p', 'q', 'r', 'n', 't'])

SyntaxError: invalid syntax (184504399.py, line 1)

In [35]:
D

p       4.0
q    [a, 3]
r         1
n       5.0
t         6
dtype: object

In [58]:
d={1:pd.Series([1,2,3,4],index=['a','b','c','d']),
               2:pd.Series([1,2,3,4,5],index=('a','b','c','d','f'))}
df=pd.DataFrame(d)
print(d)
df

{1: a    1
b    2
c    3
d    4
dtype: int64, 2: a    1
b    2
c    3
d    4
f    5
dtype: int64}


Unnamed: 0,1,2
a,1.0,1
b,2.0,2
c,3.0,3
d,4.0,4
f,,5


In [64]:
df.loc["f",1]

nan

In [60]:
df

Unnamed: 0,1,2
a,1.0,1
b,2.0,2
c,3.0,3
d,4.0,4
f,,5



# DataFrame

Un DataFrame est une structure de données bidimensionnelle, c'est-à-dire que les données sont alignées de façon tabulaire en lignes et en colonnes.

## Caractéristiques de DataFrame

    * Les colonnes peuvent être de types différents
    * Taille - Mutable
    * Axes étiquetés (lignes et colonnes)
    * Peut effectuer des opérations arithmétiques sur les lignes et les colonnes.

On peut **(toute proportion gardée)** comparer un DataFrame à une feuille excel avec des lignes et des colonnes.

Dans cette partie, nous allons examiner le DataFrame  et la façon dont nous pouvons manipuler à la fois le DataFrame et les données qu'il représente pour construire une base pour réaliser des données interactives.

    *  Création d'un DataFrame
    *  Import de fichiers
    *  Sélectionner les colonnes d'un DataFrame
    *  Sélectionner les lignes d'un DataFrame
    *  Sélectionner des céllules d'un DataFrame
    *  Sélectionner des lignes à partir de booleens
    *  Ajouter, remplacer, supprimer des colonnes
    *  Ajouter, remplacer, supprimer des lignes
    *  Modifier les valeurs
    *  Arithmétiques des DataFrame
    *  Réindexer
    *  Index hierarchique
    *  Propriétés et fonctions utiles d'un DataFrame
    *  Données résumées et statistiques descriptives

In [9]:
données  =  np.zeros (( 2 ,  ),  dtype = [( 'P' ,  'i4' ),  ( 'Q' ,  'f4' ),  ( 'R' ,  'a10' )])
pd.DataFrame ( données )

Unnamed: 0,P,Q,R
0,0,0.0,b''
1,0,0.0,b''


In [10]:
type('P')

str

In [122]:
import numpy as np
import pandas as pd

pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 10)
pd.set_option('display.max_rows', 10)

# Création d'un DataFrame

Plusieurs possibilités s'offrent à nous pour atteindre cet objectif.

## a) Création d'un DataFrame vide


In [11]:
df = pd.DataFrame()
df

## b) Utilisation d'un array de Numpy

In [12]:
# Création d'un DataFrame de 2 lignes sur 2 colonnes
dfa = pd.DataFrame(np.array([[10, 11], [20, 21]]))
dfa

Unnamed: 0,0,1
0,10,11
1,20,21


## c) Utilisation d'objets Series

In [13]:
# Création d'un tableau de 2 lignes sur 4 colonnes
dfa = pd.DataFrame([pd.Series(np.arange(0, 5)),pd.Series(np.arange(10, 15))])
dfa

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,10,11,12,13,14


## d) Utilisation d'une Liste

In [14]:
data = [1,2,3,4,5]
df = pd.DataFrame(data)
df

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


In [15]:
data = [['Jean',10],['Arno',12],['Anne',13]]
df = pd.DataFrame(data,columns=['Prénom','Age'])
df

Unnamed: 0,Prénom,Age
0,Jean,10
1,Arno,12
2,Anne,13


In [18]:
data = [['Jean',10],['Arno',12],['Anne',13]]
# On spécifie le type float pour les numériques
df = pd.DataFrame(data,columns=['Prénom','Age'])
df

Unnamed: 0,Prénom,Age
0,Jean,10
1,Arno,12
2,Anne,13


## e) Utilisation d'un dictionnaire de Liste / ndarrays

Tous les ndarrays doivent être de même longueur. Si l'index est passé, alors la longueur de l'index devrait être égale à la longueur des tableaux.

Si aucun index n'est passé, alors par défaut, l'index sera range(n), où n est la longueur du tableau.

In [23]:
data = {'Prénom':['Anne', 'Pierre', 'jack', 'Steven'],
        'Age':[65,31,23,48]}
df = pd.DataFrame(data)
df

Unnamed: 0,Prénom,Age
0,Anne,65
1,Pierre,31
2,jack,23
3,Steven,48


In [24]:
# On rajoute un index
data = {'Prénom':['Anne', 'Pierre', 'jack', 'Steven'],'Age':[65,31,23,48]}
df = pd.DataFrame(data, index=['rang1','rang2','rang3','rang4'])
df

Unnamed: 0,Prénom,Age
rang1,Anne,65
rang2,Pierre,31
rang3,jack,23
rang4,Steven,48


## f) Utilisation d'une liste de dictionnaire

La liste des dictionnaires peut être transmise en tant que données d'entrée pour créer un DataFrame. Les clés du dictionnaire sont prises par défaut comme noms de colonnes.

In [25]:
# un dictionnaire par ligne
# c n'est pas présent sur la 1° ligne d'où la valeur Nan par défaut
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
df

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


In [26]:
# Idem mais en passant un index
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
df

Unnamed: 0,a,b,c
first,1,2,
second,5,10,20.0


In [27]:
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'],columns=['a','b','col3'])
df

Unnamed: 0,a,b,col3
first,1,2,
second,5,10,


Le DataFrame est créé avec un index de colonne autre que la clé du dictionnaire. Comme le nom de la colonne n'existe pas dans le dictionaire, la colonne est initialisée à Nan.

## g) Création d'un DataFrame à partir d'un Dictionaire de série

Le dictionnaire de series peut être passé pour former un DataFrame. L'indice résultant est l'union de tous les indices de serie passés.
Comme dans les exemples précédents si la valeur n'existe pas alors elle est remplacée par Nan

In [28]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
df

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


Si vous recevez un DataFrame et que vous ne connaissez pas ses dimensions pour pouvez utiliser la commande **shape**

In [146]:
df.size

30

On peut donner un nom à nos colonnes afin de les manipuler plus facilement.

In [147]:
dfa = pd.DataFrame(np.array([[10, 11, 12, 13, 14], [20, 21, 22, 23, 24]]),columns=['col1', 'col2', 'col3', 'col4', 'col5'])
dfa

   col1  col2  col3  col4  col5
0    10    11    12    13    14
1    20    21    22    23    24

Vous pouvez récupérer le nom des colonnes de votre dataFrame en utilisant **.columns**

In [33]:
dfa.columns,dfa.index

(Index(['col1', 'col2', 'col3', 'col4', 'col5'], dtype='object'),
 RangeIndex(start=0, stop=2, step=1))

In [34]:
# Pour connaître le nom d'une colonne en particulier
dfa.columns[3]

'col4'

In [35]:
#Création d'un DataFrame complet
# On reprend notre ancien df
exam_data  = {'nom': ['Anne', 'Alex', 'catherine', 'Jean', 'Emillie', 'Michel', 'Matieu', 'Laura', 'Kevin', 'Jonas'],
        'note': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
        'qualification': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df = pd.DataFrame(exam_data , index=labels)

index = df.index
colonne = df.columns
data = df.values

# Liste des index
print(index)
# Liste des colonnes
print(colonne)
# Listes des valeurs
print(data)

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'], dtype='object')
Index(['nom', 'note', 'qualification'], dtype='object')
[['Anne' 12.5 'yes']
 ['Alex' 9.0 'no']
 ['catherine' 16.5 'yes']
 ['Jean' nan 'no']
 ['Emillie' 9.0 'no']
 ['Michel' 20.0 'yes']
 ['Matieu' 14.5 'yes']
 ['Laura' nan 'no']
 ['Kevin' 8.0 'no']
 ['Jonas' 19.0 'yes']]


In [36]:
# Vous pouvez aussi récupérer directement les infos de cette manière
print(index.values)
print(colonne.values)

['a' 'b' 'c' 'd' 'e' 'f' 'g' 'h' 'i' 'j']
['nom' 'note' 'qualification']


## Renommer des colonnes

Nous allons voir plusieurs possibilités de renommer une colonne.

In [151]:
# On utilise la fonction rename de Pandas
dfa.rename(columns={'col1':'colonne 1'},inplace=True)

In [152]:
#
dfa.columns

Index(['colonne 1', 'col2', 'col3', 'col4', 'col5'], dtype='object')

In [153]:
# On peut aussi combiner avec un dictionnaire
old_names = ['colonne 1', 'col2']
new_names = ['new 1', 'colonne 2']
dfa.rename(columns=dict(zip(old_names, new_names)), inplace=True)
dfa

   new 1  colonne 2  col3  col4  col5
0     10         11    12    13    14
1     20         21    22    23    24

In [56]:
# Vous pouvez également utiliser une fonction plus poussée
dfa.columns = ['X_' if x[:-1]=='col' else x for x in dfa.columns]
dfa

Unnamed: 0,new 1,colonne 2,colonne 3,X_,X_.1
0,10,11,12,13,14
1,20,21,22,23,24


**Comme pour l'objet Series, on peut créer, modifier l'index du DataFrame**

In [64]:
s1 = pd.Series(np.arange(1, 6, 1), index=[0,1,2,3,4])
s2 = pd.Series(np.arange(6, 11, 1))
dfa=pd.DataFrame({'c1': s1, 'c2': s2})
dfa

Unnamed: 0,c1,c2
0,1,6
1,2,7
2,3,8
3,4,9
4,5,10


In [65]:
# Création d'un dataFrame ans index
dfa = pd.DataFrame({'month': [1, 4, 7, 10],
                  'year': [2012, 2014, 2013, 2014],
                  'sale':[55, 40, 84, 31]})
dfa

Unnamed: 0,month,year,sale
0,1,2012,55
1,4,2014,40
2,7,2013,84
3,10,2014,31


In [66]:
# Ajout d'un index depuis une colonne
dfa.set_index('sale')
dfa

Unnamed: 0,month,year,sale
0,1,2012,55
1,4,2014,40
2,7,2013,84
3,10,2014,31


# 2 - Import de fichiers

Pour l'instant, nous allons charger des données dans un DataFrame que nous pouvons utiliser pour voir diverses opérations. Ce code n'utilise que six colonnes de données spécifiques dans le fichier.  Nousspécifions ces colonnes via le paramètre usecols à pd.read_csv(). Cela rend la sortie des exemples un peu moins compliquée.


In [159]:
import numpy as np
import pandas as pd

Info = pd.read_csv("studentInfo.csv")
Info.head(2)


  code_module code_presentation  id_student gender               region  ...  \
0         AAA             2013J       11391      M  East Anglian Region  ...   
1         AAA             2013J       28400      F             Scotland  ...   

  age_band num_of_prev_attempts studied_credits  disability  final_result  
0     55<=                    0             240           N          Pass  
1    35-55                    0              60           N          Pass  

[2 rows x 12 columns]

Nous pouvons examiner les cinq premières lignes du DataFrame en utilisant la méthode **.head()**.
Les exemples utiliseront fréquemment cette méthode pour limiter le nombre de lignes en affichage.

Nous pouvons examiner les cinq dernières lignes avec la méthode **.tail()**:

In [160]:
Info.tail(10)

      code_module code_presentation  id_student gender                region  \
32583         GGG             2014J     2508153      F  East Midlands Region   
32584         GGG             2014J     2533195      F     South East Region   
32585         GGG             2014J     2606765      F         London Region   
32586         GGG             2014J     2608143      M  East Midlands Region   
32587         GGG             2014J     2620947      F              Scotland   
32588         GGG             2014J     2640965      F                 Wales   
32589         GGG             2014J     2645731      F   East Anglian Region   
32590         GGG             2014J     2648187      F          South Region   
32591         GGG             2014J     2679821      F     South East Region   
32592         GGG             2014J     2684003      F      Yorkshire Region   

       ... age_band num_of_prev_attempts studied_credits  disability  \
32583  ...     0-35                    0       

In [76]:
# Quelle est la taille de mon DataFrame
len(Info)

32593

In [78]:
#Examinons l'index
Info.index

RangeIndex(start=0, stop=32593, step=1)

In [79]:
# Nous pouvons examiner les autres colonnes du DataFrame
Info.columns

Index(['code_module', 'code_presentation', 'id_student', 'gender', 'region',
       'highest_education', 'imd_band', 'age_band', 'num_of_prev_attempts',
       'studied_credits', 'disability', 'final_result'],
      dtype='object')

# 3 - Sélectionner les colonnes d'un DataFrame

La sélection des données dans des colonnes spécifiques d'un DataFrame s'effectue à l'aide de la fonction []. opérateur.
Ceci peut être passé soit comme un objet unique, soit comme une liste d'objets. Ces objets sont utilisés pour rechercher des colonnes soit par emplacemen, soit en faisant correspondre les objets à les valeurs dans l'index des colonnes.

Le code suivant va récupéré les données de la colonne Security :


In [80]:
Info['id_student']

0          11391
1          28400
2          30268
3          31604
4          32885
          ...   
32588    2640965
32589    2645731
32590    2648187
32591    2679821
32592    2684003
Name: id_student, Length: 32593, dtype: int64

In [81]:
# Vous pouvez aussi utiliser directement le nom de la colonne
print(Info.id_student)

# Mais cela ne fonctionne pas si il y a un espace dans le nom de votre colonne

#Vous pouvez transformer votre colonne en un nouveau DataFrame
macolonne=Info.gender

mcdf=macolonne.to_frame()
# Nouveau DataFrame
print(mcdf)
# Pour info vous vaez accès à la completion
#securities.Security.

0          11391
1          28400
2          30268
3          31604
4          32885
          ...   
32588    2640965
32589    2645731
32590    2648187
32591    2679821
32592    2684003
Name: id_student, Length: 32593, dtype: int64
      gender
0          M
1          F
2          F
3          F
4          F
...      ...
32588      F
32589      F
32590      F
32591      F
32592      F

[32593 rows x 1 columns]


Sélectionner la colonne vous donne accès à l'ensemble de la colonne, mais n'affichera qu'un aperçu. Sous la colonne, le nom de la colonne et le type de données (dtype) sont imprimés pour faciliter la consultation.

Si vous voulez trouver l'emplacement de base d'une ou plusieurs colonnes en utilisant le nom de la colonne, utilisez la commande .get_loc()


In [82]:
Info.columns.get_loc('id_student')

2



# 4 - Sélection de lignes dans un DataFrame

La sélection de lignes est utile pour explorer les données et se familiariser avec les valeurs que vous pourriez voir. Vous pouvez sélectionner des lignes en utilisant des parenthèses et des index de lignes.

Comprendre cela est important dans les pandas, car c'est une erreur courante que d'essayer et de sélectionner les lignes. en utilisant [] en raison de la familiarité avec d'autres langues ou structures de données. Ce faisant, les erreurs sont souvent difficiles à diagnostiquer sans se rendre compte que [] fonctionne. le long d'un axe complètement différent de celui d'un objet Série.

La sélection de ligne à l'aide de l'index sur un DataFrame se décompose en plusieurs catégories d'opérations :
Sélection à l'aide de l'opérateur [].
Recherche par étiquette ou par emplacement à l'aide de .loc,.iloc et.ix.
Recherche à l'échelle par étiquette ou emplacement à l'aide de .at et .iat.

Le découpage d'un DataFrame à travers son index est syntaxiquement identique à celui d'une série.
Par exemple, vous pouvez sélectionner les trois premières lignes du DataFrame avec le code suivant :

In [99]:
Info[:3]

Unnamed: 0,code_module,code_presentation,id_student,gender,region,highest_education,imd_band,age_band,num_of_prev_attempts,studied_credits,disability,final_result
0,AAA,2013J,11391,M,East Anglian Region,HE Qualification,90-100%,55<=,0,240,N,Pass
1,AAA,2013J,28400,F,Scotland,HE Qualification,20-30%,35-55,0,60,N,Pass
2,AAA,2013J,30268,F,North Western Region,A Level or Equivalent,30-40%,35-55,0,60,Y,Withdrawn


Le ":3" entre parenthèses signifie effectivement "jusqu'à l'index 3".

 De même, vous pouvez tout sélectionner "de l'indice 4 à l'indice 7 (mais non compris)" :

In [100]:
Info[4:7]

Unnamed: 0,code_module,code_presentation,id_student,gender,region,highest_education,imd_band,age_band,num_of_prev_attempts,studied_credits,disability,final_result
4,AAA,2013J,32885,F,West Midlands Region,Lower Than A Level,50-60%,0-35,0,60,N,Pass
5,AAA,2013J,38053,M,Wales,A Level or Equivalent,80-90%,35-55,0,60,N,Pass
6,AAA,2013J,45462,M,Scotland,HE Qualification,30-40%,0-35,0,60,N,Pass


## Sélection d'une ligne spécifique

Pour sélectionner une ligne spécifique, vous devez utiliser la méthode .iloc, avec l'index de la ligne entre parenthèses :

In [102]:
# Pour sélectionner depuis un indice
Info.iloc[1]

code_module                          AAA
code_presentation                  2013J
id_student                         28400
gender                                 F
region                          Scotland
highest_education       HE Qualification
imd_band                          20-30%
age_band                           35-55
num_of_prev_attempts                   0
studied_credits                       60
disability                             N
final_result                        Pass
Name: 1, dtype: object

## Sélection de lignes et de colonnes dans un DataFrame

Tout comme vous pouvez sélectionner des lignes ou des colonnes, vous pouvez également sélectionner des lignes et des colonnes en même temps. Par exemple, vous pouvez sélectionner les trois premières lignes de la colonne 'security' en nommant la colonne et les lignes entre crochets :

In [106]:
Info[['id_student','gender']][2:8]

Unnamed: 0,id_student,gender
2,30268,F
3,31604,F
4,32885,F
5,38053,M
6,45462,M
7,45642,F


Les parenthèses sélectionnant la colonne et sélectionnant les lignes sont séparées, et les sélections sont appliquées de gauche à droite (dans ce dernier exemple, la colonne est sélectionnée, puis filtrée jusqu'aux 3 premières lignes).

En fait, la sélection des lignes puis de la colonne donne le même résultat :

In [107]:
Info[:3][['id_student','gender']]

Unnamed: 0,id_student,gender
0,11391,M
1,28400,F
2,30268,F


# 5 - Sélectionner des cellules d'un DataFrame

On peut recherche rles valeurs d'un DataFrame en utilisant la fonciton **.at**

In [113]:
# On sélectionne la cellule 1° ligne, 3° colonne
Info.at[1,'id_student']

28400

In [112]:
# On sélectionne la cellule 1° ligne, 3° colonne
# Mais en passant des valeurs.
securities.iat[1,2]

28400

# 6 - Sélectionner des lignes à partir de booleens

Les lignes peuvent également être sélectionnées en utilisant la sélection booléenne. Il faut utiliser un tableau calculé à partir du résultat de l'application d'une condition logique sur les valeurs de n'importe laquelle des colonnes.

Cela nous permet de construire des sélections plus complexes que celles basées simplement sur des étiquettes d'index ou des positions.

In [117]:
Info.studied_credits > 60

0         True
1        False
2        False
3        False
4        False
         ...  
32588    False
32589    False
32590    False
32591    False
32592    False
Name: studied_credits, Length: 32593, dtype: bool

Cela nous retourne une series avec les enregistrements qui correspondent à notre recherche.

In [118]:
Info[Info.studied_credits > 60]

Unnamed: 0,code_module,code_presentation,id_student,gender,region,highest_education,imd_band,age_band,num_of_prev_attempts,studied_credits,disability,final_result
0,AAA,2013J,11391,M,East Anglian Region,HE Qualification,90-100%,55<=,0,240,N,Pass
7,AAA,2013J,45642,F,North Western Region,A Level or Equivalent,90-100%,0-35,0,120,N,Pass
8,AAA,2013J,52130,F,East Anglian Region,A Level or Equivalent,70-80%,0-35,0,90,N,Pass
18,AAA,2013J,74372,M,East Anglian Region,A Level or Equivalent,10-20,35-55,0,150,N,Fail
38,AAA,2013J,118983,M,East Midlands Region,HE Qualification,30-40%,0-35,0,120,N,Pass
...,...,...,...,...,...,...,...,...,...,...,...,...
32436,GGG,2014J,686898,F,East Anglian Region,Lower Than A Level,30-40%,0-35,0,120,N,Withdrawn
32454,GGG,2014J,688199,F,South Region,Lower Than A Level,70-80%,0-35,0,90,N,Distinction
32523,GGG,2014J,695143,F,South West Region,Lower Than A Level,0-10%,35-55,0,90,Y,Withdrawn
32528,GGG,2014J,695951,F,Wales,Lower Than A Level,40-50%,0-35,0,90,Y,Pass


On peut imbriquer des conditions pour afiner notre recherche en combinant des ET (**&**) ou des OU (**|**)


In [120]:
securities[(Info.studied_credits > 60) & (Info.studied_credits < 90)][["id_student"]]

Unnamed: 0,id_student
97,240712
255,1758449
781,87732
800,120994
810,133748
...,...
27026,618390
27060,620277
29118,655747
29914,1998834


# Modifier la structure et le contenu de DataFrame

La structure et le contenu d'un DataFrame peuvent être modifiés de plusieurs façons.
Les lignes et les colonnes peuvent être ajoutées et supprimées.
Les données qu'elles contiennent peuvent être modifiées pour prendre de nouvelles valeurs. De plus, les colonnes, ainsi que les étiquettes d'index, peuvent également être renommées.

Nous allons vous présenter différentes techniques d emanipulation.


## Comment renommer une colonne d'un DataFrame

Cela se fait très simplement en utilisant la fonction **.rename**

In [None]:
# On va changer le nom d'une colonne et stocker le résultat dans un nouveau DataFrame
test = securities.rename(columns={'CIK':'C I K'})

test.head()

In [None]:
# On peut effectuer la même opération directement sur notre dataframe
securities.rename(columns={'CIK':'C I K'}, inplace=True)
securities.head()

On pourrait tout à fait remplacer plusieurs colonnes en même temps.

securities.rename(columns={'CIK':'C I K', 'Security':'name'}, inplace=True)

## Insérer ou ajouter de nouvelles colonnes

Les colonnes peuvent être ajoutées à un DataFrame à l'aide de plusieurs méthodes.

Le moyen le plus simple est de fusionner une nouvelle série dans l'objet DataFrame.
Notez que cela modifiera le DataFrame sur place et ne donnera pas lieu à une copie.

Ajoutons une colonne purement démonstrative appelée CIK2 qui ajoute une nouvelle colonne avec une valeur calculée de 2.0 * la colonne CIK. Étant donné que cela modifie l'objet DataFrame, nous ferons aussi une copie.

In [121]:
copie = Info.copy()
# On ajoute une nouvelle colonne
copie['fois2'] = Info['studied_credits'] * 2
copie[:2]

Unnamed: 0,code_module,code_presentation,id_student,gender,region,highest_education,imd_band,age_band,num_of_prev_attempts,studied_credits,disability,final_result,fois2
0,AAA,2013J,11391,M,East Anglian Region,HE Qualification,90-100%,55<=,0,240,N,Pass,480
1,AAA,2013J,28400,F,Scotland,HE Qualification,20-30%,35-55,0,60,N,Pass,120


On peut aussi insérer dynamiquement une colonne en utilisant la fonction ** insert **

In [None]:
# On réalise une copie de notre dataFrame initial
copie = securities.copy()

# On ajoute une colonne
copie.insert(1, 'fois2', securities['C I K'] * 2)
copie[:2]

On peut également combiner avec la sélection des lignes et des colonnes que nous avons vu précédemment

In [None]:
# Extraction des 5 premières lignes avec juste la colonne C I K
rcopie = securities[0:5][['CIK']].copy()
rcopie

Si on a un index dans notre DataFrame, on peut s'en servir pour ajouter une colonne en se basant sur le contenu de l'index.

Nous allons créer un objet Series

In [None]:
#Création d'une série
s = pd.Series( {'ABT': 'Cette action est présente','LOPMK': 'Cette action est absente'} )

s

In [None]:
# On va créer dynamiquement un nouvelle colonne commentaire et va fusionner avec la séries s
rcopie['Commentaire'] = s
rcopie

Comme panda n'a pas trouvé de correspondance, il ajoute NaN dans la colonne.

Autre exemple de création de colonne.

In [None]:
d = {'Un' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'Deux' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

dfexemple = pd.DataFrame(d)



print ("Ajout d'une nouvelle colonne en passant une série")
# Index c n'existe pas d'où valeur Nan
dfexemple['Trois']=pd.Series([10,20,30],index=['a','b','d'])
print(dfexemple)

print ("Ajout d'une nouvelle colonne à partir d'éléments existants")
dfexemple['Quatre']=dfexemple['Un']+dfexemple['Trois']
print(dfexemple)

## Modifier le contenu des colonnes

En général, l'affectation d'une Série à une colonne à l'aide de l'opérateur [] créera une nouvelle colonne si la colonne n'existe pas déjà, ou remplacera le contenu d'une colonne si elle existe déjà.



In [None]:
# On remplace la colonne CIK
copie = securities.copy()
copie.CIK = securities.CIK * 2
copie[:5]

In [None]:
# On va créer une nouvelle colonne couleur
exam_data  = {'nom': ['Anne', 'Alex', 'catherine', 'Jean', 'Emillie', 'Michel', 'Matieu', 'Laura', 'Kevin', 'Jonas'],
        'note': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
        'qualification': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df = pd.DataFrame(exam_data , index=labels)

couleur = ['Rouge','Bleue','Orange','Rouge','Blanc','Blanc','Bleue','Vert','Vert','Rouge']
df['couleur'] = couleur
df

## Supprimer une colonne

Les colonnes peuvent être supprimées d'un DataFrame en utilisant le mot-clé **del**, la méthode **pop**(column) du DataFrame, ou en appelant la méthode **drop()** du DataFrame.

Le comportement de chacun d'entre eux diffère légèrement :
- del supprimera simplement la série du DataFrame
- pop() supprimera la série et retournera la série comme résultat (aussi in-place)
- drop(labels, axis=1) retournera une nouvelle DataFrame avec la ou les colonnes supprimées (l'objet DataFrame d'origine n'est pas modifié).



In [None]:
#Reprenons notre série
exam_data  = {'nom': ['Anne', 'Alex', 'catherine', 'Jean', 'Emillie', 'Michel', 'Matieu', 'Laura', 'Kevin', 'Jonas'],
        'note': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
        'qualification': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df = pd.DataFrame(exam_data , index=labels)
copie=df.copy()
del copie['note']
copie

In [None]:
copie=df.copy()
# On supprime la colonne note
popped = copie.pop('note')
# La colonne note a bien disparue
print(copie)
# On a récupéré le contenu de note
print(popped)

La fonction **.drop** est puissante car elle permet de nombreuses manipulations de suppression

In [None]:
copie=df.copy()
# On supprime la colonne
afterdrop = copie.drop(['note'], axis = 1)
#Création du nouveau dataFrame
print('Contenu du résultat : ')
print(afterdrop)
print('contenu de copie inchangé')
print(copie)

In [None]:
# on supprimer 2 colonnes
copie=df.copy()
copie.drop(labels=['nom','qualification'], axis='columns').head()



Avec cette commande, on pourra aussi supprimer des lignes facilement.

Un autre exemple, on peut aussi utiliser la commande **del** pour supprimer une colonne.

In [None]:
# on peut aussi utiliser la commande del
d = {'Un' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'Deux' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

dfexemple = pd.DataFrame(d)

del dfexemple['Deux']
dfexemple

## Ajouter des lignes au DataFrame

Les lignes peuvent être ajoutées à un objet DataFrame via plusieurs opérations différentes :
- Ajouter un DataFrame à un autre DataFrame
- Concaténation de deux objets DataFrame
- Agrandissement d'un DataFrame existant

### Ajouter des lignes avec .append()
L'ajout est effectué en utilisant la méthode .append() du DataFrame. Le processus de l'ajout d'un nouveau DataFrame avec les données du DataFrame d'origine ajoutées en premier, et les lignes de la seconde. L'ajout d'une annexe n'effectue pas l'alignement et peut avoir pour comme conséquence de dupliquer les valeurs d'index.

In [None]:
# On copie les 4° lignes
df1 = df.iloc[0:3].copy()
print(df1)
# copie des lignes 8,9 et 2
df2 = df.iloc[[8, 9, 2]]
print(df2)
# On ajout les lignes
ajout = df1.append(df2)
ajout

L'ensemble des colonnes des objets DataFrame ajoutés n'a pas besoin d'être le même.
Le DataFrame résultant consistera en l'union des colonnes dans les deux et si l'une ou l'autre n'avait pas de colonne, NaN sera utilisé comme valeur.

Le code suivant le démontre en créant une troisième DataFrame utilisant le même index que df1, mais ayant une seule colonne avec un nom de colonne unique :

In [None]:
df3 = pd.DataFrame(0.0,index=df1.index,columns=['new'])
df3

In [None]:
df1.append(df3,sort=False)
df1
# On voit que la colonne New n'a pas été rajoutée

Pour ajouter sans forcer l'index à prendre dans l'un ou l'autre DataFrame, vous pouvez utiliser le paramètre ignore_index=True. Ceci est utile lorsque les valeurs d'index n'ont pas de signification significative, et que vous voulez simplement des données concaténées avec des nombres entiers croissants séquentiellement comme index :

In [None]:
df1.append(df3,ignore_index=True, sort=False)

### Concaténation d'objets DataFrame avec pd.concat()

Un DataFrame peut être concaténé à un autre en utilisant la fonction **pd.concat()**.
Cele fonctionne de la même manière que la méthode .append(), mais ajoute aussi la possibilité de spécifier un axe (l'ajout peut être basé sur des lignes ou des colonnes), ainsi que la possibilité d'effectuer plusieurs opérations.

En outre, la fonction prend une liste d'objets pandas pour concaténer, de sorte que vous pouvez concaténer plus de deux objets en un seul appel.
L'opération par défaut de pd.concat() sur deux objets DataFrame fonctionne de la même manière que la méthode .append(). Cela peut être démontré en reconstruisant les deux ensembles de données de l'exemple précédent.

In [None]:
# On copie les 4° lignes
df1 = df.iloc[0:3].copy()

# copie des lignes 8,9 et 2
df2 = df.iloc[[8, 9, 2]]

pd.concat([df1, df2])

En fait, pandas calcule l'union triée des noms de colonnes distinctes à travers tous les objets fournis et les utilise comme colonnes, puis ajoute les données le long des lignes pour chaque objet dans l'ordre donné dans la liste.

Une légère variante de cet exemple ajoute une colonne supplémentaire à l'un des objets DataFrame et effectue ensuite la concaténation :

In [None]:
# copie de df2
df2_2 = df2.copy()
# Ajout d'un colonne
df2_2.insert(3, 'Foo', pd.Series(0, index=df2.index))
# On regarde ce que cela donne
df2_2

In [None]:
# On concatene
pd.concat([df1, df2_2])

Cependant, notez les valeurs NaN dans les lignes provenant de df1, puisqu'il n'y a pas de colonne Foo.

En utilisant le paramètre keys, il est possible de différencier les objets pandas d'où proviennent les lignes. Le code suivant ajoute un niveau à l'index qui représente l'objet source :

In [None]:
r = pd.concat([df1, df2_2], keys=['df1', 'df2'])
r

Nous pouvons changer l'axe de la concaténation pour travailler le long des colonnes en spécifiant l'axe=1, qui calculera l'union triée des étiquettes d'index distinctes à partir des lignes et ajoutera ensuite les colonnes et leurs données à partir des objets spécifiés.

Pour démontrer, ce qui suit divise les données  en deux objets DataFrame, chacun avec un ensemble de colonnes différentes, puis concatène le long de l'axe = 1

In [None]:
df3 = df[:3][['nom', 'note']]
df3

In [None]:
df4 = df[:3] [['qualification']]
df4


In [None]:
#Concaténation sur l'axe
pd.concat([df3, df4], axis=1)

Nous pouvons examiner plus en détail cette opération en ajoutant une colonne à la deuxième DataFrame qui a un nom identique à une colonne de la première. Le résultat aura des colonnes en double, car les colonnes sont ajoutées à l'aveugle sans tenir compte des colonnes déjà existantes.

In [None]:
# On réalise une copie
df4_2 = df4.copy()
# On ajoute la colonne
df4_2.insert(1, 'note', pd.Series(1, index=df4_2.index))
df4_2

In [None]:
# On concatène
pd.concat([df3, df4_2], axis=1)

Nous allons voir ci-dessous comment modifier la jointure.

In [None]:
df5 = df[:3][['nom', 'note']]
df6 = df[2:5][['nom', 'note']]
pd.concat([df5, df6], join='inner', axis=1)

Pandas ne va jointer que les enregistrements présents dans les deux DataFrame.

### Agrandissement d'un DataFrame existant

Les lignes peuvent également être ajoutées à un DataFrame par l'intermédiaire de la propriété .loc. Cette technique est appelée réglage avec agrandissement. Le paramètre .loc spécifie l'étiquette d'index où la ligne doit être placée. Si l'étiquette n'existe pas, les valeurs sont ajoutées au DataFrame à l'aide de l'étiquette d'index donnée. S'il existe, les valeurs de la ligne spécifiée sont remplacées.

In [None]:
# Ajout d'une nouvelle ligne
a1 = df[:3].copy()
# Création d'une nouvelle ligne AVIS
# On assigne qq valeurs
a1.loc['z'] = ['New', 12.78, 'no']
a1

In [None]:
# Ajout d'une nouvelle colonne
a1 = df[:3].copy()
a1.loc[:,'AVIS'] = 0
a1

## Suppression des lignes du DataFrame

La suppression de lignes d'un objet DataFrame est normalement effectuée en utilisant l'une des trois techniques suivantes :

- En utilisant la méthode .drop()
- Sélection booléenne
- Sélection par découpage

Techniquement, seule la méthode .drop() supprime les lignes en place sur l'objet source. Les autres techniques créent soit une copie sans lignes spécifiques, soit une vue dans les lignes qui ne doivent pas être abandonnées. Les détails de chacun d'entre eux sont donnés dans les sections suivantes.

### Supprimer des lignes à l'aide de .drop()

Pour supprimer des lignes d'un DataFrame par l'étiquette d'index, vous pouvez utiliser la méthode .drop() du DataFrame. La méthode .drop() prend une liste d'étiquettes d'index et renvoie une copie du DataFrame avec les lignes pour les étiquettes spécifiées supprimées. Le DataFrame source reste inchangé.

In [None]:
a1 = df[:3].copy()
apres_suppression = a1.drop(['b', 'c'])
print(apres_suppression)
# A1 n'a pas été modifié
print(a1)

### Suppression par sélection booléenne

La sélection booléenne peut être utilisée pour supprimer des lignes d'un DataFrame en créant un nouveau DataFrame sans les lignes désirées.

Supposons que nous voulions supprimer les rangées où les notes sont en dessous de 10. Pour ce faire, le processus consiste d'abord à déterminer quelles lignes correspondent à ces critères, puis à sélectionner les lignes qui ne correspondent pas.


In [None]:
# On cherche les lignes
selection = df.note < 10
# On vérifie le nombre d'éléments
# ainsi que le nombre d'élements qui vérifie la règle
"{0} {1}".format(len(selection), selection.sum())

In [None]:
# On récupère les éléments qui ne correspondent pas à la règle
result = df[~selection]
result

### Suppression par découpage

Le découpage est  souvent utilisé pour supprimer des enregistrements d'un DataFrame. Il s'agit d'un processus similaire à la sélection booléenne, où nous sélectionnons toutes les lignes, à l'exception de celles que vous voulez supprimer.

In [None]:
# Les 3 premières lignes
troisPrem = df[:3]

Rappelez-vous que ce résultat est un découpage. Par conséquent, il s'agit d'une vue dans le DataFrame. Les données n'ont pas été supprimées de l'objet df. Les modifications apportées à ces trois lignes modifieront les données de sp500.

Pour éviter que cela ne se produise, l'action appropriée est de faire une copie.

In [None]:
troisPrem = df[:3].copy()
troisPrem

# Changer les valeurs dans un DataFrame.

Les valeurs scalaires dans un DataFrame peuvent être modifiées par l'affectation de la nouvelle valeur au résultat de la recherche de valeur à l'aide des attributs .iloc et.loc.

Ces trois attributs peuvent tous être passés par les sélecteurs de ligne et de colonne, et le résultat peut se voir attribuer une nouvelle valeur qui sera faite dans le DataFrame d'origine.

**.loc** peut être utilisé en passant soit l'étiquette d'index de la ligne et le nom de la colonne, soit l'emplacement entier de la ligne et de la colonne.

In [None]:
troisPrem = df[:3].copy()
troisPrem

In [None]:
troisPrem.loc['b', 'note'] = 0
troisPrem

**.loc**  a des performance plus faible que iloc. Donc autant que faire ce peut utilisez plutot iloc.

In [None]:
troisPrem = df[:3].copy()
# On va recher l'identifant de la colonne
note_loc = df.columns.get_loc('note')
# On va cherche le n° d ela ligne 'b'
ligne_loc = df.index.get_loc('b')
# On change la valeur
troisPrem.iloc[ligne_loc, note_loc] = 15.5
troisPrem

# Arithmétiques des DataFrame

Nous allons décourvir dans les prochains exemples les différents opérations que l'on peut réaliser.


In [None]:
# Initialisation des nombres aléatoire
np.random.seed(654321)

#Création d'un dt de 5 lignes sur 4 colonnes
df = pd.DataFrame(np.random.randn(5,4), columns=["A","B","C","D"])
df

In [None]:
# On va multiplier l'ensemble de valeur du DataFrame par 3
df*3

Lors de l'exécution d'une opération entre un DataFrame et une série, pandas alignera l'index de la série le long des colonnes de la DataFrame, effectuant ce que l'on appelle une diffusion par ligne.

In [None]:
# sélectionnons la 1° ligne
p = df.iloc[0]

# On soustrait cette valeur
diff= df - p
diff

In [None]:
# On peut également faire l'inverse
diff= p - df
diff


L'ensemble des colonnes retournées sera l'union des étiquettes de l'index de la série et de l'index des colonnes de l'objet DataFrame. Si une étiquette représentant la colonne de résultat n'est pas trouvée dans la série de l'objet DataFrame, alors les valeurs seront remplies de NaN.

In [None]:
# On récupère les colonnes 2 et 3
s2 = p[1:3]
s2['E'] = 0
df+s2

Pandas aligne les étiquettes d'index de df avec celles de s2.
Puisque s2 n'a pas d'étiquette A ou D, le résultat contient NaN dans ces colonnes. Comme df n'a pas de label E, c'est aussi NaN.
Une opération arithmétique entre deux objets DataFrame alignera à la fois les étiquettes de colonne et d'index.

Ce qui suit extrait une petite partie de df et la soustrait de df. Le résultat démontre que les valeurs alignées sont soustraites à 0, tandis que les autres sont réglées sur NaN


In [None]:
# On prend la ligne 1,2,3 et les colonnes B C
extrait = df[1:4][['B', 'C']]
extrait

In [None]:
df - extrait

Un contrôle supplémentaire d'une opération arithmétique peut être obtenu en utilisant les méthodes arithmétiques fournies par l'objet DataFrame.

Ces méthodes fournissent la spécification d'un axe spécifique.

Ce qui suit montre comment effectuer une soustraction le long d'un axe de colonne en utilisant la méthode DataFrame objects .sub(), en soustrayant la colonne A de chaque colonne.

In [None]:
# On récupère la colonne A
a_col = df['A']
df.sub(a_col, axis=0)

# Réindexation et réindexation

Un DataFrame peut avoir son index réinitialisé en utilisant la fonction .reset_index(). Une utilisation courante est de déplacer le contenu de l'index d'un objet DataFrame dans une ou plusieurs colonnes.


In [None]:
# On reprend notre ancien df
exam_data  = {'nom': ['Anne', 'Alex', 'catherine', 'Jean', 'Emillie', 'Michel', 'Matieu', 'Laura', 'Kevin', 'Jonas'],
        'note': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
        'qualification': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df = pd.DataFrame(exam_data , index=labels)
reset_df=df.reset_index()
reset_df

On voit que cela à créer un nouveau DataFrame avec ujne nouvelle colonne nommée index.

Une ou plusieurs colonnes peuvent également être déplacées dans l'index.
Un autre scénario courant est représenté par la variable de réinitialisation que nous venons de créer, car il peut s'agir de données lues à partir d'un fichier
avec les symboles dans une colonne alors que nous aimerions vraiment le voir dans l'index.

Pour ce faire, nous pouvons utiliser la méthode **.set_index()**.

In [None]:
reset_df.set_index('nom')

Un index peut être explicitement défini à l'aide de la méthode **.set_index()**. Cette méthode, étant donné une liste de valeurs représentant le nouvel index, créera un nouveau DataFrame à l'aide de la méthode spécifiée puis alignera les données de la cible dans le nouvel objet.

In [None]:
sensemble = df[:4].copy()
reindex = sensemble.reindex(index=['a','b','z'])
reindex

On peut aussi utiliser le nom des colonnes.

In [None]:
sensemble.reindex(columns=['note','nom','Avis'])

Ce résultat est créé par pandas en créant un nouveau DataFrame avec les colonnes spécifiées, puis en alignant les données de ces colonnes du sous-ensemble dans le nouvel objet. Comme le sous-ensemble n'avait pas de colonne Avis, les valeurs sont remplies de NaN.

# Index hierarchique

L'indexation hiérarchique est une caractéristique de pandas qui permet de spécifier deux ou plusieurs niveaux d'index sur un axe. La spécification de plusieurs niveaux dans un index permet une sélection efficace de sous-ensembles de données. Un indice pandas qui a plusieurs niveaux de hiérarchie est appelé **MultiIndex**.


In [None]:
exam_data  = {'nom': ['Anne', 'Alex', 'catherine', 'Jean', 'Emillie', 'Michel', 'Matieu', 'Laura', 'Kevin', 'Jonas'],
        'note': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
        'qualification': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df = pd.DataFrame(exam_data , index=labels)
reindex = df.reset_index()
multi_IH = reindex.set_index(['index','nom'])
multi_IH

In [None]:
# On peut voir le type d'index
type(multi_IH.index)

In [None]:
# Combien y a t il de niveau dans l'index ?
len(multi_IH.index.levels)

In [None]:
# On peut avoir les infos d'un index donné
multi_IH.index.levels[0]

In [None]:
# pour avoir les infos de lignes d'un index en particulier
print(multi_IH.xs('b'))

In [None]:
# Si on veut uniquement une ligne du second index
# Il faut spécifier le niveau
print(multi_IH.xs('Alex',level=1))

Dans ce cas comme dans l'autre, on remarque que la colonne de l'index sélectionnée disparait.
Si on veut que l'index reste alors il faut passer la commande suivante :

In [None]:
multi_IH.xs('Alex',level=1, drop_level=False)

Comme c'est un index hierrachique, on peut évidemment faire une recherche sur les 2 index simultanément.
Vous pouvez remarquer que les colonnes passent en lignes.

In [None]:
multi_IH.xs('a').xs('Anne')

In [None]:
# Une autre syntax est possible
multi_IH.xs(('a','Anne'))

# Propriétés et fonctions utiles d'un DataFrame

Les exemple suivants énumèrent les propriétés  importantes ou les fonctions qui aident dans la gestion de base d'un DataFrame.

Nous avons déjà vu certaines d'entres elles dans des exemples auparavant.


In [None]:
exam_data  = {'nom': ['Anne', 'Alex', 'catherine', 'Jean', 'Emillie', 'Michel', 'Matieu', 'Laura', 'Kevin', 'Jonas'],
        'note': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
        'avis': [np.nan, 14, 12.5, 5, 9, 18, 10.5, 10, 18, 15],
        'qualification': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}

** T (Transpose)**

Retourne la transposition du DataFrame. Les lignes et les colonnes s'échangent.

En Datamining, il est toujours important d'avoir des points de vus différents sur nos datas.

In [None]:
df.T

**axes**

Retourne la liste des étiquettes d'axe de ligne et des étiquettes d'axe de colonne.

In [None]:
df.axes

**dtypes**

Retourne le type d'objet de chaque colonne.

In [None]:
df.dtypes

**empty**

Returne la valeur booléenne indiquant si l'objet est vide ou non ; True indique que l'objet est vide.

In [None]:
print(df.empty)

# Avec un DataFrame vide
df2 = pd.DataFrame()
print(df2.empty)

**ndim**

Renvoie le nombre de dimensions de l'objet. Par définition, DataFrame est un objet 2D.

In [None]:
df.ndim

**shape**

Renvoie un tuple représentant la dimensionnalité du DataFrame. Tuple (a,b), où a représente le nombre de lignes et b représente le nombre de colonnes.

In [None]:
df.shape

**size**

Retourne le nombre d'éléments du DataFrame

In [None]:
df.size

**values**

Renvoie les données réelles dans le DataFrame en tant que NDarray.

In [None]:
df.values

**head** et **tail**

Pour visualiser un petit échantillon d'un objet DataFrame, utilisez les méthodes head() et tail(). head() retourne les n premières lignes (observez les valeurs d'index). Le nombre d'éléments à afficher par défaut est de cinq, mais vous pouvez passer un nombre personnalisé.

In [None]:
#5 1° lignes
print(df.head())
print("")
#2 premières lignes
print(df.head(2))

In [None]:
#5 dernières lignes
print(df.tail())
print("")
#2 dernières lignes
print(df.tail(2))

# Données résumées et statistiques descriptives

Pandas fournit plusieurs classes d'opérations statistiques qui peuvent être appliquées à un objet Series ou DataFrame. Ces méthodes, lorsqu'elles sont appliquées à une série, donnent une valeur unique.
Lorsqu'elle est appliquée à une DataFrame, un axe peut être spécifié et la méthode sera ensuite appliquée à chaque colonne ou ligne et donne lieu à une série.

## mean,  La moyenne

In [None]:
exam_data  = {'nom': ['Anne', 'Alex', 'catherine', 'Jean', 'Emillie', 'Michel', 'Matieu', 'Laura', 'Kevin', 'Jonas'],
        'note': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
        'avis': [np.nan, 14, 12.5, 5, 9, 18, 10.5, 10, 18, 15],
        'qualification': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df = pd.DataFrame(exam_data , index=labels)
# calcul de la moyenne de la colonne note
df[:]['note'].mean()

In [None]:
# Moyenne de toutes les colonnes numériques
df.mean()

In [None]:
# Moyenne de chaque lignes
df.mean(axis=1)

## sum()

Retourne la somme des valeurs de l'axe demandé. Par défaut, l'axe est l'index (axe=0).

In [None]:
print(df.sum())
print("")
print("Somme uniquement de la colonne note")
print(df['note'].sum())

# Somme de chaque ligne
print(df.sum(1))

## std
Renvoie l'écart-type Bressel des colonnes numériques.

In [None]:
df.std()

## La variance

In [None]:
df.var()

## La valeur médiane de chaque colonne

In [None]:
df.median()

In [None]:
# Minimum de la colonne note
df['note'].min()
# maximum d ela colonne note
df['note'].max()

In [None]:
# Pour avoir l'indice du min de la colonne note
df['note'].idxmin()

# Pour avoir l'indice du max de la colonne note
df['note'].idxmax()

In [None]:
# Somme cumulée de la colonne
df['note'].cumsum()

**describe()** renvoie un ensemble simple de statistiques sommaires sur une série ou une DataFrame.

Les valeurs renvoyées sont, elles-mêmes, une série où l'étiquette d'index contient le nom des statistiques spécifiques qui sont calculées. Cette fonction est pratique si vous voulez avoir un aperçu rapide et facile des statistiques importantes d'une série ou d'un DataFrame.

La fonction exclut les colonnes de caractères et un résumé donné sur les colonnes numériques. **include**  est l'argument utilisé pour transmettre l'information nécessaire concernant les colonnes dont il faut tenir compte pour résumer.

Ce paramètres prend la liste des valeurs ; par défaut,'nombre'.

    object - Résume les colonnes de chaînes de caractères
    number - Résume les colonnes numériques    
    all - Résume toutes les colonnes ensemble (ne devrait pas le passer comme une valeur de liste)



In [None]:
# Pour des colonnes numériques
df.describe()

In [None]:
#Pour avoir des stats sur les colonnes non numériques
df.describe(include=['object'])

In [None]:
#Pour avoir des stats sur les colonnes numériques
df.describe(include=['number'])

In [None]:
df['qualification'].describe()

In [None]:
# Pour des valeurs non numérique
print(df['qualification'].count())
print(df['qualification'].unique())
print(df['qualification'].value_counts())

In [None]:
# Pour des valeurs numeriques
print(df['note'].count())
print(df['note'].unique())
print(df['note'].value_counts())

In [None]:
df['nom'].value_counts()
#mais
df['nom'].value_counts(normalize=True)

value_count(normalize=True)  est une méthode très utile pour avoir la répartition en pourcentage de chaque catégorie non numérique. Dans cet exemple on voit que chaque prénom est présent 10%

Il existe de nombreuses autres commandes Pandas de statistiques desriptives.

Le tableau suivant énumère les fonctions importantes.

**count()** nombre d'observations non nulles
**sum()** Somme des valeurs
**mean()** Moyenne des valeurs
**median()** Médiane des valeurs
**mode()**  Mode de valeurs
**std()** Écart-type de l'écart type des valeurs
**min()** Valeur minimale
**max()** Valeur maximale
**abs()** Valeur absolue Valeur absolue
**prod()** Produit de valeurs
**cumsum()** Somme cumulative
**cumprod()** Produit cumulatif

Puisque le DataFrame est une structure de données hétérogène. Les opérations génériques ne fonctionnent pas avec toutes les fonctions.

    Les fonctions comme sum(), cumsum() fonctionnent avec les éléments de données numériques et de caractères (ou) sans aucune erreur. Bien que dans la pratique, les agrégations de caractères ne sont jamais utilisées de manière générale, ces fonctions ne font pas exception.

    Des fonctions comme abs(), cumprod() lancent une exception lorsque le DataFrame contient des données de caractère ou de chaîne de caractères parce que de telles opérations ne peuvent pas être effectuées.

N'hésitez pas à me contacter directement si vous avez des questions ou si vous êtes à la recherche d’un développeur pour faire du DataMining ;=)

[https://www.linkedin.com/in/developpeur-windev/](https://www.linkedin.com/in/developpeur-windev/)
