# Pandas

In [2]:
#pandas est un outil d'analyse et de manipulation de data open source rapide,  puissant flexible et facile à utiliser.
#pandas est une librairie Python. 

#Groupe : Amaury, Erwan, Jamal, Julien

#Import du module:
import pandas

#Test de notre version de pandas:
pandas.__version__

'1.0.5'

# Création de données

In [196]:
testDataFrame = pandas.DataFrame([["Q-Bert",22, "male"],[None, 35, "male"],["Miss Pac-Man", 58, "female"]],
        index = [0, 1, 2],
        columns =["Name", "Age", "Sex"])

#Possibilité d'importer un fichier .csv également.

print(testDataFrame)

           Name  Age     Sex
0        Q-Bert   22    male
1          None   35    male
2  Miss Pac-Man   58  female


# Lecture des données

In [197]:
testDataFrame

Unnamed: 0,Name,Age,Sex
0,Q-Bert,22,male
1,,35,male
2,Miss Pac-Man,58,female


# Exploration des Data Frames

In [198]:
for colone,item in testDataFrame.iteritems():
    print(colone, item)

Name 0          Q-Bert
1            None
2    Miss Pac-Man
Name: Name, dtype: object
Age 0    22
1    35
2    58
Name: Age, dtype: int64
Sex 0      male
1      male
2    female
Name: Sex, dtype: object


# Les attributs du Data Frame

In [199]:
#loc -> Access a group of rows and columns by label(s) or a boolean array.
#iloc -> Purely integer-location based indexing for selection by position.

#size -> Return an int representing the number of elements in this object.
testDataFrame.size

9

# Les méthodes du Data Frame 

In [200]:
testDataFrame.head(1)

Unnamed: 0,Name,Age,Sex
0,Q-Bert,22,male


In [202]:
testDataFrame.tail(1)

Unnamed: 0,Name,Age,Sex
2,Miss Pac-Man,58,female


In [217]:
#Renvoyer la moyenne des valeurs de la colonne Age :
print("L'âge moyen est :",testDataFrame.Age.mean())

#Alternative : testDataFrame['Age'].mean()

#Voici d'autres méthodes importantes :
print("L'âge minimum est :",testDataFrame.Age.min())
print("L'âge maximum est :",testDataFrame.Age.max())
print("L'écart-type de l'âge est :",testDataFrame.Age.std())
print("L'âge médian est :",testDataFrame.Age.median())

#Autres méthodes possibles : le produit des valeurs avec prod(), leur somme avec sum(), la variance normalisée avec var()
#Avec apply() on peut appliquer une fonction passée en argument, mad() donne la valeur absolue des écarts.
#Avec count() on peut compter les cases non-vides.

L'âge moyen est : 38.333333333333336
L'âge minimum est : 22
L'âge maximum est : 58
L'écart-type de l'âge est : 18.230011885167087
L'âge médian est : 35.0


In [204]:
#Possibilité intéressante : sortir automatiquement un tableau descriptif :
testDataFrame.describe()

Unnamed: 0,Age
count,3.0
mean,38.333333
std,18.230012
min,22.0
25%,28.5
50%,35.0
75%,46.5
max,58.0


# Sélection d'une colonne dans un Data Frame

In [205]:
#Output du contenu d'une "série" (~ colonne) entière et du type de ses valeurs:
#Une série est un vecteur de valeurs d'une variable.
testDataFrame["Age"]

0    22
1    35
2    58
Name: Age, dtype: int64

# La méthode groupby

In [206]:
#Utilisation de la méthode grouby sur le critère sexe afin d'afficher la moyenne d'âge par sexe.
print(testDataFrame.groupby(["Sex"]).mean())

         Age
Sex         
female  58.0
male    28.5


# Filtrage

In [220]:
#Filtrage sur un label particulier avec la fonction filter:
testDataFrame.filter(["Age"])

#On peut également choisir un axe de filtrage ou un regex:
#DataFrame.filter(items=None, like=None, regex=None, axis=None)

Unnamed: 0,Age
0,22
1,35
2,58


# Slicing

In [208]:
#Slice des deux premiers charactères des valeurs de la série Name grâce à la méthode slice.
testDataFrame["Name"].str.slice(start = 2)

0          Bert
1          None
2    ss Pac-Man
Name: Name, dtype: object

# Sélection des lignes

In [221]:
#On sélectionne les lignes 1 et 2 avec la méthode iloc:
testDataFrame.iloc[[1,2]]

#On peut aussi sélectionner des lignes consécutives:
testDataFrame.iloc[1:2]

Unnamed: 0,Name,Age,Sex
1,,35,male


# Loc

In [210]:
#loc -> Access a group of rows and columns by label(s) or a boolean array.
testDataFrame.loc[1]

Name    None
Age       35
Sex     male
Name: 1, dtype: object

# Tri

In [211]:
#Tri descendant selon les indexes de lignes avec sort_index:
testDataFrame.sort_index(axis = 0, ascending = False)

Unnamed: 0,Name,Age,Sex
2,Miss Pac-Man,58,female
1,,35,male
0,Q-Bert,22,male


In [212]:
#Tri selon les séries avec sort_values:
testDataFrame.sort_values(by = 'Age') 

Unnamed: 0,Name,Age,Sex
0,Q-Bert,22,male
1,,35,male
2,Miss Pac-Man,58,female


# Valeurs manquantes

In [216]:
#Vérifions si nous avons des valeurs manquantes dans notre tableau avec la méthode isnull:
testDataFrame.isnull()

Unnamed: 0,Name,Age,Sex
0,False,False,False
1,True,False,False
2,False,False,False


In [215]:
#Remplissage des valeurs manquantes avec une valeur unique grâce à fillna :
testDataFrame.fillna("Inconnu")

Unnamed: 0,Name,Age,Sex
0,Q-Bert,22,male
1,Inconnu,35,male
2,Miss Pac-Man,58,female
