In [124]:
import pandas as pd
import numpy as np

In [125]:
prenoms = ['liz', 'bob', 'bill', 'eve']

In [126]:
age = pd.Series([25, 30, 35, 40],
               index=prenoms)

In [127]:
taille = pd.Series([160, 175, 170, 180],
                  index=prenoms)

In [128]:
sexe = pd.Series(list('fhhf'),
                 index=prenoms)

In [129]:
df = pd.DataFrame({ 'age': age,
                  'taille': taille,
                  'sexe': sexe})

In [130]:
df

# Ici, nous avons créé nos séries et nos index.

Unnamed: 0,age,taille,sexe
liz,25,160,f
bob,30,175,h
bill,35,170,h
eve,40,180,f


In [131]:
df.index

Index(['liz', 'bob', 'bill', 'eve'], dtype='object')

In [132]:
df.columns

Index(['age', 'taille', 'sexe'], dtype='object')

In [133]:
df.values

array([[25, 160, 'f'],
       [30, 175, 'h'],
       [35, 170, 'h'],
       [40, 180, 'f']], dtype=object)

In [134]:
df.head(2)

Unnamed: 0,age,taille,sexe
liz,25,160,f
bob,30,175,h


In [135]:
df.tail(2)

# .tail pour appeler les deux dernieres ligne de la dataframe

Unnamed: 0,age,taille,sexe
bill,35,170,h
eve,40,180,f


In [136]:
df.describe()

# pour faire apparaitre les propriétés statistique de ma dataframe

Unnamed: 0,age,taille
count,4.0,4.0
mean,32.5,171.25
std,6.454972,8.539126
min,25.0,160.0
25%,28.75,167.5
50%,32.5,172.5
75%,36.25,176.25
max,40.0,180.0


In [137]:
df.loc['liz']

# pour afficher les information de liz

age        25
taille    160
sexe        f
Name: liz, dtype: object

In [138]:
df.loc['liz','age']

# pour afficher les informations de liz ainsi que la colonne que l'on veut appeler. ici liz a 25 ans

25

In [139]:
df.loc[: , 'taille']

liz     160
bob     175
bill    170
eve     180
Name: taille, dtype: int64

In [140]:
df.loc[df.loc[:, 'age']<32]

Unnamed: 0,age,taille,sexe
liz,25,160,f
bob,30,175,h


In [141]:
df

Unnamed: 0,age,taille,sexe
liz,25,160,f
bob,30,175,h
bill,35,170,h
eve,40,180,f


In [142]:
df = df.reset_index()

In [143]:
df

Unnamed: 0,index,age,taille,sexe
0,liz,25,160,f
1,bob,30,175,h
2,bill,35,170,h
3,eve,40,180,f


In [144]:
df = df.rename(columns={'index': 'prenoms'})
df.head()

Unnamed: 0,prenoms,age,taille,sexe
0,liz,25,160,f
1,bob,30,175,h
2,bill,35,170,h
3,eve,40,180,f


In [145]:
df = df.set_index('age')
df.head()

# La méthode .set_index() permet de choisir une colonne pour la définir comme index, comme la colonne "age", 
# qui est devenue l'index.

Unnamed: 0_level_0,prenoms,taille,sexe
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
25,liz,160,f
30,bob,175,h
35,bill,170,h
40,eve,180,f


In [146]:
df = df.reset_index()
df.head()

Unnamed: 0,age,prenoms,taille,sexe
0,25,liz,160,f
1,30,bob,175,h
2,35,bill,170,h
3,40,eve,180,f


In [147]:
df = pd.DataFrame({ 'age': age,
                  'taille': taille,
                  'sexe': sexe})
df.head()

# On va utiliser le même dataframe pour reprendre tout ce qu'on a fait avec une méthode très souple et appropriée.

Unnamed: 0,age,taille,sexe
liz,25,160,f
bob,30,175,h
bill,35,170,h
eve,40,180,f


In [148]:
# df = (df.reset_idex(),
#     .rename(columns={'index':'nom'}),
#     .set_index('age'))


In [149]:
df1 = pd.DataFrame(np.ones((2, 2)),
                  index=list('ab'),
                  columns=list('xy'))

In [150]:
df1

Unnamed: 0,x,y
a,1.0,1.0
b,1.0,1.0


In [151]:
df2 = pd.DataFrame(np.ones((2, 2)),
                  index=list('ac'),
                  columns=list('xz'))

In [152]:
df2

Unnamed: 0,x,z
a,1.0,1.0
c,1.0,1.0


In [153]:
df1+df2

Unnamed: 0,x,y,z
a,2.0,,
b,,,
c,,,


In [155]:
df_final = df1.add(df2, fill_value=0)

# La méthode fill_value= permet de remplacer les valeurs manquantes par zéro (0) lorsque la valeur est manquante à 
# gauche mais présente à droite. Par contre, lorsque les valeurs manquent à la fois à gauche et à 
# droite (lors d'une jointure), fill_value affichera toujours NaN.

In [156]:
df_final

Unnamed: 0,x,y,z
a,2.0,1.0,1.0
b,1.0,1.0,
c,1.0,,1.0


In [157]:
df_final.fillna(-1)

# La méthode .fillna() permet de remplacer les NaN ou Na par une autre valeur choisie .

Unnamed: 0,x,y,z
a,2.0,1.0,1.0
b,1.0,1.0,-1.0
c,1.0,-1.0,1.0


In [158]:
df_final.dropna()

# la methode .dropna suprime les valeurs manquantes dans notre data frame

Unnamed: 0,x,y,z
a,2.0,1.0,1.0
