In [352]:
import numpy as np
import pandas as pd

# Bases : création d'une datafame et extraction de données

* Définir ou créer une dataframe 
* Afficher en tableau
* Renvoyer des colonnes
* Extraire des données
* Méthode .iterrows()
* Sélectionner des données avec conditions
* Ajouter des données
* Récupérer la liste sans doublons de lignes
* Ajouter un attribut (une colonne)
* Obtenir les valeurs distinctes d'une colonne
* Importer un fichier csv (comma separated values) dans une dataframe

In [353]:
fam_pandas = [[100,5,20,80], [50,2.5,10,40],[110,6,22,80]]
noms_pandas = ['maman', 'bébé', 'papa']
mesu_pandas = ['pattes', 'poils', 'queue', 'ventre']

In [354]:
# Définir ou créer une dataframe

fam_pan_np = np.array(fam_pandas)
fam_pan_df = pd.DataFrame(fam_pan_np, index = noms_pandas, columns = mesu_pandas)

print(fam_pan_np)

# Afficher en tableau

fam_pan_df
fam_pan_df.head(3) # pratique quand le tableau est trop grand...

[[100.    5.   20.   80. ]
 [ 50.    2.5  10.   40. ]
 [110.    6.   22.   80. ]]


Unnamed: 0,pattes,poils,queue,ventre
maman,100.0,5.0,20.0,80.0
bébé,50.0,2.5,10.0,40.0
papa,110.0,6.0,22.0,80.0


In [355]:
# Renvoyer des colonnes

print(fam_pan_df["ventre"]) # objet de type 'pandas.Series'
print(fam_pan_df.pattes)
print(fam_pan_df["queue"].values) # vecteur correspondant aux valeurs seul
print(fam_pan_df.poils.values) # vecteur correspondant aux valeurs seul

maman    80.0
bébé     40.0
papa     80.0
Name: ventre, dtype: float64
maman    100.0
bébé      50.0
papa     110.0
Name: pattes, dtype: float64
[20. 10. 22.]
[5.  2.5 6. ]


In [356]:
# Extraire des données

print(fam_pan_df.iloc[2]) # Avec iloc(), indexation positionnelle
print(fam_pan_df.loc["papa"]) # Avec loc(), indexation par label

pattes    110.0
poils       6.0
queue      22.0
ventre     80.0
Name: papa, dtype: float64
pattes    110.0
poils       6.0
queue      22.0
ventre     80.0
Name: papa, dtype: float64


In [357]:
# méthode .iterrows()
# renvoie le contenu de chaque ligne sous forme d'un tuple (< nom_ligne >, < données >)

for nom_ligne, données_ligne in fam_pan_df.iterrows(): # .iterrows renvoie une liste de tuples (nom ligne, données)
    print("Voici le panda %s :\n" %nom_ligne + str(données_ligne) + "\n--------------------")

Voici le panda maman :
pattes    100.0
poils       5.0
queue      20.0
ventre     80.0
Name: maman, dtype: float64
--------------------
Voici le panda bébé :
pattes    50.0
poils      2.5
queue     10.0
ventre    40.0
Name: bébé, dtype: float64
--------------------
Voici le panda papa :
pattes    110.0
poils       6.0
queue      22.0
ventre     80.0
Name: papa, dtype: float64
--------------------


In [358]:
# Sélectionner des données avec conditions

masque = fam_pan_df["ventre"] == 80 # renvoie un tableau de booléens pour chaque panda (ventre de 80 cm ?)
print(masque)
pan_v80 = fam_pan_df[masque] # utilisation d'un masque booléen pour filtrer des données
pan_vnon80 = fam_pan_df[~masque]
print("\n Les pandas à ventre de 80 cm sont :") # ou "famille_panda_df[famille_panda_df["ventre"] == 80]"
print(pan_v80.index)
print("\n Les pandas à ventre autre que 80 cm sont :")
print(pan_vnon80.index)

maman     True
bébé     False
papa      True
Name: ventre, dtype: bool

 Les pandas à ventre de 80 cm sont :
Index(['maman', 'papa'], dtype='object')

 Les pandas à ventre autre que 80 cm sont :
Index(['bébé'], dtype='object')


In [359]:
# Ajouter des données

autres_pan = pd.DataFrame([[105,4,19,80],[100,5,20,80]],columns = fam_pan_df.columns)     
# deux nouveaux pandas
                                 # même colonnes que famille_panda_df
all_pan = fam_pan_df.append(autres_pan)
print(all_pan)

       pattes  poils  queue  ventre
maman   100.0    5.0   20.0    80.0
bébé     50.0    2.5   10.0    40.0
papa    110.0    6.0   22.0    80.0
0       105.0    4.0   19.0    80.0
1       100.0    5.0   20.0    80.0


In [360]:
# Récupérer la liste sans doublons de lignes

pan_uni = all_pan.drop_duplicates() # garde le premier de chaque doublon
print(pan_uni)

       pattes  poils  queue  ventre
maman   100.0    5.0   20.0    80.0
bébé     50.0    2.5   10.0    40.0
papa    110.0    6.0   22.0    80.0
0       105.0    4.0   19.0    80.0


In [361]:
# Divers

# accéder aux noms des colonnes
print(fam_pan_df.columns) 

# ajouter un attribut (une colonne)
fam_pan_df["sexe"] = ["f", "f", "m"]  # la maman et le bébé sont des femelles, le papa est un mâle

print(fam_pan_df)
print(len(fam_pan_df)) # obtenir le nombre de lignes
print(all_pan.ventre.unique()) # obtenir les valeurs distinctes d'une colonne

Index(['pattes', 'poils', 'queue', 'ventre'], dtype='object')
       pattes  poils  queue  ventre sexe
maman   100.0    5.0   20.0    80.0    f
bébé     50.0    2.5   10.0    40.0    f
papa    110.0    6.0   22.0    80.0    m
3
[80. 40.]


In [362]:
# importer un fichier csv (comma separated values) dans une dataframe
import os
print(os.getcwd()) # pour connaître le chemin du répertoire courant
data = pd.read_csv("hubble_data.csv", sep=",") # si non dans le rep courant :"/home/user1/Bureau/data.csv"

C:\Users\Maryse\Desktop\EN COURS\OPENCLASSROOMS\05-Librairies Python Data Science\GIT-Jupyter


In [363]:
data # des indexs ont été rajoutés, les titres de colonnes ont été détectés
data.head(3)

Unnamed: 0,distance,recession_velocity
0,0.032,170
1,0.034,290
2,0.214,-130


In [364]:
print(str(data.columns[0]) + "---" + str(data.columns[1]))
print(data.index)
print(np.array([data["distance"]],np.newaxis)) # change la colonne en ligne

distance---recession_velocity
RangeIndex(start=0, stop=24, step=1)
[[0.032 0.034 0.214 0.263 0.275 0.275 0.45  0.5   0.5   0.63  0.8   0.9
  0.9   0.9   0.9   1.    1.1   1.1   1.4   1.7   2.    2.    2.    2.   ]]


# Manipulation avancée : exemple sur les données du titanic


In [365]:
import numpy as np
import pandas as pd
import seaborn as sns
titanic = sns.load_dataset('titanic')

### Affichage partiel

In [366]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [367]:
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [368]:
titanic.describe(include="all")

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
count,891.0,891.0,891,714.0,891.0,891.0,891.0,889,891,891,891,203,889,891,891
unique,,,2,,,,,3,3,3,2,7,3,2,2
top,,,male,,,,,S,Third,man,True,C,Southampton,no,True
freq,,,577,,,,,644,491,537,537,59,644,549,537
mean,0.383838,2.308642,,29.699118,0.523008,0.381594,32.204208,,,,,,,,
std,0.486592,0.836071,,14.526497,1.102743,0.806057,49.693429,,,,,,,,
min,0.0,1.0,,0.42,0.0,0.0,0.0,,,,,,,,
25%,0.0,2.0,,20.125,0.0,0.0,7.9104,,,,,,,,
50%,0.0,3.0,,28.0,0.0,0.0,14.4542,,,,,,,,
75%,1.0,3.0,,38.0,1.0,0.0,31.0,,,,,,,,


### Sélections diverses et élimitation

Pour enlever les doublons dans un échantillon sou sous-tableau quelconque :

In [369]:
titanic.age.unique() # affiche la liste des âges en enlevant tous les doublons

array([22.  , 38.  , 26.  , 35.  ,   nan, 54.  ,  2.  , 27.  , 14.  ,
        4.  , 58.  , 20.  , 39.  , 55.  , 31.  , 34.  , 15.  , 28.  ,
        8.  , 19.  , 40.  , 66.  , 42.  , 21.  , 18.  ,  3.  ,  7.  ,
       49.  , 29.  , 65.  , 28.5 ,  5.  , 11.  , 45.  , 17.  , 32.  ,
       16.  , 25.  ,  0.83, 30.  , 33.  , 23.  , 24.  , 46.  , 59.  ,
       71.  , 37.  , 47.  , 14.5 , 70.5 , 32.5 , 12.  ,  9.  , 36.5 ,
       51.  , 55.5 , 40.5 , 44.  ,  1.  , 61.  , 56.  , 50.  , 36.  ,
       45.5 , 20.5 , 62.  , 41.  , 52.  , 63.  , 23.5 ,  0.92, 43.  ,
       60.  , 10.  , 64.  , 13.  , 48.  ,  0.75, 53.  , 57.  , 80.  ,
       70.  , 24.5 ,  6.  ,  0.67, 30.5 ,  0.42, 34.5 , 74.  ])

Et pour supprimer des données (lignes ou colonnes) :

Remarque : les index ne sont pas modifiés !!!

In [370]:
# Supprimer une ligne
titanic.drop(0, inplace = False).head(3) # ne modifie pas la dataframe d'origine
#titanic.drop(0, inplace = True) # modifie la dataframe d'origine

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False


In [371]:
#Supprimer une colonne
titanic.drop(columns=["age"], inplace = False).head(3) # ne modifie pas la dataframe d'origine
#titanic.drop(columns=["age"], inplace = True) # modifie la dataframe d'origine

Unnamed: 0,survived,pclass,sex,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,0,0,7.925,S,Third,woman,False,,Southampton,yes,True


### Au sujet des valeurs non rensignées (NaN) :

Remarquez que l'un d'entre eux n'est pas renseigné :

In [372]:
print("Les âges des dix premiers passagers :")
print(np.array(titanic.age.head(10)))

Les âges des dix premiers passagers :
[22. 38. 26. 35. 35. nan 54.  2. 27. 14.]


Pour que l'âge non renseigné soit replacé par 0 :

In [373]:
print("Les âges des dix premiers passagers :")
print(np.array(titanic.fillna(value={"age": 0}).age.head(10)))

Les âges des dix premiers passagers :
[22. 38. 26. 35. 35.  0. 54.  2. 27. 14.]


Pour que les données (lignes) qui comportent au moins 1 NaN soient carrément éliminées :

In [374]:
print("Les âges des dix premiers passagers (seulement les lignes sans aucun NaN):")
print(np.array(titanic.dropna().age.head(10)))

Les âges des dix premiers passagers (seulement les lignes sans aucun NaN):
[38. 35. 54.  4. 58. 34. 28. 19. 49. 65.]


Remarque : on peut aussi appliquer cela aux colonnes :

In [375]:
print("Voici les titres des colonnes dont aucune ligne n'a de NaN :")
print(np.array(titanic.dropna(axis = "columns").columns))
nbe_ss_NaN = len(np.array(titanic.dropna(axis = "columns").columns))
nbe_tot = len(np.array(titanic.columns))
print("-> Seulement {} titres sur {} n'ont aucun 'NaN'.".format(nbe_ss_NaN,nbe_tot))

Voici les titres des colonnes dont aucune ligne n'a de NaN :
['survived' 'pclass' 'sex' 'sibsp' 'parch' 'fare' 'class' 'who'
 'adult_male' 'alive' 'alone']
-> Seulement 11 titres sur 15 n'ont aucun 'NaN'.


### Renommer les colonnes et les index :

Voici comment renommer une colomne simplement :

In [376]:
titanic.rename(columns={"sex":"sexe"}).head(3)

Unnamed: 0,survived,pclass,sexe,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True


Et voici comment changer les index :

In [377]:
f = lambda x: x+1
titanic.rename(index=f).head(3)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
2,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True


### Tableaux croisés dynamiques

On utilise la méthode .pivot_table de la manière suivante (par défaut, donne la moyenne, sinon on peut ajouter un "aggfunc") :

* (<colonne de la valeur à moyenner>, index='nom_index', columns='nom_column')

* (<colonne de la valeur à moyenner>, index='nom_index', columns='nom_column',aggfunc="sum")


In [378]:
titanic.pivot_table('survived', index='sex', columns='class')

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [379]:
titanic.pivot_table('survived', index='sex', columns='class', aggfunc="sum")

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,91,70,72
male,45,17,47


Pour catégoriser certaines colonnes, on peut donner les plages qu'on veut, et utiliser un 'pd.cut' de la dataframe dont on se servira comme un masque.

Le .pivot_table peut prendre plusieurs colonnes en index et en colonnes :

In [449]:
# ne pas considérer les lignes qui n'ont pas l'âge renseigner (sans modifier la dataframe de départ)
titanic_bis = titanic.dropna(subset=['age'],inplace=False)

# pour faire 3 catégories égales, en nombres entiers, quels que soient les âges
age_max = np.max(titanic.age[titanic_bis.index.values])
age_min = np.min(titanic.age[titanic_bis.index.values])
cat_age = np.array(np.around(np.linspace(age_min,age_max,4),decimals=0), int)
fare_max = np.max(titanic.fare[titanic_bis.index.values])
fare_min = np.min(titanic.fare[titanic_bis.index.values])
cat_fare = np.array(np.around(np.linspace(fare_min,fare_max,20),decimals=0), int)

# pour afficher un tableau croisé avec plusieurs sous-index et sous-colonnes
mask_cut_age = pd.cut(titanic_bis['age'], cat_age) # découpe les âges en tronçons
mask_cut_fare = pd.cut(titanic_bis['age'], cat_fare) # découpe les âges en tronçons

titanic_bis.pivot_table('survived', ['sex', mask_cut_age], ['class', mask_cut_fare],aggfunc="sum")

Unnamed: 0_level_0,class,First,First,First,Second,Second,Second,Third,Third,Third
Unnamed: 0_level_1,age,"(0, 27]","(27, 54]","(54, 81]","(0, 27]","(27, 54]","(54, 81]","(0, 27]","(27, 54]","(54, 81]"
sex,age,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
female,"(0, 27]",27.0,,,30.0,,,38.0,,
female,"(27, 53]",,46.0,,,36.0,,,8.0,
female,"(53, 80]",,2.0,7.0,,1.0,1.0,,,1.0
male,"(0, 27]",11.0,,,10.0,,,25.0,,
male,"(27, 53]",,26.0,,,4.0,,,13.0,
male,"(53, 80]",,0.0,3.0,,0.0,1.0,,,0.0


Exemples d'extraction conditionnelle de données :

In [450]:
### nbe_age_nan = np.sum(pd.isna(titanic.age))
# pour connaître le nombre de lignes dont l'âge n'est pas renseigné
print("nombre initial des passagers :", len(titanic))
print("nombre des passagers dont toutes les données sont renseignées :", len(titanic_bis))
print("nombre des passagers dont l'âge n'est pas renseigné :", nbe_age_nan)
plus_70ans = titanic_bis[titanic_bis["age"]>70].index.values
trans = titanic_bis.age[plus_70ans].values[:,np.newaxis]
trans2 = titanic_bis.sex[plus_70ans].values[:,np.newaxis]
trans3 = np.array(titanic_bis['class'][plus_70ans].values)[:,np.newaxis]
trans4 = titanic_bis.survived[plus_70ans].values[:,np.newaxis]
tab = np.hstack([trans, trans2, trans3, trans4])

#print(trans3)
print("numéro d'index des passagers entre 70 et 80 ans, suivi de leur âge et sexe :\n")
plus_70ans_df = pd.DataFrame(tab, index = plus_70ans, columns = ['+ de 70 ans', 'sexe','classe', 'survie ?'])
plus_70ans_df

nombre initial des passagers : 891
nombre des passagers dont toutes les données sont renseignées : 714
nombre des passagers dont l'âge n'est pas renseigné : 177
numéro d'index des passagers entre 70 et 80 ans, suivi de leur âge et sexe :



Unnamed: 0,+ de 70 ans,sexe,classe,survie ?
96,71.0,male,First,0
116,70.5,male,Third,0
493,71.0,male,First,0
630,80.0,male,First,1
851,74.0,male,Third,0


Exemple similaire, mais beaucoup plus compact pour obtenir les mêmes données grâces au tableaux dynamiques croisés !!!

In [451]:
masque = ((titanic_bis["age"]>70).values)*((titanic_bis["sex"]=='male').values)
titanic_bis[masque].pivot_table('survived', ['class', 'age'],aggfunc="sum")

Unnamed: 0_level_0,Unnamed: 1_level_0,survived
class,age,Unnamed: 2_level_1
First,71.0,0
First,80.0,1
Third,70.5,0
Third,74.0,0
