In [4]:
import numpy as np
import pandas as pd

In [5]:
fam_pandas = [[100,5,20,80], [50,2.5,10,40],[110,6,22,80]]
noms_pandas = ['maman', 'bébé', 'papa']
mesu_pandas = ['pattes', 'poils', 'queue', 'ventre']

In [8]:
# Définir ou créer une dataframe

fam_pan_np = np.array(fam_pandas)
fam_pan_df = pd.DataFrame(fam_pan_np, index = noms_pandas, columns = mesu_pandas)

In [44]:
# Renvoyer des colonnes

print(fam_pan_df["ventre"]) # objet de type 'pandas.Series'
print(fam_pan_df.pattes)
print(fam_pan_df["queue"].values) # vecteur correspondant aux valeurs seul
print(fam_pan_df.poils.values) # vecteur correspondant aux valeurs seul

maman    80.0
bébé     40.0
papa     80.0
Name: ventre, dtype: float64
maman    100.0
bébé      50.0
papa     110.0
Name: pattes, dtype: float64
[20. 10. 22.]
[5.  2.5 6. ]


In [23]:
# méthode .iterrows()

for i, ligne in fam_pan_df.iterrows(): # .iterrows renvoie une liste de tuples (nom ligne, données)
    print("Voici le panda %s :\n" %i + str(ligne) + "\n--------------------")

Voici le panda maman :
pattes    100.0
poils       5.0
queue      20.0
ventre     80.0
Name: maman, dtype: float64
--------------------
Voici le panda bébé :
pattes    50.0
poils      2.5
queue     10.0
ventre    40.0
Name: bébé, dtype: float64
--------------------
Voici le panda papa :
pattes    110.0
poils       6.0
queue      22.0
ventre     80.0
Name: papa, dtype: float64
--------------------


In [25]:
# Extraire des données

print(fam_pan_df.iloc[2]) # Avec iloc(), indexation positionnelle
print(fam_pan_df.loc["papa"]) # Avec loc(), indexation par label

pattes    110.0
poils       6.0
queue      22.0
ventre     80.0
Name: papa, dtype: float64
pattes    110.0
poils       6.0
queue      22.0
ventre     80.0
Name: papa, dtype: float64


In [38]:
# Sélectionner des données avec conditions

masque = fam_pan_df["ventre"] == 80 # renvoie un tableau de booléens pour chaque panda (ventre de 80 cm ?)
print(masque)
pan_v80 = fam_pan_df[masque] # utilisation d'un masque booléen pour filtrer des données
pan_vnon80 = fam_pan_df[~masque]
print("\n Les pandas à ventre de 80 cm sont :") # ou "famille_panda_df[famille_panda_df["ventre"] == 80]"
print(pan_v80.index)
print("\n Les pandas à ventre autre que 80 cm sont :")
print(pan_vnon80.index)

maman     True
bébé     False
papa      True
Name: ventre, dtype: bool

 Les pandas à ventre de 80 cm sont :
Index(['maman', 'papa'], dtype='object')

 Les pandas à ventre autre que 80 cm sont :
Index(['bébé'], dtype='object')


In [45]:
# Ajouter des données

autres_pan = pd.DataFrame([[105,4,19,80],[100,5,20,80]],      # deux nouveaux pandas
                               columns = fam_pan_df.columns)  # même colonnes que famille_panda_df
all_pan = fam_pan_df.append(autres_pan)
print(all_pan)

       pattes  poils  queue  ventre
maman   100.0    5.0   20.0    80.0
bébé     50.0    2.5   10.0    40.0
papa    110.0    6.0   22.0    80.0
0       105.0    4.0   19.0    80.0
1       100.0    5.0   20.0    80.0


In [46]:
# Récupérer la liste sans doublons de lignes

pan_uni = all_pan.drop_duplicates() # garde le premier de chaque doublon
print(pan_uni)

       pattes  poils  queue  ventre
maman   100.0    5.0   20.0    80.0
bébé     50.0    2.5   10.0    40.0
papa    110.0    6.0   22.0    80.0
0       105.0    4.0   19.0    80.0


In [48]:
# Divers

print(fam_pan_df.columns) # accéder aux noms des colonnes
fam_pan_df["sexe"] = ["f", "f", "m"] # ajouter un attribut (une colonne)
# la maman et le bébé sont des femelles, le papa est un mâle
print(fam_pan_df)
print(len(fam_pan_df)) # obtenir le nombre de lignes
print(all_pan.ventre.unique()) # obtenir les valeurs distinctes d'une colonne :

Index(['pattes', 'poils', 'queue', 'ventre', 'sexe'], dtype='object')
       pattes  poils  queue  ventre sexe
maman   100.0    5.0   20.0    80.0    f
bébé     50.0    2.5   10.0    40.0    f
papa    110.0    6.0   22.0    80.0    m
3
[80. 40.]


In [51]:
# importer un fichier csv (comma separated values) dans une dataframe
import os
print(os.getcwd()) # pour connaître le chemin du répertoire courant
data = pd.read_csv("hubble_data.csv", sep=",") # si non dans le rep courant :"/home/user1/Bureau/data.csv"

C:\Users\Maryse\Desktop\EN COURS\OPENCLASSROOMS\05-Librairies Python Data Science\GIT-Jupyter


In [52]:
print(data) # des indexs ont été rajoutés, les titres de colonnes ont été détectés

    distance  recession_velocity
0      0.032                 170
1      0.034                 290
2      0.214                -130
3      0.263                 -70
4      0.275                -185
5      0.275                -220
6      0.450                 200
7      0.500                 290
8      0.500                 270
9      0.630                 200
10     0.800                 300
11     0.900                 -30
12     0.900                 650
13     0.900                 150
14     0.900                 500
15     1.000                 920
16     1.100                 450
17     1.100                 500
18     1.400                 500
19     1.700                 960
20     2.000                 500
21     2.000                 850
22     2.000                 800
23     2.000                1090


In [65]:
print(str(data.columns[0]) + "---" + str(data.columns[1]))
print(data.index)
print(np.array([data["distance"]],np.newaxis)) # change la colonne en ligne

distance---recession_velocity
RangeIndex(start=0, stop=24, step=1)
[[0.032 0.034 0.214 0.263 0.275 0.275 0.45  0.5   0.5   0.63  0.8   0.9
  0.9   0.9   0.9   1.    1.1   1.1   1.4   1.7   2.    2.    2.    2.   ]]
