# Toujours plus de tableaux, de Numpy à Pandas

* Pandas est une librairie Python qui permet de manipuler facilement des données. Notamment des données sous forme de tableaux à double entrées avec des étiquettes de variables (des colonnes) et d'individus (des lignes).

* Ces tableaux de données sont appelés DataFrames. On peut facilement lire et écrire ces DataFrames à partir de fichiers comme un fichier Excel par exemple. Il est également assez simple de tracer des graphiques à partir de ces objets DataFrames grâce aux librairies Matplotlib et Seaborn.

## Insatallation de pandas

In [1]:
!pip install pandas



## Importations de pandas et numpy

> Ce n'est sans doute pas grand chose, mais c'est du temps de gagné dans votre journée si vous utilisez souvent les fonctions de Pandas

In [1]:
import pandas as pd
import numpy as np
print('libs loaded')

libs loaded


# Objets Pandas : les Series

* Les Series sont un des objets principaux de la librairie Pandas, une Series à n valeurs peut être vue comme un vecteur de dimension (1,n), ou encore un tableau à une dimension.

* Pour construire une Series, on utilise la fonction Series() de Pandas en lui passant en argument une liste tel que :

In [2]:
pd.Series([0.25, 0.5, 0.75, 1.0])

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [4]:
l=[0.25, 0.5, 0.75, 1.0]
data = pd.Series(l); data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

## Construire une Serises et l'afficher

In [6]:
s = pd.Series([1,2,3,4,5,6]); s

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

* Lors de l'affichage de la Series on voit dtype: float64.

* C'est le type des éléments qui composent la Series. On peut le voir notamment avec l'attribut dtypes.

### afficher le type de la Serises

In [7]:
s.dtype

dtype('int64')

### afficher l'indexe de la Serises

* On peut remarquer aussi une liste de valeurs sur le côté gauche. Ce sont les index, c'est-à-dire l'emplacement des valeurs. Ce qui pourrait correspondre aux numéros de lignes et de colonnes sur un logiciel de traitement de données type Excel, Google Sheets, Numbers, etc.

* On utilise les commandes index pour accéder à l'index et values pour les valeurs de la Series.

In [8]:
s.index

RangeIndex(start=0, stop=6, step=1)

In [9]:
s.values

array([1, 2, 3, 4, 5, 6])

### afficher le type de la Serises du tableau des valeurs

In [8]:
type(s.values)

numpy.ndarray

### Faire une Serises avec des chaines de caractères

* On peut aussi stocker différents types de données dans les Series, tel que les string.

In [9]:
ss = pd.Series(['il', 'fait', 'plutôt beau', "aujourd'hui"]),; ss

(0             il
 1           fait
 2    plutôt beau
 3    aujourd'hui
 dtype: object,)

### Faire des Serises avec des indexes 

* Il est possible d'effectuer des opérations mathématiques élémentaires sur les Series tel que l'addition +, -, *, /.

* Attention toutefois aux _NaN_ et à bien utiliser ces opérations sur des Series de même type !

In [13]:
s1 = pd.Series([1,2,3],['a', 'b', 'c'])
s2 = pd.Series([4,5,6],['a', 'd', 'c'])

#### afficher les Serises s1 et s2

In [14]:
s1, s2

(a    1
 b    2
 c    3
 dtype: int64,
 a    4
 d    5
 c    6
 dtype: int64)

#### Faire la somme des deux Serises s1 et s2

In [15]:
s1 + s2

a    5.0
b    NaN
c    9.0
d    NaN
dtype: float64

#### Faire la multiplication des deux Serises s1 et s2

In [16]:
s1 * s2

a     4.0
b     NaN
c    18.0
d     NaN
dtype: float64

#### Faire la division des deux Serises s1 et s2

In [17]:
s1 / s2

a    0.25
b     NaN
c    0.50
d     NaN
dtype: float64

### Attention aussi à la dimension / len() de vos données.

In [25]:
len(s1)

3

# Objets Pandas : les DataFrames


* Le Dataframe se comporte comme un dictionnaire dont les clefs sont les noms des colonnes et les valeurs sont des Series.
* On peut les créer à partir d'un array Numpy ou bien d'un dictionnaire.

In [30]:
ar = np.array([[1.1, 2, 3.3, 4], [2.7, 10, 5.4, 7], [5.3, 9, 1.5, 15]]); ar

array([[ 1.1,  2. ,  3.3,  4. ],
       [ 2.7, 10. ,  5.4,  7. ],
       [ 5.3,  9. ,  1.5, 15. ]])

In [29]:
df = pd.DataFrame(ar, index = ['a1', 'a2', 'a3'], columns = ['A', 'B', 'C', 'D']); df

Unnamed: 0,A,B,C,D
a1,1.1,2.0,3.3,4.0
a2,2.7,10.0,5.4,7.0
a3,5.3,9.0,1.5,15.0


* On peut voir que certaines valeurs sont en gras.
* Ce sont l'index et les colonnes un peu comme les Series, on peut y accéder via les attributs index et columns. Les deux objets sont des objets pandas.core.indexes.base.Index.

In [32]:
df.index

Index(['a1', 'a2', 'a3'], dtype='object')

In [33]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

* Comme pour les Series, on peut le réindexer pour changer l'ordre des lignes et/ou des colonnes, ou n'en récupérer que certaines.

In [34]:
df.reindex(columns = ['C', 'B', 'A'], index = ['a2', 'a3'])

Unnamed: 0,C,B,A
a2,5.4,10.0,2.7
a3,1.5,9.0,5.3


### Concept de dimension d'un DataFrame

* La dimension c'est la taille de votre tableau.
* C'est un concept important qui peut s'avérer problématique quand on cherche à effectuer des opérations sur des tableaux de différentes shape.

## Liste des principales commandes :

* df.shape : renvoie la dimension du dataframe sous forme (nombre de lignes, nombre de colonnes),

* On peut aussi faire len(df) pour avoir le nombre de lignes, ou également len(df.index),

* on peut aussi faire len(df.columns) pour avoir le nombre de colonnes,

* df.memory_usage() : donne une série avec la place occupée par chaque colonne, sum(df.memory_usage()) donne la mémoire totale occupée.

In [35]:
df.shape

(3, 4)

In [36]:
len(df)

3

In [37]:
len(df.columns)

4

In [38]:
df.memory_usage()

Index    132
A         24
B         24
C         24
D         24
dtype: int64

In [39]:
sum(df.memory_usage())

228

### Faire un dictionnaire 

* On prendra le DataFrame df suivant pour la suite des exemples.

In [47]:
dico = {
    'A' : [1,2,3,4],
    'B' : [1.2,3.4,5,9],
    'C' : [6,7,5,12]
}

#### Afficher le dictionnaire

In [48]:
dico

{'A': [1, 2, 3, 4], 'B': [1.2, 3.4, 5, 9], 'C': [6, 7, 5, 12]}

### mettre le dictionnaire dans un objet pandas

In [49]:
df = pd.DataFrame(dico)

In [18]:
df

Unnamed: 0,A,B,C
0,1,1.2,6
1,2,3.4,7
2,3,5.0,5
3,4,9.0,12


#### Afficher les deux premières lignes

In [19]:
df.head(2)

Unnamed: 0,A,B,C
0,1,1.2,6
1,2,3.4,7


#### Afficher les deux dernières lignes

In [20]:
df.tail(2)

Unnamed: 0,A,B,C
2,3,5.0,5
3,4,9.0,12


#### Afficher les entêtes de colonnes

In [21]:
df.columns

Index(['A', 'B', 'C'], dtype='object')

#### Afficher les informations sur l'objet pandas

In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       4 non-null      int64  
 1   B       4 non-null      float64
 2   C       4 non-null      int64  
dtypes: float64(1), int64(2)
memory usage: 224.0 bytes


#### change l'indexe de l'objet pandas

In [51]:
df = pd.DataFrame(dico, index=['a','b','c','d']); df

Unnamed: 0,A,B,C
a,1,1.2,6
b,2,3.4,7
c,3,5.0,5
d,4,9.0,12


#### Manipuler un DataFrame
* Pour renvoyer la Series correspondant à la ligne l d'index index on utilise la fonction loc['index'].  
Par exemple pour l'index a :


In [42]:
df.loc['a']

A    1.0
B    1.2
C    6.0
Name: a, dtype: float64

* On peut aussi renvoyer un dataframe avec un sous-ensemble de lignes et de colonnes :

In [44]:
1
df.loc[['b', 'c'], ['A', 'C']] 

Unnamed: 0,A,C
b,2,7
c,3,5


* On peut aussi utiliser iloc[:] qui fonctionne sur le même principe que les tableaux Numpy avec le caractère : pour afficher certaines lignes.

In [46]:
df.iloc[0:2]

Unnamed: 0,A,B,C
a,1,1.2,6
b,2,3.4,7


#### affiche à partir de la deuxième ligne

In [45]:
df.iloc[1:]

Unnamed: 0,A,B,C
b,2,3.4,7
c,3,5.0,5
d,4,9.0,12


In [26]:
df.iloc[2:]

Unnamed: 0,A,B,C
c,3,5.0,5
d,4,9.0,12


#### On peut bien sûr combiner les fonctions loc et iloc afin d'effectuer une sélection plus fine.
* Affiche les colonnes B et C et la deuxième ligne et la troisième ligne

In [27]:
df.loc[:,['B','C']].iloc[1:3]

Unnamed: 0,B,C
b,3.4,7
c,5.0,5


#### Affiche les colonnes A

In [28]:
df.loc[:,['A']]

Unnamed: 0,A
a,1
b,2
c,3
d,4


### Affiche le type de la colonne

In [29]:
type(df['A'])

pandas.core.series.Series

### Affiche le type du DataFramede la colonne

In [31]:
type(df.loc[:,['A']])

pandas.core.frame.DataFrame

### Plus d'opérations avec at et iat :

* df.loc[:,['A', 'C']] : toutes les lignes et seulement les colonnes A et B,

* df.loc['a2', 'C'] : accès à la valeur de la ligne d et de la colonne C : 12,

* df.at['a2', 'C'] : autre façon recommandée d'accéder à la valeur de la ligne d et de la colonne C : 12,

* On peut aussi faire une affectation pour changer la valeur : df.at['a', 'C'] = 6,

In [47]:
df.loc[:,['A', 'C']]

Unnamed: 0,A,C
a,1,6
b,2,7
c,3,5
d,4,12


In [50]:
df.loc['d', 'C']

12

In [52]:
df.at['d', 'C']

12

In [53]:
df.at['a', 'C']

6

### Pour accéder à un sous-ensemble du Dataframe avec les numéros des lignes et colonnes :

* df.iloc[1] : renvoie la deuxième ligne,

In [57]:
df.iloc[1]

A    2.0
B    3.4
C    7.0
Name: b, dtype: float64

* df.iloc[1:3,[0, 2]] : renvoie le Dataframe avec les lignes 1 à 3 exclues, et les colonnes numéros 0 et 2,

In [59]:
df.iloc[1:3,[0, 2]] 

Unnamed: 0,A,C
b,2,7
c,3,5


* df.iloc[:,2:4] : renvoie toutes les lignes et les colonnes 2 à 4 exclues,

In [60]:
df.iloc[:,2:4]

Unnamed: 0,C
a,6
b,7
c,5
d,12


* df.iloc[1,2] : renvoie la valeur à la ligne 2 et la colonne 3,

In [61]:
df.iat[1,2]

7

* df.iat[1,2] : renvoie la valeur à la ligne 2 et la colonne 3, mais c'est la façon recommandée d'accéder aux valeurs,

In [67]:
df.iat[1,2]

7

* On peut aussi faire une affectation pour changer la valeur : df.iat[1, 2] = 5.

In [68]:
df.iat[1,2] = 5

In [69]:
df.iat[1,2]

5

### Itération sur un Dataframe
* Quand on boucle sur un Dataframe, on boucle sur les noms des colonnes et non sur les valeurs :

In [71]:
for x in df:
    print(x)

A
B
C


* Si on veut accéder à une colonne, par exemple la colonne A, il faut utiliser les [].

In [72]:
df['A']

a    1
b    2
c    3
d    4
Name: A, dtype: int64

### Itérer sur un DataFrame on peut utiliser la méthode iterrow() 
* Afin d'itérer sur un DataFrame on peut utiliser la méthode iterrow() qui nous renvoie l'index et la ligne, il faut donc être précis quant à l'utilisation de cette dernière.

In [73]:
for index, row in df.iterrows():
    print(row)

A    1.0
B    1.2
C    6.0
Name: a, dtype: float64
A    2.0
B    3.4
C    5.0
Name: b, dtype: float64
A    3.0
B    5.0
C    5.0
Name: c, dtype: float64
A     4.0
B     9.0
C    12.0
Name: d, dtype: float64


### Cette méthode est assez pratique pour rechercher des valeurs particulières.

In [75]:
for index, row in df.iterrows():
    if row['A'] == 2:
        print('faire quelque chose ')

faire quelque chose 


In [76]:
value = 2.0
for index, row in df.iterrows():
    if row['A'] == value:
        print("C'est bien la valeur : {} qui est présente dans le Dataframe".format(value))


C'est bien la valeur : 2.0 qui est présente dans le Dataframe


### On peut donc manipuler les Series et les index de notre DataFrame 
* Ici les variables row et index tel que :

In [74]:
for index, row in df.iterrows():
    print(index, ' : ', row['A'], row['C'])

a  :  1.0 6.0
b  :  2.0 5.0
c  :  3.0 5.0
d  :  4.0 12.0


### Informations d'un DataFrame
* L'avantage en passant par les DataFrame c'est qu'ils possèdent plein de méthodes pratiques comme renvoyer un tableau donnant des statistiques descriptives sur les valeurs numériques de notre tableau.

* Si on veut avoir des informations sur les variables catégorielles il faut ajouter l'option include = 'all' tel que :

In [77]:
df.describe(include = 'all')

Unnamed: 0,A,B,C
count,4.0,4.0,4.0
mean,2.5,4.65,7.0
std,1.290994,3.291909,3.366502
min,1.0,1.2,5.0
25%,1.75,2.85,5.0
50%,2.5,4.2,5.5
75%,3.25,6.0,7.5
max,4.0,9.0,12.0


* Par ailleurs, si on veut des informations sur les variables qui composent le DataFrame on utilise la méthode info().

In [78]:
df.describe()

Unnamed: 0,A,B,C
count,4.0,4.0,4.0
mean,2.5,4.65,7.0
std,1.290994,3.291909,3.366502
min,1.0,1.2,5.0
25%,1.75,2.85,5.0
50%,2.5,4.2,5.5
75%,3.25,6.0,7.5
max,4.0,9.0,12.0


In [79]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, a to d
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       4 non-null      int64  
 1   B       4 non-null      float64
 2   C       4 non-null      int64  
dtypes: float64(1), int64(2)
memory usage: 300.0+ bytes


### On peut aussi faire appel aux fonctions numpy pour explorer plus en détail notre DataFrame.

* la valeur minimum de la colonne C et mla moyen de la colonne A

In [80]:
df['C'].min()

5

In [81]:
df['A'].mean()

2.5

* affiche la colonne A

In [82]:
df.A

a    1
b    2
c    3
d    4
Name: A, dtype: int64

* Affiche les valeurs de la colonne C trié dcroissant et décroissant

In [41]:
df.C.sort_values()

c     5
a     6
b     7
d    12
Name: C, dtype: int64

In [42]:
df.C.sort_values(ascending= False)

d    12
b     7
a     6
c     5
Name: C, dtype: int64

* tri le table par rapport la colonne C dans l'ordre decroissant

In [53]:
df.sort_values(by = "C", ascending= False)

Unnamed: 0,A,B,C
d,4,9.0,12
b,2,3.4,7
a,1,1.2,6
c,3,5.0,5


* compte les valeur de la colonne B

In [83]:
df.B.value_counts()

1.2    1
3.4    1
5.0    1
9.0    1
Name: B, dtype: int64

### Filtrer avec []

* On peut utiliser les opérateurs mathématiques de base afin de filtrer un DataFrame. Cela consiste à renvoyer un "sous DataFrame" avec seulement les lignes et colonnes où la condition est vérifiée.

* Affiche les lignes strictement supperieur 2 dans A

In [59]:
df[df["A"]>2]
iris[iris["sepal_length"]>=7.2].sort_values(by = "sepal_length", ascending= False)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
131,7.9,3.8,6.4,2.0,virginica
117,7.7,3.8,6.7,2.2,virginica
118,7.7,2.6,6.9,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica
135,7.7,3.0,6.1,2.3,virginica
105,7.6,3.0,6.6,2.1,virginica
130,7.4,2.8,6.1,1.9,virginica
107,7.3,2.9,6.3,1.8,virginica
109,7.2,3.6,6.1,2.5,virginica
125,7.2,3.2,6.0,1.8,virginica


### Charger les données du fichier .csv ../data/iris.csv dans iris et affiche iris

In [4]:
iris = pd.read_csv('./DOCS/iris.csv'); iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,se
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


### Liste de valeurs unique dans la colonne petal_width

In [27]:
iris_pw = iris.petal_width.unique();
# tri du Dataframe iris_pw
iris_pw.sort();
iris_pw

array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6,
       1.7, 1.8, 1.9, 2. , 2.1, 2.2, 2.3, 2.4, 2.5])

### Nombre de valeurs unique dans colonne petal_width et le nombre de valeur dans le tableau

In [6]:
len(iris.petal_width.unique()), len(iris)

(22, 150)

In [7]:
len(iris.petal_length.unique()), len(iris)

(43, 150)

- calcul du pourcentage de valeur unique petal_length

In [8]:
(len(iris.petal_length.unique())/len(iris))*100

28.666666666666668

### Grouper avec groupby()

- En science de données on a souvent besoin de grouper ces données par catégories, là est tout l'objet de la fonction groupby(by='column') qui prend comme paramètre la colonne souhaitée du DataFrame sur lequel on applique le groupby.

In [9]:
iris_id = iris.groupby(by='species')

In [10]:
iris_id

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f7201b689d0>

In [11]:
iris_id.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,se
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
50,7.0,3.2,4.7,1.4,versicolor
51,6.4,3.2,4.5,1.5,versicolor
52,6.9,3.1,4.9,1.5,versicolor
53,5.5,2.3,4.0,1.3,versicolor


In [12]:
iris_id.head().describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,16.0,16.0,16.0,16.0
mean,5.875,3.1125,3.7375,1.19375
std,0.85362,0.372156,1.906786,0.829031
min,4.6,2.3,1.3,0.2
25%,5.075,2.975,1.475,0.2
50%,6.05,3.1,4.55,1.45
75%,6.5,3.225,5.225,1.825
max,7.1,3.9,6.0,2.5


- Les objets pandas.core.groupby.generic.DataFrameGroupBy sont des objets particuliers, on utilise la fonction get_group() pour accéder à un certain groupe parmi les groupes filtrés sous forme de DataFrame. On peut donc appliquer les méthodes que l'on connaît.

In [13]:
iris_id.get_group('versicolor')

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
50,7.0,3.2,4.7,1.4,versicolor
51,6.4,3.2,4.5,1.5,versicolor
52,6.9,3.1,4.9,1.5,versicolor
53,5.5,2.3,4.0,1.3,versicolor
54,6.5,2.8,4.6,1.5,versicolor
55,5.7,2.8,4.5,1.3,versicolor
56,6.3,3.3,4.7,1.6,versicolor
57,4.9,2.4,3.3,1.0,versicolor
58,6.6,2.9,4.6,1.3,versicolor
59,5.2,2.7,3.9,1.4,versicolor


In [14]:
iris_id.get_group('versicolor').petal_length


50    4.7
51    4.5
52    4.9
53    4.0
54    4.6
55    4.5
56    4.7
57    3.3
58    4.6
59    3.9
60    3.5
61    4.2
62    4.0
63    4.7
64    3.6
65    4.4
66    4.5
67    4.1
68    4.5
69    3.9
70    4.8
71    4.0
72    4.9
73    4.7
74    4.3
75    4.4
76    4.8
77    5.0
78    4.5
79    3.5
80    3.8
81    3.7
82    3.9
83    5.1
84    4.5
85    4.5
86    4.7
87    4.4
88    4.1
89    4.0
90    4.4
91    4.6
92    4.0
93    3.3
94    4.2
95    4.2
96    4.2
97    4.3
98    3.0
99    4.1
Name: petal_length, dtype: float64

#### Compte le nombre de ligne du group sur versicolor 

In [15]:
iris_id.get_group('versicolor').petal_length.value_counts().sum()

50

In [16]:
iris_id.get_group('versicolor').sepal_length.mean()

5.936

In [17]:
iris_id.get_group('setosa').sepal_length.mean()

5.004081632653061

In [18]:
iris_id.get_group('virginica').sepal_length.mean()

6.587999999999998

# La gestion des fichiers

### Objectifs de ce cours
- Comprendre la particularité de la gestion de fichiers avec Pandas

- Il est assez commun de travailler sur des fichiers de données, notamment avec des fichiers csv, excel ou bien json.

- Lire et écrire dans les fichiers est une tâche qui peut être complexe, pour des raisons d'encodage notamment. Pandas va donc nous simplifier la vie en nous mettant à disposition des fonctions qui vont s'occuper de lire le fichier suivant son extension et de le transformer en objet DataFrame afin de pouvoir le traiter avec les fonctions vu précédemment.

- Pour les csv on utilisera la fonction read_csv(), pour les json la fonction read_json() et pour les fichiers excel la fonction read_excel(). Dans la plupart des cas, les fonctions de type read() prennent un chemin (path) relatif ou absolu vers les données en question. Ici on se basera sur le dossier ./data créé au début du cours.

### décharger le fichier .CSV crypto_v1.csv du dossier DOCS dans Dataframe cryto

In [29]:
crypto = pd.read_csv('./DOCS/crypto_v1.csv'); crypto.head(3)

Unnamed: 0,Date,BTC,ETH,LTC,XRP,DASH,SC,DOGE
0,2018-01-01,11372.470703,643.384949,190.717804,1.991032,877.658386,0.025622,0.007418
1,2018-01-02,12421.938477,733.30896,211.992371,2.05696,1009.634338,0.025472,0.007582
2,2018-01-03,12656.952148,801.598633,204.303085,2.585654,974.804321,0.027437,0.00776


In [30]:
crypto.columns

Index(['Date', 'BTC', 'ETH', 'LTC', 'XRP', 'DASH', 'SC', 'DOGE'], dtype='object')

In [31]:
crypto.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1505 entries, 0 to 1504
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Date    1505 non-null   object 
 1   BTC     1505 non-null   float64
 2   ETH     1505 non-null   float64
 3   LTC     1505 non-null   float64
 4   XRP     1505 non-null   float64
 5   DASH    1505 non-null   float64
 6   SC      1505 non-null   float64
 7   DOGE    1505 non-null   float64
dtypes: float64(7), object(1)
memory usage: 94.2+ KB


### décharger le fichier .json japan_meterological_agency_201707211555.json du dossier DOCS dans Dataframe books

In [32]:
books = pd.read_json('./DOCS/bar.vl.json'); books.head(3)

Unnamed: 0,data,description,encoding,mark
values,"[{'a': 'A', 'b': 28}, {'a': 'B', 'b': 55}, {'a...",A simple bar chart with embedded data.,,bar
x,,A simple bar chart with embedded data.,"{'field': 'a', 'type': 'ordinal'}",bar
y,,A simple bar chart with embedded data.,"{'field': 'b', 'type': 'quantitative'}",bar


### décharger le fichier Excel FinancialSample.xlsx du dossier DOCS dans Dataframe xl

In [33]:
xl = pd.read_excel('./DOCS/FinancialSample.xlsx',sheet_name='SalesOrders'); xl.head(5)

Unnamed: 0,Segment,Country,Product,DiscountBand,UnitsSold,ManufacturingPrice,SalePrice,GrossSales,Discounts,Sales,COGS,Profit,Date,MonthNumber,MonthName,Year
0,Midmarket,France,Paseo,,549.0,10,15,8235.0,0.0,8235.0,5490.0,2745.0,2013-09-01,9,September,2013
1,Small Business,Mexico,Paseo,,788.0,10,300,236400.0,0.0,236400.0,197000.0,39400.0,2013-09-01,9,September,2013
2,Government,France,VTT,,1527.0,250,350,534450.0,0.0,534450.0,397020.0,137430.0,2013-09-01,9,September,2013
3,Enterprise,United States of America,Carretera,Low,330.0,3,125,41250.0,412.5,40837.5,39600.0,1237.5,2013-09-01,9,September,2013
4,Small Business,United States of America,Montana,Low,2498.0,5,300,749400.0,7494.0,741906.0,624500.0,117406.0,2013-09-01,9,September,2013


In [35]:
xl.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 700 entries, 0 to 699
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Segment             700 non-null    object        
 1   Country             700 non-null    object        
 2   Product             700 non-null    object        
 3   DiscountBand        700 non-null    object        
 4   UnitsSold           700 non-null    float64       
 5   ManufacturingPrice  700 non-null    int64         
 6   SalePrice           700 non-null    int64         
 7   GrossSales          700 non-null    float64       
 8   Discounts           700 non-null    float64       
 9   Sales               700 non-null    float64       
 10  COGS                700 non-null    float64       
 11  Profit              700 non-null    float64       
 12  Date                700 non-null    datetime64[ns]
 13  MonthNumber         700 non-null    int64         

- On peut vérifier que ces 3 objets sont bien du type DataFrame avec la fonction native type de Python.

In [34]:
type(crypto)==type(xl)==type(books)==pd.core.frame.DataFrame

True