In [2]:
import numpy as np 
import pandas as pd

pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 10)
pd.set_option('display.max_rows', 10)


# Création d'un DataFrame

Plusieurs possibilités s'offrent à nous pour atteindre cet objectif.

### a) Création d'un DataFrame vide


In [2]:
df = pd.DataFrame()
df


Empty DataFrame
Columns: []
Index: []

### b) Utilisation d'un array de Numpy


In [3]:
# Création d'un DataFrame de 2 lignes sur 2 colonnes
dfa = pd.DataFrame(np.array([[10, 11], [20, 21]]))
dfa


    0   1
0  10  11
1  20  21

In [4]:
# Création d'un tableau de 2 lignes sur 4 colonnes
dfa = pd.DataFrame([pd.Series(np.arange(0, 5)),pd.Series(np.arange(10, 15))])
dfa


    0   1   2   3   4
0   0   1   2   3   4
1  10  11  12  13  14

### d) Utilisation d'une Liste

In [5]:
data = [1,2,3,4,5]
df = pd.DataFrame(data)
df


   0
0  1
1  2
2  3
3  4
4  5

In [6]:
data = [['Jean',10],['Arno',12],['Anne',13]]
df = pd.DataFrame(data,columns=['Prénom','Age'])
df


  Prénom  Age
0   Jean   10
1   Arno   12
2   Anne   13

### e) Utilisation d'un dictionnaire de Liste / ndarrays

Tous les ndarrays doivent être de même longueur. Si l'index est passé, alors la longueur de l'index devrait être égale à la longueur des tableaux.

Si aucun index n'est passé, alors par défaut, l'index sera range(n), où n est la longueur du tableau.


In [7]:
data = {'Prénom':['Anne', 'Pierre', 'jack', 'Steven'],'Age':[65,31,23,48]}
df = pd.DataFrame(data)
df


   Prénom  Age
0    Anne   65
1  Pierre   31
2    jack   23
3  Steven   48

In [8]:
# On rajoute un index
data = {'Prénom':['Anne', 'Pierre', 'jack', 'Steven'],'Age':[65,31,23,48]}
df = pd.DataFrame(data, index=['rang1','rang2','rang3','rang4'])
df


       Prénom  Age
rang1    Anne   65
rang2  Pierre   31
rang3    jack   23
rang4  Steven   48

### f) Utilisation dune liste de dictionnaire

La liste des dictionnaires peut être transmise en tant que données d'entrée pour créer un DataFrame. Les clés du dictionnaire sont prises par défaut comme noms de colonnes.

In [9]:
# un dictionnaire par ligne
# c n'est pas présent sur la 1° ligne d'où la valeur Nan par défaut
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
df


   a   b     c
0  1   2   NaN
1  5  10  20.0

Le DataFrame est créé avec un index de colonne autre que la clé du dictionnaire. Comme le nom de la colonne n'existe pas dans le dictionaire, la colonne est initialisée à Nan.

In [10]:
# Idem mais en passant un index
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data, index=['first', 'second'])
df


        a   b     c
first   1   2   NaN
second  5  10  20.0

### g) Création d'un DataFrame à partir d'un Dictionaire de série

Le dictionnaire de series peut être passé pour former un DataFrame. L'indice résultant est l'union de tous les indices de serie passés. Comme dans les exemples précédents si la valeur n'existe pas alors elle est remplacée par Nan.

In [3]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
df


   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4

Si vous recevez un DataFrame et que vous ne connaissez pas ses dimensions pour pouvez utiliser la commande shape

In [4]:
df.shape

(4, 2)