In [1]:
import numpy as np
import pandas as pd

#https://pandas.pydata.org/pandas-docs/stable/
#https://jakevdp.github.io/PythonDataScienceHandbook/03.00-introduction-to-pandas.html

In [2]:
# On peut créer une Series à partir d'une list
data = pd.Series([0.25, 0.5, 0.75, 1.0])
print("data ressemble à un tableau Numpy: ", data)

# On peut spécifier des indices à la main
data = pd.Series([0.25, 0.5, 0.75, 1.0],
         index=['a', 'b', 'c', 'd'])
print("data ressemble à un dict en Python: ", data)
print(data['b'])

data ressemble à un tableau Numpy:  0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64
data ressemble à un dict en Python:  a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64
0.5


In [3]:
# On peut même créer une Serie directement à partir d'une dict
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
area_dict = {'California': 423967, 
             'Texas': 695662,
             'New York': 141297, 
             'Florida': 170312,
             'Illinois': 149995}
population = pd.Series(population_dict)
area = pd.Series(area_dict)
print(population)
# Que pensez vous de cette ligne?
print(population['California':'Florida'])

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64


In [6]:
#CREATION DE DATAFRAME
# A partir d'une Series
df = pd.DataFrame(population, columns=['population'])
print(df)
# A partir de plusieurs Series
df = pd.DataFrame({'population': population,
              'area': area})
print(df)
# A partir d'un tableau Numpy de dimension 2
df = pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])
print(df)

# Une fonction pour générer facilement des DataFrame. 
# Elle nous sera utile dans la suite de ce chapitre.
def make_df(cols, ind):
    """Crée rapidement des DataFrame"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

# exemple
make_df('ABC', range(3))

            population
California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
            population    area
California    38332521  423967
Texas         26448193  695662
New York      19651127  141297
Florida       19552860  170312
Illinois      12882135  149995
        foo       bar
a  0.369020  0.389715
b  0.415135  0.685029
c  0.190008  0.215343


Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [7]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])

print(data)

# On peut désigner un élément d'une Series par son index
print(data.loc['b'])

# Ou bien par sa position
print(data.iloc[1])

#designation d'element sur les dataframe identique : loc et iloc
data = pd.DataFrame({'area':area, 'pop':population})
print(data)

data.loc[:'Illinois', :'pop']

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64
0.5
0.5


In [11]:
#UNION DE SERIES /DATAFRAME
#https://pandas.pydata.org/pandas-docs/stable/merging.html

ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
pd.concat([df1, df2])

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


In [13]:
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])
y.index = x.index  # Rend les index identiques pour test
# Nous avons alors des index dupliqués lors de la concatenation 
print(pd.concat([x, y]))

# Nous pouvons spécifier des index hiérarchiques
hdf = pd.concat([x, y], keys=['x', 'y'])
print(hdf)

#pour acceder a des element dans un objet hyerarchisé
# fournir la/les clés ainsi que l'index dans la recherche LOC
hdf.loc[('x', 1),]

    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3
      A   B
x 0  A0  B0
  1  A1  B1
y 0  A2  B2
  1  A3  B3


In [17]:
# JOINTURE DE DONNEES
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'department': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'date': [2004, 2008, 2012, 2014]})
df3 = pd.merge(df1, df2)
print(df3)

# en cas de NOM d'index différent il faut spécifier les colonnes a joindre
# df3 = pd.merge(df1, df2, left_on= "employee", right_on= "emp_name")

  employee   department  date
0      Bob   Accounting  2008
1     Jake  Engineering  2012
2     Lisa  Engineering  2004
3      Sue           HR  2014


In [21]:
# CARDINALITE DE JOINTURE : UN A UN
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'department': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'date': [2004, 2008, 2012, 2014]})

df3 = pd.merge(df1, df2)
print("1to1 :")
print(df3)
# CARDINALITE UN A PLUSIEURS 
# (1 chef par employé, mais plusieurs employés par chef)
df4 = pd.DataFrame({'department': ['Accounting', 'Engineering', 'HR'],
                    'supervisor': ['Carly', 'Guido', 'Steve']})
print("1toMany :")
print(pd.merge(df3, df4))

# CARDINALITE PLUSIEURS A PLUSIEURS
# (competences multiples necessaires par employes et competences partagées par employés)

df5 = pd.DataFrame({'department': ['Accounting', 'Accounting',
                              'Engineering', 'Engineering', 'HR', 'HR'],
                    'competence': ['math', 'spreadsheets', 'coding', 'linux',
                               'spreadsheets', 'organization']})
print("ManytoMany :")
print(pd.merge(df1, df5))

1to1 :
  employee   department  date
0      Bob   Accounting  2008
1     Jake  Engineering  2012
2     Lisa  Engineering  2004
3      Sue           HR  2014
1toMany :
  employee   department  date supervisor
0      Bob   Accounting  2008      Carly
1     Jake  Engineering  2012      Guido
2     Lisa  Engineering  2004      Guido
3      Sue           HR  2014      Steve
ManytoMany :
  employee   department    competence
0      Bob   Accounting          math
1      Bob   Accounting  spreadsheets
2     Jake  Engineering        coding
3     Jake  Engineering         linux
4     Lisa  Engineering        coding
5     Lisa  Engineering         linux
6      Sue           HR  spreadsheets
7      Sue           HR  organization


In [24]:
# JOINTURE EXTERNE
df6 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue', 'Lea'],
                    'department': ['Accounting', 'Engineering', 'Engineering', 'HR', 'Engineering']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'date': [2004, 2008, 2012, 2014]})
pd.merge(df6, df2) # fait disparaitre LEA car non presente dans DF2
pd.merge(df6, df2, how="left") #Conserve donnés de gauche

# how=right ou priorité aus données de droites
# how=outer pour tout garder

Unnamed: 0,employee,department,date
0,Bob,Accounting,2008.0
1,Jake,Engineering,2012.0
2,Lisa,Engineering,2004.0
3,Sue,HR,2014.0
4,Lea,Engineering,


In [27]:
#PRODUIT CARTESIEN
# Nous ajoutons une nouvelle colonne à df1 et df2, qui contient toujours
# la même valeur, ici 0.
df1['key'] = 0
df2['key'] = 0
print(df1)
print(df2)

# La jointure plusieurs-à-plusieurs
produit_cartesien = pd.merge(df1, df2, on='key')
print(produit_cartesien)

# Effaçons la colonne key qui n'est plus utile
produit_cartesien.drop('key',1, inplace=True)
print(produit_cartesien)

# CONDENSABLE EN UNE OPERATION !
pd.merge(df1.assign(key=0), df2.assign(key=0), on='key').drop('key', axis=1)

  employee   department  key
0      Bob   Accounting    0
1     Jake  Engineering    0
2     Lisa  Engineering    0
3      Sue           HR    0
  employee  date  key
0     Lisa  2004    0
1      Bob  2008    0
2     Jake  2012    0
3      Sue  2014    0
   employee_x   department  key employee_y  date
0         Bob   Accounting    0       Lisa  2004
1         Bob   Accounting    0        Bob  2008
2         Bob   Accounting    0       Jake  2012
3         Bob   Accounting    0        Sue  2014
4        Jake  Engineering    0       Lisa  2004
5        Jake  Engineering    0        Bob  2008
6        Jake  Engineering    0       Jake  2012
7        Jake  Engineering    0        Sue  2014
8        Lisa  Engineering    0       Lisa  2004
9        Lisa  Engineering    0        Bob  2008
10       Lisa  Engineering    0       Jake  2012
11       Lisa  Engineering    0        Sue  2014
12        Sue           HR    0       Lisa  2004
13        Sue           HR    0        Bob  2008
14        

In [34]:
#AGGREGATION
rng = np.random.RandomState(42)

# Une Series avec cinq nombres aléatoires
ser = pd.Series(rng.rand(5))
print(ser.sum())
print(ser.mean())

# pour un dataframe
df = pd.DataFrame({'A': rng.rand(5),
                   'B': rng.rand(5)})                 
# Par colonne
print(df.mean())
# Par ligne
print(df.mean(axis='columns'))

2.811925491708157
0.5623850983416314
A    0.477888
B    0.443420
dtype: float64
0    0.088290
1    0.513997
2    0.849309
3    0.406727
4    0.444949
dtype: float64


In [35]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(6),
                   'data2': [10,11,10,9,10,10]})                  
print(df)
gb = df.groupby('key')

print(gb.sum())
print(gb.mean())

  key  data1  data2
0   A      0     10
1   B      1     11
2   C      2     10
3   A      3      9
4   B      4     10
5   C      5     10
     data1  data2
key              
A        3     19
B        5     21
C        7     20
     data1  data2
key              
A      1.5    9.5
B      2.5   10.5
C      3.5   10.0


In [37]:
s = gb['data1','data2'].sum()
m = gb['data2',].mean()

groupped = pd.concat([s,m], axis=1)
groupped.columns = ["data1_somme","data2_somme","data2_moyenne"]
print(groupped)

     data1_somme  data2_somme  data2_moyenne
key                                         
A              3           19            9.5
B              5           21           10.5
C              7           20           10.0
