# <span style="color:red"> dataframe & dictionnaires </span>

<i> documentation </i> : https://pandas.pydata.org/docs/index.html

In [1]:
import pandas as pd
import numpy as np

### <span style="color:blue"> 1. création du dataframe </span>
> #### <i> a. définition des index/colonnes/données </i>

In [None]:
index = ['a','b','c','d']
columns = ['rouge', 'bleu', 'noir']
!pip install -U pandas

In [7]:
data_raw = np.eye(4,3)
data_dic = {'rouge' : [1, 0, 0, 0], 'bleu' : [0, 1, 0, 0], 'noir' : [0, 0, 1, 0]}
print(data_dic)

{'rouge': [1, 0, 0, 0], 'bleu': [0, 1, 0, 0], 'noir': [0, 0, 1, 0]}


 > #### <i> b. bonus : dictionnaire par compréhension </i>

In [26]:
## formulation avec dict ##
dic = dict((col, 0) for col in columns)
print(dic)
## formulation avec {} ##
dic = {col:0 for col in columns}
print(dic)
## double compréhension ##
dic_liste = [['rouge',0], ['bleu',1], ['noir',2]]
dic = {col:val for col,val in dic_liste}
dic

{'rouge': 0, 'bleu': 0, 'noir': 0}
{'rouge': 0, 'bleu': 0, 'noir': 0}


{'rouge': 0, 'bleu': 1, 'noir': 2}

> #### <i> c. création du dataframe en utilisant les labels </i>

In [10]:
tab = pd.DataFrame(index = index, columns = columns, data = data_raw, dtype = int)
tab

Unnamed: 0,rouge,bleu,noir
a,1,0,0
b,0,1,0
c,0,0,1
d,0,0,0


 > #### <i> d. création du dataframe en utilisant un dictionnaire </i>

In [8]:
tab_dic = pd.DataFrame(index = index, data = data_dic, dtype = int)
tab_dic

Unnamed: 0,rouge,bleu,noir
a,1,0,0
b,0,1,0
c,0,0,1
d,0,0,0


### <span style="color:blue"> 2. Opérations sur les colonnes (exemples) </span>
 > #### <i> a. opérations basiques </i>

In [11]:
# colonne booléenne
tab["bleu"] = tab["rouge"] > 0
# opérations
tab["noir"] = 2*tab["bleu"] #True = 1
# ajouter nouvelle colonne
# rq : ne marche qu'avec .loc (pas .iloc)
tab["vert"] = [7, 6, 5, 4]
print(tab)

tab.pop("vert")
tab["marron"] = 7
tab

   rouge   bleu  noir  vert
a      1   True     2     7
b      0  False     0     6
c      0  False     0     5
d      0  False     0     4


Unnamed: 0,rouge,bleu,noir,marron
a,1,True,2,7
b,0,False,0,7
c,0,False,0,7
d,0,False,0,7


 > #### <i> b. modifier valeurs sous conditions </i>

In [19]:
#df.(i)loc[(condition 1) |/& (condition 1)... OU index concernés, 
#colonne(s)] = nouvelle valeur
tab.loc[(tab["noir"]==0) & (tab["bleu"]==False) , "marron"] = 'condition 1'
tab
tab.loc[["a", "c"], "marron"] = 'condition 2'
tab

Unnamed: 0,rouge,bleu,noir,marron
a,1,True,2,condition 2
b,0,False,0,condition 1
c,0,False,0,condition 2
d,0,False,0,condition 1


### <span style="color:blue"> Méthodes utiles en vrac </span>
> #### <i> a. utilisation de <i> date_range </i>

In [81]:
dates = pd.date_range('1/1/2021', periods = 40)
tab_daté = pd.DataFrame(index = dates, columns = ['S1', 'S2', 'S3'], data = np.random.randn(40,3))

S1 = pd.Series(tab_daté['S1'])
S1.loc['2021-01-07':'2021-01-14'][::-1]

2021-01-14    0.872299
2021-01-13    1.632307
2021-01-12    0.172740
2021-01-11    0.054512
2021-01-10    0.299326
2021-01-09   -0.291462
2021-01-08    0.726049
2021-01-07    0.476768
Freq: -1D, Name: S1, dtype: float64

> #### <i> b. autres

In [32]:
print(f"valeurs uniques colonne 'rouge' : {tab['rouge'].unique()}") # renvoi les valeurs uniques d'une série
print(tab.describe()) # description statistique des colonnes
print(tab.drop_duplicates(keep='first', inplace=True)) # supprime les lignes doublons

valeurs uniques colonne 'rouge' : [1 0]
          rouge      noir
count  3.000000  3.000000
mean   0.333333  0.666667
std    0.577350  1.154701
min    0.000000  0.000000
25%    0.000000  0.000000
50%    0.000000  0.000000
75%    0.500000  1.000000
max    1.000000  2.000000
None
