In [1]:
def push(message):
    """
    Save current notebook and push whole current dir to origin/master
    
    Param:
        message : str 
            Commit's message
    
    Return:
        None
    """
    assert(len(message.strip())>10)
    import subprocess
    from IPython.display import display, Javascript
    
    cmds = [  "git add .",
              "git commit -m ", 
              "git push"]
    
    # save current notebook
    display(Javascript('IPython.notebook.save_checkpoint();'))
    for cmd in cmds:
        cmd = cmd.split()
        if "commit" in cmd: 
            cmd.append( f"'{message}'") 
        print(" ".join(cmd))
        subprocess.check_output(cmd)
    print("Fini.")

# 1) numpy

In [2]:
import numpy as np

In [3]:
array = np.arange(0,10)

In [4]:
array.ndim

1

In [5]:
array.size

10

In [6]:
array.dtype

dtype('int64')

# 2) conversion d'une liste de liste en array numpy

In [7]:
matrice = np.asarray([[1,2,3],[4,5,6]])

In [8]:
matrice.dtype, matrice.ndim

(dtype('int64'), 2)

In [9]:
matrice.shape

(2, 3)

# 3) Pandas

In [10]:
### Nb: si pandas n'est pas installée, installer avec "pip install pandas"
# pip install --upgrade pandas
!pip install pandas



In [11]:
push("pour suivre")

<IPython.core.display.Javascript object>

git add .
git commit -m 'pour suivre'
git push
Fini.


## 3.0) loader la librairie

In [12]:
import pandas as pd

#### Regarder les versions d'une librairie

In [13]:
np.__version__

'1.19.2'

In [14]:
pd.__version__ 

'1.2.4'

## 3.1) création d'une dataframe à partir d'un dico 

In [15]:
métiers = ["journaliste", "capitaine"]
noms    = ["tintin", "hadock"]
personnages = {"métiers" : métiers, 
               "noms":noms}

In [16]:
personnages

{'métiers': ['journaliste', 'capitaine'], 'noms': ['tintin', 'hadock']}

In [17]:
df = pd.DataFrame(personnages)

In [18]:
df

Unnamed: 0,métiers,noms
0,journaliste,tintin
1,capitaine,hadock


## 3.2) regardons les attributs

In [19]:
df.shape

(2, 2)

In [20]:
df.columns

Index(['métiers', 'noms'], dtype='object')

In [21]:
df.index

RangeIndex(start=0, stop=2, step=1)

In [22]:
df.index.name

## 3.3) nommons les index

In [24]:
df.columns.name = "hergé"

In [26]:
df.index.name = "numéro"
df

hergé,métiers,noms
numéro,Unnamed: 1_level_1,Unnamed: 2_level_1
0,journaliste,tintin
1,capitaine,hadock


## 3.3 bis) enregistrer sous excel

In [42]:
df.to_excel("herge.xlsx")

In [41]:
!open herge.xlsx

## 3.4) récupérer une colonne

In [35]:
col_1 = df["métiers"] # récupérer la colonne "métiers"

In [36]:
type(col_1) # une datframe est composée de Série(s)

pandas.core.series.Series

In [37]:
col_1

numéro
0    journaliste
1      capitaine
Name: métiers, dtype: object

In [39]:
col_2 = df["noms"]
col_2

numéro
0    tintin
1    hadock
Name: noms, dtype: object

## 3.5) ajout de colonnes

In [43]:
df["âges"] = [40, 50]
df

hergé,métiers,noms,âges
numéro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,journaliste,tintin,40
1,capitaine,hadock,50


In [49]:
df["âges 2"] = [40, None]
df

hergé,métiers,noms,âges,âges 2
numéro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,journaliste,tintin,40,40.0
1,capitaine,hadock,50,


In [56]:
### df.index <=> index des lignes => numérotation des lignes (par défaut)
### df.columns <=> index des colonnes => noms des colonnes

## 3.6) remplacer la numérotation des lignes par des chaines de caractères arbitraires

In [51]:
df.index = ["hero", "secondaire"]

In [52]:
df

hergé,métiers,noms,âges,âges 2
hero,journaliste,tintin,40,40.0
secondaire,capitaine,hadock,50,


In [54]:
df.index.name = "type de personnage"

## 3.7) rajouter des lignes dans une datframe => append + liste de dico

In [59]:
df2 = df.append([{"métiers" : "savant", "noms" : "tournesol"}])

In [93]:
df2 = df2.append([{"métiers" : "savant fou", 
                   "noms"    : "tournesol", 
                   "index"   : 1}])

In [94]:
df2

Unnamed: 0,métiers,noms,âges,âges 2,index
1930-12-31 00:00:00,journaliste,tintin,40.0,40.0,
1931-12-31 00:00:00,capitaine,hadock,50.0,,
1932-12-31 00:00:00,savant,tournesol,,,
1933-12-31 00:00:00,savant,tournesol,,,
1934-12-31 00:00:00,savant fou,tournesol,,,
1935-12-31 00:00:00,savant fou,tournesol,,,1.0
0,savant fou,tournesol,,,1.0
0,savant fou,tournesol,,,1.0


## 3.8) transformer l'index en index de dates

In [77]:
index_de_dates = pd.date_range(start = "01/01/1930" , 
                               end   = "31/12/1940" ,
                               freq  = "Y"          )

In [78]:
index_de_dates

DatetimeIndex(['1930-12-31', '1931-12-31', '1932-12-31', '1933-12-31',
               '1934-12-31', '1935-12-31', '1936-12-31', '1937-12-31',
               '1938-12-31', '1939-12-31', '1940-12-31'],
              dtype='datetime64[ns]', freq='A-DEC')

In [79]:
df2.index = index_de_dates[:len(df2.index)]

In [80]:
df2

Unnamed: 0,métiers,noms,âges,âges 2,index
1930-12-31,journaliste,tintin,40.0,40.0,
1931-12-31,capitaine,hadock,50.0,,
1932-12-31,savant,tournesol,,,
1933-12-31,savant,tournesol,,,
1934-12-31,savant fou,tournesol,,,
1935-12-31,savant fou,tournesol,,,1.0


## 3.9) Rechercher les lignes de la dataframe qui sont dans une année donnée

In [84]:
annee_voulue = "1932"

In [85]:
df2[annee_voulue]

  df2[annee_voulue]


Unnamed: 0,métiers,noms,âges,âges 2,index
1932-12-31,savant,tournesol,,,


In [86]:
mois_voulu = "1931-12"

In [87]:
df2[mois_voulu]

  df2[mois_voulu]


Unnamed: 0,métiers,noms,âges,âges 2,index
1931-12-31,capitaine,hadock,50.0,,


In [89]:
df3 = df2.append(df2[mois_voulu])

  df3 = df2.append(df2[mois_voulu])


In [90]:
df3[mois_voulu]

  df3[mois_voulu]


Unnamed: 0,métiers,noms,âges,âges 2,index
1931-12-31,capitaine,hadock,50.0,,
1931-12-31,capitaine,hadock,50.0,,
