# Rappel / mise à niveau à niveau python pour le data scientist

## Alexander Buchholz, alexander.buchholz@ensae.fr, doctorant en fin de thèse à l'ENSAE

Les élements de ce cours : https://github.com/alexanderbuchholz/formation_utt

Formation de 3 jours à 4 heures
* Basé sur des notebook ipython/ jupyter
* Rappel de base de python
* Calcul numérique avec numpy
* Le module scipy pour les distributions
* Visualisation avec matplotlib et seaborn
* Stocker et traiter ses données avec pandas
* Pour aller plus loin: notre premier modèle machine learning en utilisant sklearn
* Si on a le temps : SQL

Approache interactive:
J'explique et vous lancez les programmes en même temps pour voir comment ça fonctionne



D'autres resources: 
* https://github.com/paris-saclay-cds/python-workshop/blob/master/Day_1_Scientific_Python/01-numpy-introduction.ipynb
* https://www.kaggle.com/learn/python

Je recommande les tutoriels de kaggle, ils sont très bien fait et assez facile à suivre !

https://www.kaggle.com/learn/overview

Le livre "Python Data Science Handbook" de Jake VanderPlas, gratuit en ligne, assez complèt

https://jakevdp.github.io/PythonDataScienceHandbook/


On utilisera python 2.7

Installer python et jupyter sur votre machine:

De préference par anaconda : https://www.anaconda.com/

# C'est parti ! 

In [1]:
first_string = "Bonjour tout le monde!"
print(first_string)

Bonjour tout le monde!


In [2]:
type(first_string)

str

Combien de charactère ? 

In [6]:
len(first_string) # affiche le nombre de charactère

22

In [7]:
second_string = first_string+" Vous etes prets ?" # concatener des strings

In [8]:
print second_string

Bonjour tout le monde! Vous etes prets ?


Les autres types: numeriques, listes, dictionnaires

In [9]:
a_int = 10
type(a_int)

int

In [12]:
b_numerique = 2.5
type(b_numerique)

float

In [13]:
'a'+1

TypeError: cannot concatenate 'str' and 'int' objects

In [14]:
a_int/b_numerique

4.0

Mais attention à la division int/int

In [15]:
10/4

2

Les listes

In [20]:
first_list = [4, 5., 6]
a = type(first_list), len(first_list), first_list

In [22]:
type(a)


tuple

### Mannipuler les listes: 

In [24]:
first_list.append(7.)
print first_list

[4, 5.0, 6, 7.0, 7.0]


In [27]:
first_list[0:2]

[4, 5.0]

Un autre piège dans python : 

In [28]:
second_list = first_list
print(second_list)

[4, 5.0, 6, 7.0, 7.0]


In [29]:
second_list[0] = 'a'
print first_list

['a', 5.0, 6, 7.0, 7.0]


second_list "pointe" vert first list, on a modifié first list!

La compréhension de liste, un outil très pratique !

In [31]:
list_of_numbers = range(12) # pour gener une sequence
list_of_numbers_added = [i_number**2 for i_number in list_of_numbers ]

In [32]:
list_of_numbers

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]

In [33]:
list_of_numbers_added

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100, 121]

In [35]:
# on peut faire la meme chose avec une boucle for:
list_of_numbers_added_loop = []
for i_number in list_of_numbers:
    list_of_numbers_added_loop.append(i_number**2)
list_of_numbers_added_loop

IndentationError: expected an indented block (<ipython-input-35-f54697cac617>, line 4)

En python les boucles sont lents !

A eviter si possible ! 

### Maintenant les fonctions:

In [36]:
# passons par des fonctions maintenant
def squared_number_loop(max_number):
    list_numbers = []
    for i_number in range(max_number):
        list_numbers.append(i_number**2)
    return list_numbers

def squared_number_list_comp(max_number):
    list_of_numbers = [i_number**2 for i_number in range(max_number) ]
    return list_of_numbers

print squared_number_loop(12)
print squared_number_list_comp(12)
      

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100, 121]
[0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100, 121]


Comparons la vitesses des deux:

In [37]:
%timeit squared_number_loop(12)

The slowest run took 9.64 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 1.67 µs per loop


In [38]:
%timeit squared_number_list_comp(12)

The slowest run took 5.74 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 1.2 µs per loop


Deux mots en plus sur les fonctions:

In [39]:
def function_with_keywords(mots1, mots2=""):
    print mots1+mots2
function_with_keywords('Hello')
function_with_keywords('Hello', mots2=' my friend')

Hello
Hello my friend


## Les boucles while

In [40]:
i_iter = 0
while i_iter < 5: # on evalue tant que la condition est juste
    print i_iter
    i_iter += 1 # une autre façon d'écrire i_iter = i_iter + 1


0
1
2
3
4


## Un point fort de python : iterer au sein des iterables 
Un exemple:

In [41]:
list_to_iterate = [[1,2,3], [4,5,6], [7,8,9]]

for inner_list in list_to_iterate:
    for element in inner_list:
        print element

1
2
3
4
5
6
7
8
9


## Les booléen et les condidition

In [44]:
a = 1
if a == 0:
    print 'le numero vaut zero'
elif a == 1: 
    print 'le numero vaut un'
else:
    print 'le numero vaut ni zero ni un'

le numero vaut un


les dictionnaires : votre structure par défaut si vous données commencent à devenir compliquées

In [45]:
dict_telefon = {'alex' : '0633', 'marie' : '0755', 'pierre' : '9867'} # basé sur la structure clé : entrée

In [46]:
# pour acceder les elements: 
print dict_telefon['alex']
# pour en ajouter:
dict_telefon['alice'] = '4423'

0633


In [47]:
# on lance les appels: 
for key, item in dict_telefon.items():
    print 'J\'appelle %s avec le numero %s'  %(key, item) # permet d'inserer les elements

J'appelle marie avec le numero 0755
J'appelle alex avec le numero 0633
J'appelle pierre avec le numero 9867
J'appelle alice avec le numero 4423


## Des libraries outils: pickle, os
On va dabord afficher notre structure de dossier et créer un nouveau dossier, puis le supprimer

In [49]:
import os
#import sys
import pickle
#help(pickle)
print os.getcwd()
current_dir = os.getcwd()


string_for_new_directory = "/test_folder_1"
# on va créer un nouveau fichier
os.mkdir(current_dir+string_for_new_directory)
# on affiche la liste des tous les éléments dans le fichier actuel
print os.listdir(current_dir)

# on peut aussi le supprimer
os.rmdir(current_dir+string_for_new_directory)

print os.listdir(current_dir)
# le ficher n'est plus là !

/home/alex/python_programming/utt_formation
['inflammation-01.csv', 'bonjour_string.pkl', '1_numpy.ipynb', 'deux_histogrammes_moches.pdf', 'births1880.csv', 'titanic_data', '3_scipy.ipynb', '.git', 'pima-indians-diabetes.csv', '0_intro_rappel_python.ipynb', 'boston_housing_data', '7_sql.ipynb', 'test.ipynb', '8_data_science_competition_a_la_kaggle.ipynb', '6_sklearn.ipynb', 'test_folder_1', '2_matplotlib.ipynb', '.ipynb_checkpoints', '4_pandas.ipynb', '5_seaborn.ipynb', 'README.md', 'Untitled.ipynb']
['inflammation-01.csv', 'bonjour_string.pkl', '1_numpy.ipynb', 'deux_histogrammes_moches.pdf', 'births1880.csv', 'titanic_data', '3_scipy.ipynb', '.git', 'pima-indians-diabetes.csv', '0_intro_rappel_python.ipynb', 'boston_housing_data', '7_sql.ipynb', 'test.ipynb', '8_data_science_competition_a_la_kaggle.ipynb', '6_sklearn.ipynb', '2_matplotlib.ipynb', '.ipynb_checkpoints', '4_pandas.ipynb', '5_seaborn.ipynb', 'README.md', 'Untitled.ipynb']


Maintenant on va enregistrer des objets python à l'aide du module pickle

In [None]:
bonjour_string = 'Bonjour, vous etes toujours la ?'
pickle.dump(bonjour_string, file('bonjour_string.pkl', "wb"))
#help(pickle.dump)
print os.listdir(current_dir)

quel_string = pickle.load(file('bonjour_string.pkl', "rb"))
print quel_string

# ou plus propre : ça permet de refermer la connection vers le fichier après utilisation
with file('bonjour_string.pkl', "rb") as file_to_load:
    quel_string_2 = pickle.load(file_to_load)
    print quel_string_2

## La programmation orientée objet

In [50]:
class compte_bancaire(object):
    """
    un compte bancaire
    """
    def __init__(self, name, montant_initial):
        """
        l'initialization, on crée une instance de la classe 'compte_bancaire'
        on a besoin du nom et du montant initial
        """
        assert type(name) is str
        assert type(montant_initial) is float or type(montant_initial) is int
        
        self.name = name
        self.montant_initial = montant_initial
        self.montant_courant = montant_initial
        
    def depot_darget(self, montant):
        self.montant_courant += montant
        print 'Vous avez deposer %s euro et votre montant courant et maintant de %s euro' % (montant, self.montant_courant)
    def retrait_darget(self, montant):
        self.montant_courant -= montant
        print 'Vous avez retirer %s euro et votre montant courant et maintant de %s euro' % (montant, self.montant_courant)
        if self.montant_courant < 0: 
            print 'Attention! Vous etes dans le négatif!'

class compte_bancaire_gold(compte_bancaire):
    def payer_par_carte_de_credit(self, montant):
        self.montant_courant -= montant
        print 'Vous avez payé avec votre carte %s euro et votre montant courant et maintant de %s euro' % (montant, self.montant_courant)

In [57]:
compte_alex = compte_bancaire_gold('alex', 100)
print compte_alex.name
print compte_alex.montant_courant
print compte_alex.montant_initial
compte_alex.depot_darget(10)
compte_alex.montant_courant
compte_alex.retrait_darget(120)
compte_alex.payer_par_carte_de_credit(10)

alex
100
100
Vous avez deposer 10 euro et votre montant courant et maintant de 110 euro
Vous avez retirer 120 euro et votre montant courant et maintant de -10 euro
Attention! Vous etes dans le négatif!
Vous avez payé avec votre carte 10 euro et votre montant courant et maintant de -20 euro


In [None]:
compte_alex.montant_courant

## Exercise 1: 
Ecrire une pemiere fonction qui construit un dictionnaire de longeur N, avec les clés str(i) et i va de 0 a N-1 et les valeurs qui equivant i^3
Puis ecrire une deuxieme fonction qui parcours le dictionnaire et qui ajoute à chaque valeurs impaires + 1 (on se retrouve à la fin avec un dictionnaire qui contient que des valeurs paire). 
Lancer et visualiser pour N = 5, N = 10.

## Exercise 2: 
Modifier les dictionnaire dict_telefon et en faire un dictionnaire de dictionnaire, a chaque personne sera associé un numbero de telephone et une adresse mail. Pour les addresse mail utiliser nom@dataspecialiste.ai. 
Puis ecrire une fonction qui écrit un texte de la forme 
"bonjour x, j'ai essayé de vous joindre sous l'adresse xxx et le numero yyyy. Pourriez vous me rappeller svp?"

### Pour les rapides: 
Pour encore aller plus loin créer un fichier appart que vous importez. Google est votre ami pour toute question de programmation!

### Solution exercise 2

In [68]:
new_dict = {}
for key, value in dict_telefon.items():
    new_dict[key] = {'num': value, 'mail': key+'@dataspecialiste.ai'}

In [69]:
new_dict

{'alex': {'mail': 'alex@dataspecialiste.ai', 'num': '0633'},
 'alice': {'mail': 'alice@dataspecialiste.ai', 'num': '4423'},
 'marie': {'mail': 'marie@dataspecialiste.ai', 'num': '0755'},
 'pierre': {'mail': 'pierre@dataspecialiste.ai', 'num': '9867'}}

In [70]:
def message_personne(new_dict):
    for key, value in new_dict.items():
        print "Bonjour %s, j'ai essayé de vous joindrs sous l'adresse %s et le numéro %s. \n Pourriez vous me rappeller svp ?"% (key, value['mail'], value['num'])
message_personne(new_dict)

Bonjour marie, j'ai essayé de vous joindrs sous l'adresse marie@dataspecialiste.ai et le numéro 0755. 
 Pourriez vous me rappeller svp ?
Bonjour alex, j'ai essayé de vous joindrs sous l'adresse alex@dataspecialiste.ai et le numéro 0633. 
 Pourriez vous me rappeller svp ?
Bonjour pierre, j'ai essayé de vous joindrs sous l'adresse pierre@dataspecialiste.ai et le numéro 9867. 
 Pourriez vous me rappeller svp ?
Bonjour alice, j'ai essayé de vous joindrs sous l'adresse alice@dataspecialiste.ai et le numéro 4423. 
 Pourriez vous me rappeller svp ?


In [78]:
new_dict['alex']

{'mail': 'alex@dataspecialiste.ai', 'num': '0633'}

On importe un fichier

In [74]:
os.listdir(current_dir)

['inflammation-01.csv',
 'bonjour_string.pkl',
 '1_numpy.ipynb',
 'deux_histogrammes_moches.pdf',
 'births1880.csv',
 'titanic_data',
 '3_scipy.ipynb',
 '.git',
 'pima-indians-diabetes.csv',
 '0_intro_rappel_python.ipynb',
 'boston_housing_data',
 '7_sql.ipynb',
 'test.ipynb',
 '8_data_science_competition_a_la_kaggle.ipynb',
 '6_sklearn.ipynb',
 'module1.py',
 '2_matplotlib.ipynb',
 '.ipynb_checkpoints',
 '4_pandas.ipynb',
 '.module1.py.swp',
 '5_seaborn.ipynb',
 'README.md',
 'Untitled.ipynb']

In [76]:
import module1

In [77]:
module1.la_variable_quon_import

5