| [Table des matières](index.ipynb) | [Module 2: Traitement de données](02-traitement-donnees.ipynb) >

# Introduction
## Objectifs
* Familiarité avec Python et les Jupyter Notebook
 * comprendre les exemples présentés tout au long du cours, en traitement de données, analyse statistique et fouille de données
* Commencer avec quelques exemples
 * de jeux de donnees et leurs attributs
 * de notions d'algorithmes: structures de donnees et de contrôle

## Références
* http://www.polymtl.ca/wikitransport/index.php?title=PythonResources#Where_to_start: 
* http://www.polymtl.ca/wikitransport/index.php?title=Ressources_pour_le_cours_de_gestion_de_donn%C3%A9es

## Bonnes pratiques
Wilson G, Aruliah DA, Brown CT, Chue Hong NP, Davis M, Guy RT, et al. (2014) Best Practices for Scientific Computing. PLoS Biol 12(1): e1001745. https://doi.org/10.1371/journal.pbio.1001745
* Write Programs for People, Not Computers
* Let the Computer Do the Work
* Make Incremental Changes
* Don't Repeat Yourself (or Others)
* Plan for Mistakes
* Optimize Software Only after It Works Correctly
* Document Design and Purpose, Not Mechanics
* Collaborate

## Principes
* Automatiser, "soyez fainéant !": un ordinateur est idiot et idéal pour les taches répétitives: permet de traiter de larges ensembles de données
* Réutiliser votre code
* Devenir autonome: résoudre un autre problème, apprendre un autre langage
* Apprendre à contrôler son ordinateur: au lieu de se limiter aux programmes pensés et écrits par d'autres
 * Program or be programmed (Douglas Rushkoff, http://rushkoff.com/program/)
* Comprendre ce qu'il est possible de programmer, et comment le faire: le but n'est pas d'apprendre Python, mais un langage de programmation moderne et puissant
* Assurer la répétabilité et traçabilité de vos traitements de données pour faire du travail de bonne qualité

## Méthode
* Développement itératif: faire la chose la plus simple qui peut marcher ("do the simplest thing that could possibly work") et raffiner (re-factoriser)
 * méthodes de développement logiciel agiles
 * "premature optimization is the root of all evil" (Don Knuth http://en.wikipedia.org/wiki/Program_optimization)
 * tester interactivement le code dans l'interpréteur, manipulation directe des variables
* Ne pas se répéter: éviter la duplication de code
* Style de programmation
 * choisir un style d'écriture et s'y tenir
 * utiliser des noms explicites, éviter les commentaires: si les commentaires sont trop long, cela veut dire que le code est compliqué et pourrait être simplifié
* Attention aux détails et patience
 * reconnaître les différences
 * il faut rester rationnel
  * l'ordinateur est idiot et suit vos instructions les unes après les autres: s'il y a un bug, c'est vous qui l'avez créé

# Python
* Avantages
 * Orienté-objet: ré-utilisation du code
 * Libre ("open source"): gratuit à utiliser et distribuer
 * Flexibilité
 * Largement utilisé et bonne documentation: automatiser VISSIM, Aimsun, QGIS et ArcGIS
 * Plus facile à lire et apprendre que d'autres langages: relire et reprendre votre code dans 6 mois est comme écrire pour être relu par un autre être humain
 * Multi-plateforme, langage "glue", "Bindings" pour de nombreux langages et bibliothèques
 * Bibliothèques scientifiques, visualisation, SIG http://www.scipy.org, http://matplotlib.sourceforge.net, https://github.com/Toblerity/Shapely/
* Faiblesses: vitesse (langage interprété), manque de certains outils de calcul numérique et statistique (matlab)
* Description
 * Langage interprété et interpréteur
 * Version 3 vs 2
 * Code = fichier texte, extension `.py`
 * Les commentaires commencent par `#`
 * Scripts et modules (bibliothèques)
 * Large bibliothèque standard ("standard library", "batteries included") http://docs.python.org/library/

In [1]:
# esprit de Python
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


 
## Ligne de commande et interpréteur
* Ne pas avoir peur d'écrire
* L'interpréteur est une calculatrice
* Simplifié par la complétion automatique et l'historique des commandes (+ facilités syntaxiques)
 * Ligne de commande avancée: IPython
* Évaluer des expressions et des variables
 * `help`, `?`

In [2]:
print("Hello World")
s = "Hello World"
print(s)
reponse = input('Bonjour, comment vous appelez-vous ? ')
print('Bonjour '+reponse)
#%run ./00-script1.py

Hello World
Hello World
Bonjour, comment vous appelez-vous ? nicolas
Bonjour nicolas


## Jupyter Notebook
* Environnement computationnel interactif web pour créer des carnets ("notebooks")
 * document JSON contenant une liste ordonnée de cellule d'entrée/sortie qui peuvent contenir du code, du texte, des formules mathématiques, des graphiques, etc.
* Versions Python, R, Julia
* Les notebooks peuvent être convertis dans plusieurs formats standards ouverts (HTML, diapositifs, LaTeX, PDF, ReStructuredText, Markdown, Python)
* Processus de travail similaire à l'interpréteur
* Outil de communication

## Types de données de base
* booléen (binaire)
* numérique: entier, réel
* chaîne de caractère
* liste, tuple, ensembles
* dictionnaire

In [3]:
type('Hello')

str

In [4]:
type(4)

int

In [5]:
type(4.5)

float

In [6]:
type(True)

bool

In [7]:
type([])

list

In [8]:
type([2,3])

list

In [9]:
type({})

dict

In [10]:
type({1: 'sdfasd', 'g': [1,2]})

dict

In [11]:
# enregistrement vide
class A:
    pass
a = A()
a.x = 10
a.y = -2.3
type(a)

__main__.A

In [12]:
a = 2
a = 2.3
a = 'hello' # les variables n'ont pas de type
b = a + 3 # les valeurs ont un type

TypeError: must be str, not int

In [None]:
# conversions entre types
int('3')

In [None]:
str(3)

In [None]:
# opération
i=1
i == 1

In [None]:
i+=1
i == 1

In [None]:
i == 2

## Exercice
Écrire un programme qui demande une vitesse et calcule le temps et la distance nécessaire pour s'arrêter. Le temps de perception réaction est 1.5 s et la décélération du véhicule est -1 m/s2. 

In [None]:
print('À quelle vitesse roule le véhicule (km/h) ?')
vitesse = None
temps = None
distance = None
print('Le temps de freinage est', temps, 'et la distance de freinage est', distance)

In [None]:
# listes
a = list(range(10))
print(a)
print(a[0]) # index commence à 0
print(a[-1])
print(a[-2])
a[2] = -10
# méthodes
print(a)
a.sort()
print(a)
a.append(-100)
print(a)
del a[0]
print(a)
a[3] = 'hello'
print(a)

In [None]:
# appartenance
1 in a

In [None]:
0 in a

In [None]:
# références
b = list(range(10))
c = b
c[3] = 'bug'
print(b)

In [None]:
# "list comprehensions"
a = list(range(10))
doubles = [2*x for x in a]
print(doubles)
carres = [x*x for x in a]
print(carres)

## Structures de contrôle
* Séquences d’opérations
* Conditionnelles: test si [condition] alors [opération1] (sinon [opération2])
* Boucles:
 * tant que [condition] [opération]
 * itérateur (compteur) pour [ensemble] [opération]

In [None]:
# boucles
a = list(range(5))
for x in a: 
    print(x)
for i in range(len(a)): 
    print(a[i])
i = 0
while i<len(a):
    print(a[i])
    i += 1
# test
from numpy.random import random_sample
b = random_sample(10)
print(b)
for x in b:
    if x > 0.5:
        print(x)
    else:
        print('Nombre plus petit que 0.5', x)
# list comprehensions avec test
c = [x for x in b if x>0.5]
print(c)

## Exercice
1. Modifier le programme de calcul du temps et de la distance de freinage pour donner les réponses pour différentes valeurs de décélération, entre -0.5 et -6 m/s^2 (avec un incrément de -0.5 m/s^2).
 1. Faire un graphique du temps (ou de la distance) de freinage en fonction de la vitesse pour différentes valeurs de décélération
1. Transformer le programme pour demander à l'utilisateur s'il veut continuer avec d'autres valeurs de vitesses, et ré-itérer la question et les calculs (tant que l'utilisateur veut continuer).
1. Compter le nombre de chiffres plus petits que 0.5 dans la liste `c`.

## Bibliothèques scientifiques
* numpy: vecteurs, matrices, etc.
* scipy: fonctions scientifiques, en particulier statistiques
* matplotlib: graphiques et visualisation
* pandas: structures de données (interface et similarité avec SQL)
* statsmodels: modèles statistiques
* scikit-learn: apprentissage automatique

In [None]:
import urllib.request
import zipfile
import io

import matplotlib.mlab as pylab
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
%matplotlib inline

In [None]:
# exemples numpy
a = np.arange(10) # similaire a range(10), retourne une array
b = np.zeros((4,5))
c = np.ones((4,5))
a = np.random.random_sample(10)
# éviter les boucles, extraire des sous-vecteurs (comme avec matlab)
b = a>0.5
print(b)
c = a[b]
print(a)
print(c)

In [None]:
# charger des matrices
data = np.loadtxt('./vitesse-debit.txt')
plt.plot(data[:,0], data[:,1], 'o')
data.mean(0)

## Exercice
Sachant que la première colonne du fichier `vitesse-debit.txt` est la vitesse moyenne et la seconde le débit, calculer la densité (égale au débit divisé par la vitesse) et tracer le graphique de la vitesse en fonction de la densité.

In [None]:
# jeu de données de voitures http://lib.stat.cmu.edu/DASL/Datafiles/Cars.html
text = '''Country	Car	MPG	Weight	Drive_Ratio	Horsepower	Displacement	Cylinders
U.S.	Buick Estate Wagon	16.9	4.360	2.73	155	350	8
U.S.	Ford Country Squire Wagon	15.5	4.054	2.26	142	351	8
U.S.	Chevy Malibu Wagon	19.2	3.605	2.56	125	267	8
U.S.	Chrysler LeBaron Wagon	18.5	3.940	2.45	150	360	8
U.S.	Chevette	30.0	2.155	3.70	68	98	4
Japan	Toyota Corona	27.5	2.560	3.05	95	134	4
Japan	Datsun 510	27.2	2.300	3.54	97	119	4
U.S.	Dodge Omni	30.9	2.230	3.37	75	105	4
Germany	Audi 5000	20.3	2.830	3.90	103	131	5
Sweden	Volvo 240 GL	17.0	3.140	3.50	125	163	6
Sweden	Saab 99 GLE	21.6	2.795	3.77	115	121	4
France	Peugeot 694 SL	16.2	3.410	3.58	133	163	6
U.S.	Buick Century Special	20.6	3.380	2.73	105	231	6
U.S.	Mercury Zephyr	20.8	3.070	3.08	85	200	6
U.S.	Dodge Aspen	18.6	3.620	2.71	110	225	6
U.S.	AMC Concord D/L	18.1	3.410	2.73	120	258	6
U.S.	Chevy Caprice Classic	17.0	3.840	2.41	130	305	8
U.S.	Ford LTD	17.6	3.725	2.26	129	302	8
U.S.	Mercury Grand Marquis	16.5	3.955	2.26	138	351	8
U.S.	Dodge St Regis	18.2	3.830	2.45	135	318	8
U.S.	Ford Mustang 4	26.5	2.585	3.08	88	140	4
U.S.	Ford Mustang Ghia	21.9	2.910	3.08	109	171	6
Japan	Mazda GLC	34.1	1.975	3.73	65	86	4
Japan	Dodge Colt	35.1	1.915	2.97	80	98	4
U.S.	AMC Spirit	27.4	2.670	3.08	80	121	4
Germany	VW Scirocco	31.5	1.990	3.78	71	89	4
Japan	Honda Accord LX	29.5	2.135	3.05	68	98	4
U.S.	Buick Skylark	28.4	2.670	2.53	90	151	4
U.S.	Chevy Citation	28.8	2.595	2.69	115	173	6
U.S.	Olds Omega	26.8	2.700	2.84	115	173	6
U.S.	Pontiac Phoenix	33.5	2.556	2.69	90	151	4
U.S.	Plymouth Horizon	34.2	2.200	3.37	70	105	4
Japan	Datsun 210	31.8	2.020	3.70	65	85	4
Italy	Fiat Strada	37.3	2.130	3.10	69	91	4
Germany	VW Dasher	30.5	2.190	3.70	78	97	4
Japan	Datsun 810	22.0	2.815	3.70	97	146	6
Germany	BMW 320i	21.5	2.600	3.64	110	121	4
Germany	VW Rabbit	31.9	1.925	3.78	71	89	4
'''
s = io.StringIO(text)
data = pd.read_csv(s, delimiter = '\t')
#data.to_csv('cars.txt', index=False)
print(data.info())
data

In [None]:
#data.describe(include = 'all')
data.describe()

In [None]:
data['Country'].value_counts().plot(kind='bar')
data[['Car', 'Country']].describe()

In [None]:
# exemple de vecteur ou enregistrement
data.loc[0]

## Exercice
1. Quel est le type des attributs?
1. Proposer une méthode pour déterminer le pays avec les véhicules les plus économes

In [None]:
plt.scatter(data.Weight, data.MPG)

In [None]:
# comptages vélo
filename, message = urllib.request.urlretrieve('http://donnees.ville.montreal.qc.ca/dataset/f170fecc-18db-44bc-b4fe-5b0b6d2c7297/resource/6caecdd0-e5ac-48c1-a0cc-5b537936d5f6/download/comptagevelo20162.csv')
data = pd.read_csv(filename)
print(data.info())
plt.plot(data['CSC (Côte Sainte-Catherine)'])

In [None]:
# 01/01/16 était un vendredi, le 4 était un lundi
cscComptage = np.array(data['CSC (Côte Sainte-Catherine)'].tolist()[4:4+51*7]).reshape(51,7)
for r in cscComptage:
    plt.plot(r)
plt.xticks(range(7),['lundi', 'mardi', 'mercredi', 'jeudi', 'vendredi', 'samedi', 'dimanche'])
plt.ylabel('Nombre de cyclistes')

In [None]:
plt.imshow(cscComptage, interpolation = 'none', aspect = 'auto')
plt.colorbar()

## Exercice
1. Les semaines sont-elle bien représentées? 
1. À quoi correspondent les bandes blanches dans l'image?

In [None]:
# données bixi
filename, message = urllib.request.urlretrieve('https://montreal.bixi.com/c/bixi/file_db/data_all.file/OD_2017-07.zip')
zip=zipfile.ZipFile(filename)
data = pd.read_csv(zip.open(zip.namelist()[0]))

In [None]:
print(data.info())
print(data.describe())
# reflechir aux types, sens de moyenner des codes de station

In [None]:
# données météo d'Environnement Canada
#filename, message = urllib.request.urlretrieve('http://climate.weather.gc.ca/climate_data/bulk_data_f.html?format=csv&stationID=10761&Year=2017&Month=1&Day=1&timeframe=2&submit=Download+Data')
filename, message = urllib.request.urlretrieve('http://climate.weather.gc.ca/climate_data/bulk_data_f.html?format=csv&stationID=10761&Year=2017&Month=7&Day=1&timeframe=1&submit=Download+Data')
data = pd.read_csv(filename, skiprows = 16, delimiter = ',')

In [None]:
print(data.info())
plt.plot(data['Hum. rel (%)'])
plt.show()
#data.describe()
# plt.plot

| [Table des matrières](index.ipynb) | [Module 2: Traitement des données](02-traitement-donnees.ipynb) >