In [1]:
# Python + Machine Learning

# Cours 1: Introduction à la programmation

---

## 1 - 1 Qu'est-ce que la programmation?

**Programming language**: language designed to communicate instructions to computer.

Intérêt de la programmation: on peut agir sur tout objet programmable (plus ou moins tout objet électronique) avec du texte => il suffit de savoir réfléchir: connaissances en maths, électronique, etc. pas nécessaires.

## 1 - 2 Python

### 1 - 2 - 1 Applications

Python est probablement le langage le plus simple aujourd'hui.

Vaste communauté s'assure que Python peut être utilisé dans tous les domaines de la programmation.

- [Bio-informatique](http://biopython.org/DIST/docs/tutorial/Tutorial.html#htoc1)

- [Machine learning](http://blog.udacity.com/2016/04/languages-and-libraries-for-machine-learning.html)

- [Robotique](https://www.oreilly.com/learning/how-to-build-a-robot-that-sees-with-100-and-tensorflow)

- [Développement desktop et mobile](https://kivy.org/#home)

- [Automatisation](http://www.win-vector.com/blog/2016/10/proofing-statistics-in-papers/) (pas Python, mais montre l'utilité de savoir programmer)

- [Programmation IoT](https://medium.com/@edwardbenson/how-i-hacked-amazon-s-5-wifi-button-to-track-baby-data-794214b0bdd8#.ktfyw2h0j)

### 1 - 2 - 2 Python 2.7 vs Python 3.5

- Python 2.7: version encore la plus utilisée (diversité de facteurs l'expliquent)
- Python 3.5: le futur du langage, le shift est en train de se faire

## 1 - 3 Installation

Si cours 1 seulement, prendre Python seul sur python.org (100 MB).

Si cours 1 à 4 + envie de développer la compétence après, distribution [Miniconda](http://conda.pydata.org/miniconda.html) (<500 MB).

Si cours 1 à 4 + envie de développer la compétence après + machine learning, **distribution [Anaconda](https://www.continuum.io/downloads) = Python + bibliothèques scientifiques** (1.5 GB)

**IDE** = Integrated Developement Environment = software qui facilite la programmation

- ***[PyCharm](http://www.jetbrains.com/pycharm-edu/download/)*** = souvent utilisé pour enseigner, reconnu pour sa fonctionnalité de code completion

- ***Spyder*** = IDE qui vient avec Anaconda

## 1 - 4 Variables, objets et méthodes

### 1 - 4 - 1 Variables

**Variable**: symbolic name associated with value

En Python, **une variable peut contenir tout type de valeur** et la valeur qu'elle contient peut être modifiée à tout moment (dans d'autres langages, une variable est créée en précisant le type de valeur qu'elle peut contenir, permet à l'ordinateur de ne pas se poser la question, donc d'aller plus vite).

In [2]:
x = 1                      # On peut assigner tout type de valeur à une variable
y = 2.0

print(x)

1


In [3]:
print(y)

2.0


In [4]:
y = x * 5

print(y)

5


In [5]:
x = "one"                   # On peut changer la valeur (et son type) à tout moment

print(x)

one


Exercice: faites un peu de maths

### 1 - 4 - 2 Objets et méthodes

**"Everything is an object in Python."**

Un objet est un ensemble de données/propriétés et comportements/méthodes.

Tout ce que vous pouvez utiliser (variables, fonctions, matrices, etc.) est un objet.

Chaque type d'objet a des **méthodes (= des fonctions rattachées)** spécifiques.


E.g. les objets de type `str` (séquence de caractères) ont une méthode `replace`.

In [6]:
seq = "Proteins are made of nucleotides."
print(seq)

Proteins are made of nucleotides.


In [7]:
seq = seq.replace("nucleotides", "amino acids")
print(seq)

Proteins are made of amino acids.


**Remarque**: certaines méthodes modifient l'objet, certaines ne le font pas (e.g. replace retourne une copie modifiée de la str).

### 1 - 4 - 3 Types

**Différents types d'objets** existent:
    
    `str` ("Texte.", "5 lettres")
    `integer` (5, 2)
    `boolean` (True, False)
    `function`
    
Fonction `type` pour avoir le type d'un objet.

In [8]:
type(2.0)

float

In [9]:
type("2.0")

str

### 1 - 4 - 4 Exercices basiques sur objets et méthodes

In [10]:
seq = "ACTAGACTATGCGATAGGCTTAGATCG"
codon = "ATG"
seq.find(codon)

8

Python est 0-indexed, on commence donc à compter à 0: le codon est donc à la position 9 dans cette seq.

In [11]:
seq.count("T")                             # On compte le nombre de "T"

7

Séquences
    1. Trouver seq1 dans seq2
    2. Comment obtenir la seq3 en minuscule?
    3. Comment déterminer si seq4 est composée entièrement de chiffres?

## 1 - 5 Data structures

Les data structures sont des **objets qui contiennent un ensemble de données**.

Ces data structures ont différentes propriétés.

### 1 - 5 - 1 List

Les lists sont **ordered**, ie des ensembles ordonnés d'éléments.

Ordered signifie que indexing et slicing sont possibles.

In [12]:
polar_uncharged_aa = ["Q", "S", "T", "N"]
print(polar_uncharged_aa[1])

S


In [13]:
polar_uncharged_aa = ["Q", "S", "T", "N"]
print(polar_uncharged_aa[0])                # Python est 0-indexed

Q


In [14]:
print(polar_uncharged_aa[1:3])              # La borne supérieure d'un slice n'est pas prise en compte
print(polar_uncharged_aa[1:2])              # On demande une région de la list, donc l'output est une list d'1 élément

['S', 'T']
['S']


In [15]:
print(polar_uncharged_aa[1:])                     # Pas de borne supérieure => dernière valeur

['S', 'T', 'N']


In [16]:
print(polar_uncharged_aa[:2])                     # Pas de borne inférieure => première valeur

['Q', 'S']


In [17]:
print(polar_uncharged_aa[:-1])                      # Negative indexing (-1: dernier élément, -2: avant-dernier, etc.)

['Q', 'S', 'T']


In [18]:
print(polar_uncharged_aa.index("T"))               # Position (= index) d'un élément (première position, pas toutes)

2


Les listes sont **mutable** = les éléments d'une liste peuvent être modifiés (supprimés, réassignés, etc.).

In [19]:
polar_uncharged_aa[1] = "Ser"
print(polar_uncharged_aa)

['Q', 'Ser', 'T', 'N']


**Quelques méthodes.**

In [20]:
polar_uncharged_aa.pop()                    # Supprime et retourne (print) le dernier élément de la list

'N'

In [21]:
print(polar_uncharged_aa)

['Q', 'Ser', 'T']


In [22]:
polar_uncharged_aa.append("Asn")            # Ajoute un élément à la fin
polar_uncharged_aa

['Q', 'Ser', 'T', 'Asn']

In [23]:
polar_aa = polar_uncharged_aa + ["H", "R", "K", "D", "E"]
polar_aa

['Q', 'Ser', 'T', 'Asn', 'H', 'R', 'K', 'D', 'E']

### 1 - 5 - 2 Set

**Unordered**, **mutable**, **unique**.

Un set ne garde pas les relations entre les éléments qu'on lui passe, seulement les éléments: l'ordre est aléatoire, les éléments en double ne sont pas gardés.

Pas de slicing, pas d'indexing.

In [24]:
dNTP = {"A", "C", "T", "G", "A"}
print(dNTP)

{'T', 'A', 'G', 'C'}


In [25]:
print(dNTP[1])                            # Pas d'indexing

TypeError: 'set' object does not support indexing

In [26]:
print(dNTP[1:2])                           # Pas de slicing

TypeError: 'set' object is not subscriptable

**Quelques méthodes.**

In [27]:
dNTP.add("U")
print(dNTP)

{'T', 'A', 'G', 'U', 'C'}


In [28]:
dNTP.discard("U")
print(dNTP)

{'T', 'A', 'G', 'C'}


In [29]:
rNTP = {"A", "C", "G", "U"}
print(dNTP.intersection(rNTP))

{'G', 'C', 'A'}


On a aussi union, issubset, isdisjoint, issuperset, etc.

### 1 - 5 - 3 Tuple

Les tuples sont **ordered** mais **immutable** = un tuple n'est pas modifiable, il faut en recréer un pour changer des valeurs.

In [30]:
AA = ("G", "P", "U", "C")
print(AA[1])

P


In [31]:
AA[1] = "Pro"                            # Pas modifiable

TypeError: 'tuple' object does not support item assignment

In [32]:
AA = AA + ("V",)
print(type(("V")))
print(type(("V",)))                     # Tuple = parenthèses + virgule
print(AA)

<class 'str'>
<class 'tuple'>
('G', 'P', 'U', 'C', 'V')


Tuple a **seulement 2 méthodes**, count et index.

### 1 - 5 - 4 Dict

Les dicts permettent de **mapper des keys à des values**.

Ces keys et values peuvent être des chiffres, des str, des lists, d'autres dicts, etc.

Ils sont **unordered et mutable**.

In [33]:
codon_table = {"AUG": "M", "UGG": "Stop"}                 # On initialise un dict
print(codon_table)

{'AUG': 'M', 'UGG': 'Stop'}


In [34]:
print(codon_table["AUG"])                   # Les keys d'un dict sont utilisés comme un index (0, 1, etc.) dans list

M


In [35]:
codon_table["ACG"] = "Thr"
print(codon_table)

{'AUG': 'M', 'UGG': 'Stop', 'ACG': 'Thr'}


In [36]:
codon_table["ACG"] = ["Thr", "T"]
print(codon_table)

{'AUG': 'M', 'UGG': 'Stop', 'ACG': ['Thr', 'T']}


In [37]:
codon_table["UGA"] = "Stop"
print(codon_table)

{'AUG': 'M', 'UGG': 'Stop', 'ACG': ['Thr', 'T'], 'UGA': 'Stop'}


**Quelques méthodes.**

In [38]:
complement = {"A": "T", "T": "A", "C": "G", "G": "C"}
print(complement.keys())

dict_keys(['A', 'T', 'G', 'C'])


In [39]:
print(complement.values())

dict_values(['T', 'A', 'C', 'G'])


In [40]:
print(complement.items())

dict_items([('A', 'T'), ('T', 'A'), ('G', 'C'), ('C', 'G')])


### 1 - 5 - 5 String

Les strings fonctionnent comme des **lists sans item assignment**.

In [41]:
nucleotides = "ACGT"                        # On initialise une string
print(nucleotides[1:3])

CG


In [42]:
print(nucleotides[3] = "U")

SyntaxError: keyword can't be an expression (<ipython-input-42-6e09cab401af>, line 1)

In [43]:
print(nucleotides[:2])

AC


**Quelques méthodes.**

In [44]:
seq = "ATAACAAGTAGCTAGCTAAAAAAAAAAAAAA,ATATACAGACAGACTAGCA"
seq.split(",")                                                      # On obtient une list

['ATAACAAGTAGCTAGCTAAAAAAAAAAAAAA', 'ATATACAGACAGACTAGCA']

In [45]:
seq1 = seq.split(",")[0]        # On assigne les valeurs données par split à seq1 et seq2
seq2 = seq.split(",")[1]
seq1

'ATAACAAGTAGCTAGCTAAAAAAAAAAAAAA'

In [46]:
seq1.startswith("ATA")

True

In [47]:
seq1 = seq1.rstrip("A")                # On enlève toutes les A en 3'
seq1

'ATAACAAGTAGCTAGCT'

In [48]:
"-".join([seq1, seq2])

'ATAACAAGTAGCTAGCT-ATATACAGACAGACTAGCA'

### 1 - 5 - 6 Exercices sur les data structures

Splicing, indexing, modification de data structures.

## 1 - 6 Control flow

### 1 - 6 - 1 If statement

Le if statement permet de donner des **instructions conditionnelles**.

If statement est linéaire.

Seul if est obligatoire, elif et else sont optionnels.

In [49]:
seq = "ATGAAAAAGCGTTTTTTT"

if seq[5] == "A":
    print("Oups")
elif seq[5] == "T":
    print("Ouch")
elif seq[3] == "G":
    print("G à position 3")
else:
    print("cool")

Oups


### 1 - 6 - 2 For loop

Le for loop permet d'itérer sur un iterable (= data structure sur laquelle on peut itérer).

For loop est un... loop!

In [50]:
seq = "ATGACTCGCTGCCCAGCTGACTAGACGCTAGCA"
GC = 0

for nucleotide in seq:                                  # Pour chaque élément dans seq
    if nucleotide == "G" or "nucleotide" == "C":        # Si élément est G ou C
        GC = GC + 1                                     # On ajoute 1 à notre compteur et on passe à l'élément suivant

print(GC)

8


### 1 - 6 - 3 While loop

Le while loop permet de faire une action tant qu'une condition est vraie.

While loop est aussi un loop.

In [51]:
compteur = 10

while compteur >= 5:
    print("Encore un!")
    compteur = compteur - 1

Encore un!
Encore un!
Encore un!
Encore un!
Encore un!
Encore un!


### 1 - 6 - 4 Exercices sur control flow

GC content, trouver des codons spécifiques dans une séquence, donner liste des longueurs pour chaque seq dans la list1.

In [52]:
seq = "AGAGAAATAATGGGGA"

nombre = 0

for lettre in seq:
    if lettre == "G":
        nombre = nombre + 1

print(nombre/len(seq))


0.375


## 1 - 7 Fonctions

### 1 - 7 - 1 Ecriture de fonctions

Les fonctions permettent de réutiliser du code.

In [53]:
def complement(arg):
    comp_seq = ""
    comp = {"A": "T", "C": "G", "G": "C", "T": "A"}
    for lettre in arg:
        comp_seq = comp_seq + comp[lettre]
    return comp_seq

In [54]:
print(complement("AAACAGATC"))

TTTGTCTAG


In [55]:
complement("AGATTTAATTTTTAAC")

'TCTAAATTAAAAATTG'

### 1 - 7 - 2 Exercices

Ecrire et réutiliser des fonctions.

In [56]:
def lenseq(arg):
    longueurs = []
    for sequence in arg:
        longueurs.append(len(sequence) * 2)
    return longueurs

In [57]:
print(lenseq(["ACGACC", "ACTAAT"]))

[12, 12]


## 1 - 8 Modules

Modules = ensemble cohérent d'objets (fonctions de maths, de 3D, etc.) accessibles quand appelés explicitement.

[Standard library](https://docs.python.org/3/library/index.html) = ensemble de modules déjà intégrés à Python.

Third-party library = modules qu'il faut installer (e.g. BioPython)

In [58]:
import math
math.factorial(3)

6

In [59]:
from math import log10
log10(100)

2.0

## 1 - 9 Exercices

Contenu en GC, transcription, traduction, etc.