# <center> BUT 3 : Techniques d'IA : introduction à l'apprentissage automatique </center>
# TP1 : Prise en main Python
## TP 1.1 - Modules de bases

*** 
### Remarques valables pour les TPs :
- #### Les TPs seront réalisés sur Anaconda -> Jupyter NoteBook (ou JupyterLab). Vous pourrez utiliser d'autres éditeurs. 
- <span style="color:green"> <strong>Les cellules comportent des codes exécutables, des commentaires et des questions. 
- Les questions sont soit posées explicitement (Exercices, Questions) ou juste avec un point d'intérrogation  **?**  qui suit ce que l'on vous demande d'effectuer. <strong></span>
***  

#  Modules de bases

Python contient un certain nombre de modules intégrés, qui offrent de nombreuses fonctions mathématiques(**Math**), statistiques (**statistics**), aléatoires (**random**)et **os**, manipulation de tableaux (**numpy**) tres utiles. Pour importer un module, il faut procéder comme-ci dessous :
- **import module** (importe tout le module)
- **import module as md** (donne un surnom au module)
- **from module import fonction** (importe une fonction du module)

# Rubriques

- [ 1. Modules math et statistics ](#1)
- [ 2. Module Random ](#2)
- [ 3. Module Os et Glob ](#3)
- [ 4. NumPy](#4)
- [ Exercice ](#5)

[site intéressant pour python](http://www.python-simple.com/)

In [None]:
import math
import statistics
import random
import os
import glob

Vous pouvez également créer vos propres modules et les importer dans d'autres projets. Un module n'est en fait qu'un simple fichier.py qui contient des fonctions et des classes


<a name="1"></a>
## 1. Modules <span style="color:blue">maths et statistics</span>.  
Les modules **math et statistics** sont en apparence très utiles, mais en data science, nous utiliserons leurs équivalents dans le package **NUMPY**. Il peut néanmoins être intéressant de voir les fonctions de bases.


In [None]:
print(math.pi)
print(math.cos(2*math.pi))

In [None]:
liste = [1, 4, 6, 2, 5]

print(statistics.mean(liste)) # moyenne de la liste
print(statistics.variance(liste)) # variance de la liste

<a name="2"></a>
## 2. Module <span style="color:blue">Random</span>
Le module random est utile pour générer automatiquement des données avec lesquelles on va jouer. Nous utiliserons plutôt son équivalent proposé par Numpy.

In [None]:
random.seed(0) # fixe le générateur aléatoire pour produire toujours le meme résultat
print(random.choice(liste)) # choisit un élément au hasard dans la liste
print(random.random()) # génére un nombre aléatoire entre 0 et 1
print(random.randint(5, 10)) # génére un nombre entier aléatoire entre 5 et 10

In [None]:
random.sample(range(100), 10) # retourne une liste de 10 nombres aléatoires entre 0 et 100

In [None]:
print('liste de départ', liste)

random.shuffle(liste) #mélange les éléments d'une liste

print('liste mélangée', liste)

## 3. Modules <span style="color:blue">OS et Glob</span>
Les modules OS et GLob sont **essentiels** pour effectuer des opérations sur votre disque dur, comme ouvrir un fichier situé dans un certain répertoire de travail.


In [None]:
os.getcwd() # affiche le répertoire de travail actuel

In [None]:
print(glob.glob('*')) # contenu du repertoire de travail actuel

## 4. Module <span style="color:blue">numpy</span>

NumPy est un module très utile dans pour la manipulation de données sous formes de matrices. Cette séance de TP vise à vous donner quelques connaissances de base nécessaires mais elle est loin de couvrir toutes les fonctionnalités de cette librairie. 
Pour aller plus loin, vous êtes invités à regarder les documentations en ligne.

 <span style="color:blue">**4.1 Numpy : Générateurs de tableaux ndarray**</span>
- générateur par défaut : **ndarray()**
- générateur 1D : **np.linspace** et **np.arange()** Equivalent à range()
- générateur ND : **np.zeros()**, **np.ones()**, **np.random.randn()** (ce sont les plus utiles)

In [None]:
## importation de numpy
import numpy as np

In [None]:
A = np.array([1, 2, 3]) # générateur par défaut, qui permet de convertir des listes (ou autres objets) en tableau ndarray
A = np.zeros((2, 3)) # tableau de 0 aux dimensions 2x3
B = np.ones((2, 3)) # tableau de 1 aux dimensions 2x3

C = np.random.randn(2, 3) # tableau aléatoire (distribution normale) aux dimensions 2x3
D = np.random.rand(2, 3) # tableau aléatoire (distribution uniforme)
 
E = np.random.randint(0, 10, [2, 3]) # tableau d'entiers aléatoires de 0 a 10 et de dimension 2x3

### <span style="color:blue">4.2 Attributs importants</span>
- size
- shape



In [None]:
A = np.zeros((2, 3)) # création d'un tableau de shape (2, 3)
 
print(A.size) # le nombre d'éléments dans le tableau A
print(A.shape) # les dimensions du tableau A (sous forme de Tuple)
 
print(type(A.shape)) # voici la preuve que la shape est un tuple
 
print(A.shape[0]) # le nombre d'éléments dans la premiere dimension de A

<span style="color:blue">**4.3 Méthodes importantes**</span>.
- reshape() : pour redimensionner un tableau
- ravel() : pour applatir un tableau (qu'il ne fasse plus qu'une dimension)
- squeeze() : quand une dimension est égale a 1, cette dimension disparait
- concatenate() : assemble 2 tableaux ensemble selon un axes (existe aussi en hstack et vstack)<br>
    - hstack(), concaténez les tableaux  selon les colonnes
    - vstack(), concaténez les tableaux  selon les lignes

In [None]:
A = np.zeros((2, 3)) # création d'un tableau de shape (2, 3)
print('A original', A)
#A = A.reshape((3, 2)) # redimensionne le tableau A (3 lignes, 2 colonnes)
print("A reshaped",A)
A.ravel() # Aplatit le tableau A (une seule dimension)
print('A applatit',A.ravel())


In [None]:
A = np.zeros((2, 3)) # création d'un tableau de shape (2, 3)
B = np.ones((2, 3)) # création d'un tableau de shape (2, 3)

np.concatenate((A, B), axis=0) # axe 0 : équivalent de np.vstack((A, B))

In [None]:
np.concatenate((A, B), axis=1) # axe 1 : équivalent de np.hstack((A, B))

<a name=""></a>
### <span style="color:blue"> 4.3 Opérations sur les vecteurs</span>. 
<a name="toc_40015_3.4.1"></a>





In [None]:
# Pour acceder a la ligne 0, colonne 1
A[0, 1] 

#### 4.3.1 Indexation (Indexing) et Découpage en tranche (Slicing)


Il est possible d'accéder à des segments de vecteurs par le biais de l'indexation (**indexing**) eo par tranches (**Slincing**). NumPy fournit un ensemble de moyens pour cela. 
Nous n'explorerons ici que les bases nécessaires au cours. Référez-vous à [Slicing and Indexing] (https://NumPy.org/doc/stable/reference/arrays.indexing.html) pour plus de détails.  

**L'indexation (Indexing)** consiste à faire référence à *un élément* d'un tableau en fonction de sa position dans le tableau.  

**Le découpage (Slicing)** consiste à obtenir un *sous-ensemble* d'éléments d'un tableau en fonction de leur index.  On crée un tableau d'indices en utilisant un ensemble de trois valeurs (start:stop:step).

NumPy commence l'indexation à zéro, donc le 3ème élément d'un vecteur $\mathbf{a}$ est `a[2]`.



In [None]:
#vector indexing operations on 1-D vectors
a = np.arange(10)
print(a)

#access an element
print(f"a[2].shape: {a[2].shape} a[2]  = {a[2]}, Accessing an element returns a scalar")

# access the last element, negative indexes count from the end
print(f"a[-1] = {a[-1]}")

In [None]:
#vector Slicing operations
a = np.arange(10)
print(f"a         = {a}")

#access 5 consecutive elements (start:stop:step)
c = a[2:7:1];     print("a[2:7:1] = ", c)

# access 3 elements separated by two 
c = a[2:7:2];     print("a[2:7:2] = ", c)

# access all elements index 3 and above
c = a[3:];        print("a[3:]    = ", c)

# access all elements below index 3
c = a[:3];        print("a[:3]    = ", c)

# access all elements
c = a[:];         print("a[:]     = ", c)

#### 4.3.1 Opérations matricielles 
- Opération sur un même vecteur

In [None]:
A = np.array([[1, 2, 3], [4, 5, 6]])
print(A.shape)
print("Sum de tous les éléments ", A.sum()) # effectue la somme de tous les éléments du tableau
print("Sum des colonnes ", A.sum(axis=0)) # effectue la somme des colonnes (somme sur éléments des les lignes)
print("Sum des lignes ", A.sum(axis=1)) # effectue la somme des lignes (somme sur les éléments des colonnes)
print("Acumu ", A.cumsum(axis=0)) # effectue la somme cumulée par colonne (axis=0/ligne axis=1)
 
print('A prod', A.prod()) # effectue le produit

print(A.cumprod()) # effectue le produit cumulé
 
print(A.min()) # trouve le minimum du tableau
print(A.max()) # trouve le maximum du tableau
 
print(A.mean()) # calcule la moyenne
print(A.std()) # calcule l'ecart type,
print(A.var()) # calcule la variance

- Somme de vecteurs
$$ \mathbf{a} + \mathbf{b} = \sum_{i=0}^{n-1} a_i + b_i $$

In [3]:
a = np.array([ 1, 2, 3, 4])
b = np.array([-1,-2, 3, 4])
print(f"Element wise opération : {a + b}")


NameError: name 'np' is not defined

- Multiplication d'une matrice par un scalaire

In [2]:
a = np.array([1, 2, 3, 4])

# multiply a by a scalar
b = 5 * a 
print(f"b = 5 * a : {b}")


NameError: name 'np' is not defined

- Le dot product 
<img src="../images/C1_W2_Lab04_dot_notrans.gif" width=600> 

In [None]:
print(a.dot(b)) # produit matriciel A.B


In [None]:
# calcul le déterminant d'une matrice
A = np.random.randint(0, 10, [3, 3])

print('det=', np.linalg.det(A)) # calcule le determinant de A
print('inv A:\n', np.linalg.inv(A)) # calcul l'inverse de A



In [None]:
# calcul les valeurs propres et le vecteur propre
val, vec = np.linalg.eig(A)

print('valeur propre:\n', val) # valeur propre
print('vecteur propre:\n', vec) # vecteur propre

# Exercices 


### Question 1 :
Créer un tableau d'entiers à deux lignes et deux colonnes. La première ligne contient uniquement des zéros et la seconde uniquement des 1. 
Vérifiez ses dimensions et son type

In [None]:
# Solution 



### Question 2 
Créer deux tableaux de 3X4 le premier contient que des zéros un deuxième contenant que des 1.

In [None]:
## Créer un tableau de 3 lignes et 4 colonnes rempli de zéros
A_zeros = 
print(A_zeros)


# Créer un tableau de 3 lignes et 4 colonnes rempli de uns
A_un = 

# array([[ 1.,  1.,  1.,  1.],
#        [ 1.,  1.,  1.,  1.],
#        [ 1.,  1.,  1.,  1.]])

identity = np.eye(5)
print("diagonale à 1 ", identity)

# ...
tni2d = np.empty((3,4))
print("Que des 1", tni2d)
# ...

### Questions 3 
Ecrire la fonction qui :
- retourne une matrice aléatoire de dmension (m, n+1)
- avec une colonne biais (remplie de "1") tout à droite

In [None]:
# SOLUTION
def initialisation(m, n):
    # m : nombre de lignes
    # n : nombre de colonnes
    # retourne une matrice aléatoire (m, n+1)
    # avec une colonne biais (remplie de "1") tout a droite
    
    
#Appel de la fnction
initialisation(3, 4)


### Questions 4 
- Lire le fichier de données houses.txt (il est dans le répértoire data, prendre le fichier .txt (le petit), le mettre dans un tableau de type numpy. (**np.loadtxt("../data/houses.txt", delimiter=',', skiprows=1)**
- Afficher les données (les 5 premières lignes)
- Afficher les dimensions du tableau 
    - nombre de lignes et colonnes
    - nombre de lignes (seul)
    - nombre de colonnes (seul)
    - nombre  d'éléments
    
- La dernière colonne du tableau représente les Y (le prix) et les premières colonnes sont les features (X). Récupérerez chacune de ces données dans une structure spécifique, X_train pour les features et Y_train pour les étiquettes (target). 
- Affichier les 4 premières lignes de X_train et Y_train.
- Afficher la dernière colonne de X_train


In [None]:
# lecture du fichier texte.

data = np.loadtxt("../data/houses.txt", delimiter=',', skiprows=1)
# récupérer toutes les lignes data [:,:4] et les 4 premières colonnes data [ ..,:4]



Quel est le rôle de :
    - delimiter :
    - skiprows :

Ecrire le code python qui permet de : 
- Lire le fichier Titanic.csv 
- Séparer les données (features) des labels. Mettre les données dans X_train et les labels dans Y_train.
- Garder uniquement les features suivants : Pclass, Sex, Age, Fare

En apprentissage machines seules les valeurs numériques sont autorisées. Ecrire le code python qui permet de convertir les données non numériques en données numériques. 


