# Machine Learning - Introduction


### Objectifs
Ce notebook est une introduction au cours, il permet de vérifier que votre environnement est bien configuré et de présenter quelques commandes simples de manimulations de données, qui vous serviront tout au long de ce cours.

### Agenda
* Prise en main de jupyter
* Présentations des principales librairies qui seront utilisées

## Jupyter

Les notebooks jupyter sont des outils permettant de coder interactivement et de mélanger du **code** et **autres contenus** (texte, nombres, graphes, etc.), comme ici ce que vous êtes en train de lire !

Ils sont particulièrement utilisés en **datascience** car ils sont idéals pour **explorer** des données.

Attention à ne pas en abuser ! Ils ne remplacent pas un programme (script, API, etc.).

Un notebook est composé de **cellules** qui peuvent être : 
* du code
* du markdown
* du texte brut

Pour chaque cellule de code, la sortie de l'exécution est affichée en dessous.

#### Notez bien : quand vous êtes sur l'interface jupyter, il y a 2 modes bien distinct : 
* mode 'édition' : quand vous tapez du texte ou code dans une cellule
* mode 'exécution' : quand vous naviguez d'une cellule à l'autre.
Pour passer d'un mode à l'autre : ENTER & ECHAP


#### Prenez le temps de vous familiariser avec le notebook. Par exemple en modifiant cette cellule et en essayant de l'exécuter en tant que code.
Il vous sera aussi très efficace d'apprendre les raccourcis (Enter, Echap, 'a', 'b', shift+enter, ctrl+enter, "m", "y")




## Python Hello World

A vous de coder !

#### Pour vérifier l'environnement utilisé & la version de python

In [1]:
import sys
print(f"python executable: {sys.executable}")
print(f"python version: {sys.version}")
sys.version_info

python executable: C:\Users\bossd\anaconda3\envs\cours_ML\python.exe
python version: 3.9.12 (main, Apr  4 2022, 05:22:27) [MSC v.1916 64 bit (AMD64)]


sys.version_info(major=3, minor=9, micro=12, releaselevel='final', serial=0)

In [None]:
# here, just implement a 'hello world' function
def print_hello_world(name):
    """
    This is a docstring!
    Basic function to say hello to the name provided as arg

    @param name: string
    @return None 
    """
    raise NotImplementedError("You should implement this function")

print_hello_world("Ynov")

## NumPy

NumPy (pour *NUMeric PYthon*) est une librairie pour manier des valeurs numériques en python. Cette librairie très performante implémente des fonctions de bases d'algèbre linéaire (opérations sur les matrices). Elle exploite elle-même des composants très puissant (sur Windows : MKL). 
Beaucoup des outils que nous allons utiliser repose sur cette librairie.

Plus d'informations ici : https://numpy.org/

Si la ligne suivante échoue, c'est que NumPy n'est pas installé dans votre environnement.


In [None]:
import numpy as np

In [None]:
this_is_a_pure_python_list = [1, 2, 3, 4]
this_is_a_pure_python_list

In [None]:
this_is_an_array = np.array(this_is_a_pure_python_list)
this_is_an_array

#### Quelques manipulations avec numpy

In [None]:
# create a sequence of number
seq = np.linspace(0,100,20)
seq

In [None]:
# print the shape
seq.shape

In [None]:
# reshape to a matrix (2 dimensions)
seq = seq.reshape((10,2))
print(f"New shape is: {seq.shape}")
seq

In [None]:
# select one element
seq[5,1]

In [None]:
# select only the second col
col2 = seq[:,1]
col2

In [None]:
# select the first 3 elements of the first col
seq[:3,0]

In [None]:
# select the last element of each col (or select the last row)
# note the difference between this line and the following
seq[-1,:]

In [None]:
seq[-1:,:]

In [None]:
# compute sum, max, mean, var, argmax
print("The sum of the array is:", seq.sum())
print("The max of the array is:", seq.max())
print("The mean of the array is:", seq.mean())
print("The variance of the array is:", seq.var())
print("The index of the minimal value of the array is:", seq.argmin())

In [None]:
# print the mean per row
seq.mean(1)

## Pandas

Pandas est une librairie très complète de manipulation de DataFrame. Les données que nous manipulerons seront généralement lues dans des DataFrame.

Un DataFrame est un tableau, il contient : 
* un index
* une liste de colonne
* des valeurs

Chaque colonne du DataFrame est un objet de type Serie (qui contient un nom, un index et des valeurs).

Pandas repose sur la librairie NumPy.
La manipulation des données en Pandas est donc très proche de la manipulation des données avec Numpy.

Si la ligne suivante ne marche pas, vérifiez que pandas est bien présent dans votre environnement.

In [None]:
import pandas as pd 

In [None]:
# Basic Serie generation
my_serie = pd.Series(range(10))
my_serie

In [None]:
# This time we create a series of float with index as letter
my_serie_2 = pd.Series([i**2 for i in range(10)], index=list('ABCDEFGHIJ'), name="my_serie")
my_serie_2

In [None]:
# Create a DataFrame
df = pd.DataFrame()

for col_name, power in zip(["constant", "linear", "square", "cube"], range(4)):
    df[col_name] = np.arange(11)**power
df

In [None]:
print("The shape of the dataframe is:")
df.shape

In [None]:
# Short description of the dataframe
df.describe()

In [None]:
# select the linear colonne
raise NotImplementedError()

In [None]:
# select the square numbers of numbers between 4 and 6
raise NotImplementedError()

In [None]:
# Multiply square by linear and check that it equals cube
raise NotImplementedError()

In [None]:
# Add the new column with the result of : x**2 + 2x + 1
raise NotImplementedError()

## Matplotlib & seaborn

Matplotlib est une librairie (bas niveau) pour tracer des graphes.
Nous essayerons de l'utiliser le moins possible directement.

Seaborn est une surcouche à Matplotlib offrant des fonctionnalités intéressantes pour tracer des graphes.
Voir la gallerie sur le site de Seaborn : https://seaborn.pydata.org/examples/index.html

Si les lignes suivantes ne fonctionnent pas, vérifier que Matplotlib & Seaborn sont bien installés sur votre environnement.

In [None]:
import matplotlib.pylab as plt

In [None]:
import seaborn as sns

In [None]:
# It is generally easier to use function from pandas directly!
df.plot()

In [None]:
# generation d'une distribution
mean1 = 0
var1 = 1.5
mean2 = 5
var2 = 2
size = 1000

mat1 =  mean1 + np.random.randn(size, 2) * var1
mat2 =  mean2 + np.random.randn(size,2) * var2
mat = np.concatenate([mat1, mat2])
np.random.shuffle(mat)
mat.shape

In [None]:
# Get a dataframe from a numpy array
df2 = pd.DataFrame(mat, columns=['A', 'B'])
df2

In [None]:
# Afficher une distribution
df2[['A']].hist(bins=20)

In [None]:
# Affichage via sns
sns.pairplot(df2)

## Scikit-Learn

Scikit-learn est une trousse à outils pour le machine learning - très complète et bien documenté. L'outil indispensable de toute personne pratiquant du ML en python !

In [None]:
from sklearn.mixture import GaussianMixture

In [None]:
gmm = GaussianMixture(n_components=2)
%time gmm.fit(df2)
df2['c'] = gmm.predict(df2)
df2

In [None]:
plt.scatter(df2['A'], df2['B'], c=df2["c"])