# **Librairies**

## **Installation**
Pour ce projet vous allez avoir besoin de plusieur librairies:
 - [Pandas](https://pandas.pydata.org/docs/)
 - [Numpy](https://numpy.org/doc/stable/)
 - [Dash](https://dash.plotly.com/)
 - [sklearn](https://scikit-learn.org/stable/)
 - [plotly](https://plotly.com/python/)


Pour les installer, vous pouvez utiliser la commande suivante directement dans vos notebook:

> !pip install pandas \
> !pip install numpy \
> !pip install dash \
> !pip install sklearn \
> !pip install plotly

## **Pandas**

In [1]:
import pandas as pd

1. Créer un dataframe vide

In [2]:
df = pd.DataFrame(index = ['1', '2', '3'], columns = ['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
1,,,,
2,,,,
3,,,,


2.   Créer un datarame avec des données

In [3]:
df = pd.DataFrame({'A' : [1,2,3], 'B':[4,5,6]})  # pour chaque colonne la liste de ses valeurs
df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


3. Concaténer deux dataframe

In [4]:
df2 = pd.DataFrame({'A' : [5,8,0], 'B':[40,50,6]})  # pour chaque colonne la liste de ses valeurs
pd.concat([df2, df]) #en ligne

Unnamed: 0,A,B
0,5,40
1,8,50
2,0,6
0,1,4
1,2,5
2,3,6


In [5]:
pd.concat([df2, df] , axis = 1) #en colonne

Unnamed: 0,A,B,A.1,B.1
0,5,40,1,4
1,8,50,2,5
2,0,6,3,6


4. Selectionner une colonne

In [6]:
df['A']

0    1
1    2
2    3
Name: A, dtype: int64

5.  Selectionner deux colonnes

In [7]:
df[['A','B']]

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


6. Selectionner toutes les valeurs supérieures à 4

In [8]:
df[df  > 4]

Unnamed: 0,A,B
0,,
1,,5.0
2,,6.0


# **Visualisation**

## **PlotLy**

Nous utiliserons principalement la librairie plotly qui permet de réaliser tout type de visualisation, des graphiques, des nuages de points, diagramme circulaire, diagramme baton ...

Documentation : [plotly](https://plotly.com/python/)

In [9]:
import plotly.graph_objs as go

In [10]:
fig = go.Figure(data=go.Bar(y=[5, 4, 2]))
fig.show()

In [11]:
import plotly.express as px

In [12]:
df = px.data.tips()
fig = px.box(df, y="total_bill")
fig.show()

## **Dash**

Dash est une librairie qui permet la création de dashboard (tableau de bord) simplement en y incrustant les graphiques précédents. Nous pouvons également l'utiliser pour faire des visualisations **interactive**. Ce dashboard est en réalité la base d'un site web, pour ceux qui connaissent Dash est une surcouche a flask.

Documentation : [Dash](https://dash.plotly.com/)

In [13]:
import dash

from dash import dcc

# import dash_core_components as dcc

from dash import html

# import dash_html_components as html
from dash.dependencies import Input, Output
import plotly.express as px

# DataFrame iris pour les test
df = px.data.iris()
all_dims = ["sepal_length", "sepal_width", "petal_length", "petal_width"]

app = dash.Dash(__name__)

# Cette partie est la création de la page web (équivalent d'un arbre Html)
app.layout = html.Div(
    [
        dcc.Dropdown(
            id="dropdown",
            options=[{"label": x, "value": x} for x in all_dims],
            value=all_dims[:2],
            multi=True,
        ),
        dcc.Graph(id="splom"),
    ]
)

# Création d'un call back
@app.callback(
    # La valeurs qui seront modifié lors de l'appelle de cette fonction
    Output("splom", "figure"),  # Output("Id de l'élément", "Nom de l'attibut")
    # Les Input correspondents aux entrées, lorsque value change de valeur dans l'élément Dropdown, la fonction est appelée
    [Input("dropdown", "value")],  # Input("Id de l'élément", "Nom de l'attribut")
)
def update_bar_chart(dims):
    fig = px.scatter_matrix(df, dimensions=dims, color="species")
    return fig

Le code suivant démare le dashboard et vous pouvez accéder a celui-ci en cliquant [ici](http://127.0.0.1:8050/).

Pensez à l'arreter avant de continuer.

In [14]:
app.run_server()

Dash is running on http://127.0.0.1:8050/

 * Serving Flask app '__main__' (lazy loading)
 * Environment: production
[2m   Use a production WSGI server instead.[0m
 * Debug mode: off


 * Running on http://127.0.0.1:8050/ (Press CTRL+C to quit)


# **Machine Learning**

Le Machine Learning ou apprentissage automatique est un domaine scientifique, et plus particulièrement une sous-catégorie de l'intelligence artificielle. Elle consiste à laisser des algorithmes découvrir des ” patterns “, à savoir des motifs récurrents,
dans les ensembles de données.

- label : variable résultat ex : fraude ou pas fraude. 
- variables : données qui nous permettent de prédire le label.
- Données apprentissages : source de données dont on a les variables et les labels ça servira à entrainer notre modéle.
- Données de test : source de données dont on doit prédir le label.

pour en savoir plus : [Machine_learning](https://fr.wikipedia.org/wiki/Apprentissage_automatique)

## 1 - Apprentissage supervisé

L’apprentissage supervisé est une méthode d’apprentissage automatique, caractérisée par la création d’un algorithme qui apprend une fonction prédictive. Ceci est possible grâce à un entrainement à partir d’exemples annotés, qui inclus un groupe de variables d’entrée, accompagnées de leurs variables de sortie respectives.

Pour cela nous allons partager nos données en deux jeux de données apprentissage qui va nous permettre d'entrainer nos modéles, et test qui nous permettra de vérifier la performance de nos modéle.

pour aller plus loin : [Supervise](https://machinelearnia.com/apprentissage-supervise-4-etapes/)

## 2 - Apprentissage non supervisé (Partie importante !!)

L'apprentissage non supervisé consiste à apprendre à un algorithme d'intelligence artificielle (IA) des informations qui ne sont ni classées, ni étiquetées, et à permettre à cet algorithme de réagir à ces informations sans supervision

pour aller plus loin : [Non_supervisé](https://fr.wikipedia.org/wiki/Apprentissage_non_supervis%C3%A9)

# Exemple de détection d'anomalie

In [15]:
import pandas as pd

In [16]:
# import data
data = pd.read_csv("https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv")
# input data
df = data[["sepal_length", "sepal_width"]].copy()

1.   K nearest neibhors

In [17]:
#nuage de points des données
fig = px.scatter(data_frame=df, x="sepal_length", y="sepal_width")
fig.show()

In [18]:
from sklearn.neighbors import NearestNeighbors

X = df.values

# instance du modée KNN, ici on choisit 3 voisins
nbrs = NearestNeighbors(n_neighbors = 3)

# fit model
nbrs.fit(X)

NearestNeighbors(n_neighbors=3)

In [19]:
#distances et indexs des k plus proches voisins des sorties du modéle
distances, indexes = nbrs.kneighbors(X)

l'étape suivante est la plus importante, elle consiste à choisir un seuil qui va séparer les outliers, par exemple prétendre qu'une observation est un outlier si sa distance avec les autres observations est supérieure à un seuil égal à 0.15.

Comment le choisir : nous pouvons se servir de nos labels de sorte à avoir la méme proportion.

In [20]:
# Ajoute de nos prédiction dans le dataframe
df["outlier"] = distances.mean(axis=1) > 0.15

In [21]:
# plot data
px.scatter(df, x="sepal_length", y="sepal_width", color="outlier")

Une fois fini, je vous invite à envoyer une photo de l'animal de votre choix à l'adresse suivante : Aidernassrine@gmail.com