<img src="img/soai2.jpg" alt="School of ai Algiers" title="School of ai Algiers">

# Introduction
Dans ce jupyter notebook, on traitera les bases des outils de primordiaux pour débuter en machine learning, à noter : numpy, pandas, matplotlib. On traitera principalement du data cleaning ainsi que du data visualization.
Ce document a été réalisé dans le cadre du 1er workshop de School of ai Algiers.<br>
<img src="img/method.png"/>

# Les deux voies
## Thérorie
<ul>
    <li>Algorithmes from Scratch</li>
    <li>
        Maths Heavy<br>
        Probabilités
        <img src="img/likelihood.png"/>
        Analyse
        <img src="img/gd.png"/>
        Algèbre
        <img src="img/la.png"/>
    </li>
</ul>

## Pratique
<ul>
    <li>
        Utilisation de bibliothèques prêtes à l'utilisation (Sk learn, tensorflow, Pytorch, Keras)<br>
        <img src="img/code.png"/>
    </li>
</ul>

# Preparez vos outils

## Python
### Pourquoi python
<ul>
    <li>Syntaxe simple et très claire</li>
    <li>Richesse en librairies ML</li>
    <li>Taille de la communauté</li>
</ul>

## Librairies nécessaires
<ul>
    <li>Numpy</li>
    <li>Pandas</li>
    <li>Matplotlib</li>
    <li>Sci-kit Learn</li>
</ul>

## numpy
### Qu'est ce que numpy ?
    Librairie python permettant de faciliter la manipulation des tableaux (vecteurs/matrices)
### Pourquoi pas de simples tableaux
    - Calculs plus rapides
    - Manipulation plus simple
    - Opérations prêtes à être utilisées (sur des vecteurs et des matrices)
### Comment l'installer ?
> <font color=red>**pip** install numpy</font>

### Commencer à travailler avec numpy

In [None]:
import numpy as np

### Créer un tableau

##### Directement dans le code

In [None]:
npArray=np.array([1,2,3,4,5])
npArray

#### Vecteur initialisé

In [None]:
vectNul=np.zeros(4)
vectNul

##### En créant une série

In [None]:
#Générer la suite de nombres entre 1(inclus) et 10(exclus) par pas de 2
serie=np.arange(1,10,2)
print(serie)

##### Depuis un fichier

In [None]:
#Données sous forme de matrice texte
fromTxt = np.loadtxt('data.txt', usecols=range(4))
print(fromTxt)

***

### Accéder aux éléments (Slicing)


In [None]:
serie= np.arange(1,10,2)
serie[2:5]

In [None]:
serie[2]=12
serie

In [None]:
y=serie[1:4]
print("Valeur de y : {}".format(y))
print("Valeur de serie: {}".format(serie))
y[0]=888
serie


Le slicing génère une vue sur le tableau (quand on change la variable, l'originale change aussi)


### Ajouter des éléments

In [None]:
# Ajout à la fin
serie=np.arange(1,10,2)
serie=np.append(serie,11)
print("11 Ajouté : ",serie)

### Forme d'un tableau

In [None]:
serie.shape

### Changer la forme d'un tableau

In [None]:
serie.reshape(3,2)

### Dimension d'un tableau

In [None]:
serie.ndim

### Taille ( nombre total d'élements )

In [None]:
serie.size

***

### Matrices

##### Générer une matrice de zéros

In [None]:
np.zeros((4,2))

##### Générer une matrice identité

In [None]:
identity=np.eye(3)
identity

##### Générer une matrice de nombres aléatoires

In [None]:
mRand=np.random.rand(2,3)
mRand

##### Multiplication matricielle

Il faut que le nombre de colonnes de la 1e matrice soit égale au nombre de lignes de la 2e  
$ 1^e -----> (m,k) | (k,n)  <------ 2^e $

In [None]:
A=np.array([[1,2,3],
            [1,1,1],
            [0,0,1]])
np.dot(A,identity)

##### Transposée d'une matrice

In [None]:
A.T

##### Matrice inverse

In [None]:
Ainv=np.linalg.inv(A)
Ainv

##### Quelques autres opérations

In [None]:
A=A/2
print("Matrice objectif\n",A)
print()
print("Minimum",np.amin(A))
print("Maximum",np.amax(A))
print("Moyenne",np.mean(A))
print("Ecart type",np.std(A))
print("Partie entière\n",np.floor(A))
print("Entier au dessus\n",np.ceil(A))

***

### Broadcasting
Manipuler tous les éléments du tableau en une seule opération

In [None]:
arr=np.arange(0,10).reshape(5,2)
newArr=arr-3
print(arr)
newArr

In [None]:
a=np.array([1,2,3])
b=np.array([0,1,3])
a*b

- Retourner un masque indiquant quels éléments satisfont la condition

In [None]:
tableau=np.arange(10)
print(tableau)
(tableau>5)

- Retourner les indices qui satisfont la condition

In [None]:
tableau.nonzero()

- Retourner les éléments qui satisfont la condition

In [None]:
tableau[tableau!=3]

***

***

## Valeurs statistiques
### La moyenne

### L'écart type
C'est une valeur statistique permettant de caractériser "l'éloignement" ou la dispersion des données de leur moyenne

### La médiane
Représente la valeur centrale quand on ordonne les valeurs de notre échantillon.

### Le mode
Représente la valeur qui apparait le plus dans notre échantillon

## pandas
    Librairie python permettant la manipulation et l'analyse de données
### Exemple
Cet exemple représente un ensemble d'athlètes dont on dispose de certaines information :
- <b>Name</b> : Prénom de l'athlète
- <b>Wilaya</b> : Wilaya de naissance de l'athlète
- <b>Age</b> : âge de l'athlète en années
- <b>Taille</b> : Taille de l'athlète en mètres
- <b>Poids</b> : Poids de l'athlète en kilogrammes
- <b>Sexe</b> : Sexe de l'athlète
- <b>Score</b> : le nombre de points remportés en compétition par l'athlète
- <b>Address</b> : Adresse de l'athlète


### DataFrame
Un DataFrame est une structure de données dans pandas qui vous permettra de structurer vos données sous forme tabulaire.
On trouve <br>
en colonnes : les attributs<br>
en lignes   : les observations

<img src="img/df.png" alt="Image d'un dataframe" title="Dataframe">


### Commencer à travailler avec pandas

In [None]:
import pandas as pd

### Importer des données
#### Depuis un fichier csv


In [None]:
pd.set_option('display.max_columns', None)  

df=pd.read_csv("data.csv",delimiter=";")
df

### Quelques valeurs statistiques sur les données

In [None]:
df.describe()

### Sélectionner aléatoirement n lignes

In [None]:
df.sample(n=3)

### Convertir une colonne en un autre type

In [None]:
df['Age'] = df['Age'].astype('float')

df

### Résumé sur les valeurs "Catégorie"

In [None]:
df.describe(include=['object', 'bool'])

### Décompte par catégorie

In [None]:
df['Wilaya'].value_counts()

### Je veux classer les personnes par score et prendre les 5 meilleurs (Tri)

In [None]:
print(df)
df.sort_values(by='Score', ascending=False).head(5)

### Je veux la liste des personnes d'Alger

In [None]:
df[df["Wilaya"]=="Alger"]

### Une compétion aux personnes de plus de 20 ans

In [None]:
df[df["Age"]>20]

### Quelques valeurs statistiques

In [None]:
print("Moyenne : ",df["Poids"].mean())
print("Maximum :",df["Poids"].max())
print("Ecart type :",df["Poids"].std())

### Une année est passée je veux actualiser les âges (Appliquer une fonction à une colonne)

In [None]:
def increment(number):
    return number+1
#axis=1 pour ligne
df['Age']=df['Age'].apply(increment)
df

### Data cleaning

In [None]:
df['Sexe'] = df['Sexe'].replace({"H":"Homme","Male":"Homme","home":"Homme"})
df['Wilaya'] = df['Wilaya'].replace({"Algiers":"Alger","Alg":"Alger"})
df['Taille'] = df["Taille"].str.replace(",",".").astype(float)
df

### Je veux codifier des catégories (Remplacer certaines valeurs)

In [None]:
df['Sexe'] = df['Sexe'].map({"Homme":0,"Femme":1}) 
df

### Je veux étudier chaque catégorie séparément (Regrouper)

In [None]:
df.groupby(by=["Sexe"]).describe()

### Calculs sur la base des colonnes et modification d'un dataframe

In [None]:
df['Date de naissance'] = 2018- df["Age"]
df

### Je veux calculer l'IMC ! IMC = Poids / Taille²

In [None]:
df['IMC']=df['Poids']/df['Taille']**2
df

### J'ai les mêmes données mais de deux sources différentes (Concaténer deux dataframes en ligne)

In [None]:
pd.concat([df,df])

### J'ai une nouvelle donnée sur mes utilisateurs ! (Ajouter une colonne à un dataframe)

In [None]:
hSommeil=pd.DataFrame({"Heures de sommeil":[7,8,6,9,5,9]})
hSommeil

In [None]:
pd.concat([df,hSommeil],axis=1)

### Avoir le dataframe en tant que tableau numpy

In [None]:
np.array(df)

***

## matplotlib
    Librairie python permettant de faire des représentations graphiques de nos données

### Commencer à travailler avec matplotlib.pyplot

In [None]:
import matplotlib.pyplot as plt

### Courbe

In [None]:
import numpy as np
#x=np.arange(-10,10,1)
#y=x**2
c=df.sort_values(by="Taille",ascending=False)


plt.plot(c["Taille"],c["Score"],label="Score selon la taille",color="#ffe0a3")
plt.legend()
plt.xlabel("Taille")
plt.ylabel("Score")
plt.title("Courbe score selon la Taille")
plt.show()

### Diagramme en bâtons 
### Selon le Sexe

In [None]:
plt.bar(["Homme","Femme"],df["Sexe"].value_counts())

### Selon la Wilaya

In [None]:
plt.bar(df["Wilaya"].unique(),df["Wilaya"].value_counts())

### Histogramme

In [None]:
dist=np.random.normal(60,10,20000000)
lol=np.random.normal(40,10,2000000)

bins=np.arange(0,100,5)
plt.hist([dist,lol],bins,density=True)

plt.show()

### Nuage de points

In [None]:
# Génération des données
NOMBRE_POINTS=200
x1=np.random.normal(4,0.5,NOMBRE_POINTS)
y1=np.random.normal(3,0.4,NOMBRE_POINTS)
x2=np.random.normal(3,0.5,NOMBRE_POINTS)
y2=np.random.normal(2,0.3,NOMBRE_POINTS)

plt.scatter(x1,y1,label="catégorie 1",color="#13eaff",marker="x")
plt.scatter(x2,y2,label="catégorie 2",color="#ffee1f")

plt.scatter([4,3],[3,2],label="Centres",color="r",marker="*",s=100)

plt.legend()
plt.show()

In [None]:
plt.scatter(df["Taille"],df["Poids"])
plt.show()

### Style

In [None]:
from matplotlib import style
print(plt.style.available)

In [None]:
style.use("Solarize_Light2")

### D'autres fonctionnalités 
>Graphes en temps réel <br>
Graphes 3D <br>
Sous graphes <br>

<img src="img/subplot.png" title="Image Sous graphe" alt="Image d'une figure avec plusieurs sous graphes">

### Apprendre plus
matplotlib sentdex : https://www.youtube.com/playlist?list=PLQVvvaa0QuDfefDfXb9Yf0la1fPDKluPF

***

***

## Sentiment Analysis
<img src="img/emotions.png"/>

### Le problème
J'ai une phrase et je veux la classifier comme étant : 
- Positive : Happy
- Négative : Sad


### Happy Sad

In [2]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

sad=[]
happy=[]


#Getting data from files and cleaning it
for line in open('data/part3/sad.txt'):
    for i in range(10):
        line=line.replace(str(i),'')
    line=line.replace("\n","")
    line=line.replace("#","")
    sad.append(line.lower())
    
nbSad=len(sad)

for line in open('data/part3/happy.txt'):
    for i in range(10):
        line=line.replace(str(i),'')
    line=line.replace("\n","")
    happy.append(line.lower().replace("#",""))
nbHappy=len(happy)

# Data preparation
data=sad+happy
data

['when i think about trayvonmartin i can not help but worry about my own son!  i am so sad and angry right now! have been all day actually.',
 'ilikepeoplewho makes me laugh when i am sad.',
 'sometimes i just instantly get sad when i realize how blessed i am and i think about homeless people sleeping outside and hungry :(',
 'i have zero pics from last night very sad :( but hey i am proud of that hat!!',
 'i hear ya.  i tried for a while and am now watching goldmember. so sad',
 "i feel happy, i feel sad. and i don't know who i am.,it’s not the way you plan it is how you make it happend.",
 'it was so good! but so sad. i cried like a baby!! i am so sad that its ending :(',
 'no i am not in nyc these days... i know i am sad as well',
 'why am i suddenly all sad?',
 "follows everyone but everyone doesn't follow back now i am sad",
 'reading past convos i had with females, i am so oblivious and cannot take a hint. this is sad',
 'i am sad that the chief of police has already made up his 

In [3]:
#Preparation for Algorithm input
from sklearn.model_selection import train_test_split

vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(data)

# Labels array
Y=np.append(np.zeros(nbSad),np.ones(nbHappy))

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.33)



#Model fitting and testing

#Bernoulli Naive Bayes
from sklearn.naive_bayes import BernoulliNB

bnb=BernoulliNB(alpha=1,class_prior=None,fit_prior=True)
bnb.fit(X_train,y_train)

print("BernoulliNB : ",bnb.score(X_test,y_test))

#Multinomial Naive Bayes
from sklearn.naive_bayes import MultinomialNB
multiNB = MultinomialNB(alpha=1,class_prior=None,fit_prior=True)
multiNB.fit(X_train,y_train)



print("MultinomialNB : ",multiNB.score(X_test,y_test))

#Support Vector Machine
from sklearn.svm import SVC

svm = SVC(gamma='auto')
svm.fit(X_train, y_train)
print("SVM : ",svm.score(X_test,y_test))

#Logistic Regression
from sklearn.linear_model import LogisticRegression
lgr = LogisticRegression()
lgr.fit(X_train, y_train)
print("Logistic Regression : ",lgr.score(X_test,y_test))


BernoulliNB :  0.914285714286
MultinomialNB :  0.842857142857
SVM :  0.542857142857
Logistic Regression :  0.9


In [None]:
#Test some phrase
rep="I am hungry"
vect=vectorizer.transform([rep.lower()]).toarray()
print("BernoulliNB : ",bnb.predict_proba(vect))
print("MultinomialNB : ",multiNB.predict_proba(vect))
print("SVM : ",svm.predict(vect))
print("Logistic Regression : ",lgr.predict_proba(vect))

### Contraction Mapping

In [None]:
contraction_mapping = {"ain't": "is not", "aren't": "are not","can't": "cannot", 
                   "can't've": "cannot have", "'cause": "because", "could've": "could have", 
                   "couldn't": "could not", "couldn't've": "could not have","didn't": "did not", 
                   "doesn't": "does not", "don't": "do not", "hadn't": "had not", 
                   "hadn't've": "had not have", "hasn't": "has not", "haven't": "have not", 
                   "he'd": "he would", "he'd've": "he would have", "he'll": "he will", 
                   "he'll've": "he will have", "he's": "he is", "how'd": "how did", 
                   "how'd'y": "how do you", "how'll": "how will", "how's": "how is", 
                   "I'd": "I would", "I'd've": "I would have", "I'll": "I will", 
                   "I'll've": "I will have","I'm": "I am", "I've": "I have", 
                   "i'd": "i would", "i'd've": "i would have", "i'll": "i will", 
                   "i'll've": "i will have","i'm": "i am", "i've": "i have", 
                   "isn't": "is not", "it'd": "it would", "it'd've": "it would have", 
                   "it'll": "it will", "it'll've": "it will have","it's": "it is", 
                   "let's": "let us", "ma'am": "madam", "mayn't": "may not", 
                   "might've": "might have","mightn't": "might not","mightn't've": "might not have", 
                   "must've": "must have", "mustn't": "must not", "mustn't've": "must not have", 
                   "needn't": "need not", "needn't've": "need not have","o'clock": "of the clock", 
                   "oughtn't": "ought not", "oughtn't've": "ought not have", "shan't": "shall not",
                   "sha'n't": "shall not", "shan't've": "shall not have", "she'd": "she would", 
                   "she'd've": "she would have", "she'll": "she will", "she'll've": "she will have", 
                   "she's": "she is", "should've": "should have", "shouldn't": "should not", 
                   "shouldn't've": "should not have", "so've": "so have","so's": "so as", 
                   "this's": "this is",
                   "that'd": "that would", "that'd've": "that would have","that's": "that is", 
                   "there'd": "there would", "there'd've": "there would have","there's": "there is", 
                       "here's": "here is",
                   "they'd": "they would", "they'd've": "they would have", "they'll": "they will", 
                   "they'll've": "they will have", "they're": "they are", "they've": "they have", 
                   "to've": "to have", "wasn't": "was not", "we'd": "we would", 
                   "we'd've": "we would have", "we'll": "we will", "we'll've": "we will have", 
                   "we're": "we are", "we've": "we have", "weren't": "were not", 
                   "what'll": "what will", "what'll've": "what will have", "what're": "what are", 
                   "what's": "what is", "what've": "what have", "when's": "when is", 
                   "when've": "when have", "where'd": "where did", "where's": "where is", 
                   "where've": "where have", "who'll": "who will", "who'll've": "who will have", 
                   "who's": "who is", "who've": "who have", "why's": "why is", 
                   "why've": "why have", "will've": "will have", "won't": "will not", 
                   "won't've": "will not have", "would've": "would have", "wouldn't": "would not", 
                   "wouldn't've": "would not have", "y'all": "you all", "y'all'd": "you all would",
                   "y'all'd've": "you all would have","y'all're": "you all are","y'all've": "you all have",
                   "you'd": "you would", "you'd've": "you would have", "you'll": "you will", 
                   "you'll've": "you will have", "you're": "you are", "you've": "you have" } 