![](https://puu.sh/HLHgF/324c7fedc3.png)


Most important basis :
- [x] Python
	- [x] Data manipulation using Pandas & Numpy
	- [x] Data visualization using Matplotlib
- [x] SQL
	- [x] SQL & Pandas & SQLite (Good course : https://medium.com/analytics-vidhya/programming-with-databases-in-python-using-sqlite-4cecbef51ab9)
	- [x] platforms like Mode Analytics and Databricks to easily work with Python and SQL.
- Statistics basis 
	- [x] Learn : Sampling, frequency distributions, Mean, Median, Mode, Measure of variability, Probability basics, significant testing, standard deviation, z-scores, confidence intervals, and hypothesis testing (including A/B testing)
	- Good Handbook (especially first four chapters) : https://www.amazon.com/Practical-Statistics-Data-Scientists-Essential/dp/9352135652
	- Learn *StatsModels* Python Library + good video course : https://www.youtube.com/watch?v=yaSgoGLXKOg
- Machine Learning using Scikit-Learn (Good video course by Andrew Ng : https://www.coursera.org/learn/machine-learning + Good Handbook and exercise : https://www.amazon.com/Hands-Machine-Learning-Scikit-Learn-TensorFlow/dp/1491962291 )

Next :
- big data technologies like Spark and Hadoop
- Google Analytics 
- Python data viz using **Seaborn**, Bokeh, Pygal

In [1]:
import numpy as np
import pandas as pd
from scipy import stats

In [54]:
# Generate artificial data
size = 100  # Output shape
loc = 50    # Mean (“centre”) of the distribution
scale = 5   # Standard deviation (spread or “width”) of the distribution. Must be non-negative.


X = np.random.normal(loc, scale, size)

# Y = np.random.randint(10, size=100)
# Y = np.random.binomial(n=100, p=.5, size=100)
Y = stats.norm.ppf(np.random.random(size), loc=loc, scale=scale).astype(int)

X, Y

(array([55.75608173, 52.81238965, 55.62111732, 49.89528542, 56.05333946,
        41.22825435, 55.48902971, 48.39043528, 51.42119142, 49.98761722,
        50.37643254, 59.28903873, 48.06409926, 51.71440901, 47.47399008,
        44.98892566, 50.89196949, 54.29815175, 52.66891552, 48.14687677,
        48.85774544, 44.7906864 , 57.52047777, 48.30737622, 49.52319116,
        45.86263123, 46.38149512, 38.33135014, 48.22734687, 53.02997041,
        46.82664881, 56.74863347, 36.50340832, 57.77302102, 59.83695815,
        58.66702393, 40.17525716, 46.75294991, 45.40265986, 60.06444145,
        44.76302813, 52.85506209, 58.24064082, 54.23672568, 48.372648  ,
        50.39410706, 55.4292295 , 49.05461773, 55.17942781, 53.98496247,
        45.27885551, 55.84814236, 56.49557576, 52.77333886, 48.73193272,
        48.8257024 , 49.0600586 , 39.64540498, 58.37394186, 53.60776   ,
        44.99844929, 51.42698252, 49.73851062, 41.21045468, 43.46278467,
        47.10338127, 46.59610411, 51.55468165, 49.7

In [3]:
# Mean
print('X mean : %.3f' % X.mean())
print('Y mean : %.3f' % Y.mean())

X mean : 0.975
Y mean : 50.000


In [4]:
# Median
print('X median : %f' % np.median(X))
print('Y median : %d' % np.median(Y))

X median : 0.984901
Y median : 49


In [5]:
# Sampling
# We can use numpy random.choice() or take a value from the array each n values
np.random.choice(X, 10), np.random.choice(Y, 10)

(array([1.04442572, 1.06060007, 0.81992574, 1.25394092, 0.91576459,
        0.8708394 , 0.68022311, 0.51832   , 0.9841502 , 0.65597501]),
 array([64, 44, 55, 55, 37, 45, 45, 44, 40, 43]))

In [41]:
# frequency distributions
unique, counts = np.unique(Y, return_counts=True)
pd.DataFrame({'counts': counts}, index=unique).head()

Unnamed: 0,counts
22,1
30,2
31,1
32,1
33,4


In [24]:
# frequency distributions on continous
def continous_frequency_distributions(array, parts):
    min_val = array.min()
    max_val = array.max()
    steps = np.arange(start=min_val, stop=max_val, step=(max_val-min_val)/parts)
    ranges = []
    counts = []
    
    for i in range(parts-1):
        ranges.append(str('%.3f' % steps[i]) + ' to ' + str('%.3f' % steps[i+1]))
        counts.append(((steps[i] <= array) & (steps[i+1] > array)).sum())
        
    ranges.append(str('%.3f' % steps[i+1]) + ' and more')
    counts.append(((steps[i+1] <= array) & (max_val >= array)).sum())
    
    return pd.DataFrame({'counts': counts}, index=ranges)


continous_frequency_distributions(X, 10)

Unnamed: 0,counts
0.518 to 0.609,2
0.609 to 0.699,8
0.699 to 0.790,7
0.790 to 0.880,16
0.880 to 0.970,13
0.970 to 1.061,20
1.061 to 1.151,15
1.151 to 1.241,12
1.241 to 1.332,3
1.332 and more,4


In [37]:
# Mode
print('For discrete :')
print(stats.mode(Y))

print('\nFor continous :')
distrib = continous_frequency_distributions(X, 10)
print(distrib.loc[distrib.counts.idxmax()])

For discrete :
ModeResult(mode=array([47]), count=array([7]))

For continous :
counts    20
Name: 0.970 to 1.061, dtype: int64


In [45]:
# Measure of variability
print('X variance : %.3f' % np.var(X))
print('Y variance : %.3f' % np.var(Y))

X variance : 0.037
Y variance : 109.340


In [48]:
# standard deviation
print('X deviation : %.3f' % np.std(X))  # or print('X deviation : %.3f' % np.var(X)**.5)
print('Y deviation : %.3f' % np.std(Y))  # or print('Y deviation : %.3f' % np.var(Y)**.5)

X deviation : 0.191
Y deviation : 10.457


In [52]:
# z-scores
stats.zscore(X), stats.zscore(Y)

(array([ 0.23280414,  1.33243607,  0.49577916, -0.92418258, -1.17824276,
         1.10513   , -1.69266842, -0.30751556,  0.0461295 , -0.94610462,
        -0.99115016, -1.77078796,  1.57808688, -0.66137017,  0.63121064,
         0.9188453 , -1.83580299, -0.74877729, -0.45030274, -1.35585434,
        -0.09005113, -1.53596331,  0.95344844,  0.62995115,  0.84093276,
         0.87426684,  0.69098409, -1.50902886, -2.38856301, -0.55683417,
        -0.39340673,  1.11984537,  0.91250666,  0.82242233,  0.09994879,
         1.05416861, -0.542974  ,  0.31988675,  0.74630856,  0.37828739,
        -0.09417247,  0.3923616 , -0.31129244,  0.30131909,  2.33593489,
         1.8784122 , -1.66909992,  0.0081877 , -0.49785344,  0.4303887 ,
         0.65002867,  1.17968167, -0.0197411 , -0.05186291, -0.81220052,
        -1.12518691,  1.67598644, -0.98618553,  0.81623257, -0.54609691,
         0.37065767, -0.49465347, -1.2761802 , -0.96392332, -1.54236561,
         1.94918211,  1.95749146,  1.45620866,  1.1

In [57]:
# confidence intervals

#create 95% confidence interval for population mean weight
print(stats.t.interval(alpha=0.95, df=size, loc=loc, scale=scale))

#create 99% confidence interval for same sample
print(stats.t.interval(alpha=0.99, df=size, loc=loc, scale=scale))

(40.080142407751836, 59.919857592248164)
(36.870547397068336, 63.129452602931664)


In [58]:
import numpy as np
import scipy.stats


def mean_confidence_interval(data, confidence=0.95):
    a = 1.0 * np.array(data)
    n = len(a)
    m, se = np.mean(a), scipy.stats.sem(a)
    h = se * scipy.stats.t.ppf((1 + confidence) / 2., n-1)
    return m, m-h, m+h

In [None]:
# Probability basics

# significant testing

# hypothesis testing (including A/B testing)
# https://towardsdatascience.com/the-math-behind-a-b-testing-with-example-code-part-1-of-2-7be752e1d06f

à voir :
- base formation deep learning https://youtu.be/XUFLq6dKQok
- https://databricks.com/blog/2021/05/27/introducing-databricks-machine-learning-a-data-native-collaborative-full-ml-lifecycle-solution.html
- https://data-flair.training/blogs/python-descriptive-statistics/
- 12 data science apps https://www.youtube.com/watch?v=JwSS70SZdyM
- question data science interview : https://www.youtube.com/watch?v=4Z6lxfglvUU

Google Earth Engine :
- https://earthengine.google.com/
- https://towardsdatascience.com/tagged/google-earth-engine
- https://www.youtube.com/watch?v=I-wFYm4Hnhg

ESA :
- [Φ-Lab](https://en.wikipedia.org/wiki/Phi_Lab)
- Patrick Griffiths 3rd degree connection 3rd --- EO Data Engineer at European Space Agency - ESA 
- Sara Aparício 2nd degree connection 2nd --- Earth Observation Data Scientist @ European Space Agency 
- HIRING Giuseppe Borghi 2nd degree connection 2nd --- Head of the Φ-lab Division at European Space Agency - ESA Earth Observation Programmes Directorate 

## Deep learning & Machine Learning
**The easiest takeaway for understanding the difference between machine learning and deep learning is to know that deep learning is machine learning.**
- **Machine learning** is an application of AI that includes algorithms that parse data, learn from that data, and then apply what they’ve learned to make informed decisions. 
- **Deep learning** is a subfield of machine learning that structures algorithms in layers to create an "artificial neural network” that can learn and make intelligent decisions on its own.

In [1]:
from IPython.display import IFrame
IFrame("./Ressources/Practical Statistics for Data Scientists.pdf", width=800, height=600)

---
---
## 1. Intro Deep Learning
**Le machine Learning**
Machine Learning = domaine d'IA où on va programmer une *machine* capable de trouver les meilleures paramètres pour décrire une courbe afin d'analyser des données.  
On va donc créer un algo d'**optimisation** capable de trouver les meilleurs paramètre pour avoir le modèle le plus juste. Il va chercher à **minimiser la distance** entre le **modèle** et les **points** :
![](https://puu.sh/HNtSQ/c583f6871d.png)
> Donc en gros, on va développer un modèle utilisant des algos d'optimisation pour minimiser les erreurs entre ce dernier et les données.


Pleins de modèles existent comme notamment:
- Les modèles linéaires (utilisant par exemple la *Descente de Gradients*)
- Les arbres de décision (utilisant par exemple l'*Algorithme CART*)
- Les Support Vector Machines (utilisant par exemple la *Marge Maximum*)

**Et le Deep learning dans tout ça ?**  
Le deep learning consiste simplement à utiliser un type de modèle : **Les réseaux de Neurones Artificiels**  
Ici, plutôt que d'avoir une fonction à optimiser, nous aurons une série de fonctions (les *neurones*) reliées en *réseau*. Plus il y a de fonctions, plus on dit que le réseau est profond et plus il sera capable de résoudre des problèmes complexes.


## 2. History
### 2.1. Réseaux neuronaux (1943)
Créés en 1943 par Warren McCulloch et Walter Pitts (dans *A logical calculus of the ideas immanent in nervous activity*), ils ont essayé de représenté le fonctionnement des neurones. Un neurone peut recevoir des excitateurs (+1) ou des inibiteurs (-1), si la somme est supérieure à un seuil, ils vont à leur tour emmetre quelque chose.  
Nous avons donc une fonction `f` recevant différents signaux `x` (x1, x2, x3, ...) et retournant une valeur `y`. Nous avons deux grande étapes:
1. L'**aggrégation**:  
```
f = w1*x1 + w2*x2 + w3*x3 + ...
```
Chaque *w* représente un coeficient multiplicateur (dans un neurone nous avons -1 et +1).
2. l'**activation**: suivant le résultat précédant, on va décider la valeur à retourner. Par exemple avec 1 ou 0:
```
y=1  si f>=0
y=0  sinon
```

In [4]:
# Nous allons utiliser Python et surtout la librairie Numpy.
import numpy

### 2.2. Perceptron (1957)
Le gros problème ici était de trouver les valeurs à adopter. En effet, sans algorithme d'apprentissage, il est nécessaire de saisir ces valeurs à la main.  


En 1957, **Frank Rosenblack** invente le **perceptron**, un premier pas vers l'apprentissage, permettant de trouver les valeurs des `w`. Il se repose sur la théorie de **Hebb**: lorsque 2 neurones biologiques s'excitent conjointement, ils renforcent leur lien synaptique: c'est la plasticité synaptique.  
La logique du perceptron est d'entrainer le neuronne avec, pour des valeurs de x connus, des valeurs de y connus: à chaque fois qu'une entrée X est activée en même temps qu'une sortie Y, le neurone renforce ses paramètres W; `W = W + a(ytrue - y) * X` où a représente la vitesse d'apprentissage.

Par exemple, si y doit etre vrai et que l'on a y faux, alors :
```
W = W + a(ytrue - y) * X
W = W + a(1 - 0) * X
W = W + a * X
```
donc, si on a `f = w1*x1 + w2*x2` avec `x1=1` et `x2=0`, alors :
```
w1 = w1 + a * 1
w1 = w1 + a

w2 = w2 + a * 0
w2 = w2
```

A chaque fois que le neurone se trompera, le coeficien *wi* sera augmenté de *a*, jusqu'au moment où l'on dépassera le seuil d'activation et qu'il ne se trompera plus.

### 2.3. Perceptron Multicouche (1986)
Problème : les perceptrons sont linéaires : l'inclinaison dépend de w1 et w2 et la position, de b (le biais) : `f = w1x1 + w2x2 + b`.  
Bien que la technique est puissante, on peut séparer deux groupes de points, elle a très vite des problèmes face à la non linéarité des problèmes courant:

|Vision linéaire|Monde réel|
|:---:|:---:|
|![](https://puu.sh/HNumL/3f2d398a29.png)|![](https://puu.sh/HNunw/b5ffa73c9d.png)|
|Fonctionnement OK, on sépare correctement les deux groupes|Présence d'erreurs, faux positif / négatifs|

En 1986, **Geoffrey Hinton** créat le premier réseau de neuronne artificiel grâce aux **Perceptrons Multicouches**. Le principe est simple, associer plusieurs neurones sur différentes couches afin d'obtenir une fonction non linéaire :
![](https://puu.sh/HNupT/488aeaddb7.png)

Ici l'entrainement passera par un nouvel algorithme d'apprentissage, le **Back-Propagation**. Le principe est de déterminer comment la **sortie du réseau** varie en fonction des **paramètres (W, b)** de **chaque couche**. On va calculer une **chaîne de Gradients qui indique l'évolution de la sortie suivant la dernière couche, puis comment celle-ci varie en fonction de la couche précédente, et cetera:
![](https://puu.sh/HNutG/9af1b872de.png)


Pour résumer :
1. **Forward propagation** : on fait circuler les données de la première à la dernière couche pour créer une sortie y
2. **Cost function** : on va calculer l'erreur entre la sortie y et la sortie y true
3. **Back propagation** : on mesure comment la fonction cout varie à chaque couche du modèle en partant de la fin
4. **Gradient Descent** : on corrige les gradients avant de reboucler sur la première étape

### 2.4. ImageNet et l'envol du Deep Learning (2012)
Les réseaux neuronaux ont ensuite grandement évolués aux cours des années 90', mais un grand problème subsistait : l'accès aux données permettant d'entrainer les IA. Il a fallu attendre l'arrivée d'internet et des smartphones pour obtenir cette base de millions de données classée, répertoriée, labelisée et exploitable. Enfin, un second problème était la puissance de calcul encore trop limité durant les années 2000.

C'est en 2012, notamment grâce à la compétition *ImageNet* et riche de l'envol d'internet, des smartphones quelques années auparavent, ainsi que de l'augmentation impressionnante de la puissance de GPU que le Deep Learning a pu prendre un nouvel envol avec des résultats intéressants.

### 2.4.1. PyTorch
[Cheatsheet](https://pytorch.org/tutorials/beginner/ptcheat.html)
```python
import torch 
```

### 2.4.2. TensorFlow

```python
import tensorflow as tf
```

In [6]:
# Pytorch
import torch 

# TensorFlow
import tensorflow as tf