# Machine Learning Applied to Weather Forecasting

## Introduction 

La prévision météorologique est la tâche de prédire l'état de l'atmosphère à une date future et dans une région spécifique. Habituellement, cette prévision a été fait grâce à des simulations physiques dans lesquelles l'atmosphère est modélisée comme un fluide. L'état futur de l'atmosphère est calculé en résolvant numériquement des équations de la dynamique des fluides et de la thermodynamique. Cependant, le système des équations différentielles ordinaires qui régissent ce modèle physique est instable à cause des perturbations. De plus  les incertitudes  dans les mesures initiales des conditions atmosphèriques et la compréhension  incomplète des processus atmosphériques complexes restreignent la précision des prévisions au-delà petite période (environ 10 jours). Le Machine Learning, à l'inverse, est relativement robuste aux perturbations et n'impose pas une compréhension compléte des processus physiques qui régissent l'atmosphère. Par conséquent, Le Machine Learning peut représenter une alternative fiable pour le forecasting météorologique.

Dés lors, ce projet a pour but  d'utiliser Python et Machine Learning dans le but d'établir des modèles de prévision de la température à base des données collectées à partir de la plate-forme Underground. Au cours de ce projet, nous allons mettre l'accent sur les différentes étapes permettant de bien réussir un projet Machine Learning via la méthode <i>CRISP-DM</i>. Ci-dessous le plan qui sera examiné tout au long de la première partie de mon PFE :  

---
<b>
1. Collecte et traitement de données 
2. Modèle ARIMA de prévision
3. Modèle Régression Linéaire
4. Modèle Réseau de neurones
</b>
---

## Problématique :


Nous nous intérressons à l'étude de la variable climatique "Témperature" dans le but d'étudier son intercation  avec d'autres variables climatiques et de trouver un bon modéle statistique qui permet de faire son forecasting.

## Formalisation en Data Mining : 

#### Contraintes : 

Avant de commencer la traduction de notre problématique en probléme de fouille de données, nous devons d'abord définir notre variable cible - s'elle exist éventuellement - ainsi que les variables indépendentes (features).

1. Notre variable cible :  La température
2. Les variables indépendentes :  Nous allons utiliser les mêmes variables mentionnées dans le document surlequel nous sommes basés (Machine Learning Applied to Weather Forecasting) et éventuellement nous allons ajouter d'autres variables qui nous semblent intéressantes.


#### Formalisation : 

La catégorie d'apprentissage qui a lieu ici s'agit de l'apprentissage supervisé et plus particuliérement sa sous catégorie : La régression linéaire (la variable à étudier est continue).

## Compréhension du marché/domaine 

Il existe une variété d'applications pour les  prévisions météorologiques. Les avertissements météorologiques sont des prévisions importantes car ils servent à protéger la vie et la propriété. Les prévisions fondées sur la température et les précipitations sont importantes pour l'agriculture et donc pour les négociants sur les marchés des produits de base. Puisque les activités de plein air sont sévèrement limitées par les fortes pluies et la neige, les prévisions peuvent être utilisées pour planifier des activités autour de ces événements, ainsi que pour planifier et survivre. En 2014, les États-Unis ont dépensé 5,1 milliards de dollars en prévisions météorologiques, d'où l'importance de la prévision météorologique.

## Compréhension des données

Cette partie implique l'étude des données de l'extraction de celles-ci à la préparation. Cette étape a un poids important dans la méthode CRISP-DM car elle permet d'éviter les problèmes inattendus au cours de la phase de la préparation  des données. Pour bien amener cette étape, nous allons suivre le plan suivant:

### A :  Collecte des données initiales 

<i> Sources des données </i> : 

Les données qui seront utilisées au cours de ce projet sont collectées à partir de la l'API gratuite de la  plateforme gratuite <b>Weather Underground API</b>. Une fois les données sont récupérées, nous allons les nettoyer, les agréger sous un format adapté à l'analyse de données. 

<i> Brief description de la source des données  :</i>

<b>Weather Underground</b> est une société qui recueille et distribue des données sur diverses mesures météorologiques à travers le monde. La société fournit une panoplie d'API disponibles à des fins commerciales et non commerciales. Dans notre projet, nous allons  décrire comment faire le scraping   des données météorologiques quotidiennes  en utilisant leur service gratuit disponible à des fins non commerciales.

<i>Scraping des données à partir de la plate-forme en question : </i>

<b> Prérequis :</b> 

- Il faut avoir un compte développeur gratuit, pour cela il faut créer son compte sur le lien suivant :  https://www.wunderground.com/weather/api/
- Ce compte fournit une clé API permettant d'accéder au service Web  jusqu'à un total de 500 demandes (requests) par jour.
- Le format de la demande est le suivant : <mark>http://api.wunderground.com/api/API_KEY/history_YYYYMMDD/q/STATE/CITY.json  </mark>

    - API_KEY : L'API_KEY fourni par L'API lors de la création de votre compte 
    - YYYYMMDD : une chaîne de caractére spécifiant la date de la demande
    - STATE : l'abréviation d'Etat à deux lettres aux États-Unis
    - CITY : le nom de la ville associée à l'Etat choisi


In [22]:
#required libraries : 
from datetime import datetime, timedelta # used to increment our requests by day
import time  # used to delay requests to stay under 10 per minutes
from collections import namedtuple # use namedtuples for structured collection of data
import pandas as pd  # used to process, organize and clean the data
import requests  # used to make networked requests to the API
import matplotlib.pyplot as plt # used for graphical analysis
import pickle
%matplotlib inline  
# matplotlib inline : permit the figures to be shown inside the current notebook

In [10]:
# global variables : 
API_KEY = 'd61418389beb8d5e'  
BASE_URL = "http://api.wunderground.com/api/{}/history_{}/q/NE/Lincoln.json"  
target_date = datetime(2016, 5, 16)  
features = ["date", "meantempm", "meandewptm", "meanpressurem", "maxhumidity", "minhumidity", "maxtempm",  
            "mintempm", "maxdewptm", "mindewptm", "maxpressurem", "minpressurem", "precipm"]
DailySummary = namedtuple("DailySummary", features)  

In [19]:
def extract_weather_data(url, api_key, target_date, days): 
    '''
    Extract weather data from the wunderground API.
    
        Parameters : 
            - url : url of the API
            - api_key : The API_KEY that Weather Underground provides with your account
            - target_date : A string representing the target date of your request
            - days : number of days
        Returns : a list of namedtuple elements with the parsed data.
        
        
        Example : 
            extract_weather_data(http://api.wunderground.com/api/{}/history_{}/q/NE/Lincoln.json, use_ur_key, datetime(2018,04,02), 45)
    '''
    records = []  # a list that will holds the parsed data
    for _ in range(days):
        request = BASE_URL.format(API_KEY, target_date.strftime('%Y%m%d')) # formatting the BASE_URL by interpolating the missing values
        response = requests.get(request)
        if response.status_code == 200: # make sure the request was successful by evaluating that the HTTP status code is equal to 200 
            data = response.json()['history']['dailysummary'][0]
            records.append(DailySummary(
                date=target_date,
                meantempm=data['meantempm'],
                meandewptm=data['meandewptm'],
                meanpressurem=data['meanpressurem'],
                maxhumidity=data['maxhumidity'],
                minhumidity=data['minhumidity'],
                maxtempm=data['maxtempm'],
                mintempm=data['mintempm'],
                maxdewptm=data['maxdewptm'],
                mindewptm=data['mindewptm'],
                maxpressurem=data['maxpressurem'],
                minpressurem=data['minpressurem'],
                precipm=data['precipm']))
        time.sleep(6)
        target_date += timedelta(days=1) # add one day to the existing target date
    return records

In [23]:
records = extract_weather_data(BASE_URL, API_KEY, target_date, 500)  

In [24]:
#save records as pickle object 
with open('data/records_batch1.pkl','wb') as fid :
    pickle.dump(records,fid,2)

In [None]:
#get a new request using other 500 requests 
target_date = datetime(2015, 1, 1)  
records_2 = extract_weather_data(BASE_URL, API_KEY, target_date, 500)  

In [None]:
with open('data/records_batch2.pkl','wb') as fid :
    pickle.dump(records_2,fid,2)

In [41]:
#get a new request using other 500 requests 
target_date = datetime(2016, 5, 15)  
records_3 = extract_weather_data(BASE_URL, API_KEY, target_date, 1)  

In [44]:
with open('data/records_batch3.pkl','wb') as fid :
    pickle.dump(records_3,fid,2)

In [36]:
import pickle  
with open('data/records_batch1.pkl', 'rb') as fp:  
    df1 = pickle.load(fp)

In [38]:
with open('data/records_batch2.pkl', 'rb') as fp:  
    df2 = pickle.load(fp)

In [45]:
with open('data/records_batch3.pkl', 'rb') as fp:  
    df3 = pickle.load(fp)

In [48]:
df3

[DailySummary(date=datetime.datetime(2016, 5, 15, 0, 0), meantempm='11', meandewptm='1', meanpressurem='1022', maxhumidity='85', minhumidity='25', maxtempm='18', mintempm='3', maxdewptm='5', mindewptm='-3', maxpressurem='1025', minpressurem='1020', precipm='0.00')]

In [49]:
df2+=df3

In [51]:
df2+=df1

In [52]:
df2

[DailySummary(date=datetime.datetime(2015, 1, 1, 0, 0), meantempm='-6', meandewptm='-12', meanpressurem='1023', maxhumidity='84', minhumidity='54', maxtempm='2', mintempm='-13', maxdewptm='-6', mindewptm='-18', maxpressurem='1025', minpressurem='1019', precipm='0.00'),
 DailySummary(date=datetime.datetime(2015, 1, 2, 0, 0), meantempm='-6', meandewptm='-9', meanpressurem='1022', maxhumidity='92', minhumidity='56', maxtempm='1', mintempm='-12', maxdewptm='-6', mindewptm='-13', maxpressurem='1026', minpressurem='1017', precipm='0.00'),
 DailySummary(date=datetime.datetime(2015, 1, 3, 0, 0), meantempm='-4', meandewptm='-11', meanpressurem='1016', maxhumidity='92', minhumidity='59', maxtempm='3', mintempm='-13', maxdewptm='-4', mindewptm='-16', maxpressurem='1025', minpressurem='1010', precipm='0.76'),
 DailySummary(date=datetime.datetime(2015, 1, 4, 0, 0), meantempm='-14', meandewptm='-19', meanpressurem='1033', maxhumidity='80', minhumidity='46', maxtempm='-12', mintempm='-18', maxdewptm=

In [53]:
with open('data/all_batches.pkl','wb') as fid :
    pickle.dump(df2,fid,2)

In [54]:
with open('data/all_batches.pkl', 'rb') as fp:  
    test = pickle.load(fp)

In [55]:
test

[DailySummary(date=datetime.datetime(2015, 1, 1, 0, 0), meantempm='-6', meandewptm='-12', meanpressurem='1023', maxhumidity='84', minhumidity='54', maxtempm='2', mintempm='-13', maxdewptm='-6', mindewptm='-18', maxpressurem='1025', minpressurem='1019', precipm='0.00'),
 DailySummary(date=datetime.datetime(2015, 1, 2, 0, 0), meantempm='-6', meandewptm='-9', meanpressurem='1022', maxhumidity='92', minhumidity='56', maxtempm='1', mintempm='-12', maxdewptm='-6', mindewptm='-13', maxpressurem='1026', minpressurem='1017', precipm='0.00'),
 DailySummary(date=datetime.datetime(2015, 1, 3, 0, 0), meantempm='-4', meandewptm='-11', meanpressurem='1016', maxhumidity='92', minhumidity='59', maxtempm='3', mintempm='-13', maxdewptm='-4', mindewptm='-16', maxpressurem='1025', minpressurem='1010', precipm='0.76'),
 DailySummary(date=datetime.datetime(2015, 1, 4, 0, 0), meantempm='-14', meandewptm='-19', meanpressurem='1033', maxhumidity='80', minhumidity='46', maxtempm='-12', mintempm='-18', maxdewptm=