### Import des librairies 

In [1]:
# Import des librairies
import pandas as pd
import zipfile
import os

### Lecture des fichiers

In [2]:
zf = zipfile.ZipFile('brut.zip')

columns_velo = ['date','Station','Status','Vélos_dispos','Emplacements_dispos']
columns_meteo = ['Timestamp','Status','Clouds','Humidity','Pressure','Rain','WindGust','WindVarEnd','WindVarBeg','WindDeg','WindSpeed','Snow','TemperatureMax','TemperatureMin','TemperatureTemp']

# lors de la phase de développement, on prend soin de ne lire que les 1000 premières lignes (paramètre nrows=1000)
# pour ne pas travailler directement sur l'entièreté des données
# De plus, on utilise le parseur de date -->
df_stations = pd.read_csv(zf.open('brut/bicincitta_parma_summary.csv'),sep=';') #, nrows=1000)
df_velo = pd.read_csv(zf.open('brut/status_bicincitta_parma.csv'),sep=';', names=columns_velo, parse_dates=['date'])# , nrows=1000,
df_meteo = pd.read_csv(zf.open('brut/weather_bicincitta_parma.csv'),sep=';',names=columns_meteo, parse_dates=['Timestamp'])# , nrows=1000

In [3]:
df_stations.head()

Unnamed: 0,system,station,latitude,longitude,elevation
0,bicincitta_parma,01. Duc,44.807118,10.332934,51.076065
1,bicincitta_parma,02. Ospedale Maggiore,44.802263,10.306275,56.344078
2,bicincitta_parma,03. Traversetolo,44.781595,10.344492,58.324486
3,bicincitta_parma,04. Campus Chimica,44.766433,10.314547,76.587212
4,bicincitta_parma,05. Stazione FF.SS.,44.809888,10.327693,57.179089


In [4]:
df_velo.head()

Unnamed: 0,date,Station,Status,Vélos_dispos,Emplacements_dispos
0,2014-11-14 09:35:38,Duc,1,4,5
1,2014-11-14 09:35:38,Ospedale Maggiore,1,2,7
2,2014-11-14 09:35:38,Traversetolo,1,2,7
3,2014-11-14 09:35:38,Campus Chimica,1,4,5
4,2014-11-14 09:35:38,Stazione FF.SS.,1,9,10


In [5]:
df_meteo

Unnamed: 0,Timestamp,Status,Clouds,Humidity,Pressure,Rain,WindGust,WindVarEnd,WindVarBeg,WindDeg,WindSpeed,Snow,TemperatureMax,TemperatureMin,TemperatureTemp
0,2014-11-14 09:35:38,clouds,40,100,1013.00,{u'3h': 0},,,,200.504,0.84,{},9.00,9.00,9.00
1,2014-11-14 09:45:05,mist,40,100,1014.00,{u'3h': 0},,,,200.504,0.84,{},10.00,10.00,10.00
2,2014-11-14 09:50:05,mist,40,100,1014.00,{u'3h': 0},,,,200.504,0.84,{},10.00,10.00,10.00
3,2014-11-14 09:55:05,clouds,40,100,1013.00,{u'3h': 0},,,,200.504,0.84,{},9.00,9.00,9.00
4,2014-11-14 10:00:04,mist,40,100,1014.00,{u'3h': 0},,,,200.504,0.84,{},10.00,10.00,10.00
5,2014-11-14 10:05:05,mist,40,100,1014.00,{u'3h': 0},,,,200.504,0.84,{},10.00,10.00,10.00
6,2014-11-14 10:10:05,clouds,40,100,1013.00,{u'3h': 0},,,,200.504,0.84,{},9.00,9.00,9.00
7,2014-11-14 10:15:05,mist,40,100,1014.00,{u'3h': 0},,,,200.504,0.84,{},10.00,10.00,10.00
8,2014-11-14 10:20:04,mist,40,100,1014.00,{u'3h': 0},,,,200.504,0.84,{},10.00,10.00,10.00
9,2014-11-14 10:25:06,mist,40,100,1014.00,{u'3h': 0},,,,200.504,0.84,{},10.00,10.00,10.00


### Suppression données abérentes

#### dates et heures

Lors de la lecture des fichiers csv, nous nous sommes assuré que la colonne des dates et heures contient des données cohérentes (paramètre parse_date=['non_colonne']). On considère que si aucune erreur ne ressort, ce qui est le cas, c'est que les données ne sont pas abérentes.

In [6]:
print(df_meteo.info())
print(df_velo.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 315382 entries, 0 to 315381
Data columns (total 15 columns):
Timestamp          315382 non-null datetime64[ns]
Status             315382 non-null object
Clouds             315382 non-null int64
Humidity           315382 non-null int64
Pressure           315382 non-null float64
Rain               315382 non-null object
WindGust           315382 non-null object
WindVarEnd         315382 non-null object
WindVarBeg         315382 non-null object
WindDeg            315382 non-null object
WindSpeed          315382 non-null float64
Snow               315382 non-null object
TemperatureMax     315382 non-null float64
TemperatureMin     315382 non-null float64
TemperatureTemp    315382 non-null float64
dtypes: datetime64[ns](1), float64(5), int64(2), object(7)
memory usage: 36.1+ MB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7962007 entries, 0 to 7962006
Data columns (total 5 columns):
date                   datetime64[ns]
Station    

On peut voir que pour ces deux dataframes, les colonnes qui contiennent les dates et heures ont des données de type datetime64, ce qui est cohérent.

#### Erreur de collecte 

In [7]:
# On supprime les lignes pour lesquelles il y a eu une erreur de collecte (Status différent de 1)
print(len(df_velo))
df_velo = df_velo[df_velo.Status == 1] 
print(len(df_velo))

7962007
7962007


Il semblerait qu'il n'y ait pas eu d'erreur de collecte car la taille du dataframe reste inchangée.

### Normalisation nom des stations

In [8]:
stations_df_velo = df_velo['Station'].unique() 
stations_df_stations = df_stations['station'].unique()

In [9]:
print(stations_df_velo)
print('===========================================================================')
print(stations_df_stations)

['Duc' 'Ospedale Maggiore' 'Traversetolo' 'Campus Chimica'
 'Stazione FF.SS.' 'Ponte di Mezzo' 'Santa Croce' 'Bixio' 'Farini'
 'Barilla Center' 'Dus' 'Barezzi' 'Borgo XX Marzo' 'Garibaldi'
 'Repubblica' 'Toschi' 'Rondani' 'Crocetta' 'Boito' 'Efsa' 'Kennedy'
 'Cittadella' 'Vittoria' 'Campus' '08. Bixio' '10. Barilla Center'
 '12. Barezzi' '19. Boito' '04. Campus Chimica' '13. Borgo XX Marzo'
 '24. Campus' '01. Duc' '02. Ospedale Maggiore' '06. Ponte di Mezzo'
 '07. Santa Croce' '09. Farini' '11. Dus' '14. Garibaldi' '15. Repubblica'
 '17. Rondani' '18. Crocetta' '20. Efsa' '21. Kennedy' '22. Cittadella'
 '03. Traversetolo' '05. Stazione FF.SS.' '16. Toschi' '23. Vittoria'
 '25. Ospedale' '26. Palasport' '25. Ospedale - viale Osacca']
['01. Duc' '02. Ospedale Maggiore' '03. Traversetolo' '04. Campus Chimica'
 '05. Stazione FF.SS.' '06. Ponte di Mezzo' '07. Santa Croce' '08. Bixio'
 '09. Farini' '10. Barilla Center' '11. Dus' '12. Barezzi'
 '13. Borgo XX Marzo' '14. Garibaldi' '15. Repubb

Nous pouvons observer qu'il manque le nom de 3 stations dans df_stations : 
* 25. Ospedale
* 26. Palasport
* 25. Ospedale - viale Osacca

Il semblerait que la première et la dernière soient les mêmes car elles portent le même numéro de station. De plus, le nom des stations diffère entre les deux dataframes car le numéro de la station n'est pas indiqué dans certains cas dans df_velo.

In [10]:
dict_noms = {stations_df_velo[i]: stations_df_stations[i] for i in range(24)}
dict_noms['25. Ospedale'] = '25. Ospedale - viale Osacca'
df_velo = df_velo.replace({'Station':dict_noms})

In [11]:
stations_df_velo = df_velo['Station'].unique() 
print(stations_df_velo)

assert stations_df_velo[:24].all() == stations_df_stations.all()

['01. Duc' '02. Ospedale Maggiore' '03. Traversetolo' '04. Campus Chimica'
 '05. Stazione FF.SS.' '06. Ponte di Mezzo' '07. Santa Croce' '08. Bixio'
 '09. Farini' '10. Barilla Center' '11. Dus' '12. Barezzi'
 '13. Borgo XX Marzo' '14. Garibaldi' '15. Repubblica' '16. Toschi'
 '17. Rondani' '18. Crocetta' '19. Boito' '20. Efsa' '21. Kennedy'
 '22. Cittadella' '23. Vittoria' '24. Campus'
 '25. Ospedale - viale Osacca' '26. Palasport']


### Ré-échantillonnage des données

In [12]:
def resample_and_clean(df):
    df.set_index('Timestamp', inplace=True)
    df = df.resample('10min', label='left', closed='right').first()
    df.dropna(inplace=True)
    df.reset_index(inplace=True)
    return df
    
df_velo.rename(columns={'date': 'Timestamp'}, inplace=True)
# On fait deux choses ici : on passe en paramètre à la fonction un df correspondant aux données d'une et une seule
# station à la fois, et la fonction nous renvoie un nouveau df sur lequel on a fait du down-sampling
dict_dfs_velo = {p: resample_and_clean(df_velo[df_velo.Station == p]) for p in stations_df_velo}
df_meteo = resample_and_clean(df_meteo)

In [13]:
dict_dfs_velo['14. Garibaldi'].head()

Unnamed: 0,Timestamp,Station,Status,Vélos_dispos,Emplacements_dispos
0,2014-11-14 09:30:00,14. Garibaldi,1.0,4.0,2.0
1,2014-11-14 09:40:00,14. Garibaldi,1.0,4.0,1.0
2,2014-11-14 09:50:00,14. Garibaldi,1.0,4.0,1.0
3,2014-11-14 10:00:00,14. Garibaldi,1.0,4.0,1.0
4,2014-11-14 10:10:00,14. Garibaldi,1.0,4.0,1.0


In [14]:
df_meteo.head()

Unnamed: 0,Timestamp,Status,Clouds,Humidity,Pressure,Rain,WindGust,WindVarEnd,WindVarBeg,WindDeg,WindSpeed,Snow,TemperatureMax,TemperatureMin,TemperatureTemp
0,2014-11-14 09:30:00,clouds,40.0,100.0,1013.0,{u'3h': 0},,,,200.504,0.84,{},9.0,9.0,9.0
1,2014-11-14 09:40:00,mist,40.0,100.0,1014.0,{u'3h': 0},,,,200.504,0.84,{},10.0,10.0,10.0
2,2014-11-14 09:50:00,mist,40.0,100.0,1014.0,{u'3h': 0},,,,200.504,0.84,{},10.0,10.0,10.0
3,2014-11-14 10:00:00,mist,40.0,100.0,1014.0,{u'3h': 0},,,,200.504,0.84,{},10.0,10.0,10.0
4,2014-11-14 10:10:00,clouds,40.0,100.0,1013.0,{u'3h': 0},,,,200.504,0.84,{},9.0,9.0,9.0


### Fusion données vélo et météo

In [15]:
def merge_with_timestampIndex(df1, df2):       
    df = df2.merge(df1, on='Timestamp', how='inner')
    return df

dict_dfs_fusion = {p: merge_with_timestampIndex(df_meteo,dict_dfs_velo[p]) for p in stations_df_velo}

Maintenant qu'on a fusionné les données, on peut supprimer les colonnes dont on n'a pas besoin et s'assurer que les colonnes sont dans le bon ordre. Précisons qu'il aurait été possible dès le départ de lire les colonnes de notre choix depuis les csv, mais l'énoncé de l'exercice laissait penser que cette étape devait être faite après la lecture de l'ensemble des données brutes. (N.B: sans lire toutes les lignes lors de la phase de développement)

In [16]:
mapper = {'Vélos_dispos':'Bikes','Emplacements_dispos':'Slots','Status_y': 'Status'}

def clean_df(df):
    df.rename(mapper=mapper, axis='columns', inplace=True)    
    df.drop(df.columns[[2, 6, 10, 11, 12, 16, 17]], axis=1, inplace=True)
    total = df['Bikes'] + df['Slots']
    df.insert(4, 'Total', total)    
    return df
    
dict_dfs_fusion = {p: clean_df(dict_dfs_fusion[p]) for p in stations_df_velo}

In [17]:
dict_dfs_fusion['21. Kennedy'].head()

Unnamed: 0,Timestamp,Station,Bikes,Slots,Total,Status,Humidity,Pressure,Rain,WindDeg,WindSpeed,Snow,TemperatureTemp
0,2014-11-14 09:30:00,21. Kennedy,5.0,5.0,10.0,clouds,100.0,1013.0,{u'3h': 0},200.504,0.84,{},9.0
1,2014-11-14 09:40:00,21. Kennedy,5.0,5.0,10.0,mist,100.0,1014.0,{u'3h': 0},200.504,0.84,{},10.0
2,2014-11-14 09:50:00,21. Kennedy,4.0,6.0,10.0,mist,100.0,1014.0,{u'3h': 0},200.504,0.84,{},10.0
3,2014-11-14 10:00:00,21. Kennedy,4.0,6.0,10.0,mist,100.0,1014.0,{u'3h': 0},200.504,0.84,{},10.0
4,2014-11-14 10:10:00,21. Kennedy,4.0,6.0,10.0,clouds,100.0,1013.0,{u'3h': 0},200.504,0.84,{},9.0


### Sauvegarde des données

In [18]:
def safe_to_gz_csv(df, station):    
    path = 'data/' + station    
    try:
        os.makedirs(path, exist_ok=True)
    except FileExistsError:
        pass   
    # On récupère les index correspondant aux "trous" de plus de 10min dans la colonne Timestamp
    index_trou = df[df['Timestamp'].diff().dt.seconds > 600].index 
    last_index = 0 # Sorte de mémoire tempon     
    for index in index_trou:       
        df[last_index:index].to_csv(path+'/'+station+str(df.loc[last_index,'Timestamp'])+'.csv.gz', sep='\t', encoding='utf-8', index=False, compression='infer')
        last_index = index
    # On n'oublie pas d'enregistrer la dernière portion de df allant du dernier trou connu à la fin du df
    df[last_index:].to_csv(path+'/'+station+str(df.loc[last_index,'Timestamp'])+'.csv.gz', sep='\t', encoding='utf-8', index=False, compression='infer')

    
for p in stations_df_velo:
    safe_to_gz_csv(dict_dfs_fusion[p],p)

Le resultat des différents fichiers enregistrés peut être observé dans le dossier nommé data.