### Import des librairies 

In [1]:
# Import des librairies
import pandas as pd
import zipfile
import os

### Lecture des fichiers

In [2]:
zf = zipfile.ZipFile('brut.zip')

columns_velo = ['date','Station','Status','Vélos_dispos','Emplacements_dispos']
columns_meteo = ['Timestamp','Status','Clouds','Humidity','Pressure','Rain','WindGust','WindVarEnd','WindVarBeg','WindDeg','WindSpeed','Snow','TemperatureMax','TemperatureMin','TemperatureTemp']

# lors de la phase de développement, on prend soin de ne lire que les 1000 premières lignes (paramètre nrows=1000)
# pour ne pas travailler directement sur l'entièreté des données
# De plus, on utilise le parseur de date -->
df_stations = pd.read_csv(zf.open('brut/bicincitta_parma_summary.csv'),sep=';') #, nrows=1000)
df_velo = pd.read_csv(zf.open('brut/status_bicincitta_parma.csv'),sep=';', names=columns_velo, parse_dates=['date'])# , nrows=1000,
df_meteo = pd.read_csv(zf.open('brut/weather_bicincitta_parma.csv'),sep=';',names=columns_meteo, parse_dates=['Timestamp'])# , nrows=1000

In [3]:
df_stations.head()

Unnamed: 0,system,station,latitude,longitude,elevation
0,bicincitta_parma,01. Duc,44.807118,10.332934,51.076065
1,bicincitta_parma,02. Ospedale Maggiore,44.802263,10.306275,56.344078
2,bicincitta_parma,03. Traversetolo,44.781595,10.344492,58.324486
3,bicincitta_parma,04. Campus Chimica,44.766433,10.314547,76.587212
4,bicincitta_parma,05. Stazione FF.SS.,44.809888,10.327693,57.179089


In [4]:
df_velo.head()

Unnamed: 0,date,Station,Status,Vélos_dispos,Emplacements_dispos
0,2014-11-14 09:35:38,Duc,1,4,5
1,2014-11-14 09:35:38,Ospedale Maggiore,1,2,7
2,2014-11-14 09:35:38,Traversetolo,1,2,7
3,2014-11-14 09:35:38,Campus Chimica,1,4,5
4,2014-11-14 09:35:38,Stazione FF.SS.,1,9,10


In [5]:
df_meteo.head()

Unnamed: 0,Timestamp,Status,Clouds,Humidity,Pressure,Rain,WindGust,WindVarEnd,WindVarBeg,WindDeg,WindSpeed,Snow,TemperatureMax,TemperatureMin,TemperatureTemp
0,2014-11-14 09:35:38,clouds,40,100,1013.0,{u'3h': 0},,,,200.504,0.84,{},9.0,9.0,9.0
1,2014-11-14 09:45:05,mist,40,100,1014.0,{u'3h': 0},,,,200.504,0.84,{},10.0,10.0,10.0
2,2014-11-14 09:50:05,mist,40,100,1014.0,{u'3h': 0},,,,200.504,0.84,{},10.0,10.0,10.0
3,2014-11-14 09:55:05,clouds,40,100,1013.0,{u'3h': 0},,,,200.504,0.84,{},9.0,9.0,9.0
4,2014-11-14 10:00:04,mist,40,100,1014.0,{u'3h': 0},,,,200.504,0.84,{},10.0,10.0,10.0


### Suppression données abérentes

#### dates et heures

Lors de la lecture des fichiers csv, nous nous sommes assuré que la colonne des dates et heures contient des données cohérentes (paramètre parse_date=['non_colonne']). On considère que si aucune erreur ne ressort, ce qui est le cas, c'est que les données ne sont pas abérentes.

In [6]:
print(df_meteo.info())
print(df_velo.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 315382 entries, 0 to 315381
Data columns (total 15 columns):
Timestamp          315382 non-null datetime64[ns]
Status             315382 non-null object
Clouds             315382 non-null int64
Humidity           315382 non-null int64
Pressure           315382 non-null float64
Rain               315382 non-null object
WindGust           315382 non-null object
WindVarEnd         315382 non-null object
WindVarBeg         315382 non-null object
WindDeg            315382 non-null object
WindSpeed          315382 non-null float64
Snow               315382 non-null object
TemperatureMax     315382 non-null float64
TemperatureMin     315382 non-null float64
TemperatureTemp    315382 non-null float64
dtypes: datetime64[ns](1), float64(5), int64(2), object(7)
memory usage: 36.1+ MB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7962007 entries, 0 to 7962006
Data columns (total 5 columns):
date                   datetime64[ns]
Station    

On peut voir que pour ces deux dataframes, les colonnes qui contiennent les dates et heures ont des données de type datetime64, ce qui est cohérent.

#### Erreur de collecte 

In [7]:
# On supprime les lignes pour lesquelles il y a eu une erreur de collecte (Status différent de 1)
df_velo = df_velo[df_velo.Status == 1] 

### Normalisation nom des stations

In [8]:
stations_df_velo = df_velo['Station'].unique() 
stations_df_stations = df_stations['station'].unique()

In [9]:
print(stations_df_velo)
print('===========================================================================')
print(stations_df_stations)

['Duc' 'Ospedale Maggiore' 'Traversetolo' 'Campus Chimica'
 'Stazione FF.SS.' 'Ponte di Mezzo' 'Santa Croce' 'Bixio' 'Farini'
 'Barilla Center' 'Dus' 'Barezzi' 'Borgo XX Marzo' 'Garibaldi'
 'Repubblica' 'Toschi' 'Rondani' 'Crocetta' 'Boito' 'Efsa' 'Kennedy'
 'Cittadella' 'Vittoria' 'Campus' '08. Bixio' '10. Barilla Center'
 '12. Barezzi' '19. Boito' '04. Campus Chimica' '13. Borgo XX Marzo'
 '24. Campus' '01. Duc' '02. Ospedale Maggiore' '06. Ponte di Mezzo'
 '07. Santa Croce' '09. Farini' '11. Dus' '14. Garibaldi' '15. Repubblica'
 '17. Rondani' '18. Crocetta' '20. Efsa' '21. Kennedy' '22. Cittadella'
 '03. Traversetolo' '05. Stazione FF.SS.' '16. Toschi' '23. Vittoria'
 '25. Ospedale' '26. Palasport' '25. Ospedale - viale Osacca']
['01. Duc' '02. Ospedale Maggiore' '03. Traversetolo' '04. Campus Chimica'
 '05. Stazione FF.SS.' '06. Ponte di Mezzo' '07. Santa Croce' '08. Bixio'
 '09. Farini' '10. Barilla Center' '11. Dus' '12. Barezzi'
 '13. Borgo XX Marzo' '14. Garibaldi' '15. Repubb

Nous pouvons observer qu'il manque le nom de 3 stations dans df_stations : 
   > lol
   > lol2

De plus, le nom des stations diffère entre les deux dataframes car le numéro de la station n'est pas indiqué dans df_status.  Néanmoins, dans aucun des deux dataframes les noms de stations ne se répètent.

In [22]:
dict_noms = {stations_df_velo[i]: stations_df_stations[i] for i in range(24)}
dict_noms[]
df_velo['Station'] = df_velo['Station'].map(dict_noms)

IndexError: index 24 is out of bounds for axis 0 with size 24

In [23]:
stations_df_velo = df_velo['Station'].unique() 
print(stations_df_velo)

assert stations_df_velo[:25].all() == stations_df_stations.all()

['01. Duc' '02. Ospedale Maggiore' '03. Traversetolo' '04. Campus Chimica'
 '05. Stazione FF.SS.' '06. Ponte di Mezzo' '07. Santa Croce' '08. Bixio'
 '09. Farini' '10. Barilla Center' '11. Dus' '12. Barezzi'
 '13. Borgo XX Marzo' '14. Garibaldi' '15. Repubblica' '16. Toschi'
 '17. Rondani' '18. Crocetta' '19. Boito' '20. Efsa' '21. Kennedy'
 '22. Cittadella' '23. Vittoria' nan]


AssertionError: 

### Ré-échantillonnage des données

On commence d'abord par créer un dataframe pour chaque station afin de faire un ré-échantillonnage adéquat. 

On peut ensuite faire le ré-échantillonage des données

In [13]:
dict_dfs_velo = {p: df_velo[df_velo.Station == p] for p in stations_df_velo}

for p in stations_df_velo:
    dict_dfs_velo[p].set_index('date', inplace=True)
    dict_dfs_velo[p] = dict_dfs_velo[p].resample('10min').last()
    dict_dfs_velo[p].reset_index(inplace=True)
    
df_meteo.set_index('Timestamp', inplace = True)
df_meteo = df_meteo.resample('10min').last()
df_meteo.reset_index(inplace = True)

In [14]:
dict_dfs_velo['14. Garibaldi'].head()

Unnamed: 0,date,Station,Status,Vélos_dispos,Emplacements_dispos
0,2014-11-14 09:30:00,14. Garibaldi,1.0,4.0,2.0
1,2014-11-14 09:40:00,14. Garibaldi,1.0,4.0,1.0
2,2014-11-14 09:50:00,14. Garibaldi,1.0,4.0,1.0
3,2014-11-14 10:00:00,14. Garibaldi,1.0,4.0,1.0
4,2014-11-14 10:10:00,14. Garibaldi,1.0,3.0,2.0


In [15]:
df_meteo.head()

Unnamed: 0,Timestamp,Status,Clouds,Humidity,Pressure,Rain,WindGust,WindVarEnd,WindVarBeg,WindDeg,WindSpeed,Snow,TemperatureMax,TemperatureMin,TemperatureTemp
0,2014-11-14 09:30:00,clouds,40.0,100.0,1013.0,{u'3h': 0},,,,200.504,0.84,{},9.0,9.0,9.0
1,2014-11-14 09:40:00,mist,40.0,100.0,1014.0,{u'3h': 0},,,,200.504,0.84,{},10.0,10.0,10.0
2,2014-11-14 09:50:00,clouds,40.0,100.0,1013.0,{u'3h': 0},,,,200.504,0.84,{},9.0,9.0,9.0
3,2014-11-14 10:00:00,mist,40.0,100.0,1014.0,{u'3h': 0},,,,200.504,0.84,{},10.0,10.0,10.0
4,2014-11-14 10:10:00,mist,40.0,100.0,1014.0,{u'3h': 0},,,,200.504,0.84,{},10.0,10.0,10.0


### Fusion données vélo et météo

In [16]:
def merge_with_timestampIndex(df1, df2):       
    df2.rename(columns={'date': 'Timestamp'}, inplace=True)
    df = df2.merge(df1, on='Timestamp')
    return df

dict_dfs_fusion = {p: merge_with_timestampIndex(df_meteo,dict_dfs_velo[p]) for p in stations_df_velo}

Maintenant qu'on a fusionné les données, on peut supprimer les colonnes dont on n'a pas besoin et s'assurer que les colonnes sont dans le bon ordre. Précisons qu'il aurait été possible dès le départ de lire les colonnes de notre choix depuis les csv, mais l'énoncé de l'exercice laissait penser que cette étape devait être faite après la lecture de l'ensemble des données brutes.

In [17]:
dict_dfs_fusion['17. Rondani'].head()

Unnamed: 0,Timestamp,Station,Status_x,Vélos_dispos,Emplacements_dispos,Status_y,Clouds,Humidity,Pressure,Rain,WindGust,WindVarEnd,WindVarBeg,WindDeg,WindSpeed,Snow,TemperatureMax,TemperatureMin,TemperatureTemp
0,2014-11-14 09:30:00,17. Rondani,1.0,2.0,8.0,clouds,40.0,100.0,1013.0,{u'3h': 0},,,,200.504,0.84,{},9.0,9.0,9.0
1,2014-11-14 09:40:00,17. Rondani,1.0,2.0,8.0,mist,40.0,100.0,1014.0,{u'3h': 0},,,,200.504,0.84,{},10.0,10.0,10.0
2,2014-11-14 09:50:00,17. Rondani,1.0,2.0,8.0,clouds,40.0,100.0,1013.0,{u'3h': 0},,,,200.504,0.84,{},9.0,9.0,9.0
3,2014-11-14 10:00:00,17. Rondani,1.0,2.0,8.0,mist,40.0,100.0,1014.0,{u'3h': 0},,,,200.504,0.84,{},10.0,10.0,10.0
4,2014-11-14 10:10:00,17. Rondani,1.0,2.0,8.0,mist,40.0,100.0,1014.0,{u'3h': 0},,,,200.504,0.84,{},10.0,10.0,10.0


In [18]:
mapper = {'Vélos_dispos':'Bikes','Emplacements_dispos':'Slots','Status_y': 'Status'}

def clean_df(df):
    df.rename(mapper=mapper, axis='columns', inplace=True)    
    df.drop(df.columns[[2, 6, 10, 11, 12, 16, 17]], axis=1, inplace=True)
    total = df['Bikes'] + df['Slots']
    df.insert(4, 'Total', total)    
    return df
    
dict_dfs_fusion = {p: clean_df(dict_dfs_fusion[p]) for p in stations_df_velo}

KeyError: 'Bikes'

In [None]:
dict_dfs_fusion['21. Kennedy'].head()

### Sauvegarde des données

In [None]:
def safe_to_gz_csv(df, station):
    
    path = 'data/' + station
    index_trou = df[df['Timestamp'].diff().dt.seconds > 600].index # On récupère les index correspondant aux trous
    last_index = 0
    
    for index in index_trou:      
        try:
            os.makedirs(path, exist_ok=True)
        except FileExistsError:
        # If repository exists yet
            pass
        df[last_index:index].to_csv(path+'/'+station+str(df.loc[last_index,'Timestamp'])+'.csv', sep='\t', encoding='utf-8', index=False, compression='gzip')
        last_index = index
        
    df[last_index:].to_csv(path+'/'+station+str(df.loc[last_index,'Timestamp'])+'.csv', sep='\t', encoding='utf-8', index=False, compression='gzip')
    
for p in stations_df_velo:
    safe_to_gz_csv(dict_dfs_fusion[p],p)

Le resultat des différents fichiers enregistrés peut être observé dans le dossier nommé data.