# Data wrangling

El dataset de movilidad se descargó día por día desde R; cada mes está contenido en una carpeta con nombre en formato `aaaadd`. El objetivo de esta libreta es crear el conjunto de datos del mes a partir de las descargas diarias.

### Resumen de datos leídos, número de registros y tiempo de procesamiento:

Septiembre

- Archivos leídos: 13
- Total de registros: 13160173
- CPU times: user 41.7 s, sys: 6.34 s, total: 48 s
- Wall time: 50.6 s
    
Octubre

- Wall time: 14min 24s
- Archivos leídos: 31
- Total de registros: 27898954
- CPU times: user 1min 52s, sys: 56.7 s, total: 2min 49s
- Wall time: 3min 50s


Noviembre

- Archivos leídos: 30
- Total de registros: 27142164
- CPU times: user 1min 48s, sys: 51.4 s, total: 2min 39s
- Wall time: 4min 30s

Diciembre

- Archivos leídos: 13
- Total de registros: 12381161
- CPU times: user 40.5 s, sys: 5.54 s, total: 46.1 s
- Wall time: 48.2 s

In [1]:
import pandas as pd
import os
import shutil

In [28]:
def CreaArchivoMes(mes):
    """Lee archivos de movilidad diario y crea un data frame del mes.
    Los archivos csv deben estar en la carpeta 'data_google/2020mm'
    
    Parameters
    ----------
    mes : Mes en formato mm (chr)
    
    Returns
    ----------
    df : data frame con datos de movilidad
    registrosxdia : data frame con cantidad de registros por día (deshabilitado)
    """
    
    folder = '../data_google/2020'+mes+'/'
    archivosDia = os.listdir(folder)
    df = pd.DataFrame()
    dimension = 0
    #registrosxdia = pd.DataFrame()
    for file in archivosDia:
        if os.path.isfile(os.path.join(folder, file)) and file.endswith('.csv'):
            print('Leyendo...' + file)
            temp = pd.read_csv(f"{folder}{file}", dtype={'tier1': 'str', 'tier2': 'str', 'IDL': 'str'})
            #registrosxdia = registrosxdia.append([(file, temp.shape[0])])
            df = pd.concat([df, temp])
            dimension = dimension + temp.shape[0]
    print('Archivos leídos: ')
    print(len(archivosDia))
    print('Total de registros: ')
    print(dimension)
    return df

In [None]:
#GoogleCloud09 = CreaArchivoMes('09')
#GoogleCloud10 = CreaArchivoMes('10')
#GoogleCloud11 = CreaArchivoMes('11')
#GoogleCloud12 = CreaArchivoMes('12')

In [13]:
#shutil.make_archive('../data_google/202009', 'zip', '../data_google/202009')
#shutil.make_archive('../data_google/202010', 'zip', '../data_google/202010')
#shutil.make_archive('../data_google/202011', 'zip', '../data_google/202011')
#shutil.make_archive('../data_google/202012', 'zip', '../data_google/202012')

'/Users/arling/git/movilidad/data_google/202012.zip'

In [22]:
#GoogleCloud09 = GoogleCloud09.drop(GoogleCloud09.columns[0], axis='columns')
#GoogleCloud10 = GoogleCloud10.drop(GoogleCloud10.columns[0], axis='columns')
#GoogleCloud11 = GoogleCloud11.drop(GoogleCloud11.columns[0], axis='columns')
#GoogleCloud12 = GoogleCloud12.drop(GoogleCloud12.columns[0], axis='columns')

### Guarda datos del mes en formato parquet

- Septiembre: 42.9s

- Octubre: 2m 26.5s

- Noviembre: 1m 17.1s

- Diciembre: 38.7s


In [21]:
#GoogleCloud09.to_parquet('../data_google/GoogleCloud_202009.parquet')
#GoogleCloud10.to_parquet('../data_google/GoogleCloud_202010.parquet')
#GoogleCloud11.to_parquet('../data_google/GoogleCloud_202011.parquet')
#GoogleCloud12.to_parquet('../data_google/GoogleCloud_202012.parquet')

In [35]:
print(GoogleCloud09.shape)
print(GoogleCloud10.shape)
print(GoogleCloud11.shape)
print(GoogleCloud12.shape)
print(GoogleCloud09.shape[0] + GoogleCloud10.shape[0] + GoogleCloud11.shape[0] + GoogleCloud12.shape[0])

(13160173, 12)
(27898954, 12)
(27142164, 12)
(12381161, 12)
80582452


- (13160173, 13)
- (27898954, 13)
- (27142164, 13)
- (12381161, 13)

Total: 80582452

Guarda datos en formato parquet.

In [3]:
GoogleCloud09 = pd.read_parquet('../data_google/GoogleCloud_202009.parquet')
GoogleCloud10 = pd.read_parquet('../data_google/GoogleCloud_202010.parquet')
GoogleCloud11 = pd.read_parquet('../data_google/GoogleCloud_202011.parquet')
GoogleCloud12 = pd.read_parquet('../data_google/GoogleCloud_202012.parquet')

In [4]:
df = pd.concat([GoogleCloud09, GoogleCloud10, GoogleCloud11, GoogleCloud12])

In [8]:
df.to_parquet('../data_google/GoogleCloud.parquet')