 # Lectura y preparación de datos

 ## Imports

In [1]:
import os
import sys
import numpy as np
import pandas as pd


 ## Lectura de ficheros csv

 #### Se hace una primera inspección de los ficheros descargados, sin leerlos, y se comprueba que hay 15 ficheros csv que van del año 2003 al 2017. El correspondiente al año 2003 es particularmente pequeño comparado con los otros.

In [2]:
get_ipython().system('dir raw\\utmb*.csv')


 Volume in drive C is os
 Volume Serial Number is 48F1-458F

 Directory of c:\Users\David\OneDrive\uah\03_ead\Python\pecP\raw

08/31/2018  09:41 AM             4,323 utmb_2003.csv
08/31/2018  09:41 AM           201,568 utmb_2004.csv
08/31/2018  09:41 AM           379,090 utmb_2005.csv
08/31/2018  09:41 AM           543,503 utmb_2006.csv
08/31/2018  09:41 AM           486,606 utmb_2007.csv
08/31/2018  09:41 AM           531,808 utmb_2008.csv
08/31/2018  09:41 AM           523,047 utmb_2009.csv
08/31/2018  09:41 AM           210,565 utmb_2010.csv
08/31/2018  09:41 AM           510,921 utmb_2011.csv
08/31/2018  09:41 AM           383,876 utmb_2012.csv
08/31/2018  09:41 AM           599,283 utmb_2013.csv
08/31/2018  09:41 AM           576,243 utmb_2014.csv
08/31/2018  09:41 AM           624,196 utmb_2015.csv
08/31/2018  09:41 AM           606,449 utmb_2016.csv
08/31/2018  09:41 AM           615,921 utmb_2017.csv
              15 File(s)      6,797,399 bytes
               0 Dir(s)  57,563,

 #### Para poder cargar cada fichero como un dataframe sin tener que definir explícitamente una variable para cada uno de ellos, los almacenaré en un diccionario cuya clave será el año del fichero y el valor, el dataframe correspondiente. Igualmente, se guardarán en un único dataframe todos los dataframe anuales concatenados, así se podrán inspeccionar todos los datos juntos. A cada dataframe se le añade una variable con el año correspondiente. Declaro una función auxiliar para poder leer los ficheros ya que será reutilizada más adelante. Para esta parte del trabajo será suficiente leer solo un par de filas.

In [3]:
root = '.\\'
raw_folder = 'raw'
files = os.listdir(root + raw_folder)


def full_file(folder, file):
    return root + folder + '/' + file


In [4]:
# función auxiliar para cargar csv. Si nrows es menor que 0 devuelve todas las filas


def read_csvs(nrows, show=True):
    dic = dict()
    df = pd.DataFrame()
    for file in files:
        year = file[5:9]
        if nrows > 0:
            args = {'filepath_or_buffer': full_file(
                raw_folder, file), 'nrows': nrows}
        else:
            args = args = {'filepath_or_buffer': full_file(raw_folder, file)}
        dic[year] = pd.read_csv(**args)
        dfd = dic[year]
        dfd['Year'] = year
        if show:
            # muestra el nombre del fichero y sus columnas
            print(year, list(dfd))
        df = pd.concat([df, dfd], sort=False)
    return dic, df


df_dict, df = read_csvs(nrows=2)


2003 ['Unnamed: 0', 'bib', 'name', 'team', 'category', 'rank', 'nationality', 'time', 'timediff', 'Year']
2004 ['Unnamed: 0', 'bib', 'name', 'team', 'category', 'rank', 'nationality', 'time', 'timediff', 'Voza', 'Conta', 'Bonhom', 'Chap', 'Seigne', 'Favre', 'Courm', 'Bertone', 'Elena', 'ColFerr', 'Fouly', 'Champ', 'Bovine', 'Trient', 'Vallorc', 'Gardes', 'Cham', 'Year']
2005 ['Unnamed: 0', 'bib', 'name', 'team', 'category', 'rank', 'nationality', 'time', 'timediff', 'Col de Voza', 'Les Contamines', 'La Balme', 'Les Chapieux CCAS', 'Col de la Seigne', 'Refuge Elisabetta', 'Arête Mont-Favre', 'Col Chécrouit - Maison Vieille', 'Courmayeur - Dolonne', 'Refuge Bertone', 'Refuge Bonatti', 'Arnuva', 'Grand Col Ferret', 'La Peulaz', 'La Fouly', 'Praz de Fort', "Champex d'en Bas", 'Bovine', 'Trient', 'Les Tseppes', 'Vallorcine', 'Argentière', 'Chamonix - Arrivée', 'Year']
2006 ['Unnamed: 0', 'bib', 'name', 'team', 'category', 'rank', 'nationality', 'time', 'timediff', 'Col de Voza', 'Les Contam

 ## Preparación de datos

 #### Vemos que en el número y nombre de columnas de cada dataframe es bastante variable.

In [5]:
df.shape


(30, 136)

 #### En el dataframe global tenemos ¡136! columnas cuyos nombres se listan abajo, hay que tener en cuenta que las que tienen el mismo nombre en los ficheros de origen solo se ven una vez, nos espera un arduo trabajo... Comienzo por listar las columnas ordenadas alfabéticamente:

In [6]:
columns = np.array(list(df))
columns.sort()
columns


array(['-1km', 'Argent', 'Argentière', 'Arnouvaz', 'Arnuva', 'Arrivee',
       'Arrivé', 'Arrivée', 'Arête Mont-Favre', 'Balme', 'Berton',
       'Bertone', 'Bonatti', 'Bonhom', 'Bonhomme', 'Bovine', 'Catogn',
       'Catogne', 'Cham', 'Chamonix - Arrivée', 'Champ', 'Champex',
       'Champex La', 'Champex Lac', "Champex d'en Bas", 'Chap', 'Chapieu',
       'Chapieux', 'Charme', 'Checr', 'Checrou', 'Checruit',
       'Col Chécrouit - Maison Vieille', 'Col Ferret', 'Col Montet',
       'Col Seigne', 'Col de Voza', 'Col de la Seigne', 'ColFerr',
       'Combal', 'Conta', 'Contamines', 'Courm', 'Courm1', 'Courm2',
       'Courmayeur', 'Courmayeur - Dolonne', 'Delev', 'Delevre',
       'Delevret', 'Elena', 'Favre', 'Ferret', 'Fleg', 'Flegere',
       'Flégère', 'Fouly', 'Gardes', 'GdColF', 'Giete', 'Giète',
       'Grand Col Ferret', 'La Balme', 'La Charme', 'La Fouly',
       'La Giète', 'La Peulaz', 'Lac Combal', 'Les Chapieux CCAS',
       'Les Contamines', 'Les Tseppe', 'Les Tseppes', 

 #### Se observan básicamente dos cosas:
 1. Algunas de ellas están repetidas, pero cambia la capitalización de las letras: ```'Champ' – 'champ'```.
 2. Muchas de ellas se parecen ej.: ```'Champex La', 'Champex Lac'```.

 #### Pasamos todos los nombres de columnas a minúsculas y recuperamos los valores únicos.

In [7]:
columns = np.char.lower(np.array(list(df)))
columns = np.lib.arraysetops.unique(columns)
columns


array(['-1km', 'argent', 'argenti', 'argentière', 'arnouvaz', 'arnuv',
       'arnuva', 'arrivee', 'arrivé', 'arrivée', 'arête mont-favre',
       'balme', 'bellevu', 'bert', 'berton', 'bertone', 'bib', 'bonat',
       'bonatti', 'bonhom', 'bonhomme', 'bovine', 'category', 'catog',
       'catogn', 'catogne', 'cham', 'chamonix - arrivée', 'champ',
       'champex', "champex d'en bas", 'champex la', 'champex lac', 'chap',
       'chapieu', 'chapieux', 'charme', 'checr', 'checrou', 'checruit',
       'col chécrouit - maison vieille', 'col de la seigne',
       'col de voza', 'col ferret', 'col montet', 'col seigne', 'colferr',
       'combal', 'conta', 'conta r', 'contamines', 'courm', 'courm1',
       'courm2', 'courmayeur', 'courmayeur - dolonne', 'crxbon', 'delev',
       'delevre', 'delevret', 'elena', 'favre', 'ferret', 'fleg',
       'flegere', 'flégère', 'fouly', 'gardes', 'gare pp', 'gdcolf',
       'giete', 'giète', 'grand col ferret', 'houches', 'la balme',
       'la charme', 

 #### Verificamos que hemos conseguido reducir el número de columnas.

In [8]:
len(columns)


119

 #### Vamos a dar un primer vistazo al contenido del dataframe global para ver qué datos almacena. Se muestran 10 observaciones al azar.

In [9]:
# opción para mostrar todas las columnas del dataframe
pd.set_option('display.max_columns', df.shape[1])
# elegimos 10 al azar
# todo uncomment
# df.sample(10)


 #### La mayoría de ellas son tiempos de paso y sus nombres, con seguridad, el lugar dónde se ha cronometrado al corredor. También hay otros datos como dorsal, nombre, equipo, categoría, posición y similares.

 #### Para continuar, se ha de mapear cada columna con un nuevo nombre que agrupe a sus “parecidos razonables” en una relación n a 1. Por ejemplo, es lógico relacionar ```'bert', 'berton', 'bertone'``` con ```'Bertone'```. Para esta tarea se ha de identificar cada nombre con algún lugar atravesado por el recorrido. *Behind the scenes*, usando la web de la carrera, Google Maps y algo de paciencia, se ha montado una tabla con las relaciones. De todas ellas, no ha sido posible identificar cinco.

 #### Para distinguir las columnas de tiempos, las desconocidas y las restantes, se añade un campo calificador. Se han hecho dos iteraciones en este proceso ya que en la concatenación final de dataframes fallaban el año 2012 –tiene dos campos ```'conta'``` y ```'conta r'``` que se asignaban a ```'Contamines'```– y el año 2015 – tiene dos campos ```'courm1'``` y ```'courm2'``` que se asignaban a ```'Courmayeur'```–.

 #### Igualmente se ha añadido un campo de conveniencia ```Order``` por el cual se ordenarán las columnas del dataframe final. Todas las columnas de tiempo están situadas al final del dataframe a partir del índice 8 y su posición es relativa al recorrido de la carrera.

### En el dataframe hay dos campos: ```'Cham', 'cham'``` que pueden ser Champex o Chamoniz, en el listado del dataframe más arriba se verifica que sus tiempos son superiores a los de paso por Champex y similares a los de la llegada a Chamonix. Se asignan pues a este último y el nombre del campo será ```Arrivee``` respetando el original francés para llegada pero sin signos de acentuación, para el resto de los campos se han eliminado igualmente, así como los espacios y guiones manteniendo únicamente los caracteres del alfabeto inglés.

 #### El resultado del trabajo descrito se guarda en un fichero csv que se recupera en la celda inferior.

In [10]:
file = 'columns.csv'
data_folder = 'data'
cols_map = pd.read_csv(full_file(data_folder, file))
cols_map[:15]


Unnamed: 0,old,new,type,order
0,-1km,1km,Crono,141
1,argent,Argentiere,Crono,139
2,argenti,Argentiere,Crono,139
3,arnouvaz,Arnouvaz,Crono,123
4,arnuv,Arnouvaz,Crono,123
5,arnuva,Arnouvaz,Crono,123
6,arrivee,Arrivee,Crono,142
7,arrivé,Arrivee,Crono,142
8,arrivée,Arrivee,Crono,142
9,chamonix - arrivée,Arrivee,Crono,142


 #### Las variables desconocidas son:

In [11]:
unknowns = cols_map.loc[cols_map['type'] == 'Unknown']
unknowns


Unnamed: 0,old,new,type,order
55,conta r,ContaR,Unknown,106
64,courm2,Courmayeur2,Unknown,118
67,gardes,Gardes,Unknown,140
68,gare pp,GarePp,Unknown,109
116,villaz,Villaz,Unknown,119


 #### Para continuar, esta vez cargaremos todos los datos sin mostrarlos por pantalla usando la función auxiliar creada en la celda 4.

In [12]:
df_dict, df = read_csvs(nrows=-1, show=False)


 #### Ahora hay que renombrar las columnas de cada dataframe. Es importante tener en cuenta que esta parte se ha de realizar en cada dataframe individual, para después concatenarlos; si se hiciera en el dataframe global, los nuevos nombres de las columnas con diferente capitalización devendrían idénticos. Se inicializa el dataframe global en el cual se concatenan todos los dataframes anuales.

In [13]:
# inicializamos el dataframe global
df = pd.DataFrame()
# recorremos el diccionario
for k, dfd in df_dict.items():
    # creamos un dataframe de una columna con el nombre de las columnas en minúsculas
    cols_dfd = pd.DataFrame(np.char.lower(np.array(list(dfd))))
    # le ponemos el mismo nombre que tiene su columna equivalente en el mapa
    cols_dfd.columns = ['old']
    # hacemos un merge del mapa y las columnas originales por 'old'
    cols_new = pd.merge(cols_dfd, cols_map)['new'].tolist()
    # cambiamos el nombre de las columnas en el original
    dfd.columns = cols_new
    # añadimos el dataframe anual corregido al dataframe global
    df = pd.concat([df, dfd], sort=False)

df.shape


(32769, 53)

 #### Comprobamos sus dimensiones y vemos que las variables han pasado de 136 a 53. No está mal…

 #### Ordenamos las columnas según el mapa de columnas.

In [14]:
# order se repite en las nuevas columnas que agrupan las originales
# se coge el valor mínimo, pero valdría igual el máximo o la media
group = cols_map.groupby('new')['order'].min().sort_values()
# guardamos la columnas ordenadas
columns_order = list(group.index.values)
# se reindexa el dataframe global con las columnas ordenadas
df = df.reindex(columns=columns_order)


 #### Ahora revisamos si hay variables con todas las observaciones nulas.

In [15]:
empties = df.columns[df.isna().all()].tolist()
empties


['Villaz']

 #### Aparece una y la eliminamos.

In [16]:
df.drop(columns=empties, inplace=True)
df.shape


(32769, 52)

 #### Los datos de las columnas tipo crono son ```timedeltas```. Vamos a asegurarnos de que todos están correctamente formados antes de acabar la limpieza.
 #### Si miramos los datos de ```Timediff``` vemos que hay observaciones con la forma ```mm:ss.0``` y la función espera ```hh:mm:ss.0```. Vamos a pasar esos datos al formato ```hh:mm:ss```, también válido para ```pd.to_timedelta()```.

In [17]:
df['Timediff'].head()


0    00:00.0
1    09:19.0
2    09:19.0
3    31:19.0
4    12:38.0
Name: Timediff, dtype: object

In [18]:
# reseteamos el índice ya que vamos a utilizar máscaras para actuar solamente
# sobre las observaciones afectadas
df = df.reset_index(drop=True)
# creamos una máscara con los valores que acaban en .0 ignorando los no nulos
mask = df['Timediff'].str.endswith(".0") & pd.notnull(df['Timediff'])
# se hace el reemplazamiento usando sintaxis regex
df['Timediff'] = df['Timediff'].loc[mask].str.replace('\\.0', '', 1)
# se añade la parte hh: al principio
df['Timediff'] = df['Timediff'].loc[mask].apply(lambda x: '00:' + x)
df['Timediff'].head()


0    00:00:00
1    00:09:19
2    00:09:19
3    00:31:19
4    00:12:38
Name: Timediff, dtype: object

 #### Verificamos que todos los valores aceptan la conversión a timedelta.

In [19]:
cronos_list = list(df)[8:]
cronos_df = df[df.columns.intersection(cronos_list)]
for crono in cronos_list:
    print(crono)
    pd.to_timedelta(cronos_df[crono])


Time
Timediff
ColDeVoza
LaCharme
Delevret
StGervais
Contamines
LaBalme
ContaR
Bellevue
LesHouches
GarePp
Bonhomme
Chapieux
ColSeigne
RefugeElisabetta
LacCombal
MtFavre
Checrouit
Courmayeur
Courmayeur2
Bertone
RifugioElena
Bonatti
Arnouvaz
ColFerret
LaPeule
LaFouly
PrazDeFort
Champex
Martigny
Bovinette
LaGiete
Trient
Tseppes
Catogne
Vallorcine
ColDesMontets
LaTeteAuxVents
LaFlegere
Argentiere
Gardes
1km
Arrivee


 #### **¡Prueba superada! ;-)** Con este paso acaba esta parte del trabajo, guardamos el resultado del dataframe final en un fichero csv que se recuperará en la parte de exploración de datos.

In [20]:
file = 'utmb.1.csv'
df.to_csv(full_file(data_folder, file), index=False)

