In [1]:

import pandas as pd
import numpy as np
import re
import io
import warnings
import generador
pd.set_option('display.max_columns',None)
pd.set_option('display.max_rows',None)
warnings.filterwarnings('ignore')

#Blue2017

In [2]:
out_file = io.StringIO()

with open('../data/bluetrail/tenerifebluetrail17.csv', encoding='utf8') as file:
    out_file.write(file.read().replace('""', '|').replace('"', ""))

out_file.seek(0)

blue17 = pd.read_csv(out_file, delimiter = ',', quotechar='|')

In [3]:
columns=['posicion','dorsal','nombre','unnamed1','pos_sex','cat2','cat','club','tiempo','media','dif','unnamed3','sex','otros']

blue17.set_axis(columns,axis='columns', inplace='True')     #modificamos el nombre de las columnas

blue17.drop(['unnamed1','unnamed1','unnamed3','cat2','dorsal'],axis='columns',inplace=True)  #Eliminamos columnas sobrantes

blue17=blue17.reindex(columns=['posicion', 'tiempo', 'dif', 'nombre', 'sex','cat','pos_sex','media','otros']) #recolocamos las columnas





In [4]:
#blue17.info()   #comprobamos que no hay nulos

#quitamos las letras de las posiciones

pto_cat=[]
for i in blue17.pos_sex:
    i=str(i)
    puesto=re.findall('\d+',i)
    if puesto:
        pto_cat.append("".join(puesto))
        

        
blue17.pos_sex=pto_cat        

In [5]:
blue17.cat.unique()

array(['VETA', 'SEN', 'VETB', 'VETC'], dtype=object)

In [6]:
for i in range(len(blue17.cat)):
    if blue17.cat[i]=='SEN':
        blue17.cat[i]='SENIOR'
    elif blue17.cat[i]=='VETA':
        blue17.cat[i]='VET-A'
    elif blue17.cat[i]=='VETB':
        blue17.cat[i]='VET-B'
    elif blue17.cat[i]=='VETC':
        blue17.cat[i]='VET-C'

In [7]:
blue17.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 235 entries, 0 to 234
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   posicion  235 non-null    int64 
 1   tiempo    235 non-null    object
 2   dif       235 non-null    object
 3   nombre    235 non-null    object
 4   sex       235 non-null    object
 5   cat       235 non-null    object
 6   pos_sex   235 non-null    object
 7   media     235 non-null    object
 8   otros     235 non-null    object
dtypes: int64(1), object(8)
memory usage: 16.6+ KB


In [8]:
#Normalizamos formato de campos de las columnas añadiendo la configuración final para todas las tablas

blue17.drop(['pos_sex','media','otros'],axis='columns',inplace=True)  #Damos de baja las columnas que no vamos a usar de forma definitiva

#Generamos las columnas restanetes
blue17['club']=generador.generador(len(blue17))
blue17['pais']=generador.generador(len(blue17))
blue17['carrera']=generador.carrera(len(blue17),'bluetrail')
blue17['anio']=generador.anio(len(blue17),'2017')

In [9]:
blue17=blue17.reindex(columns=['posicion','tiempo','dif','nombre','club','pais','sex','cat','carrera','anio']) #Reorganizamos

In [10]:
blue17.to_csv('../data/bluetrail/bluetrail17mod.csv', index='False', index_label=False)  #Cargamos el csv

#Blue2018

In [11]:
out_file = io.StringIO()

with open('../data/bluetrail/bluetrail2018.csv', encoding='utf8') as file:
    out_file.write(file.read().replace('""', '|').replace('"', ""))

out_file.seek(0)

blue18 = pd.read_csv(out_file, delimiter = ',', quotechar='|')

In [12]:
columns=['posicion', 'tiempo', 'nombre','link','pais','sex','rango_edad']
blue18.set_axis(columns,axis='columns', inplace='True')     #modificamos el nombre de las columnas

blue18.drop(['link'],axis='columns',inplace=True)           #Eliminamos columnas sobrantes



In [13]:
#normalizamos los datos de sexo dejando las mujeres con F y los hombres con H

for i in range(len(blue18.sex)):
    if 'women' in blue18.sex[i]:
        blue18.sex[i]='F'
    elif 'men' in blue18.sex[i]:
        blue18.sex[i]='M'
    else:
        blue18.sex[i]='unkwnow'    
        
blue18.sex.unique()  

array(['M', 'F'], dtype=object)

In [14]:
#creamos una columna de categoria en base a los rangos de edad y la colocamos
blue18['cat']=blue18['rango_edad']

for i in range(len(blue18.rango_edad)):
    if blue18.rango_edad[i]=='20-34' or blue18.rango_edad[i]=='35-39':
        blue18.cat[i]='SENIOR'
    elif blue18.rango_edad[i]=='40-44' or blue18.rango_edad[i]=='45-49':
        blue18.cat[i]='VET-A'
    elif blue18.rango_edad[i]=='50-54' or blue18.rango_edad[i]=='55-59':
        blue18.cat[i]='VET-B'
    elif blue18.rango_edad[i]=='60-64' or blue18.rango_edad[i]=='65-69':
        blue18.cat[i]='VET-C'
        
blue18=blue18.reindex(columns=['posicion','tiempo','nombre','pais','sex','cat','rango_edad'])

blue18.cat.unique()
        

array(['VET-A', 'SENIOR', 'VET-B', 'VET-C'], dtype=object)

In [15]:
blue18.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 222 entries, 0 to 221
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   posicion    222 non-null    int64 
 1   tiempo      222 non-null    object
 2   nombre      222 non-null    object
 3   pais        222 non-null    object
 4   sex         222 non-null    object
 5   cat         222 non-null    object
 6   rango_edad  222 non-null    object
dtypes: int64(1), object(6)
memory usage: 12.3+ KB


In [16]:
#Normalizamos formato de campos de las columnas añadiendo la configuración final para todas las tablas

blue18.drop(['rango_edad'],axis='columns',inplace=True) #damos de baja columnas

#Generamos las columnas restanetes
blue18['dif']=generador.dif(len(blue18))
blue18['club']=generador.generador(len(blue18))
blue18['pais']=generador.generador(len(blue18))
blue18['carrera']=generador.carrera(len(blue18),'bluetrail')
blue18['anio']=generador.anio(len(blue18),'2018')

blue18=blue18.reindex(columns=['posicion','tiempo','dif','nombre','club','pais','sex','cat','carrera','anio']) #Reorganizamos

In [17]:

blue18.to_csv('../data/bluetrail/bluetrail18mod.csv', index='False', index_label=False)  #Cargamos el csv

#Blue19

In [18]:
out_file = io.StringIO()

with open('../data/bluetrail/bluetrail2019.csv', encoding='utf8') as file:
    out_file.write(file.read().replace('""', '|').replace('"', ""))

out_file.seek(0)

blue19 = pd.read_csv(out_file, delimiter = ',', quotechar='|')

In [19]:
columns=['posicion', 'tiempo', 'nombre','link','pais','sex','rango_edad','otros']
blue19.set_axis(columns,axis='columns', inplace='True')         #modificamos el nombre de las columnas

blue19.drop(['link','otros'],axis='columns',inplace=True)       #Eliminamos columnas sobrantes



In [20]:
#normalizamos los datos de sexo dejando las mujeres con F y los hombres con H

for i in range(len(blue19.sex)):
    if 'women' in blue19.sex[i]:
        blue19.sex[i]='F'
    elif 'men' in blue19.sex[i]:
        blue19.sex[i]='M'
    else:
        blue19.sex[i]='unkwnow'  
        
blue19.sex.unique()

array(['M', 'F', 'unkwnow'], dtype=object)

In [21]:
blue19.rango_edad.unique()

array(['40-44', '20-34', '35-39', '45-49', '50-54', '60-64', '55-59',
       '70-74', '65-69', 'gender'], dtype=object)

In [22]:
#creamos una columna de categoria en base a los rangos de edad y la colocamos
blue19['cat']=blue19['rango_edad']

for i in range(len(blue19.rango_edad)):
    if blue19.rango_edad[i]=='20-34' or blue19.rango_edad[i]=='35-39':
        blue19.cat[i]='SENIOR'
    elif blue19.rango_edad[i]=='40-44' or blue19.rango_edad[i]=='45-49':
        blue19.cat[i]='VET-A'
    elif blue19.rango_edad[i]=='50-54' or blue19.rango_edad[i]=='55-59':
        blue19.cat[i]='VET-B'
    else:
        blue19.cat[i]='VET-C'
        
blue19=blue19.reindex(columns=['posicion','tiempo','nombre','pais','sex','cat','rango_edad'])

In [23]:
blue19.cat.unique()

#Damos de baja el nulo
blue19.nombre[blue19.nombre.isna()]

blue19.drop(350,axis=0,inplace=True)

blue19.reset_index(drop=True, inplace=True)

In [24]:
blue19.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 354 entries, 0 to 353
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   posicion    354 non-null    object
 1   tiempo      354 non-null    object
 2   nombre      354 non-null    object
 3   pais        354 non-null    object
 4   sex         354 non-null    object
 5   cat         354 non-null    object
 6   rango_edad  354 non-null    object
dtypes: object(7)
memory usage: 19.5+ KB


In [25]:
#Normalizamos formato de campos de las columnas añadiendo la configuración final para todas las tablas

blue19.drop(['rango_edad'],axis='columns',inplace=True) #damos de baja columnas

#Generamos las columnas restanetes
blue19['dif']=generador.dif(len(blue19))
blue19['club']=generador.generador(len(blue19))
blue19['pais']=generador.generador(len(blue19))
blue19['carrera']=generador.carrera(len(blue19),'bluetrail')
blue19['anio']=generador.anio(len(blue19),'2019')

blue19=blue19.reindex(columns=['posicion','tiempo','dif','nombre','club','pais','sex','cat','carrera','anio']) #Reorganizamos

In [26]:
blue19.to_csv('../data/bluetrail/bluetrail19mod.csv', index='False', index_label=False)    #Cargamos el csv

#Blue2021

In [27]:
out_file = io.StringIO()

with open('../data/bluetrail/bluetrail2021.csv', encoding='utf8') as file:
    out_file.write(file.read().replace('""', '|').replace('"', ""))

out_file.seek(0)

blue21 = pd.read_csv(out_file, delimiter = ',', quotechar='|')

In [28]:
columns=['posicion', 'tiempo', 'nombre','link','pais','sex','rango_edad']
blue21.set_axis(columns,axis='columns', inplace='True')         #modificamos el nombre de las columnas

blue21.drop(['link'],axis='columns',inplace=True)               #Eliminamos columnas sobrantes



In [29]:
#normalizamos los datos de sexo dejando las mujeres con F y los hombres con H

for i in range(len(blue21.sex)):
    if 'women' in blue21.sex[i]:
        blue21.sex[i]='F'
    elif 'men' in blue21.sex[i]:
        blue21.sex[i]='M'
    else:
        blue21.sex[i]='unkwnow' 

In [30]:
blue21.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   posicion    244 non-null    int64 
 1   tiempo      244 non-null    object
 2   nombre      244 non-null    object
 3   pais        244 non-null    object
 4   sex         244 non-null    object
 5   rango_edad  244 non-null    object
dtypes: int64(1), object(5)
memory usage: 11.6+ KB


In [31]:
#creamos una columna de categoria en base a los rangos de edad y la colocamos
blue21['cat']=blue21['rango_edad']

for i in range(len(blue21.rango_edad)):
    if blue21.rango_edad[i]=='20-34' or blue21.rango_edad[i]=='35-39':
        blue21.cat[i]='SENIOR'
    elif blue21.rango_edad[i]=='40-44' or blue21.rango_edad[i]=='45-49':
        blue21.cat[i]='VET-A'
    elif blue21.rango_edad[i]=='50-54' or blue21.rango_edad[i]=='55-59':
        blue21.cat[i]='VET-B'
    else:
        blue21.cat[i]='VET-C'
        
blue21=blue21.reindex(columns=['posicion','tiempo','nombre','pais','sex','cat','rango_edad'])

blue21.cat.unique()

array(['SENIOR', 'VET-A', 'VET-C', 'VET-B'], dtype=object)

In [32]:
#Normalizamos formato de campos de las columnas añadiendo la configuración final para todas las tablas

blue21.drop(['rango_edad'],axis='columns',inplace=True) #damos de baja columnas

#Generamos las columnas restanetes
blue21['dif']=generador.dif(len(blue21))
blue21['club']=generador.generador(len(blue21))
blue21['pais']=generador.generador(len(blue21))
blue21['carrera']=generador.carrera(len(blue21),'bluetrail')
blue21['anio']=generador.anio(len(blue21),'2021')

blue21=blue21.reindex(columns=['posicion','tiempo','dif','nombre','club','pais','sex','cat','carrera','anio']) #Reorganizamos

In [33]:
blue21.to_csv('../data/bluetrail/bluetrail21mod.csv', index='False', index_label=False)    #Cargamos el csv

#Blue22

In [34]:
out_file = io.StringIO()

with open('../data/bluetrail/bluetrail2022.csv', encoding='utf8') as file:
    out_file.write(file.read().replace('""', '|').replace('"', ""))

out_file.seek(0)

blue22 = pd.read_csv(out_file, delimiter = ',', quotechar='|')

In [35]:
columns=['posicion', 'tiempo', 'nombre','link','pais','sex','rango_edad']
blue22.set_axis(columns,axis='columns', inplace='True')     #modificamos el nombre de las columnas

blue22.drop(['link'],axis='columns',inplace=True)           #Eliminamos columnas sobrantes




In [36]:
#normalizamos los datos de sexo dejando las mujeres con F y los hombres con H

for i in range(len(blue22.sex)):
    if 'mujeres' in blue22.sex[i]:
        blue22.sex[i]='F'
    elif 'hombres' in blue22.sex[i]:
        blue22.sex[i]='M'
    else:
        blue22.sex[i]='unkwnow' 
        
blue22.sex.unique()

array(['M', 'F'], dtype=object)

In [37]:
blue22.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 183 entries, 0 to 182
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   posicion    183 non-null    int64 
 1   tiempo      183 non-null    object
 2   nombre      183 non-null    object
 3   pais        183 non-null    object
 4   sex         183 non-null    object
 5   rango_edad  183 non-null    object
dtypes: int64(1), object(5)
memory usage: 8.7+ KB


In [38]:
#creamos una columna de categoria en base a los rangos de edad y la colocamos
blue22['cat']=blue22['rango_edad']

for i in range(len(blue22.rango_edad)):
    if blue22.rango_edad[i]=='20-34' or blue22.rango_edad[i]=='35-39':
        blue22.cat[i]='SENIOR'
    elif blue22.rango_edad[i]=='40-44' or blue22.rango_edad[i]=='45-49':
        blue22.cat[i]='VET-A'
    elif blue22.rango_edad[i]=='50-54' or blue22.rango_edad[i]=='55-59':
        blue22.cat[i]='VET-B'
    else:
        blue22.cat[i]='VET-C'
        
blue22=blue22.reindex(columns=['posicion','tiempo','nombre','pais','sex','cat','rango_edad'])

blue22.cat.unique()

array(['VET-A', 'SENIOR', 'VET-B', 'VET-C'], dtype=object)

In [39]:
#Normalizamos formato de campos de las columnas añadiendo la configuración final para todas las tablas

blue22.drop(['rango_edad'],axis='columns',inplace=True) #damos de baja columnas

#Generamos las columnas restanetes
blue22['dif']=generador.dif(len(blue22))
blue22['club']=generador.generador(len(blue22))
blue22['pais']=generador.generador(len(blue22))
blue22['carrera']=generador.carrera(len(blue22),'bluetrail')
blue22['anio']=generador.anio(len(blue22),'2022')

blue22=blue22.reindex(columns=['posicion','tiempo','dif','nombre','club','pais','sex','cat','carrera','anio']) #Reorganizamos

In [40]:
blue22.to_csv('../data/bluetrail/bluetrail22mod.csv', index='False', index_label=False)    #Cargamos el csv

In [41]:
bluetrail=pd.concat([blue17,blue18,blue19,blue21,blue22])

In [42]:
bluetrail.to_csv('../data/bluetrail/bluetrail.csv',index=False,index_label=False)