## Carga de datos a través de URL

In [1]:
medals_url = "http://winterolympicsmedals.com/medals.csv"

def downloadFromURL(url, filename, sep = ',', delim = '\n', encoding='utf-8'):
    
        
    from os import path, makedirs, getcwd
    import urllib3 as ul
    import pandas as pd
    import csv
    
    
    resp = ul.PoolManager().request('GET', url)
    print(f"El estado de la respuesta es {resp.status}")

    response = resp.data

    # El objeto response contiene un string binario, asi que lo convertimos a string decodificado.
    str_data = response.decode(encoding)

    #Dividimos el string en un array de filas, separados por intros.
    rows = str_data.split(delim)

    #La primera fila contiene los nombres de las columnas, asi que la extraemos.
    column_names = rows[0].split(',')
    n_columns = len(column_names)

    #Generamos un diccionario vacio donde iran la informacion procesada desde la URL externa.
    counter = 0
    main_dict = {}
    for col in column_names:
        main_dict[col] = []

    #Procesamos fila a fila la informacion para ir rellenando el diccionario.
    for row in rows:
        #Nos saltamos la primera line que es la que contiene la cabecera.
        if (counter > 0):
            #Dividimos cada string por las comas como elemento separador.
            values = row.strip().split(',')
            #Añadimos cada valor a su respectiva columna.
            for i in range(n_columns):
                main_dict[column_names[i]].append(values[i])
        counter += 1

    print(f'El data set tiene {counter} filas y {n_columns} columnas.')

    #Creamos un dataframe a partir del diccionario.
    df = pd.DataFrame(main_dict)
    print(df.head())

    #Elegimos donde guardar el dataframe.
    fullpath = path.join(getcwd(), filename)
    
    #Si no existe el directorio, lo creamos.
    if not path.exists(fullpath):
        makedirs(fullpath)

    #Lo guardamos en formato CSV, JSON o en Excel.
    df.to_csv(fullpath +'.csv')
    df.to_json(fullpath +'.json')
    df.to_excel(fullpath +'.xlsx')

    print(f'La ruta de guardado es: \n {fullpath} \n')
    
    return df

In [2]:
downloadFromURL(medals_url, '..\\data\\olympic\\medals')


El estado de la respuesta es 200
El data set tiene 2312 filas y 8 columnas.
   Year      City       Sport      Discipline  NOC       Event Event gender  \
0  1924  Chamonix     Skating  Figure skating  AUT  individual            M   
1  1924  Chamonix     Skating  Figure skating  AUT  individual            W   
2  1924  Chamonix     Skating  Figure skating  AUT       pairs            X   
3  1924  Chamonix   Bobsleigh       Bobsleigh  BEL    four-man            M   
4  1924  Chamonix  Ice Hockey      Ice Hockey  CAN  ice hockey            M   

    Medal  
0  Silver  
1    Gold  
2    Gold  
3  Bronze  
4    Gold  
La ruta de guardado es: 
 c:\Users\fgmol\curso-data-science\notebooks\..\data\olympic\medals 



Unnamed: 0,Year,City,Sport,Discipline,NOC,Event,Event gender,Medal
0,1924,Chamonix,Skating,Figure skating,AUT,individual,M,Silver
1,1924,Chamonix,Skating,Figure skating,AUT,individual,W,Gold
2,1924,Chamonix,Skating,Figure skating,AUT,pairs,X,Gold
3,1924,Chamonix,Bobsleigh,Bobsleigh,BEL,four-man,M,Bronze
4,1924,Chamonix,Ice Hockey,Ice Hockey,CAN,ice hockey,M,Gold
...,...,...,...,...,...,...,...,...
2306,2006,Turin,Skiing,Snowboard,USA,Half-pipe,M,Silver
2307,2006,Turin,Skiing,Snowboard,USA,Half-pipe,W,Gold
2308,2006,Turin,Skiing,Snowboard,USA,Half-pipe,W,Silver
2309,2006,Turin,Skiing,Snowboard,USA,Snowboard Cross,M,Gold
