# Mini Reto 002 Leer datos de una web - Scrapping

## Leer datos de una web - Scrapping

Leer los datos de la siguiente web. Este proceso se denomina Scrapping.

URL Objetivo: https://www.allaria.com.ar/es/Opcion

Elegir una de las 2 formas:

#### A) Con pandas:

#### B) Con beautifulsoup:
Mas complicado, requiere saber algo de html. Este método es especialmente útil, cuando pandas no es capaz de realizarlo correctamente.





El resultado final debe ser algo como esto:

![Resultado final](resultado.png)

y los type de las columnas tal que:
    
![Tipos de datos](dtypes.png)

## Solución propuesta de Paduel

In [4]:
import pandas as pd

def get_allaria_options():
    # Leemos con Pandas la página
    url="https://www.allaria.com.ar/es/Opcion"
    data = pd.read_html(url)[0]
    
    # Eliminamos las filas que sobran (son para visualización en moviles y son duplicadas)
    data = data[data["Tipo"].isin(["Call", "Put"])].dropna(how="all", axis=1)
    
    # Separamos los datos de Variación
    data["Variación %"] = data["Variación"].str.split("%").str[0].str.replace(",",".").astype(float).div(100)
    data["Variación"] = data["Variación"].str.split("%").str[1].str.replace(",",".").astype(float)
    
    # Convertimos en números las columnas
    data[['Precio ejercicio', 'Último precio (prima)',
         'Cant. compra', 'Precio compra',
           'Precio venta', 'Cant. venta', 
         'Volumen (lotes)', 'Volumen (monto)']] = data[[
        'Precio ejercicio', 'Último precio (prima)',
         'Cant. compra', 'Precio compra',
           'Precio venta', 'Cant. venta', 
         'Volumen (lotes)', 'Volumen (monto)']
        ].apply(lambda x:x.str.replace(".","").str.replace(",",".").astype(float))

    # Parseamos las fechas
    data["Vencimiento"] = pd.to_datetime(data["Vencimiento"])
    data["Hora"] = pd.to_datetime(data["Hora"])
    
    # Ordenamos y devolvemos el resultado
    return data.set_index('Especie')[['Subyacente', 'Tipo', 'Vencimiento', 'Precio ejercicio',
           'Último precio (prima)', 'Variación %', 'Variación', 'Cant. compra', 'Precio compra',
           'Precio venta', 'Cant. venta', 'Volumen (lotes)', 'Volumen (monto)',
           'Hora']]

In [5]:
data = get_allaria_options()
data

Unnamed: 0_level_0,Subyacente,Tipo,Vencimiento,Precio ejercicio,Último precio (prima),Variación %,Variación,Cant. compra,Precio compra,Precio venta,Cant. venta,Volumen (lotes),Volumen (monto),Hora
Especie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
GFGC10981O,GGAL,Call,2020-10-16,10981.0,295.0,-0.2910,1.21,0.0,0.0,700.0,2000.0,1679500.0,562593100.0,2020-05-10 17:01:00
GFGC11881O,GGAL,Call,2020-10-16,11881.0,85.0,-0.3737,0.51,0.0,0.0,0.0,0.0,2512600.0,253069500.0,2020-05-10 17:01:00
GFGC10081O,GGAL,Call,2020-10-16,10081.0,870.0,-0.1485,1.52,0.0,0.0,0.0,0.0,202200.0,187458700.0,2020-05-10 17:01:00
GFGV21381O,GGAL,Put,2020-10-16,21381.0,9000.0,0.0000,0.00,0.0,0.0,0.0,0.0,16600.0,149400000.0,2020-05-10 11:13:00
GFGC11881D,GGAL,Call,2020-12-18,11881.0,1040.0,-0.0545,0.60,0.0,0.0,0.0,0.0,132400.0,143409300.0,2020-05-10 16:55:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
PGRC14.0OC,PGR,Call,2020-10-16,140.0,110.0,0.0967,0.10,0.0,0.0,0.0,0.0,500.0,55000.0,2020-09-09 16:51:00
BHIC12.0OC,BHIP,Call,2020-10-16,120.0,70.0,-0.3636,0.40,0.0,0.0,0.0,0.0,200.0,14000.0,2020-09-09 14:25:00
BHIC11.5OC,BHIP,Call,2020-10-16,115.0,100.0,-0.1304,0.15,0.0,0.0,0.0,0.0,100.0,10000.0,2020-09-09 15:24:00
PGRC12.0OC,PGR,Call,2020-10-16,120.0,300.0,-0.2105,0.80,0.0,0.0,0.0,0.0,200.0,60000.0,2020-08-09 15:25:00


In [6]:
data.dtypes

Subyacente                       object
Tipo                             object
Vencimiento              datetime64[ns]
Precio ejercicio                float64
Último precio (prima)           float64
Variación %                     float64
Variación                       float64
Cant. compra                    float64
Precio compra                   float64
Precio venta                    float64
Cant. venta                     float64
Volumen (lotes)                 float64
Volumen (monto)                 float64
Hora                     datetime64[ns]
dtype: object