# Web Scraping con Pandas

**Relator: Felipe Mesa Abraham** 

Correo: femesa@udec.cl


En esta actividad se trabajará con la libreria Pandas y su función  [read_html](https://pandas.pydata.org/docs/reference/api/pandas.read_html.html) para extraer información de tablas. La actividad consiste en un ejemplo sobre el funcionamiento de la función y un ejercicio guiado.

In [None]:
import pandas as pd

In [None]:
# Entregamos como argumento de la función la URL de la página y devuelve una lista con las tablas encontradas en formato dataframe
df = pd.read_html('https://www.spensiones.cl/apps/rentabilidad/getRentabilidad.php?tiprent=FP')

In [None]:
# Revisamos el contenido
df

[  RENTABILIDAD REAL DE LOS FONDOS DE PENSIONESSeptiembre de 2021
 0  2021 2020 2019 2018 2017 2016 2015 2014 2013 2...            ,
                                                    0
 0  2021 2020 2019 2018 2017 2016 2015 2014 2013 2...,
       A.F.P.  ... Promedio Anual Período 27 Sep 2002 - Sep 2021
 0    CAPITAL  ...                                         6,52%
 1     CUPRUM  ...                                         6,52%
 2    HABITAT  ...                                         6,62%
 3     MODELO  ...                                           NaN
 4  PLANVITAL  ...                                         6,17%
 5    PROVIDA  ...                                         6,57%
 6        UNO  ...                                           NaN
 7    SISTEMA  ...                                         6,55%
 
 [8 rows x 5 columns],
       A.F.P.  ... Promedio Anual Período 27 Sep 2002 - Sep 2021
 0    CAPITAL  ...                                         5,57%
 1     CUPRUM  ...

In [None]:
# Elegimos la tabla que estamos buscando a partir del índice
df_septiembre = df[2]
df_septiembre

Unnamed: 0_level_0,RENTABILIDAD REAL DEL FONDO TIPO A DEFLACTADA POR LA UF (1)Septiembre de 2021 - En porcentaje,RENTABILIDAD REAL DEL FONDO TIPO A DEFLACTADA POR LA UF (1)Septiembre de 2021 - En porcentaje,RENTABILIDAD REAL DEL FONDO TIPO A DEFLACTADA POR LA UF (1)Septiembre de 2021 - En porcentaje,RENTABILIDAD REAL DEL FONDO TIPO A DEFLACTADA POR LA UF (1)Septiembre de 2021 - En porcentaje,RENTABILIDAD REAL DEL FONDO TIPO A DEFLACTADA POR LA UF (1)Septiembre de 2021 - En porcentaje
Unnamed: 0_level_1,A.F.P.,Del Período,Del Período,Anual,Anual
Unnamed: 0_level_2,A.F.P.,Sep 2021,AcumuladoEne 2021-Sep 2021,Últimos 12 mesesOct 2020-Sep 2021,Promedio AnualPeríodo27 Sep 2002 - Sep 2021
0,CAPITAL,"-0,93%","9,92%","16,65%","6,52%"
1,CUPRUM,"-0,93%","10,23%","16,41%","6,52%"
2,HABITAT,"-1,15%","9,77%","15,97%","6,62%"
3,MODELO,"-1,02%","9,43%","15,79%",
4,PLANVITAL,"-0,91%","9,98%","16,12%","6,17%"
5,PROVIDA,"-1,28%","9,79%","15,69%","6,57%"
6,UNO,"-1,02%","8,91%","15,30%",
7,SISTEMA,"-1,06%","9,89%","16,15%","6,55%"


In [None]:
# Modificamos las columnas para darle formato
columnas = ['A.F.P.', 'Sep 2021', 'Acumulado Ene 2021-Sep 2021', 'Últimos 12 meses Oct 2020-Sep 2021', 'Promedio Anual Período 27 Sep 2002 - Sep 2021']
df_septiembre.columns = columnas
df_septiembre

Unnamed: 0,A.F.P.,Sep 2021,Acumulado Ene 2021-Sep 2021,Últimos 12 meses Oct 2020-Sep 2021,Promedio Anual Período 27 Sep 2002 - Sep 2021
0,CAPITAL,"-0,93%","9,92%","16,65%","6,52%"
1,CUPRUM,"-0,93%","10,23%","16,41%","6,52%"
2,HABITAT,"-1,15%","9,77%","15,97%","6,62%"
3,MODELO,"-1,02%","9,43%","15,79%",
4,PLANVITAL,"-0,91%","9,98%","16,12%","6,17%"
5,PROVIDA,"-1,28%","9,79%","15,69%","6,57%"
6,UNO,"-1,02%","8,91%","15,30%",
7,SISTEMA,"-1,06%","9,89%","16,15%","6,55%"


# Práctica Pandas

Tomando en cuenta el ejemplo anterior, se le pide que extraer información sobre el valor de la UF de la siguiente página:

https://si3.bcentral.cl/indicadoressiete/secure/Serie.aspx?gcode=UF&param=RABmAFYAWQB3AGYAaQBuAEkALQAzADUAbgBNAGgAaAAkADUAVwBQAC4AbQBYADAARwBOAGUAYwBjACMAQQBaAHAARgBhAGcAUABTAGUAYwBsAEMAMQA0AE0AawBLAF8AdQBDACQASABzAG0AXwA2AHQAawBvAFcAZwBKAEwAegBzAF8AbgBMAHIAYgBDAC4ARQA3AFUAVwB4AFIAWQBhAEEAOABkAHkAZwAxAEEARAA=

Entregue la información correspondiente en un dataframe.



In [None]:
# Entregamos como argumento de la función la URL de la página y devuelve una lista con las tablas encontradas en formato dataframe

# Elegimos la tabla que estamos buscando a partir del índice


## Solución

In [None]:
# Entregamos como argumento de la función la URL de la página y devuelve una lista con las tablas encontradas en formato dataframe
URL = 'https://si3.bcentral.cl/indicadoressiete/secure/Serie.aspx?gcode=UF&param=RABmAFYAWQB3AGYAaQBuAEkALQAzADUAbgBNAGgAaAAkADUAVwBQAC4AbQBYADAARwBOAGUAYwBjACMAQQBaAHAARgBhAGcAUABTAGUAYwBsAEMAMQA0AE0AawBLAF8AdQBDACQASABzAG0AXwA2AHQAawBvAFcAZwBKAEwAegBzAF8AbgBMAHIAYgBDAC4ARQA3AFUAVwB4AFIAWQBhAEEAOABkAHkAZwAxAEEARAA='
data = pd.read_html(URL)

# Elegimos la tabla que estamos buscando a partir del índice
data_uf = data[1]

# Imprimimos
data_uf