# Introducción al webscraping

Web scraping es una técnica usada para automatizar los procesos de extracción de información de sitios web, como tablas, textos o link a otras páginas. **¿Por qué hacer web-scraping?**

-   Funciona mejor que copiar y pegar la información de la web.
-   Es rápido y replicable.

## Robots.txt

El ***robots exclusion standard***, también conocido como ***protocolo de exclusión para robots*** o simplemente `robots.txt`, es un protocolo estándar usado en algunos sitios web para comunicarse con buscadores y otros robots en la web. Este protocolo le indica a los buscadores o robots web sobre las partes de ese sitio web que no ***deben/pueden*** procesarse o escanearse. Veamos algunos ejemplos de `robots.txt`:

**Ejemplo 1: permite a cualquier robots procesar/escanear todos los elementos de la pagína**

```html
<table style="background-color:#f9f2f4">
<tr><th><code style="background-color:#f9f2f4"> # robots.txt for https://example.com/</code></th></tr>
<tr><td><code style="background-color:#f9f2f4"> User-agent: * </code></td></tr>
<tr><td><code style="background-color:#f9f2f4"> Disallow:</code></td></tr>
</table>
```

**Ejemplo 2: no permite procesar/escanear ningún elemento de la pagína**

```html
<table style="background-color:#f9f2f4">
<tr><th><code style="background-color:#f9f2f4"> # robots.txt for https://example.com/</code></th></tr>
<tr><td><code style="background-color:#f9f2f4"> User-agent: * </code></td></tr>
<tr><td><code style="background-color:#f9f2f4"> Disallow: / </code></td></tr>
</table>
```

**Ejemplo 3: no permite procesar/escanear ningún elemento del archivo /public/index.html**

```html
<table style="background-color:#f9f2f4">
<tr><th><code style="background-color:#f9f2f4"> # robots.txt for https://example.com/</code></th></tr>
<tr><td><code style="background-color:#f9f2f4"> User-agent: * </code></td></tr>
<tr><td><code style="background-color:#f9f2f4"> Disallow: /public/index.html </code></td></tr>
</table>
```

**Ejemplo 4: no le permite al robot `BadBot` procesar/escanear ningún elemento de la pagína:**

```html
<table style="background-color:#f9f2f4">
<tr><th><code style="background-color:#f9f2f4"> # robots.txt for https://example.com/</code></th></tr>
<tr><td> <code style="background-color:#f9f2f4"> User-agent: BadBot </code></td></tr>
<tr><td><code style="background-color:#f9f2f4"> Disallow: / </code></td></tr>
</table>
```

Puede accederse al protocolo de exclusión de una página agregando `robots.txt` al dominio principal de la página. Por ejemplo [en.wikipedia.org/robots.txt](https://en.wikipedia.org/robots.txt)

## Hyper Text Markup Language (HTML)

Un ***Hyper Text Markup Language*** no es un lenguaje de programación, sino más bien un lenguaje de marcado de hipertexto. Un ***HTML*** se escribe en su totalidad con elementos, los que a su vez están constituidos por etiquetas, contenido y atributos (mas adelante veremos que es cada uno de ellos). Los elementos están estructurados como un árbol (tronco, ramas, hojas). Por tanto, para poder extraer un elemento (por ejemplo una hoja), se rastrear la ruta del nodo o etiqueta (indicarle el tronco y la rama que contiene la hoja). Los ***HTML*** son interpretados por los navegadores web visualizando su contenido (una página web por ejemplo) tal y como estamos acostumbrados a verlo. **Puede acceder al HTML de una página web así:**

<center>
<img src = "pics/view_html.gif">
</center>

## Elementos en un HTML

Un elemento esta compuesto por una etiqueta `<p>`, atributos `id="texto"` (no siempre contiene atributos) y el contenido `Hola mundo`. Por ejemplo:

`<p id="texto"> Hola mundo </p>`

Las etiquetas sirven para delimitar el inicio (`< >`) y el final (`<\ >`) de un elemento. Aquí puede observar algunas etiquetas de elementos comunes en HTML:

-   `<p>`: Párrafos
-   `<head>`: Encabezado de la pagina
-   `<body>`: Cuerpo de la pagina
-   `<h1>, <h2>,...,<hi>`: Encabezados, Secciones
-   `<a>`: links
-   `<li>`: Ítem en una lista
-   `<table>`: Tablas
-   `<td>`: Una celda de datos en una tabla
-   `<div>`: División. Sirve para crear secciones o agrupar contenidos.
-   `<script>`: Se utiliza para insertar o hacer referencia a un script

Por otra parte, los atributos sirven para configurar o proveer información adicional a un elemento. Siempre se expresan en la etiqueta de inicio y tienen asignado un nombre y un valor. Por ejemplo:

`<a class="document-toc-link" col="red">Lista de Atributos</a>`

Aquí la etiqueta del elemento es `a` y tiene dos atributos `class` que indica que el contenido es un link a otro sitio web y `col` que indica que debe visualizarce de color rojo.

##  Mi primer HTML

Ya puedes escribir tu primer **HTML**. Intente copiar el siguiente código y ejecutarlo sobre la consola de Python:

In [1]:
my_html = '''
<!DOCTYPE html> 
<html>
<meta charset="utf-8">
<head>
<title> Título de la página: ejemplo de clase </title>
</head>
<body>
<h1> Title 1.</h1>
<h2> Subtitle <u>subrayado-1</u>. </h2>
<p> Este es un párrafo muy pequeño que se encuentra dentro de la etiqueta <b>p</b> de <i>html</i> </p>
</body>
</html>
'''

Ahora va escribir/guardar el objeto `my_html` como un archivo **.html** y lo va a leer con el navegador de su equipo:

In [2]:
nombre_archivo = "mi_primer_html.html"
with open(nombre_archivo, 'w', encoding = 'utf-8') as file:
    file.write(my_html)

Su navegador interpretará el archivo `my_page.html` y debe visualizar lo siguiente:

<center>
<img src = "pics/my_page.png", width = 80%>
</center>


> **Nota:** intente sobrescriba el objeto `my_html` agregando un elemento `h1` en el que escriba su nombre y ubiquelo después del elemento `p`. Ejecute el código nuevamente y vea como cambió el html.

## Scraping nivel básico. Extaer tablas de Wikipedia

In [4]:
import requests
from bs4 import BeautifulSoup

In [5]:
url_wikipedia = "https://es.wikipedia.org/wiki/Copa_Mundial_de_F%C3%BAtbol" 
r = requests.get(url_wikipedia)

In [6]:
# Verificamos que todo esté ok
r.status_code == 200

True

In [39]:
# Vamos a convertirlo en un formato más amigable para Python
soup = BeautifulSoup(r.content)

In [40]:
# Extraemos algunos elementos por su tipo

# Extraigamos todos los títulos principales
titulos = soup.find_all("h1")
[i.text for i in titulos]

['Copa Mundial de Fútbol']

In [41]:
# Extraigamos todos los subtítulos
subtitulos = soup.find_all("h2")
[i.text for i in subtitulos]

['Contenidos',
 'Historia',
 'Desarrollo',
 'Resultados y estadísticas',
 'Premios',
 'Impacto cultural',
 'Tecnología',
 'Véase también',
 'Notas',
 'Referencias',
 'Bibliografía',
 'Enlaces externos']

In [29]:
# Extraigamos todas las tablas y visualicemos la primera
import pandas as pd
from io import StringIO

tablas = soup.find_all("table")

primera_tabla = str(tablas[0])
html_string_io = StringIO(primera_tabla)

pd.read_html(html_string_io)[0]

Unnamed: 0,Copa Mundial de la FIFA,Copa Mundial de la FIFA.1,Copa Mundial de la FIFA.2
0,"La selección de fútbol de Argentina, vigente c...","La selección de fútbol de Argentina, vigente c...","La selección de fútbol de Argentina, vigente c..."
1,Datos generales,Datos generales,Datos generales
2,Sede,Por elección (Territorios asociados a la FIFA),Por elección (Territorios asociados a la FIFA)
3,Organizador,Federación Internacional de Fútbol Asociación ...,Federación Internacional de Fútbol Asociación ...
4,Palmarés,Palmarés,Palmarés
5,Campeón,Argentina (3),Argentina (3)
6,Subcampeón,Francia,Francia
7,Datos estadísticos,Datos estadísticos,Datos estadísticos
8,Participantes,211 (fase clasificatoria) 48 (fase final; desd...,211 (fase clasificatoria) 48 (fase final; desd...
9,Más títulos,Brasil (5),Brasil (5)


En la medida que una página web tenga mucha más información va a ser más difícil encontrar los objetos deseados usando el comando de `.find_all()`. Por esto introduciremos el concepto de `xpath` para encontrar elementos más fácilmente.

##  Xpath

**¿Cómo se puede extraer un elemento especifico de un HTML?**. El lenguaje Xpath (*XML Path Language*) es el sistema que permite construir expresiones usadas para recorrer y consultar los elementos de un documento XML. Es decir, un `XPath` permite buscar un elemento teniendo en cuenta la estructura jerárquica del XML.

<center>
<img src = "pics/body_html.png">
</center>

Por el ejemplo, para obtener el elemento marcado con un recuadro rojo, el `xpath` le indica a Python cuál es el camino que debe recorrer para extraer ese elemento. Puede obtener el `xpath` inspeccionando el elemento así: 

<center>
<img src = "pics/xpath.gif", width = 60%>
</center>

Para extraer el nodo que contiene la tabla de "Goleadores Históricos", usted puede extraer el xpath de ese elemento (`'//*[@id="mw-content-text"]/div[1]/table[7]'`) y usar el paquete `lxml` para extraer el elemento: 

In [74]:
from lxml import etree

html_tree = etree.HTML(r.content)
elemento = html_tree.xpath('//*[@id="mw-content-text"]/div[1]/table[7]')
tabla = etree.tostring(elemento[0], pretty_print = True, method = "html", encoding = 'unicode')
html_string_io = StringIO(tabla)
pd.read_html(html_string_io)[0]

Unnamed: 0,Pos.,Jugador[143]​,Selección,Goles,Partidos,Promedio,Torneos jugados
0,1.0,Miroslav Klose,Alemania,16,24,67,"2002, 2006, 2010 y 2014"
1,2.0,Ronaldo,Brasil,15,19,79,"1994, 1998, 2002 y 2006"
2,3.0,Gerd Müller,Alemania,14,13,108,1970 y 1974
3,4.0,Just Fontaine,Francia,13,6,217,1958
4,,Lionel Messi,Argentina,13,26,5,"2006, 2010, 2014, 2018 y 2022"
5,6.0,Kylian Mbappé,Francia,12,14,86,2018 y 2022
6,,Pelé,Brasil,12,14,86,"1958, 1962, 1966 y 1970"
7,8.0,Sándor Kocsis,Hungría,11,5,22,1954
8,,Jürgen Klinsmann,Alemania,11,17,65,"1990, 1994 y 1998"
9,10.0,Helmut Rahn,Alemania,10,10,1,1954 y 1958


Más fácil sería identificar en el `xpath` que esa tabla es la 7: '//*[@id="mw-content-text"]/div[1]/**table[7]**'

In [None]:
tabla_goleador = str(tablas[7])
tabla_goleador = StringIO(tabla_goleador)

pd.read_html(tabla_goleador)[0]

## Scraping de la TRM desde la página del BanRep
Vamos a entrar a la [página del BanRep donde está la info de la TRM](https://www.banrep.gov.co/es/estadisticas/trm) y entrar al enlace que se llama "Serie histórica mensual promedio y fin de mes (desde 27/11/1991)"

In [120]:
url_banrep = "https://totoro.banrep.gov.co/analytics/saw.dll?Go&NQUser=publico&NQPassword=publico123&Action=prompt&path=%2Fshared%2FSeries%20Estad%C3%ADsticas_T%2F1.%20Tasa%20de%20Cambio%20Peso%20Colombiano%2F1.1%20TRM%20-%20Disponible%20desde%20el%2027%20de%20noviembre%20de%201991%2F1.1.12.TCM_Serie%20historica%20promedio%20mensual&Options=rdf"
r = requests.get(url_banrep)
r.status_code == 200

True

In [121]:
# No encontramos nada porque este request es más complejo
soup = BeautifulSoup(r.content)
soup.find_all("table")

[<table border="0" cellpadding="0" cellspacing="0" class="HeaderTopBar">
 <tbody>
 <tr>
 <td class="HeaderLogo">
 <img alt="Oracle Logo" border="0" src="Missing_oracle_logo.png"/></td>
 <td>
 <span class="HeaderBrandName">
                      Business Intelligence</span></td>
 </tr>
 </tbody>
 </table>]

In [122]:
# Your browser is not supported by Oracle BI Presentation Services. 
# Además esta página es dinámica! Puro Javascript
print(r.text)

<!DOCTYPE HTML>
<html dir="ltr" lang="en">
<head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"><meta http-equiv="Content-Language" content="en"><noscript>To use Oracle BIEE, please enable javascript in your browser.</noscript><script type="text/javascript" src="/analytics/res/v-w0IwJi8med0/b_mozilla/browserdom.js"></script><script type="text/javascript">try{saw.doFrameBust(0);function sawC2U(s){return "/analytics/saw.dll?__xyz__".replace("__xyz__",s);}function sawP2U(s){return "/analytics/saw.dll/__xyz__".replace("__xyz__",s);}function isThisTheBayBridgeOrGolden() { return false;}var sawEmptyHtm="/analytics/res/v-w0IwJi8med0/empty.htm";var obips_fmapId="308zXg";var obips_scid="";var obips_maxStylesheets=100;var g_LocaleInfo={sDateSeparator:"/",sTimeSeparator:":",sDecimalPoint:".",sThousandsSeparator:",",sAM:"AM",sPM:"PM",b24:false,sDateOrder:"mdy",nFDOW:6,aMonthAbbreviations:["Jan","Feb","Mar","Apr","May","Jun","Jul","Aug","Sep","Oct","Nov","Dec"],aNominitiveMonthN

In [123]:
headers = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": "es-ES,es;q=0.9,en;q=0.8",
    "Cache-Control": "max-age=0",
    "Cookie": "ORA_BIPS_NQID=vptnsno2glejne6b9v025be9rv08hjbnnp1dgf7pqsbs8cnt; ORA_BIPS_LBINFO=18d805738bb; __uzma=8a90520c-8035-47df-a04e-5559309dfa65; __uzmb=1707251816; __uzme=5022; _gid=GA1.3.1431334214.1707251821; _gat_UA-2791658-1=1; frame_dv=; uzmx=7f90007c187b78-e00a-41bd-b251-8eb1b26dde771-1707251815036382750-eb7e529576e03e6813; _ga_XKKJ6KGNH7=GS1.1.1707251820.1.1.1707252198.0.0.0; _ga=GA1.1.1618685552.1707251821; _ga_MKP83SEF5M=GS1.3.1707251824.1.1.1707252198.60.0.0; __uzmc=4697110079322; __uzmd=1707255986",
    "Dnt": "1",
    "Sec-Ch-Ua": '"Not A(Brand";v="99", "Google Chrome";v="121", "Chromium";v="121"',
    "Sec-Ch-Ua-Mobile": "?0",
    "Sec-Ch-Ua-Platform": '"Windows"',
    "Sec-Fetch-Dest": "document",
    "Sec-Fetch-Mode": "navigate",
    "Sec-Fetch-Site": "none",
    "Sec-Fetch-User": "?1",
    "Upgrade-Insecure-Requests": "1",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36"
}

In [124]:
r = requests.get(url_banrep, headers = headers)
r.status_code == 200

True

In [126]:
# La cosa está turbia pero se ve mejor
soup = BeautifulSoup(r.content)
tabla = soup.find_all("table")[0]
tabla

<table cellspacing="0" class="ViewTable">
<tr>
<td class="ViewCell" pid="" sid="2uiprsojmlri1anfue3hhars0u" vid="o:go~r:report"><script type="text/javascript">if(!document.almap)
  document.almap = []; 
document.almap['saw_3917451_2'] = {};</script><script type="text/javascript">var tRM = obips.ReportMetadata.GetInstance(true); 
tRM.resetResolvedColumnHeadingValues();
</script>
<div class="ViewContent" id="o:go~r:reportResult" options="bsfrd" result="finished" viewname="compoundView!1" viewtype="compoundView"><div class="ViewContainer" id="o:go~r:report~v:compoundView!1ViewContainer" vid="o:go~r:report~v:compoundView!1" viewtype="compoundView">
<table cellspacing="0" class="CVTable">
<tr>
<td align="center" class="CVView" pid="" sid="2uiprsojmlri1anfue3hhars0u" style="vertical-align:top;" valign="top" vid="o:go~r:report~v:compoundView!1~v:titleView!1"><table cellspacing="0" class="CVFormatTable" style="border-style:none;border-bottom:solid 3px #910028;width:100%;">
<tr>
<td align="cent

In [128]:
tabla_str = tabla.text
tabla_str

'\n\n\n\n\n\n\n\n\n\nTasa de cambio representativa del mercado (TRM)1.1.11. Serie histórica_periodicidad mensual\n\n\n\n\n\n\n\n\nInformación disponible desde el año 1991.\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nPeticiones de Tabla Dinámica\n\n\n\xa0\n\n\n\n\n\n\n\n\nSecciones\n\n\n\xa0\n\n\n\n\n\n\n\nAño - Mes (aaaa -mm)\nPromedio mensual\nFin de mes\n\n\n2024-01\n3.920,20\n3.925,60\n\n\n2023-12\n3.954,14\n3.822,05\n\n\n2023-11\n4.040,26\n3.980,67\n\n\n2023-10\n4.219,16\n4.060,83\n\n\n2023-09\n4.008,41\n4.053,76\n\n\n2023-08\n4.066,87\n4.085,33\n\n\n2023-07\n4.067,63\n3.923,49\n\n\n2023-06\n4.213,53\n4.191,28\n\n\n2023-05\n4.539,54\n4.408,65\n\n\n2023-04\n4.526,03\n4.669,00\n\n\n2023-03\n4.760,96\n4.627,27\n\n\n2023-02\n4.802,75\n4.808,14\n\n\n2023-01\n4.712,18\n4.632,20\n\n\n2022-12\n4.787,89\n4.810,20\n\n\n2022-11\n4.922,30\n4.809,51\n\n\n2022-10\n4.714,96\n4.819,42\n\n\n2022-09\n4.437,31\n4.532,07\n\n\n2022-08\n4.326,77\n4.400,16\n\n\n2022-07\n4.394,01\n4.300,30\n\n\n2022-06\n3.922,50\n4.12

In [132]:
# Al parecer las filas se separan con \n\n\n y las columnas con \n
filas = tabla_str.split("\n\n\n")
filas

['',
 '',
 '',
 '\nTasa de cambio representativa del mercado (TRM)1.1.11. Serie histórica_periodicidad mensual',
 '',
 '',
 'Información disponible desde el año 1991.',
 '',
 '',
 '',
 '',
 '\nPeticiones de Tabla Dinámica',
 '\xa0',
 '',
 '',
 'Secciones',
 '\xa0',
 '',
 '\n\nAño - Mes (aaaa -mm)\nPromedio mensual\nFin de mes',
 '2024-01\n3.920,20\n3.925,60',
 '2023-12\n3.954,14\n3.822,05',
 '2023-11\n4.040,26\n3.980,67',
 '2023-10\n4.219,16\n4.060,83',
 '2023-09\n4.008,41\n4.053,76',
 '2023-08\n4.066,87\n4.085,33',
 '2023-07\n4.067,63\n3.923,49',
 '2023-06\n4.213,53\n4.191,28',
 '2023-05\n4.539,54\n4.408,65',
 '2023-04\n4.526,03\n4.669,00',
 '2023-03\n4.760,96\n4.627,27',
 '2023-02\n4.802,75\n4.808,14',
 '2023-01\n4.712,18\n4.632,20',
 '2022-12\n4.787,89\n4.810,20',
 '2022-11\n4.922,30\n4.809,51',
 '2022-10\n4.714,96\n4.819,42',
 '2022-09\n4.437,31\n4.532,07',
 '2022-08\n4.326,77\n4.400,16',
 '2022-07\n4.394,01\n4.300,30',
 '2022-06\n3.922,50\n4.127,47',
 '2022-05\n4.027,60\n3.912,34'

In [159]:
filas_utiles = filas[18::]
# Separamos columnas
matriz = [i.split("\n") for i in filas_utiles]
# Arreglamos los headers
matriz[0] = matriz[0][2::]

In [173]:
matriz[0:(len(matriz) - 9)][::-1]

[['1991-11', '687,59', '694,70'],
 ['1991-12', '630,38', '638,61'],
 ['1992-01', '645,18', '644,27'],
 ['1992-02', '635,53', '636,54'],
 ['1992-03', '640,33', '641,59'],
 ['1992-04', '649,16', '653,83'],
 ['1992-05', '659,81', '664,37'],
 ['1992-06', '675,79', '697,57'],
 ['1992-07', '704,50', '705,14'],
 ['1992-08', '693,72', '691,68'],
 ['1992-09', '697,11', '702,81'],
 ['1992-10', '707,65', '716,88'],
 ['1992-11', '722,43', '725,45'],
 ['1992-12', '733,42', '737,98'],
 ['1993-01', '745,52', '746,05'],
 ['1993-02', '749,08', '758,03'],
 ['1993-03', '764,38', '766,41'],
 ['1993-04', '771,79', '774,94'],
 ['1993-05', '779,71', '779,56'],
 ['1993-06', '784,24', '787,12'],
 ['1993-07', '795,08', '801,35'],
 ['1993-08', '804,61', '806,86'],
 ['1993-09', '809,66', '810,84'],
 ['1993-10', '814,45', '817,03'],
 ['1993-11', '814,08', '811,73'],
 ['1993-12', '803,56', '804,33'],
 ['1994-01', '816,15', '818,38'],
 ['1994-02', '817,67', '819,70'],
 ['1994-03', '819,76', '819,51'],
 ['1994-04', '

In [175]:
matriz = matriz[0:(len(matriz) - 9)]

In [179]:
trm = pd.DataFrame(matriz[1::], columns = matriz[0])

In [181]:
trm.dtypes

Año - Mes (aaaa -mm)    object
Promedio mensual        object
Fin de mes              object
dtype: object

In [186]:
trm = trm.rename(columns = {"Año - Mes (aaaa -mm)": "Fecha"})

In [193]:
trm["Fecha"] = pd.to_datetime(trm["Fecha"], format = "%Y-%m")

In [None]:
trm[["Promedio mensual", "Fin de mes"]] = trm[["Promedio mensual", "Fin de mes"]].map(lambda x: x.replace(".", ""))
trm[["Promedio mensual", "Fin de mes"]] = trm[["Promedio mensual", "Fin de mes"]].map(lambda x: x.replace(",", "."))
trm[["Promedio mensual", "Fin de mes"]] = trm[["Promedio mensual", "Fin de mes"]].map(lambda x: pd.to_numeric(x))

In [206]:
trm.dtypes

Fecha               datetime64[ns]
Promedio mensual           float64
Fin de mes                 float64
dtype: object

In [207]:
trm

Unnamed: 0,Fecha,Promedio mensual,Fin de mes
0,2024-01-01,3920.20,3925.60
1,2023-12-01,3954.14,3822.05
2,2023-11-01,4040.26,3980.67
3,2023-10-01,4219.16,4060.83
4,2023-09-01,4008.41,4053.76
...,...,...,...
382,1992-03-01,640.33,641.59
383,1992-02-01,635.53,636.54
384,1992-01-01,645.18,644.27
385,1991-12-01,630.38,638.61


### Scraping TRM diaria (descargar un excel)

> **Reto:** Ahora repita este proceso con la [TRM diaria](https://www.banrep.gov.co/es/estadisticas/trm) de la sección "Serie histórica completa (desde 27/11/1991)". 

En este caso esta sección no nos lleva a una página web sino que nos descarga un excel automáticamente.

In [208]:
url_banrep2 = "https://totoro.banrep.gov.co/analytics/saw.dll?Download&Format=excel2007&Extension=.xlsx&BypassCache=true&path=%2Fshared%2fSeries%20Estad%C3%ADsticas_T%2F1.%20Tasa%20de%20Cambio%20Peso%20Colombiano%2F1.1%20TRM%20-%20Disponible%20desde%20el%2027%20de%20noviembre%20de%201991%2F1.1.1.TCM_Serie%20historica%20IQY&lang=es&SyncOperation=1"

headers = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": "es-ES,es;q=0.9,en;q=0.8",
    "Cookie": "ORA_BIPS_NQID=vptnsno2glejne6b9v025be9rv08hjbnnp1dgf7pqsbs8cnt; ORA_BIPS_LBINFO=18d807ac67b; __uzma=8a90520c-8035-47df-a04e-5559309dfa65; __uzmb=1707251816; __uzme=5022; _gid=GA1.3.1431334214.1707251821; _gat_UA-2791658-1=1; frame_dv=; uzmx=7f90007c187b78-e00a-41bd-b251-8eb1b26dde771-1707251815036382750-eb7e529576e03e6813; _ga_XKKJ6KGNH7=GS1.1.1707251820.1.1.1707252198.0.0.0; _ga=GA1.3.1618685552.1707251821; __uzmc=2896411562808; __uzmd=1707257685; _ga_MKP83SEF5M=GS1.3.1707257545.2.1.1707257709.35.0.0",
    "Dnt": "1",
    "Referer": "https://www.banrep.gov.co/",
    "Sec-Ch-Ua": "\"Not A(Brand\";v=\"99\", \"Google Chrome\";v=\"121\", \"Chromium\";v=\"121\"",
    "Sec-Ch-Ua-Mobile": "?0",
    "Sec-Ch-Ua-Platform": "\"Windows\"",
    "Sec-Fetch-Dest": "document",
    "Sec-Fetch-Mode": "navigate",
    "Sec-Fetch-Site": "same-site",
    "Sec-Fetch-User": "?1",
    "Upgrade-Insecure-Requests": "1",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36"
}

In [209]:
r = requests.get(url_banrep2, headers = headers)
r.status_code == 200

True

In [213]:
print(r.content)

b'PK\x03\x04\x14\x00\x08\x08\x08\x00]\x8aFX\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x18\x00\x00\x00xl/worksheets/sheet1.xml\x9c\xdd_\xb3\xecFv%\xf6wG\xf8;t\xf0\xdd\xc5\xca\xbd3sg*\xd4\x9a\xb0G1\xb6#\xfc0\xe1\xbf\xcf\x9cnJ\xcd\x98\xee\xa6LR\xd2\xf8\xdb\x1b\xb8}n\x9d\x9b\x0bkgU\xad\'I\x14\x8ag1\x0b\xb5\x90\x00\xf2\x07\xfc\xfd\x7f\xf8o\x7f\xf9\xf3\xef\xfe\xed\xc7_~\xfd\xe9\xe7\xbf\xfe\xfe\xbbr\xbb\x7f\xf7\xbb\x1f\xff\xfa\x87\x9f\xff\xf8\xd3_\xff\xf9\xf7\xdf\xfd_\xff\xe7\x7f\xfa\x1f\xc6w\xbf\xfb\xf5\xb7\x1f\xfe\xfa\xc7\x1f\xfe\xfc\xf3_\x7f\xfc\xfdw\xff\xdf\x8f\xbf~\xf7\x1f\xfe\xe1\xbf\xff\xef\xfe\xfe\xdf\x7f\xfe\xe5\xbf\xfe\xfa\xa7\x1f\x7f\xfc\xedw\xc7\xbf\xe1\xaf\xbf\xfe\xfe\xbb?\xfd\xf6\xdb\xbf\xfc\xdd\xf7\xdf\xff\xfa\x87?\xfd\xf8\x97\x1f~\xbd\xfd\xfc/?\xfe\xf5\xf8\xff\xfc\xd3\xcf\xbf\xfc\xe5\x87\xdf\x8e\xff\xf3\x97\x7f\xfe\xfe\xd7\x7f\xf9\xe5\xc7\x1f\xfe\xf8\xe5C\x7f\xf9\xf3\xf7v\xbf\xf7\xef\xff\xf2\xc3O\x7f\xfd\xeeo\xff\x86\xbf\xfb\xe5\x95\x7f\xc7\xcf\xff\xf4O?\xfd\xe1\xc7\x7f\

In [233]:
from io import BytesIO
excel_data = BytesIO(r.content)
trm_diaria = pd.read_excel(excel_data, engine = 'openpyxl')

In [234]:
trm_diaria = trm_diaria.loc[7:(len(trm_diaria) - 11)].reset_index(drop = True)

In [235]:
trm_diaria.columns = ["Fecha", "TRM diaria"]

In [241]:
trm_diaria["Fecha"]  = pd.to_datetime(trm_diaria["Fecha"])
trm_diaria["TRM diaria"] = pd.to_numeric(trm_diaria["TRM diaria"])

In [240]:
trm_diaria

Unnamed: 0,Fecha,TRM diaria
0,1991-11-27,693.32
1,1991-11-28,693.99
2,1991-11-29,694.7
3,1991-11-30,694.7
4,1991-12-01,643.42
...,...,...
11750,2024-01-28,3925.26
11751,2024-01-29,3925.26
11752,2024-01-30,3918.93
11753,2024-01-31,3925.6


In [242]:
trm_diaria.dtypes

Fecha         datetime64[ns]
TRM diaria           float64
dtype: object