### Importación de los módulos de Python a utilizar

In [18]:
import requests
from bs4 import BeautifulSoup

### Declaración de Función que se usará posteriormente para descargar archivo

In [33]:
# La función download_file utiliza el módulo requests importado previamente
# Recibe como parámetro una url de donde descargar un archivo y 
# un nombre de archivo con el que se guardará localmente (en el directorio de trabajo actual)
def download_file(url, filename):

    request = requests.get(url)

    with open(filename, 'wb') as file:  
        file.write(request.content)

### Especificar url y hacer requests
### Lo que se obtiene es un texto plano de la página
### Luego se puede utilizar BeautifulSoup para parsear y buscar elementos en el documento html

In [35]:
url = 'https://www.inale.org/estadisticas/precio-al-productor-y-composicion-de-la-leche/'
response = requests.get(url)
response.text



In [21]:
soup = BeautifulSoup(response.text, "html.parser")
soup

<!DOCTYPE html>

<html lang="es">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<meta content="INALE es una persona jurídica de derecho público no estatal. Su principal cometido es asesorar al gobierno en política lechera. El objetivo es aportar a la articulación de la red público-privada, orientada al desarrollo del sector lácteo." name="description">
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<link href="http://gmpg.org/xfn/11" rel="profile"/>
<link href="https://www.inale.org/xmlrpc.php" rel="pingback"/>
<link href="https://fonts.googleapis.com/css?family=Open+Sans:300,400,700" rel="stylesheet"/>
<link href="https://fonts.googleapis.com/css?family=Roboto+Slab:300,400,700" rel="stylesheet"/>
<script src="https://ajax.googleapis.com/ajax/libs/jquery/1.11.3/jquery.min.js"></script>
<title>Precio al productor y composición de la leche – Inale</title>
<link href="https://www.inale.org/wp-includes/css/dist/block-library/st

### Se utiliza el metodo .findAll para buscar tags

In [22]:
#usar metodo .findAll para buscar tags <a>
soup.find_all('a')

[<a class="site-title" href="https://www.inale.org/">
 <div class="logo-inale-nav"></div>
 </a>,
 <a aria-expanded="false" aria-haspopup="true" class="dropdown-toggle nav-link" data-toggle="dropdown" href="#" id="menu-item-dropdown-76" title="Institucional">Institucional</a>,
 <a class="dropdown-item" href="https://www.inale.org/acerca-de/" title="Acerca de">Acerca de</a>,
 <a class="dropdown-item" href="https://www.inale.org/proyectos/" title="¿Qué hacemos?">¿Qué hacemos?</a>,
 <a class="dropdown-item" href="https://www.inale.org/category/foro-inale/" title="Foro Inale">Foro Inale</a>,
 <a class="dropdown-item" href="https://www.inale.org/oportunidades-y-licitaciones/" title="Oportunidades y Licitaciones">Oportunidades y Licitaciones</a>,
 <a class="dropdown-item" href="https://www.inale.org/transparencia/" title="Transparencia">Transparencia</a>,
 <a class="dropdown-item" href="https://www.youtube.com/user/INALEUruguay" title="Videos">Videos</a>,
 <a class="dropdown-item" href="https

In [29]:
# el tag <a> que nos interesa es el que está en la posición 17 (comenzando desde cero)
my_tag = soup.findAll('a')[17]
my_tag

<a class="ht-tm-element btn btn-green mb-2" href="https://www.inale.org/wp-content/uploads/2020/07/Precio-al-productor-y-composición-de-la-leche.xls" target="_blank">Descargar estadística <svg aria-hidden="true" class="svg-inline--fa fa-download fa-w-16" data-fa-i2svg="" data-icon="download" data-prefix="fas" role="img" viewbox="0 0 512 512" xmlns="http://www.w3.org/2000/svg"><path d="M216 0h80c13.3 0 24 10.7 24 24v168h87.7c17.8 0 26.7 21.5 14.1 34.1L269.7 378.3c-7.5 7.5-19.8 7.5-27.3 0L90.1 226.1c-12.6-12.6-3.7-34.1 14.1-34.1H192V24c0-13.3 10.7-24 24-24zm296 376v112c0 13.3-10.7 24-24 24H24c-13.3 0-24-10.7-24-24V376c0-13.3 10.7-24 24-24h146.7l49 49c20.1 20.1 52.5 20.1 72.6 0l49-49H488c13.3 0 24 10.7 24 24zm-124 88c0-11-9-20-20-20s-20 9-20 20 9 20 20 20 20-9 20-20zm64 0c0-11-9-20-20-20s-20 9-20 20 9 20 20 20 20-9 20-20z" fill="currentColor"></path></svg>
</a>

In [30]:
link = my_tag['href']
link

'https://www.inale.org/wp-content/uploads/2020/07/Precio-al-productor-y-composición-de-la-leche.xls'

In [31]:
file_name = link[link.find('/Precio-')+1:] 
file_name

'Precio-al-productor-y-composición-de-la-leche.xls'

### Descargar el archivo localmente

In [32]:
download_file (link, file_name)