## PRACTICA OBTENCIÓN DE DATOS

### Web scraper de la página: http://gestiona.madrid.org/azul_internet/html/web/DatosEstacion24Accion.icm?ESTADO_MENU=2_1

#### Libraries

In [1]:
import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
import re

#### Functions

In [4]:
def get_html(url):
    """
    Función para extraer un objeto soup con el HTML de la url introducida.
    :url: string con la url de la web de madrid.org.
    :return: devuelve el objeto soup.
    """
    # Primero importamos el html de la página web
    website = requests.get(url)
    
    # Ahora lo guardamos con un objeto "soup"
    website_soup = bs(website.content)
    return website_soup

def get_tables(soup):
    """
    Función master para extraer las tablas del HTML.
    :soup: string con el objeto soup HTML.
    :return: devuelve una tupla con los dos dataframes extraídos.
    """
    # Vamos a probar con un find all
    tables = soup.find_all("table")
    df_tables = ()
    # Seleccionamos las tablas 2 y 3 de la página a escrapear
    for table in tables[2:4]:
        df = table_to_pandas(table)
        df_tables += (df,)
    return df_tables
        
def table_to_pandas(table_soup):
    """
    Función auxiliar para parsear una tabla HTML y convertirla a Dataframe.
    :table_soup: string con el html de la tabla.
    :return: dataframe con la tabla.
    """
    # Vamos a coger los nombres de las columnas de la tabla
    head = table_soup.find("thead").find_all("strong")[1:]
    columns = [column.text for column in head]
    columns.insert(0, 'HOURS')
    
    # Vamos a coger las filas de la tabla
    rows = []
    body = table_soup.find("tbody").find_all("tr")
    for row in body:
        values = row.find_all("td")
        values = [value.text.strip() for value in values]
        rows.append(values)
    
    # Construimos el dataframe
    df = pd.DataFrame(rows, columns = columns)
    return df

#### CODE

In [5]:
# CODE
# Url con los datos a scrapear
url = "http://gestiona.madrid.org/azul_internet/html/web/DatosEstacion24Accion.icm?ESTADO_MENU=2_1"

# Extracción de tablas del HTML
html = get_html(url)
pollution, weather = get_tables(html)

# Mostrar datos extraídos
display(pollution.head())
display(weather.head())

Unnamed: 0,HOURS,TIN,NO,NO2,PM2.5,PM10,NOX,O3
0,16:00,21.4,1,7,3,4,9,49
1,17:00,21.1,1,8,3,3,10,50
2,18:00,21.0,2,21,3,7,24,35
3,19:00,20.5,4,46,9,4,52,11
4,20:00,20.4,2,36,9,9,40,24


Unnamed: 0,HOURS,VV,DV,TMP,HR,PRE,RS,LL
0,16:00,0.6,152,10.4,95,938,60,0.0
1,17:00,0.4,159,10.4,94,938,2,0.0
2,18:00,0.2,39,10.4,95,939,0,0.8
3,19:00,0.4,190,9.7,95,939,0,0.4
4,20:00,0.7,104,9.4,95,939,0,0.0


#### url from Postman

In [8]:
url = "http://gestiona.madrid.org/azul_internet/html/web/DatosEstacion24Accion.icm?ESTADO_MENU=2_1"

payload='estaciones=18&accept=Accept'
headers = {'Content-Type': 'application/x-www-form-urlencoded'}
  

response = requests.request("POST", url, headers=headers, data=payload)

print(response.text)







       	


   
   

   
   
   

   
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">

<html>
<head>
<title>madrid.org - Comunidad de Madrid</title>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<meta http-equiv="Content-Language" content="es">
<meta name="Description" content="Web oficial del gobierno auton&oacute;mico con informaci&oacute;n sobre econom&iacute;a, educaci&oacute;n, servicios sociales,...">
<meta name="Keywords" content="Comunidad de Madrid">
<meta name="Author" content="Comunidad de Madrid">
<meta name="Owner" content="oficina.atencion.ciudadano@madrid.org">
<!--link rel="stylesheet" type="text/css" href="../../style/intranet.css"-->
<link rel="stylesheet" type="text/css" href="../../style/sistemas.css">
<link rel="stylesheet" type="text/css" href="../../style/estilos.css">
<link rel="stylesheet" type="text/css" href="../../style/solapas.css">
<script type="

---

---

In [4]:
#Primero importamos el html de la página web
website = requests.get("http://gestiona.madrid.org/azul_internet/html/web/DatosEstacion24Accion.icm?ESTADO_MENU=2_1")

#Ahora lo guardamos con un objeto "soup"
website_soup = bs(website.content)

#Finalmente imprimimos para ver que tenemos
print(website_soup.prettify())

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
 <head>
  <title>
   madrid.org - Comunidad de Madrid
  </title>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="es" http-equiv="Content-Language"/>
  <meta content="Web oficial del gobierno autonómico con información sobre economía, educación, servicios sociales,..." name="Description"/>
  <meta content="Comunidad de Madrid" name="Keywords"/>
  <meta content="Comunidad de Madrid" name="Author"/>
  <meta content="oficina.atencion.ciudadano@madrid.org" name="Owner"/>
  <!--link rel="stylesheet" type="text/css" href="../../style/intranet.css"-->
  <link href="../../style/sistemas.css" rel="stylesheet" type="text/css"/>
  <link href="../../style/estilos.css" rel="stylesheet" type="text/css"/>
  <link href="../../style/solapas.css" rel="stylesheet" type="text/css"/>
  <script language="JavaScript" src="../../js/solapas.js" type="text/javascri

In [5]:
#Primero probamos a scrapear una de las tablas de forma sencilla
table = website_soup.find("table")
print(table)

# Esto scrapea solo la primera tabla encontrada

<table border="0" cellpadding="0" cellspacing="0" style="width:980px">
<tr>
<td style="padding-bottom: 10px;" width="89">
<!--      <img style="cursor: pointer;" -->
<!--       		src="../../images/portal/PubliPositivo_15mm_ancho.jpg" alt="Comunidad de Madrid - madrid.org" title="Comunidad de Madrid - madrid.org" width="89" height="64"/> -->
<a href="http://www.comunidad.madrid" target="_blank">
<img alt="Comunidad de Madrid" height="64" src="/webutils/logoCM-izq-89x64.png" style="cursor: pointer;" title="Comunidad de Madrid" width="89"/>
</a>
</td>
<td class="nihil" width="15">
       
    </td>
<td>
<table border="0" cellpadding="0" cellspacing="0" width="100%">
<!--         <tr> -->
<!--           <td colspan="2" class="txt08gr3"> -->
<!--           </td> -->
<!--         </tr> -->
<tr>
<td class="titGeo11azu">
            Red de Calidad del Aire de la Comunidad de Madrid
          </td>
<td id="tdalerta">
</td>
</tr>
<tr>
<td class="puntos" colspan="2">
</td>
</tr>
<tr>
<td cols

In [84]:
#Vamos a probar con un find all
tables = website_soup.find_all("table")
print(tables)

#Esto ha creado una lista de todas las tablas

[<table border="0" cellpadding="0" cellspacing="0" style="width:980px">
<tr>
<td style="padding-bottom: 10px;" width="89">
<!--      <img style="cursor: pointer;" -->
<!--       		src="../../images/portal/PubliPositivo_15mm_ancho.jpg" alt="Comunidad de Madrid - madrid.org" title="Comunidad de Madrid - madrid.org" width="89" height="64"/> -->
<a href="http://www.comunidad.madrid" target="_blank">
<img alt="Comunidad de Madrid" height="64" src="/webutils/logoCM-izq-89x64.png" style="cursor: pointer;" title="Comunidad de Madrid" width="89"/>
</a>
</td>
<td class="nihil" width="15">
       
    </td>
<td>
<table border="0" cellpadding="0" cellspacing="0" width="100%">
<!--         <tr> -->
<!--           <td colspan="2" class="txt08gr3"> -->
<!--           </td> -->
<!--         </tr> -->
<tr>
<td class="titGeo11azu">
            Red de Calidad del Aire de la Comunidad de Madrid
          </td>
<td id="tdalerta">
</td>
</tr>
<tr>
<td class="puntos" colspan="2">
</td>
</tr>
<tr>
<td col

#### Vamos a extraer las dos tablas que necesitamos. Analizando la lista anterior, determinamos la posición.

In [6]:
#Tabla 1_ es la número tres de la lista y por tanto [2]
table_one = website_soup.select("table")[2]
print(table_one.prettify())

<table align="center" border="0" cellpadding="4" cellspacing="1" width="94%">
 <thead>
  <tr>
   <td align="center" class="txt08gr3" colspan="8" id="fondoVainilla">
    Ultimas 24 Horas
   </td>
  </tr>
  <tr align="center" valign="middle">
   <td>
   </td>
   <td align="center" class="txt08bla" colspan="7" id="fondoGrisMedio">
    <strong>
     Contaminantes
    </strong>
   </td>
  </tr>
  <tr>
   <td>
   </td>
   <td align="center" class="txt07azu" id="fondoGris">
    <a href="javascript:abrirVentana('DatosEstacionGraficoAccion.icm?idAnalizador=7&amp;limSup=25&amp;limInf=0&amp;fechaIni=2021/12/24&amp;fechaFin=2021/12/25&amp;estacion=Getafe&amp;analizador=Temperatura interior cabina', 'wcTIN', 720, 480);" title="Temperatura interior cabina. Pulse con el ratón para ver la gráfica de evolución.">
     <strong>
      TIN
      <br/>
     </strong>
     <small>
      (ºC)
     </small>
    </a>
   </td>
   <td align="center" class="txt07azu" id="fondoGris">
    <a href="javascript:abrirV

In [7]:
#Vamos a coger las columnas de la primera tabla
columns_one = table_one.find("thead").find_all("a")

columns_one_names = [c.text for c in columns_one]

#Y vamos a añadir la primera columna del dataframe
columns_one_names.insert(0, "hours")
print(columns_one_names)

['hours', '\nTIN\n(ºC)', '\nNO\n(µg/m3)', '\nNO2\n(µg/m3)', '\nPM2.5\n(µg/m3)', '\nPM10\n(µg/m3)', '\nNOX\n(µg/m3)', '\nO3\n(µg/m3)']


In [10]:
#Vamos a obtener ahora todas las filas de la tabla 1
rows_one = table_one.find("tbody").find_all("tr")
l = []
for tr in rows_one:
    td = tr.find_all('td')
    row = [str(tr.text).strip() for tr in td]
    l.append(row)

#Y ahora creamos un dataframe con Pandas
df_tabla1 = pd.DataFrame(l, columns = columns_one_names)

#Y finalmente lo guardamos a un .csv
df_tabla1.to_csv("contaminantes.csv")

#Comprobamos el correcto formato
df_tabla1

Unnamed: 0,hours,\nTIN\n(ºC),\nNO\n(µg/m3),\nNO2\n(µg/m3),\nPM2.5\n(µg/m3),\nPM10\n(µg/m3),\nNOX\n(µg/m3),\nO3\n(µg/m3)
0,24:00,19.9,2,16,12,7,19,30
1,01:00,19.5,2,15,4,7,18,36
2,02:00,19.3,2,12,1,6,15,43
3,03:00,19.4,1,8,3,4,10,45
4,04:00,19.5,1,10,6,4,12,44
5,05:00,19.8,1,10,4,6,12,40
6,06:00,19.5,1,8,4,2,10,41
7,07:00,19.6,1,10,6,5,12,40
8,08:00,19.7,1,10,4,4,12,45
9,09:00,20.0,1,9,3,4,11,38


In [9]:
#Ahora repetimos todo el proceso junto para la tabla 2
table_two = website_soup.select("table")[3]

columns_two = table_two.find("thead").find_all("a")

columns_two_names = [c.text for c in columns_two]

columns_two_names.insert(0, "hours")

rows_two = table_two.find("tbody").find_all("tr")

l2 = []
for tr in rows_two:
    td = tr.find_all('td')
    row = [str(tr.text).strip() for tr in td]
    l2.append(row)

df_tabla2 = pd.DataFrame(l2, columns = columns_two_names)
df_tabla2.head()

df_tabla2.to_csv("parametrosmeteo.csv")

#Comprobamos el correcto formato
df_tabla2.head()

Unnamed: 0,hours,\nVV\n(m/s),\nDV\n(Grd),\nTMP\n(ºC),\nHR\n(%),\nPRE\n(mbar),\nRS\n(W/m2),\nLL\n(l/m2)
0,24:00,0.4,177,8.4,93,940,0,0.8
1,01:00,0.6,172,8.4,93,941,0,0.4
2,02:00,0.3,175,7.8,93,940,0,0.0
3,03:00,0.2,154,7.5,93,940,0,0.0
4,04:00,0.2,147,7.3,94,939,0,0.0
