# WEB SCRAPING

Para esta práctica, vamos a acceder a los datos de energía solar generados en la instalación eléctrica Mercat del Carmel en Barcelona, de la página pvpoutput.org:

https://pvoutput.org/list.jsp?sid=34434

**COMPROBAR QUE EN LA VISUALIZACIÓN DE LA PÁGINA SE OBSERVAN ÚNICA Y EXCLUSIVAMENTE LOS DATOS ENTRE 18-11-18 Y 17-12/18**

La tarea consiste en scrappear la página, y guardar los datos en un dataframe de:
* Fecha (Date)
* Energía generada (Generated)
* Eficiencia (Efficiency)
* Condiciones (Conditions)

Los datos de energía generada y eficiencia deben de ser guardados como números. Para ellos, sumar los 2 valores de energía y eficiencia y ver que se obtiene un resultado numérico.

Guarda el dataframe en un fichero con el nombre "Parte2_ejercicio1.csv".

PISTA: Los datos de la página, están guardados dentro una tabla. Seguro que existe una manera fácil en BeatifulSoup para seleccionar los datos que conforman la tabla


In [1]:
#Libreria para aplicar funciones reges
import re
#Libreria para obtener el html de una url
from urllib.request import urlopen
#Libreria para webscrapping
from bs4 import BeautifulSoup
import pandas as pd

In [2]:
# Lo primero que deberiamos hacer, es acceder a la información de la págia mediante Web Scrapping

enlace = "https://pvoutput.org/list.jsp?sid=34434"

html = urlopen(enlace).read()

soup = BeautifulSoup(html, 'html.parser')

In [3]:
# Guardamos los datos que necesitamos en una variable
#PISTA: Los datos que buscamos estan en una tabla

#Al inspeccionar la pagina me doy cuenta de que es la segunda tabla de la pagina, la primera es la de target.
tabla = soup.find_all('table')[1]

In [4]:
print(tabla)
#print(type(tabla))
tabla = str(tabla)
#print(type(tabla))

<table class="table-data" id="tb"><tr><td colspan="7"><b class="large">Ona Solar Mercat del Carmel <a class="system1" href="display.jsp?sid=34434" title="Ona Solar Mercat del Carmel 43.740kW|Panels: 243x180W STM 180F&lt;br/&gt;Inverter: FRONIUS IG 60 ADV&lt;br/&gt;Location: &lt;img src='images/c/es.png'&gt; Spain&lt;br/&gt;Orientation: South 0.0°&lt;br/&gt;Array Tilt: 35.0°&lt;br/&gt;Shade: Low">43.740kW</a></b></td><td align="right" colspan="5" nowrap=""><label style="padding-right:3px; font-size: 1.10em;">Compare:</label><input id="query" name="sid" style="width: 180px" type="text"/> <a class="shelp" href="#" title="Search Tips|&lt;b&gt;15km&lt;/b&gt; - systems 15km from this system&lt;br/&gt;&lt;b&gt;2200 5km&lt;/b&gt; - 5km from postcode 2200&lt;br/&gt;&lt;b&gt;30&lt;/b&gt; - postcodes or system sizes starting with '30'&lt;br/&gt;&lt;b&gt;abc&lt;/b&gt; - system names containing 'abc'&lt;br/&gt;&lt;b&gt;sharp panel&lt;/b&gt; - systems with sharp panels&lt;br/&gt;&lt;b&gt;xan inverte

In [5]:
datos = pd.DataFrame(columns=['Fecha', 'Energía_generada', 'Eficiencia', 'Condiciones'])

In [6]:
# El primer paso será obtener todos los valores de FECHA
expresion_fechas = r'\d{2}/\d{2}/\d{2}'

fechas_obtenidas = re.findall(expresion_fechas, tabla)

#print(fechas_obtenidas)

datos['Fecha'] = fechas_obtenidas

print(datos)

       Fecha Energía_generada Eficiencia Condiciones
0   17/12/18              NaN        NaN         NaN
1   16/12/18              NaN        NaN         NaN
2   15/12/18              NaN        NaN         NaN
3   14/12/18              NaN        NaN         NaN
4   13/12/18              NaN        NaN         NaN
5   12/12/18              NaN        NaN         NaN
6   11/12/18              NaN        NaN         NaN
7   10/12/18              NaN        NaN         NaN
8   09/12/18              NaN        NaN         NaN
9   08/12/18              NaN        NaN         NaN
10  07/12/18              NaN        NaN         NaN
11  06/12/18              NaN        NaN         NaN
12  05/12/18              NaN        NaN         NaN
13  04/12/18              NaN        NaN         NaN
14  03/12/18              NaN        NaN         NaN
15  02/12/18              NaN        NaN         NaN
16  01/12/18              NaN        NaN         NaN
17  30/11/18              NaN        NaN      

In [7]:
# El segundo paso, energía generada
expresion_energia = r'\d+\.\d+kWh<'

#Añado < para que la expresion regular no coja los datos de eficiencia tambien (disponen de la misma estructura)
#Posteriormente elimino el <

energia_obtenida = re.findall(expresion_energia, tabla)

datos['Energía_generada'] = energia_obtenida
datos['Energía_generada'] = datos['Energía_generada'].str[:-1]

print(datos)

       Fecha Energía_generada Eficiencia Condiciones
0   17/12/18         0.000kWh        NaN         NaN
1   16/12/18        23.290kWh        NaN         NaN
2   15/12/18       102.201kWh        NaN         NaN
3   14/12/18        49.354kWh        NaN         NaN
4   13/12/18        10.052kWh        NaN         NaN
5   12/12/18        66.718kWh        NaN         NaN
6   11/12/18       104.514kWh        NaN         NaN
7   10/12/18        93.795kWh        NaN         NaN
8   09/12/18       113.725kWh        NaN         NaN
9   08/12/18        78.448kWh        NaN         NaN
10  07/12/18       118.060kWh        NaN         NaN
11  06/12/18       114.691kWh        NaN         NaN
12  05/12/18       111.368kWh        NaN         NaN
13  04/12/18       115.125kWh        NaN         NaN
14  03/12/18        75.057kWh        NaN         NaN
15  02/12/18       118.966kWh        NaN         NaN
16  01/12/18        91.670kWh        NaN         NaN
17  30/11/18        68.678kWh        NaN      

In [8]:
# Extraemos la eficiencia
expresion_eficiencia = r'\d+\.\d+kWh/kW'

eficiencia_obtenida = re.findall(expresion_eficiencia, tabla)

datos['Eficiencia'] = eficiencia_obtenida

print(datos)

       Fecha Energía_generada   Eficiencia Condiciones
0   17/12/18         0.000kWh  0.000kWh/kW         NaN
1   16/12/18        23.290kWh  0.532kWh/kW         NaN
2   15/12/18       102.201kWh  2.337kWh/kW         NaN
3   14/12/18        49.354kWh  1.128kWh/kW         NaN
4   13/12/18        10.052kWh  0.230kWh/kW         NaN
5   12/12/18        66.718kWh  1.525kWh/kW         NaN
6   11/12/18       104.514kWh  2.389kWh/kW         NaN
7   10/12/18        93.795kWh  2.144kWh/kW         NaN
8   09/12/18       113.725kWh  2.600kWh/kW         NaN
9   08/12/18        78.448kWh  1.794kWh/kW         NaN
10  07/12/18       118.060kWh  2.699kWh/kW         NaN
11  06/12/18       114.691kWh  2.622kWh/kW         NaN
12  05/12/18       111.368kWh  2.546kWh/kW         NaN
13  04/12/18       115.125kWh  2.632kWh/kW         NaN
14  03/12/18        75.057kWh  1.716kWh/kW         NaN
15  02/12/18       118.966kWh  2.720kWh/kW         NaN
16  01/12/18        91.670kWh  2.096kWh/kW         NaN
17  30/11/

In [9]:
# Extraemos las condiciones
#expresion_condiciones = r'(?m)^(Partly|Mostly)?\s?(Cloudy|Showers|Fine|Not Sure|Cloudy)$'
expresion_condiciones = r'(?:Not Sure|Showers|Partly Cloudy|Cloudy|Mostly Cloudy|Fine)'

condiciones_obtenidas = re.findall(expresion_condiciones, tabla)

datos['Condiciones'] = condiciones_obtenidas

print(datos) 

       Fecha Energía_generada   Eficiencia    Condiciones
0   17/12/18         0.000kWh  0.000kWh/kW       Not Sure
1   16/12/18        23.290kWh  0.532kWh/kW        Showers
2   15/12/18       102.201kWh  2.337kWh/kW  Partly Cloudy
3   14/12/18        49.354kWh  1.128kWh/kW         Cloudy
4   13/12/18        10.052kWh  0.230kWh/kW        Showers
5   12/12/18        66.718kWh  1.525kWh/kW  Mostly Cloudy
6   11/12/18       104.514kWh  2.389kWh/kW  Partly Cloudy
7   10/12/18        93.795kWh  2.144kWh/kW  Partly Cloudy
8   09/12/18       113.725kWh  2.600kWh/kW           Fine
9   08/12/18        78.448kWh  1.794kWh/kW  Partly Cloudy
10  07/12/18       118.060kWh  2.699kWh/kW           Fine
11  06/12/18       114.691kWh  2.622kWh/kW           Fine
12  05/12/18       111.368kWh  2.546kWh/kW  Partly Cloudy
13  04/12/18       115.125kWh  2.632kWh/kW           Fine
14  03/12/18        75.057kWh  1.716kWh/kW  Mostly Cloudy
15  02/12/18       118.966kWh  2.720kWh/kW           Fine
16  01/12/18  

In [10]:
datos.to_csv('Parte2_ejercicio1.csv', index=False)