# Scraping. Obtención de predicción de radiación desde AEMET

Para el modelo de producción, se obtendrán los datos proporcionados por la AEMET referentes a la radiación global diaria. Estos datos, son suministrados directamente desde la API de la plataforma OpenData de la agencia, facilitando su manipulación.

Lo que buscamos con ello, es recojer e introducir los parámetros de entrada diarios de radiación que luego serán introducidos en el modelo entrenado, permitiendonos predecir la producción eléctrica que tendremos a lo largo del día.

Éste script solo se ejecutará una vez al día, ya que luego los datos serán almacenados en un archivo CSV.

In [1]:
import requests
import pandas as pd

Tras registrarnos en la plataforma, se nos suministra una "api_key" que nos permite solicitar los datos deseados a la misma, descargandose estos en formato de texto plano.

In [2]:
api_key = "eyJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJhYmhfbWFzcGFAaG90bWFpbC5jb20iLCJqdGkiOiIxNjU4M2UxYS02YjhmLTQwMjctYTU4YS02YmQ2ZjVhM2U3MGMiLCJpc3MiOiJBRU1FVCIsImlhdCI6MTU3NzE4NDI0MiwidXNlcklkIjoiMTY1ODNlMWEtNmI4Zi00MDI3LWE1OGEtNmJkNmY1YTNlNzBjIiwicm9sZSI6IiJ9.Ov09paQ1cXsLACg_FKe3qdFpUyI-yAuXhu74rUmpD-w"

Nos conectamos mediante la lbreria "request" a la plataforma, y descargamos los datos del servidor.

In [3]:
# Url de los datos que deseamos obtener, que son los pertenecientes a la red especial de radiación.

url = "https://opendata.aemet.es/opendata/api/red/especial/radiacion/"

querystring = {"api_key":api_key}

headers = {'cache-control': "no-cache"}

# Tras la solicitud, obtenemos un json con la url donde están publicados los datos a descargar. La url
# se encuentra en el campo dato.

response = requests.request("GET", url, headers=headers, params=querystring)

# Descargamos los datos desde la url suministrada.

url_data = requests.request("GET", eval(response.text)["datos"], headers=headers, params=querystring).text

# Todos los datos, se encuentran entrecomillados, por ello pasamos a eliminarlas.
url_data = url_data.replace('"', '') 

Tratamos los datos suministrados, transformandolos de texto plano a un dataframe, que luego será guardado en un archivo CSV, el cuál nos valdrá de entrada tanto para el modelo como para la visualización de los mismos en el Dashboard.

In [30]:
# Separamos la información por líneas.

url_data = url_data.splitlines()

# Guardamos la fecha del día predicción, que se encuentra en el segundo elemento de la lista.

date = url_data[1]

# Obtenemos las horas de predicción que se nos ha suministrado. Normalmente oscilan entre las 5-20 horas.

str_hour = url_data[2].split(';').index('Tipo')
end_hour = url_data[2].split(';').index('SUMA')

hours = url_data[2].split(';')[str_hour+1:end_hour]

# Creamos la cabecera de nuestro dataframe.

station_df = pd.DataFrame(columns =['City', 'Station', 'Hour', 'Global_Radiation', 
                                   'Diffuse_Radiation', 'Ultraviolet'])

# Recorremos las líneas de los datos, desde las 3 hasta el final. Las dos primeras son la cabecera que
# solo aportan la fecha y el nombre del archivo.

for station_data in url_data[3:]:
    
    station_data = station_data.split(';') # Separamos la información por ;
    
    city = station_data[0]    # Guardamos el nombre de la ciudad
    station = station_data[1] # Guardamos la fecha de los datos
    
    indx_GL = station_data.index('GL') + 1  # Guardamos los indices donde comienzan los datos de GL
    indx_DF = station_data.index('DF') + 1  # Guardamos los indices donde comienzan los datos de DF
    indx_UV = station_data.index('UVB') + 2 # Guardamos los indices donde comienzan los datos de UVB
    
    # Recorremos la lista de los elementos, y guardamos los datos en un dataframe. El formato siempre será el
    # el mismo: Ciudad, estación, hora, dato de GL, dato de DF, dato UV. De esta manera guardamos todos los datos
    # en un mismo Dataframe.
    
    for i in range(len(hours)):
        
        station_df.loc[i+len(station_df)] = [city, station, hours[i], station_data[i+indx_GL], 
                                             station_data[i+indx_DF], station_data[i+indx_UV]]

station_df.sample(5)

AttributeError: 'list' object has no attribute 'splitlines'

Procedemos a guardar el Data Frame en un archivo CSV, que podremos utilizar posteriormente con mayor facilidad para la visualización y predicción de la producción.

In [28]:
# Guardamos el archivo en local
station_df.to_csv('/home/dsc/Documents/TFM-Sun-Power-Prediction/dataset_aemet/'+ date + '.csv', 
                  sep=';', index=False)

# Guardamos el nombre del archivo para subirlo a Drive
file_name = '/home/dsc/Documents/TFM-Sun-Power-Prediction/dataset_aemet/'+ date + '.csv'

### Subir archivos a google drive

In [16]:
# Instalamos las librerias y las importamos

!pip install -U -q PyDrive
!pip install -U -q module_name

from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
import os

# Nos autentificamos en Google Drive y creamos la conección.
g_login = GoogleAuth()
g_login.LocalWebserverAuth()
drive = GoogleDrive(g_login)
g_login.LocalWebserverAuth()

Your browser has been opened to visit:

    https://accounts.google.com/o/oauth2/auth?client_id=93417544293-1s6ei4pnt9f84qua81cv8g062vsgpuof.apps.googleusercontent.com&redirect_uri=http%3A%2F%2Flocalhost%3A8080%2F&scope=https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdrive&access_type=offline&response_type=code

Authentication successful.


In [29]:
# Abrimos el archivo que queremos subir, y lo subimos a la ubicacion de la carpeta compartida mediante ID
with open(file_name,"r") as file:
    
    file_drive = drive.CreateFile({'title':os.path.basename(file.name), 
                                   "parents": [{"kind": "drive#fileLink", "id": "1-hoNgYsZW1h4gYKY9uAPrJfEAaTOhGCW"}] })  
    file_drive.SetContentString(file.read()) 
    file_drive.Upload() 