### Notebook creado para lograr la predicción de tipo de incendio por cada provincia de España.

##### Es un notebook interactivo, para ejecutarlo recomiendo seleccionar "Kernel", luego "Restart & Run All", y "Restart and Run All Cells", esto hará que nos lleve al punto de seleccionar la provincia que queremos saber su predicción de Aemet y a su vez la predicción de superficie quemada que se genera al ejecutar el modelo de machine learning creado para este proyecto. Como resultado obtendremos un dataframe donde existe una columna que nos dice el tipo de incendio que se puede generar en cada fila del mismo.

Importamos las librerías necesarias para poder trabajar con el notebook

In [1]:
import requests
import pandas as pd
import numpy as np
from pandas import json_normalize
from collections import ChainMap
import pickle
from datetime import date
import time
from xgboost import XGBClassifier

Con la primera función obtenemos la url necesaria que nos permita acceder a los datos mediante la API REST de la AEMET, con la segunda función leemos adecuadamente esa url transformando dichos datos a dataframe.

In [2]:
def obtenerUrl(x):
    url = "https://opendata.aemet.es/opendata/api/prediccion/especifica/municipio/diaria/{}".format(x)
    querystring = {"api_key":"eyJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJyYWZvbnNvc3Bpbm9sYUBnbWFpbC5jb20iLCJqdGkiOiJmNDhmMmIyMS00ZTU1LTQ2NjgtYTdjZS1lNmY5M2RkYmU3NDciLCJpc3MiOiJBRU1FVCIsImlhdCI6MTYyNDAzODE5NSwidXNlcklkIjoiZjQ4ZjJiMjEtNGU1NS00NjY4LWE3Y2UtZTZmOTNkZGJlNzQ3Iiwicm9sZSI6IiJ9.RNfRWDVTw488ARtSjfihHdulZCo46n1IFnGmWNCsWHU"}
    headers = {
    'cache-control': "no-cache"
        }

    response = requests.request("GET", url, headers=headers, params=querystring)

    import json
    p = response.text
    d = json.loads(p)
    t = d.get('datos')
    return t

def obtenerDatos(x):
    r = requests.get(x)
    j = r.json()
    df = pd.DataFrame(j)
    return df

Leemos el archivo municipiosINE_fin, el cuál nos proporciona el código AEMET que nos permita trabajar con los datos de la API REST.

In [3]:
df_munic_merge = pd.read_csv("municipiosINE_fin.csv",
                            sep = ",",
                            dtype = {'COD_AEMET': object},
                            encoding = 'utf8')

Creamos una función que haga un llamado a la API REST de la AEMET por medio de los códigos de las Provincias, a este resultado obtenido se le realiza los cambios pertinentes para poder tener el mismo tipo de dato que se trabajó para generar el modelo, y como resultado obtenemos un dataframe final que será necesario para continuar con la predicción. 

In [4]:
def prediccion(aemet):
    columns_name = ['temperatura', 'estadoCielo', 'humedadRelativa', 'uvMax', 'sensTermica', 'viento',
                 'cotaNieveProv', 'fecha', 'rachaMax', 'probPrecipitacion','municipio', 'provincia']
    df_total = pd.DataFrame(columns = columns_name)

    for j in aemet:
        if (((aemet.index(j) % 24) == 0) and (aemet.index(j) != 0)):
            print("Ya se han descargado {} municipios.".format(aemet.index(j)))
            time.sleep(60)
            b = obtenerUrl(j)
            a = obtenerDatos(b)
            prediccion = a['prediccion'][0].get('dia')
            municipio = a['nombre']
            provincia = a['provincia']
            df_normal = json_normalize(a['prediccion'][0].get('dia'))
            df_normal = df_normal[["fecha", "temperatura.maxima", "temperatura.minima", "sensTermica.maxima",
                       "sensTermica.minima", "humedadRelativa.maxima", "humedadRelativa.minima"]]
            df_muni = pd.DataFrame(columns = columns_name)
            for i in range(len(prediccion)):
                fila_dia = pd.DataFrame(prediccion[i].items()).T
                fila_dia.columns = fila_dia.iloc[0]
                fila_dia.drop([0],inplace=True)
                fila_dia_exp = fila_dia.explode("probPrecipitacion") # probabilidad de precipitación
                lista_prob = []
                for k in range(len(fila_dia_exp["probPrecipitacion"])):
                    lista_prob.append(fila_dia_exp.iloc[k,0]['value'])
                fila_dia["probPrecipitacion"] = max(lista_prob)
                fila_dia_exp = fila_dia.explode("viento") # velocidad y dirección del viento
                lista_dir = []
                lista_vel = []
                for k in range(len(fila_dia_exp["viento"])):
                    if fila_dia_exp.iloc[k,3]['velocidad'] == 0:
                        fila_dia_exp.iloc[k,3]['direccion'] = 'C'
                    lista_dir.append(fila_dia_exp.iloc[k,3]['direccion'])
                    lista_vel.append(fila_dia_exp.iloc[k,3]['velocidad'])
                fila_dia["velmedia"] = max(lista_vel)
                fila_dia["dir"] = lista_dir[lista_vel.index(max(lista_vel))]
                fila_dia_exp = fila_dia.explode("rachaMax") # racha máxima viento
                lista_vie = []
                for k in range(len(fila_dia_exp["rachaMax"])):
                    if fila_dia_exp.iloc[k,4]['value'] == "":
                        fila_dia_exp.iloc[k,4]['value'] = 0
                    lista_vie.append(fila_dia_exp.iloc[k,4]['value'])        
                lista_vie = [int(i) for i in lista_vie]        
                fila_dia["rachaMax"] = max(lista_vie)        
                fila_dia.insert(9,'municipio',municipio[0])
                fila_dia.insert(10,'provincia',provincia[0])
                df_muni = pd.concat([df_muni,fila_dia])
            df_semifinal = df_normal.merge(df_muni, on="fecha", how='outer')
            df_total = pd.concat([df_total,df_semifinal])
        else:
            b = obtenerUrl(j)
            a = obtenerDatos(b)
            prediccion = a['prediccion'][0].get('dia')
            municipio = a['nombre']
            provincia = a['provincia']
            df_normal = json_normalize(a['prediccion'][0].get('dia'))
            df_normal = df_normal[["fecha", "temperatura.maxima", "temperatura.minima", "sensTermica.maxima",
                       "sensTermica.minima", "humedadRelativa.maxima", "humedadRelativa.minima"]]
            df_muni = pd.DataFrame(columns = columns_name)            
            for i in range(len(prediccion)):
                fila_dia = pd.DataFrame(prediccion[i].items()).T
                fila_dia.columns = fila_dia.iloc[0]
                fila_dia.drop([0],inplace=True)
                fila_dia_exp = fila_dia.explode("probPrecipitacion") # probabilidad de precipitación
                lista_prob = []
                for k in range(len(fila_dia_exp["probPrecipitacion"])):
                    lista_prob.append(fila_dia_exp.iloc[k,0]['value'])
                fila_dia["probPrecipitacion"] = max(lista_prob)
                fila_dia_exp = fila_dia.explode("viento") # velocidad y dirección del viento
                lista_dir = []
                lista_vel = []
                for k in range(len(fila_dia_exp["viento"])):
                    if fila_dia_exp.iloc[k,3]['velocidad'] == 0:
                        fila_dia_exp.iloc[k,3]['direccion'] = 'C'
                    lista_dir.append(fila_dia_exp.iloc[k,3]['direccion'])
                    lista_vel.append(fila_dia_exp.iloc[k,3]['velocidad'])
                fila_dia["velmedia"] = max(lista_vel)
                fila_dia["dir"] = lista_dir[lista_vel.index(max(lista_vel))]
                fila_dia_exp = fila_dia.explode("rachaMax") # racha máxima viento
                lista_vie = []
                for k in range(len(fila_dia_exp["rachaMax"])):
                    if fila_dia_exp.iloc[k,4]['value'] == "":
                        fila_dia_exp.iloc[k,4]['value'] = 0
                    lista_vie.append(fila_dia_exp.iloc[k,4]['value'])        
                lista_vie = [int(i) for i in lista_vie]        
                fila_dia["rachaMax"] = max(lista_vie)        
                fila_dia.insert(9,'municipio',municipio[0])
                fila_dia.insert(10,'provincia',provincia[0])
                df_muni = pd.concat([df_muni,fila_dia])
            df_semifinal = df_normal.merge(df_muni, on="fecha", how='outer')
            df_total = pd.concat([df_total,df_semifinal])
        
    df_final = df_total.drop(["temperatura", "estadoCielo", "humedadRelativa", "sensTermica", "viento", 'uvMax', 'cotaNieveProv',
                         'sensTermica.maxima', 'sensTermica.minima', 'humedadRelativa.maxima', 'humedadRelativa.minima'],
                         axis=1)
    df_final.columns = ["fecha", "racha", "prec", "municipio", "provincia", "tmax", "tmin", "velmedia", "dir"]
    
    df_final.loc[df_final.provincia == 'Las Palmas (Gran Canaria)','provincia'] = 'Las Palmas'
    df_final.loc[df_final.provincia == 'Las Palmas (Fuerteventura)','provincia'] = 'Las Palmas'
    df_final.loc[df_final.provincia == 'Las Palmas (Lanzarote)','provincia'] = 'Las Palmas'
    df_final.loc[df_final.provincia == 'Santa Cruz de Tenerife (La Gomera)','provincia'] = 'Santa Cruz de Tenerife'
    df_final.loc[df_final.provincia == 'Santa Cruz de Tenerife (Tenerife)','provincia'] = 'Santa Cruz de Tenerife'
    df_final.loc[df_final.provincia == 'Santa Cruz de Tenerife (La Palma)','provincia'] = 'Santa Cruz de Tenerife'
    df_final.loc[df_final.provincia == 'Santa Cruz de Tenerife (El Hierro)','provincia'] = 'Santa Cruz de Tenerife'
    df_final.loc[df_final.provincia == 'Illes Balears (Mallorca)','provincia'] = 'Illes Balears'
    df_final.loc[df_final.provincia == 'Illes Balears (Menorca)','provincia'] = 'Illes Balears'
    df_final.loc[df_final.provincia == 'Illes Balears (Ibiza-Formentera)','provincia'] = 'Illes Balears'
    #df_final.loc[df_final.municipio == 'Albánchez'] = 'Albanchez'
        
    df_completo = pd.merge(df_munic_merge, df_final, 
                       how='right', 
                       left_on=['municipio','provincia'], 
                       right_on = ['municipio','provincia'])
        
        # Definimos que si la probabilidad de precipitación es mayor o igual que el 60% sea 1, y si es menor sea 0
    df_completo.loc[df_completo['prec'] < 60, 'prec'] = 0
    df_completo.loc[df_completo['prec'] >= 60, 'prec'] = 1
        
        # Transformamos fecha a datetime
    fechaPrueba = pd.to_datetime(df_completo['fecha'], format='%Y-%m-%d', errors="coerce")
    
        
        # Extraemos el número de mes
    df_completo['fe_month'] = fechaPrueba.dt.month
    
    df_completo['superficie_muni'] = df_completo['superficie_muni'].str.replace(',','.')
    df_completo['latitude'] = df_completo['latitude'].str.replace(',','.')
    df_completo['longitude'] = df_completo['longitude'].str.replace(',','.')
    
    df_completo['superficie_muni'] = df_completo['superficie_muni'].astype(float)
    df_completo['longitude'] = df_completo['longitude'].astype(float)
    df_completo['latitude'] = df_completo['latitude'].astype(float)
    
    conditions = [
        (df_completo['superficie_muni'] <= 1),
        (df_completo['superficie_muni'] > 1) & (df_completo['superficie_muni'] < 10),
        (df_completo['superficie_muni'] >= 10) & (df_completo['superficie_muni'] < 30),
        (df_completo['superficie_muni'] >= 30) & (df_completo['superficie_muni'] < 100),
        (df_completo['superficie_muni'] >= 100) & (df_completo['superficie_muni'] < 500),
        (df_completo['superficie_muni'] >= 500)
        ]

    # create a list of the values we want to assign for each condition
    #values = ['conato', 'incendioMuyPeq', 'incendioPeq', 'incendioMed', 'incendioGra','incendioMuyGra']
    values = ['Conato < 1 ha', 'Incendio < 10 ha', 'Incendio < 30 ha', 'Incendio < 100 ha', 'Incendio < 500 ha','Gran Incendio >= 500 ha']
    # create a new column and use np.select to assign values to it using our lists as arguments
    #df_completo['supQuemada'] = np.select(conditions, values)
    
    df_completo.dir.replace(('NE','C','E','SO','N','SE','S','O','NO'),
                      (1,2,3,4,5,6,7,8,9),inplace=True)
    
    #df_completo.supQuemada.replace(('conato', 'incendioMuyPeq', 'incendioPeq', 'incendioMed', 'incendioGra','incendioMuyGra'),
    #                  (1,2,3,4,5,6),inplace=True)

    df_completo.zona.replace(('Noroeste', 'Interior', 'Mediterráneo', 'Canarias'), 
                   (1,2,3,4),inplace=True)

    c = df_completo.municipio.unique()
    d = range(1,len(c) + 1)
    dict_from_list = dict(zip(c, d))
    df_completo['idmunicipio'] = df_completo.municipio.map(dict_from_list)
    
    #Feature engineering
    ##distancia
    df_completo["dist"] = np.sqrt(pow(df_completo["longitude"],2)+pow(df_completo["latitude"],2))

    ##densidad de poblacion
    df_completo["densPob"] = df_completo["poblacion_muni"]/df_completo["superficie_muni"]

    ##sensacion termica por frio
    #datos["sensaTerF"]= 13.1267 + (0.6215*(datos["tmax"]))- pow((11.37*(datos["racha"])),0.16) + pow((0.3965*(datos["tmax"])*(datos["racha"])),0.16)

    ##trimestres
    conditions = [
        (df_completo['fe_month'] <= 3),
        (df_completo['fe_month'] > 3) & (df_completo['fe_month'] <= 6),
        (df_completo['fe_month'] > 6) & (df_completo['fe_month'] < 10),
        (df_completo['fe_month'] >= 10),
        ]
    values = [1, 2, 3, 4]
    df_completo['trimest'] = np.select(conditions, values)

    ##Número de Beaufort con racha
    conditions = [
        (df_completo['racha'] < 2),
        (df_completo['racha'] >= 2) & (df_completo['racha'] < 6),
        (df_completo['racha'] >= 6) & (df_completo['racha'] < 12),
        (df_completo['racha'] >= 12) & (df_completo['racha'] < 20),
        (df_completo['racha'] >= 20) & (df_completo['racha'] < 29),
        (df_completo['racha'] >= 29) & (df_completo['racha'] < 39),
        (df_completo['racha'] >= 39) & (df_completo['racha'] < 50),
        ]
    values = [0,1,2,3,4,5,6]
    df_completo['beauVelmed'] = np.select(conditions, values)

    ##Número de Beaufort con racha
    conditions = [
        (df_completo['racha'] < 2),
        (df_completo['racha'] >= 2) & (df_completo['racha'] < 6),
        (df_completo['racha'] >= 6) & (df_completo['racha'] < 12),
        (df_completo['racha'] >= 12) & (df_completo['racha'] < 20),
        (df_completo['racha'] >= 20) & (df_completo['racha'] < 29),
        (df_completo['racha'] >= 29) & (df_completo['racha'] < 39),
        (df_completo['racha'] >= 39) & (df_completo['racha'] < 50),
        ]
    values = [0,1,2,3,4,5,6]
    df_completo['beauRacha'] = np.select(conditions, values)

    ##temperatura maxima categorica
    conditions = [
        (df_completo['tmax'] <= -10),
        (df_completo['tmax'] > -10) & (df_completo['tmax'] <= 0),
        (df_completo['tmax'] > 0) & (df_completo['tmax'] <= 10),
        (df_completo['tmax'] > 10) & (df_completo['tmax'] <= 20),
        (df_completo['tmax'] > 20) & (df_completo['tmax'] <= 30),
        (df_completo['tmax'] > 30) & (df_completo['tmax'] <= 40),
        (df_completo['tmax'] > 40),
        ]
    values = [0,1,2,3,4,5,6]
    df_completo['tmaxCat'] = np.select(conditions, values)

    #temperatura minima categorica
    conditions = [
        (df_completo['tmin'] <= -10),
        (df_completo['tmin'] > -10) & (df_completo['tmin'] <= 0),
        (df_completo['tmin'] > 0) & (df_completo['tmin'] <= 10),
        (df_completo['tmin'] > 10) & (df_completo['tmin'] <= 20),
        (df_completo['tmin'] > 20) & (df_completo['tmin'] <= 30),
        (df_completo['tmin'] > 30) & (df_completo['tmin'] <= 40),
        (df_completo['tmin'] > 40),
    ]
    values = [0,1,2,3,4,5,6]
    df_completo['tminCat'] = np.select(conditions, values)
    
    return df_completo

Obtenemos un diccionario que nos demuestre el total de códigos distintos AEMET por provincias

In [5]:
provinciasUnique = []
for x in df_munic_merge['provincia'].unique():
    provin = df_munic_merge[df_munic_merge['provincia'] == x]
    muni = len(provin['COD_AEMET'])
    provinciasUnique.append(muni)
    
provUnicas = df_munic_merge['provincia'].unique()
dict_Mapa = dict(zip(provUnicas, provinciasUnique))

A continuación se muestra una lista de las provincias, en el siguiente paso se deberá escoger una de ellas para solicitar la predicción. El nombre se debe escribir tal cual como lo vemos en esta lista.

In [6]:
df_munic_merge['provincia'].unique()

array(['Araba/Álava', 'Albacete', 'Alacant/Alicante', 'Almería', 'Ávila',
       'Badajoz', 'Illes Balears', 'Barcelona', 'Burgos', 'Cáceres',
       'Cádiz', 'Castelló/Castellón', 'Ciudad Real', 'Córdoba',
       'A Coruña', 'Cuenca', 'Girona', 'Granada', 'Guadalajara',
       'Gipuzkoa', 'Huelva', 'Huesca', 'Jaén', 'León', 'Lleida',
       'La Rioja', 'Lugo', 'Madrid', 'Málaga', 'Murcia', 'Navarra',
       'Ourense', 'Asturias', 'Palencia', 'Las Palmas', 'Pontevedra',
       'Salamanca', 'Santa Cruz de Tenerife', 'Cantabria', 'Segovia',
       'Sevilla', 'Soria', 'Tarragona', 'Teruel', 'Toledo',
       'València/Valencia', 'Valladolid', 'Bizkaia', 'Zamora', 'Zaragoza',
       'Ceuta', 'Melilla'], dtype=object)

Al ejecutar el siguiente chunk nos preguntará sobre que provincia queremos realizar la predicción, en caso de escribirlo mal, o que no se encuentre en la lista del paso anterior nos avisará para que volvamos a escribirlo, al momento de escribir una provincia que si acepte entonces pasará a realizar la predicción de dicha provincia a la API REST de la AEMET. 

Es importante tener en cuenta que para utilizar la API REST no nos permite realizar una llamada que contenga más de 25 códigos al mismo momento, por lo visto lo deben de capar y genera un error, por lo tanto si la provincia tiene más de 24 códigos estos serán divididos en bloques de 24 que se irán ejecutando de a poco.

También tener en cuenta que cuando se hacen muchos llamados vuelven a capar y genera errores nuevamente, por ende hemos decidido escribir un código de time sleep donde la función esperará 60 segundos entre un llamado y otro.

Es importante saber que mientras se va ejecutando nos va informando cuantos municipios se han procesado para tener el control del mismo en todo momento.

In [7]:
codigoValido = False

while codigoValido == False:
    try:
        buscarProvincia = input("Introduce una provincia: ")
        lista_prov = df_munic_merge['provincia'].tolist()
        if buscarProvincia in lista_prov:
            print("La provincia es correcta. Pedimos la predicción a AEMET.")
            codigoValido = True
            provincia = df_munic_merge[df_munic_merge['provincia'] == buscarProvincia]
            municipios = provincia['COD_AEMET'].tolist()
            predic = prediccion(municipios)
            for key,value in dict_Mapa.items():
                if buscarProvincia == key:
                    repeticiones = value
            print(predic)
        else:
            print("Disculpa, ese código no pertenece a ninguna provincia, prueba con otro.")
    except ValueError:
        print("Disculpa, ese código no pertenece a ninguna provincia, prueba con otro.")
        continue

Introduce una provincia: Murcia
La provincia es correcta. Pedimos la predicción a AEMET.
Ya se han descargado 24 municipios.
      latitude  longitude  idcomunidad comunidad  idprovincia provincia  \
0    38.207889  -1.042598           14    Murcia           30    Murcia   
1    38.207889  -1.042598           14    Murcia           30    Murcia   
2    38.207889  -1.042598           14    Murcia           30    Murcia   
3    38.207889  -1.042598           14    Murcia           30    Murcia   
4    38.207889  -1.042598           14    Murcia           30    Murcia   
..         ...        ...          ...       ...          ...       ...   
310  37.733278  -0.853044           14    Murcia           30    Murcia   
311  37.733278  -0.853044           14    Murcia           30    Murcia   
312  37.733278  -0.853044           14    Murcia           30    Murcia   
313  37.733278  -0.853044           14    Murcia           30    Murcia   
314  37.733278  -0.853044           14    Murcia  

Creamos un nuevo dataframe que recoja lo recibido del paso anterior y a su vez elimine las columnas que sean innecesarias para introducirlas en el modelo de machine learning que hemos creado anteriormente en este proyecto TFM.

In [8]:
df_modelo = predic.drop(['comunidad', 'provincia', 'COD_AEMET', 'municipio', 'fecha','fe_month','velmedia','tmax','tmin',
                         'zona_meteo','id_zona_meteo','NATCODE','latitude','longitude','idprovincia','zona','poblacion_muni',
                        'dir','idmunicipio','trimest','beauVelmed','beauRacha'], axis=1) #inplace=True)

df_modelo['altitud'] = df_modelo['altitud'].astype(float)
df_modelo['racha'] = df_modelo['racha'].astype(float)
df_modelo['prec'] = df_modelo['prec'].astype(float)

Cargamos el modelo que tenemos guardado como objeto pickle

In [9]:
loaded_model = pickle.load(open("pima.pickle.dat", "rb"))

Creamos una lista que contenga la fecha de hoy y los 6 días consecutivos siguientes, para agregarla como columna al dataframe que recibe el modelo de machine learning y genere la predicción que buscamos.

In [10]:
date_list =  sorted(pd.date_range(pd.datetime.today() 
                                 + pd.DateOffset(days=0) , 
                                  periods=7).tolist())
fechasPrediccion = [dt.strftime('%Y-%m-%d') for dt in date_list]

  date_list =  sorted(pd.date_range(pd.datetime.today()


Al dataframe antes creado (el que recoge lo que proviene de la función) le aplicamos el modelo, obtenemos la predicción y le anexamos la columna de fecha creada en el paso anterior.

In [11]:
y_predGB = loaded_model.predict(df_modelo)
df_modelo['Date'] = fechasPrediccion*repeticiones
incendioPrediccion = pd.DataFrame({'fecha':df_modelo.Date,'Tipo de Incendio':y_predGB, 'COD_AEMET':predic.COD_AEMET,'Municipio':predic.municipio})
print('Y esta es su predicción de incendios:')
incendioPrediccion

Y esta es su predicción de incendios:


Unnamed: 0,fecha,Tipo de Incendio,COD_AEMET,Municipio
0,2021-09-21,Incendio < 10 ha,30001,Abanilla
1,2021-09-22,Incendio < 10 ha,30001,Abanilla
2,2021-09-23,Incendio < 10 ha,30001,Abanilla
3,2021-09-24,Incendio < 10 ha,30001,Abanilla
4,2021-09-25,Incendio < 10 ha,30001,Abanilla
...,...,...,...,...
310,2021-09-23,Incendio < 10 ha,30902,"Alcázares, Los"
311,2021-09-24,Incendio < 10 ha,30902,"Alcázares, Los"
312,2021-09-25,Incendio < 10 ha,30902,"Alcázares, Los"
313,2021-09-26,Incendio < 10 ha,30902,"Alcázares, Los"


El siguiente paso es necesario para ajustar la columna de fecha del dataframe que surge de la función que ejecuta todos los cambios, de manera que sea del mismo tipo que la antes creada y poder hacer merge de dos dataframes.

In [12]:
fecha = predic['fecha'].str.split("T", 1, expand=True)

In [13]:
predic['fecha'] = fecha[0]

Ejecutamos el merge tanto por fecha como por COD_AEMET

In [14]:
df_mapas = pd.merge(incendioPrediccion, predic, on=['COD_AEMET','fecha'], how='inner') 

Podemos ver el resultado final

In [15]:
df_mapas

Unnamed: 0,fecha,Tipo de Incendio,COD_AEMET,Municipio,latitude,longitude,idcomunidad,comunidad,idprovincia,provincia,...,dir,fe_month,idmunicipio,dist,densPob,trimest,beauVelmed,beauRacha,tmaxCat,tminCat
0,2021-09-21,Incendio < 10 ha,30001,Abanilla,38.207889,-1.042598,14,Murcia,30,Murcia,...,1,9,1,38.222111,0.258766,3,6,6,4,3
1,2021-09-22,Incendio < 10 ha,30001,Abanilla,38.207889,-1.042598,14,Murcia,30,Murcia,...,5,9,1,38.222111,0.258766,3,6,6,4,3
2,2021-09-23,Incendio < 10 ha,30001,Abanilla,38.207889,-1.042598,14,Murcia,30,Murcia,...,5,9,1,38.222111,0.258766,3,6,6,4,3
3,2021-09-24,Incendio < 10 ha,30001,Abanilla,38.207889,-1.042598,14,Murcia,30,Murcia,...,5,9,1,38.222111,0.258766,3,0,0,5,3
4,2021-09-25,Incendio < 10 ha,30001,Abanilla,38.207889,-1.042598,14,Murcia,30,Murcia,...,7,9,1,38.222111,0.258766,3,0,0,5,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
310,2021-09-23,Incendio < 10 ha,30902,"Alcázares, Los",37.733278,-0.853044,14,Murcia,30,Murcia,...,1,9,45,37.742919,8.269612,3,6,6,4,3
311,2021-09-24,Incendio < 10 ha,30902,"Alcázares, Los",37.733278,-0.853044,14,Murcia,30,Murcia,...,5,9,45,37.742919,8.269612,3,0,0,4,4
312,2021-09-25,Incendio < 10 ha,30902,"Alcázares, Los",37.733278,-0.853044,14,Murcia,30,Murcia,...,7,9,45,37.742919,8.269612,3,0,0,4,3
313,2021-09-26,Incendio < 10 ha,30902,"Alcázares, Los",37.733278,-0.853044,14,Murcia,30,Murcia,...,3,9,45,37.742919,8.269612,3,0,0,4,3


Ahora bien, a continuación guardaremos el dataframe resultante. 

Si existen valores nulos el código está hecho para eliminar dichas filas y no perder el trabajo realizado, luego verifica si existe un fichero llamado 'todo.csv' en este mismo directorio y en caso de que exista lo sobreescribe, y si no existe entonces lo crea.

Si no existen valores nulos el procedimiento es más sencillo, verifica si existe un fichero llamado 'todo.csv' en este mismo directorio y en caso de que exista lo sobreescribe, y si no existe entonces lo crea.

In [16]:
import os.path
if df_mapas.isnull().values.any() == False:
    if os.path.isfile('todoCLM2.csv'):
        print ("El archivo existe, por lo tanto sobreescribimos el actual")
        df_mapas.to_csv('todoCLM2.csv', index = False, mode='a',header = False)
    else:
        print ("El archivo no existe, por lo tanto procedemos a crearlo")
        df_mapas.to_csv('todoCLM2.csv', index = False)
else:
    print('La provincia {} contiene valores nulos, por lo tanto los eliminamos y guardamos el fichero sin ellos'.format(buscarProvincia))
    df_mapas = df_mapas.dropna(how='any',axis=0) 
    if os.path.isfile('todoCLM2.csv'):
        print ("El archivo existe, por lo tanto sobreescribimos el actual incluyendo los valores que no son nulos")
        df_mapas.to_csv('todoCLM2.csv', index = False, mode='a',header = False)
    else:
        print ("El archivo no existe, por lo tanto procedemos a crearlo incluyendo los valores que no son nulos")
        df_mapas.to_csv('todoCLM2.csv', index = False)

El archivo no existe, por lo tanto procedemos a crearlo


Abrimos y verificamos el archivo que hemos guardado

In [17]:
resultadoTFM = pd.read_csv('todoCLM2.csv')

In [18]:
resultadoTFM

Unnamed: 0,fecha,Tipo de Incendio,COD_AEMET,Municipio,latitude,longitude,idcomunidad,comunidad,idprovincia,provincia,...,dir,fe_month,idmunicipio,dist,densPob,trimest,beauVelmed,beauRacha,tmaxCat,tminCat
0,2021-09-21,Incendio < 10 ha,30001,Abanilla,38.207889,-1.042598,14,Murcia,30,Murcia,...,1,9,1,38.222111,0.258766,3,6,6,4,3
1,2021-09-22,Incendio < 10 ha,30001,Abanilla,38.207889,-1.042598,14,Murcia,30,Murcia,...,5,9,1,38.222111,0.258766,3,6,6,4,3
2,2021-09-23,Incendio < 10 ha,30001,Abanilla,38.207889,-1.042598,14,Murcia,30,Murcia,...,5,9,1,38.222111,0.258766,3,6,6,4,3
3,2021-09-24,Incendio < 10 ha,30001,Abanilla,38.207889,-1.042598,14,Murcia,30,Murcia,...,5,9,1,38.222111,0.258766,3,0,0,5,3
4,2021-09-25,Incendio < 10 ha,30001,Abanilla,38.207889,-1.042598,14,Murcia,30,Murcia,...,7,9,1,38.222111,0.258766,3,0,0,5,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
310,2021-09-23,Incendio < 10 ha,30902,"Alcázares, Los",37.733278,-0.853044,14,Murcia,30,Murcia,...,1,9,45,37.742919,8.269612,3,6,6,4,3
311,2021-09-24,Incendio < 10 ha,30902,"Alcázares, Los",37.733278,-0.853044,14,Murcia,30,Murcia,...,5,9,45,37.742919,8.269612,3,0,0,4,4
312,2021-09-25,Incendio < 10 ha,30902,"Alcázares, Los",37.733278,-0.853044,14,Murcia,30,Murcia,...,7,9,45,37.742919,8.269612,3,0,0,4,3
313,2021-09-26,Incendio < 10 ha,30902,"Alcázares, Los",37.733278,-0.853044,14,Murcia,30,Murcia,...,3,9,45,37.742919,8.269612,3,0,0,4,3


Solo por saber un recuento de la variable que nuestro modelo predice, ejecutamos un conteo para tener idea de los tipos de incendio que se pueden generar.

In [19]:
resultadoTFM['Tipo de Incendio'].value_counts()

Incendio < 10 ha    253
Incendio < 30 ha     62
Name: Tipo de Incendio, dtype: int64