# **Resumen del Script:**
En este script, el objetivo es fusionar dos bases de datos de incendios que contienen datos en común. Realizaremos ingeniería de datos para lograr esta integración de manera eficiente.

# **00. Importar librerías**

In [1]:
import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt
import numpy as np
from shapely.geometry import Point
from IPython.display import display, Markdown

# **01. Lectura bases de datos:**
## - Dataset ocurrencia de incendio 2023
## - Dataset historico_incendios GDB_AMVA

In [2]:
'''
Base de datos del año 2023 (desactualizada)
Contiene:
- Datos de temperatura de la plataforma worldclime (mensual)
- Datos de precipitación del radar SIATA acumulado 7 días previos a cada evento
- Datos de altura sobre el nivel del mar (DEM) para cada evento
'''

ruta = 'C:/Users/mateo/Downloads/Avances AMVA/Scripts/Base_datos_ocurrencias_ML.csv'

dataset_2023 = pd.read_csv(ruta)
dataset_2023 = dataset_2023[dataset_2023['Ocurrencia'] == 1]
dataset_2023 = dataset_2023.reset_index(drop=True)

'''Crear una geometría de puntos a partir de la latitud y longitud'''
geometry = [Point(xy) for xy in zip(dataset_2023['LONGITUD'], dataset_2023['LATITUD'])]

'''Crear un GeoDataFrame'''
gdf = gpd.GeoDataFrame(dataset_2023, geometry=geometry)
dataset_2023 = gdf



'''
Base de datos del año 2024 (desactualizada)
Contiene:
- Datos de temperatura de estaciones meteorologicas SIATA.
- Datos de precipitación de estaciones meteorologicas SIATA.
- Otros datos
'''

ruta2 = 'C:/Users/mateo/Downloads/Avances AMVA/Datos equipo SIG/Historico_Incendios_GDB/Historico_Incendios_GDB.shp'

dataset_2024 = gpd.read_file(ruta2, encoding='utf-8')

In [3]:
'''Exploramos las dos bases de datos'''
display(Markdown("<h2><b>Dataset ML</b></h2>"))
display(dataset_2023)

display(Markdown("<h2><b>Dataset UGR</b></h2>"))
display(dataset_2024)

<h2><b>Dataset ML</b></h2>

Unnamed: 0,FECHA,LATITUD,LONGITUD,Temperatur,Pmm_radar,DEM_AMVA,Ocurrencia,geometry
0,2013-01-01 14:00:00,6.052,-75.619,23.2313,0.000000,1897,1,POINT (-75.61900 6.05200)
1,2013-01-01 15:01:00,6.186,-75.641,25.1730,0.000000,1719,1,POINT (-75.64100 6.18600)
2,2013-01-01 15:43:00,6.079,-75.634,23.8933,0.000000,1816,1,POINT (-75.63400 6.07900)
3,2013-01-01 16:13:00,6.160,-75.502,20.7813,0.000000,2529,1,POINT (-75.50200 6.16000)
4,2013-01-01 17:00:00,6.117,-75.629,24.3714,0.000000,1776,1,POINT (-75.62900 6.11700)
...,...,...,...,...,...,...,...,...
2899,2020-03-14 16:01:00,6.296,-75.638,23.6905,27.382275,2277,1,POINT (-75.63800 6.29600)
2900,2020-03-15 14:14:00,6.267,-75.636,25.5421,18.160084,1887,1,POINT (-75.63600 6.26700)
2901,2020-03-15 14:16:00,6.238,-75.627,26.4479,18.074453,1769,1,POINT (-75.62700 6.23800)
2902,2020-03-16 13:46:00,6.254,-75.536,24.4348,9.733376,2109,1,POINT (-75.53600 6.25400)


<h2><b>Dataset UGR</b></h2>

Unnamed: 0,FECHA,LATITUD,LONGITUD,CONTEO,ubicacion_,ubicacio_1,Temperatur,Humedad,Fecha_medi,Precipitac,Fecha_me_1,Cobertura,Combustibl,Duración,Carga,geometry
0,2012-01-01 14:55:00,6.128000,-75.638000,1.0,206.0,61.0,0.0,0.0,,0.00,2012-01-01 14:55:00,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.63800 6.12800)
1,2012-01-01 13:05:00,6.142000,-75.633000,1.0,206.0,62.0,0.0,0.0,,0.00,2012-01-01 13:05:00,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.63300 6.14200)
2,2012-01-01 18:45:00,6.352000,-75.552000,1.0,203.0,70.0,0.0,0.0,,0.00,2012-01-01 18:45:00,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.55200 6.35200)
3,2012-01-01 17:46:00,6.322000,-75.539000,1.0,203.0,70.0,0.0,0.0,,0.00,2012-01-01 17:46:00,Plantaciones Forestales,Árboles,100 horas,>100 ton/Ha,POINT (-75.53900 6.32200)
4,2012-01-02 17:28:00,6.105000,-75.633000,1.0,206.0,33.0,0.0,0.0,,4.57,2012-01-02 17:28:00,Vegetación secundaria y transición,Árboles/arbustos,100 horas,>100 ton/ha,POINT (-75.63300 6.10500)
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4240,12/11/2023,6.245730,-75.536610,0.0,0.0,0.0,0.0,0.0,,0.00,,Pastos limpios,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.53661 6.24573)
4241,15/11/2023,6.255544,-75.634810,0.0,0.0,0.0,0.0,0.0,,0.00,,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.63481 6.25554)
4242,23/11/2023,6.395577,-75.405490,0.0,0.0,0.0,0.0,0.0,,0.00,,Bosque Fragmentado,Árboles/arbustos,100 horas,>100 ton/ha,POINT (-75.40549 6.39558)
4243,23/11/2023,6.157310,-75.651900,0.0,0.0,0.0,0.0,0.0,,0.00,,Tejido Urbano discontinuo,Arbustos/Hierbas –árboles/hierbas –pastos/hier...,10 horas,50 a 100 ton/Ha,POINT (-75.65190 6.15731)


# **02. Ingeniería de datos**

In [4]:
'''Columnas para dropear: estas columnas se eliminaron ya que corresponden a las ubicaciones y fechas de medición de los datos de humedad, precipitación y temperatura
de las estaciones de SIATA'''

columns_to_drop = ['ubicacion_', 'ubicacio_1', 'Temperatur', 'Humedad', 'Fecha_medi', 'Precipitac', 'Fecha_me_1']
dataset_2024 = dataset_2024.drop(columns=columns_to_drop)

In [5]:
'''Coincidencias por fehca, latitud y longitud'''
common_column = ['FECHA','LATITUD','LONGITUD']

'''Hacemos un right join entre las dos bases de datos, conservamos la matriz derecha junto a los datos que coincidan de la izquierda'''
matches = pd.merge(dataset_2023, dataset_2024, on=common_column, how='right')

'''Permite desplazarme entre todos los nombres de las columnas del dataframe'''
pd.set_option('display.max_columns', 500)

matches

Unnamed: 0,FECHA,LATITUD,LONGITUD,Temperatur,Pmm_radar,DEM_AMVA,Ocurrencia,geometry_x,CONTEO,Cobertura,Combustibl,Duración,Carga,geometry_y
0,2012-01-01 14:55:00,6.128000,-75.638000,,,,,,1.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.63800 6.12800)
1,2012-01-01 13:05:00,6.142000,-75.633000,,,,,,1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.63300 6.14200)
2,2012-01-01 18:45:00,6.352000,-75.552000,,,,,,1.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.55200 6.35200)
3,2012-01-01 17:46:00,6.322000,-75.539000,,,,,,1.0,Plantaciones Forestales,Árboles,100 horas,>100 ton/Ha,POINT (-75.53900 6.32200)
4,2012-01-02 17:28:00,6.105000,-75.633000,,,,,,1.0,Vegetación secundaria y transición,Árboles/arbustos,100 horas,>100 ton/ha,POINT (-75.63300 6.10500)
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4262,12/11/2023,6.245730,-75.536610,,,,,,0.0,Pastos limpios,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.53661 6.24573)
4263,15/11/2023,6.255544,-75.634810,,,,,,0.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.63481 6.25554)
4264,23/11/2023,6.395577,-75.405490,,,,,,0.0,Bosque Fragmentado,Árboles/arbustos,100 horas,>100 ton/ha,POINT (-75.40549 6.39558)
4265,23/11/2023,6.157310,-75.651900,,,,,,0.0,Tejido Urbano discontinuo,Arbustos/Hierbas –árboles/hierbas –pastos/hier...,10 horas,50 a 100 ton/Ha,POINT (-75.65190 6.15731)


In [6]:
'''Se encontraron algunos incendios (datos) que presentan la misma fecha, latitud y longitud, son datos que están duplicados'''

common_columns = ['FECHA', 'LATITUD', 'LONGITUD']
repeated_dates = matches[matches.duplicated(subset=common_columns, keep=False)]
print('Tamaño del dataframe: ', repeated_dates.shape)
display(Markdown("<h2><b>Datos duplicados</b></h2>"))
display(repeated_dates.head())

'''Se encontraron 50 datos duplicados'''

Tamaño del dataframe:  (50, 14)


<h2><b>Datos duplicados</b></h2>

Unnamed: 0,FECHA,LATITUD,LONGITUD,Temperatur,Pmm_radar,DEM_AMVA,Ocurrencia,geometry_x,CONTEO,Cobertura,Combustibl,Duración,Carga,geometry_y
0,2012-01-01 14:55:00,6.128,-75.638,,,,,,1.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.63800 6.12800)
1109,2014-02-15 00:00:00,6.265,-75.626,24.5944,3.24734,1779.0,1.0,POINT (-75.62600 6.26500),1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.62600 6.26500)
1110,2014-02-15 00:00:00,6.265,-75.626,24.5944,3.24734,1779.0,1.0,POINT (-75.62600 6.26500),1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.62600 6.26500)
1111,2014-02-15 00:00:00,6.265,-75.626,24.5944,3.24734,1779.0,1.0,POINT (-75.62600 6.26500),1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.62600 6.26500)
1112,2014-02-15 00:00:00,6.265,-75.626,24.5944,3.24734,1779.0,1.0,POINT (-75.62600 6.26500),1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.62600 6.26500)


'Se encontraron 50 datos duplicados:\n-  Se eliminaron 40  --> 2926 - 40 = 2893\n-  Se conservan 10'

# **03. Limpieza de datos duplicados**

In [12]:
'''Se eliminaron los duplicados basados en las columnas 'FECHA', 'LATITUD' y 'LONGITUD'''
matches_cleaned = matches.drop_duplicates(subset=common_columns, keep='first')

'''Eliminamos y renombramos algunas columnas'''
columns_to_drop = ['geometry_x']
columns_to_rename = {
    'Temperatur': 'T[°C] WC',
    'geometry_y': 'geometry'}
matches_cleaned = matches_cleaned.drop(columns=columns_to_drop).rename(columns=columns_to_rename)
matches_cleaned

Unnamed: 0,FECHA,LATITUD,LONGITUD,T[°C] WC,Pmm_radar,DEM_AMVA,Ocurrencia,CONTEO,Cobertura,Combustibl,Duración,Carga,geometry
0,2012-01-01 14:55:00,6.128000,-75.638000,,,,,1.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.63800 6.12800)
1,2012-01-01 13:05:00,6.142000,-75.633000,,,,,1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.63300 6.14200)
2,2012-01-01 18:45:00,6.352000,-75.552000,,,,,1.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.55200 6.35200)
3,2012-01-01 17:46:00,6.322000,-75.539000,,,,,1.0,Plantaciones Forestales,Árboles,100 horas,>100 ton/Ha,POINT (-75.53900 6.32200)
4,2012-01-02 17:28:00,6.105000,-75.633000,,,,,1.0,Vegetación secundaria y transición,Árboles/arbustos,100 horas,>100 ton/ha,POINT (-75.63300 6.10500)
...,...,...,...,...,...,...,...,...,...,...,...,...,...
4262,12/11/2023,6.245730,-75.536610,,,,,0.0,Pastos limpios,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.53661 6.24573)
4263,15/11/2023,6.255544,-75.634810,,,,,0.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.63481 6.25554)
4264,23/11/2023,6.395577,-75.405490,,,,,0.0,Bosque Fragmentado,Árboles/arbustos,100 horas,>100 ton/ha,POINT (-75.40549 6.39558)
4265,23/11/2023,6.157310,-75.651900,,,,,0.0,Tejido Urbano discontinuo,Arbustos/Hierbas –árboles/hierbas –pastos/hier...,10 horas,50 a 100 ton/Ha,POINT (-75.65190 6.15731)


# **04. Formato de fecha**

In [13]:
''' Convertir FECHA al formato con guiones'''
matches_cleaned['FECHA'] = matches_cleaned['FECHA'].str.replace('/', '-')

''' Convertir todas las fechas al mismo formato'''
def convert_date_format(date):
    try:
        return pd.to_datetime(date, format='%Y-%m-%d %H:%M:%S')
    except ValueError:
        return pd.to_datetime(date, format='%d-%m-%Y')

matches_cleaned['FECHA'] = matches_cleaned['FECHA'].apply(convert_date_format)
matches_cleaned

Unnamed: 0,FECHA,LATITUD,LONGITUD,T[°C] WC,Pmm_radar,DEM_AMVA,Ocurrencia,CONTEO,Cobertura,Combustibl,Duración,Carga,geometry
0,2012-01-01 14:55:00,6.128000,-75.638000,,,,,1.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.63800 6.12800)
1,2012-01-01 13:05:00,6.142000,-75.633000,,,,,1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.63300 6.14200)
2,2012-01-01 18:45:00,6.352000,-75.552000,,,,,1.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.55200 6.35200)
3,2012-01-01 17:46:00,6.322000,-75.539000,,,,,1.0,Plantaciones Forestales,Árboles,100 horas,>100 ton/Ha,POINT (-75.53900 6.32200)
4,2012-01-02 17:28:00,6.105000,-75.633000,,,,,1.0,Vegetación secundaria y transición,Árboles/arbustos,100 horas,>100 ton/ha,POINT (-75.63300 6.10500)
...,...,...,...,...,...,...,...,...,...,...,...,...,...
4262,2023-11-12 00:00:00,6.245730,-75.536610,,,,,0.0,Pastos limpios,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.53661 6.24573)
4263,2023-11-15 00:00:00,6.255544,-75.634810,,,,,0.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.63481 6.25554)
4264,2023-11-23 00:00:00,6.395577,-75.405490,,,,,0.0,Bosque Fragmentado,Árboles/arbustos,100 horas,>100 ton/ha,POINT (-75.40549 6.39558)
4265,2023-11-23 00:00:00,6.157310,-75.651900,,,,,0.0,Tejido Urbano discontinuo,Arbustos/Hierbas –árboles/hierbas –pastos/hier...,10 horas,50 a 100 ton/Ha,POINT (-75.65190 6.15731)


In [20]:
''' Para filtrar los datos del año 2015'''
df_2015 = matches_cleaned[matches_cleaned['FECHA'].dt.year == 2015]
df_2015

Unnamed: 0,FECHA,LATITUD,LONGITUD,T[°C] WC,Pmm_radar,DEM_AMVA,Ocurrencia,CONTEO,Cobertura,Combustibl,Duración,Carga,geometry
1748,2015-01-01 19:23:00,6.181,-75.657,23.9748,0.299317,1940.0,1.0,1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.65700 6.18100)
1749,2015-01-01 18:55:00,6.165,-75.648,24.3875,1.012129,1843.0,1.0,1.0,Tejido Urbano discontinuo,Arbustos/Hierbas –árboles/hierbas –pastos/hier...,10 horas,50 a 100 ton/Ha,POINT (-75.64800 6.16500)
1750,2015-01-01 20:09:00,6.247,-75.548,25.4819,0.493579,1647.0,1.0,1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.54800 6.24700)
1751,2015-01-01 13:45:00,6.011,-75.616,22.3705,0.744259,2174.0,1.0,1.0,Pastos enmalezados,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.61600 6.01100)
1752,2015-01-02 10:47:00,6.076,-75.652,23.0565,1.143112,2062.0,1.0,1.0,Pastos enmalezados,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.65200 6.07600)
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2262,2015-12-30 13:02:00,6.199,-75.552,24.9229,3.361925,1872.0,1.0,1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.55200 6.19900)
2263,2015-12-30 20:21:00,6.199,-75.552,24.9229,3.361925,1872.0,1.0,1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.55200 6.19900)
2264,2015-12-31 19:30:00,6.220,-75.609,26.5850,0.764169,1611.0,1.0,1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.60900 6.22000)
2265,2015-12-31 13:45:00,6.221,-75.632,25.4742,0.000000,1789.0,1.0,1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.63200 6.22100)


# **05. Guardar DF**

In [22]:
'''Guardamos el df como csv'''
matches_cleaned.to_csv("Histórico_v1.csv", sep=";", index=True, encoding='utf-8')