# **00. Importar Librerías**

In [1]:
import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt
import numpy as np
from shapely.geometry import Point
from IPython.display import display, Markdown

# **01. Lectura base de datos**

## - Dataset Histórico de incendios AMVA
## - Dataset VIIRS S-NPP
## - Columnas de humo SIATA

In [40]:
'''Datos histórico de incendios GDB AMVA'''

ruta = 'C:/Users/mateo/Downloads/Avances AMVA/Scripts/03_07_24 Construcción base de datos historico de incendios/Histórico_v1.csv'
data = pd.read_csv(ruta, sep=';', encoding='utf-8')
data['FECHA'] = pd.to_datetime(data['FECHA'])

''' Crear la nueva columna 'fuente' con las condiciones especificadas'''
data['Fuente'] = data['FECHA'].apply(lambda x: 'Bomberos' if x.year < 2017 else 'SIATA')

'''Datos de VIIRS S-NPP (Visible Infrared Imaging Radiometer Suite - Suomi National Polar-orbiting Partnership)
https://firms.modaps.eosdis.nasa.gov/download/ '''

ruta = 'C:/Users/mateo/Downloads/Avances AMVA/29_05_24 Anomalias de calor/SNPP_archivo_AMVA.shp'
data_SNPP = gpd.read_file(ruta, encoding='utf-8')

ruta = 'C:/Users/mateo/Downloads/Avances AMVA/Scripts/03_07_24 Construcción base de datos historico de incendios/Incendios_Resumen.csv'
data_humo = pd.read_csv(ruta)

'''Exploramos las dos bases de datos'''
display(Markdown("<h2><b>Dataset histórico incendios</b></h2>"))
display(data)

display(Markdown("<h2><b>Dataset SNPP</b></h2>"))
display(data_SNPP)

display(Markdown("<h2><b>Dataset Columnas de humo SIATA</b></h2>"))
display(data_humo)

<h2><b>Dataset histórico incendios</b></h2>

Unnamed: 0.1,Unnamed: 0,FECHA,LATITUD,LONGITUD,T[°C] WC,Pmm_radar,DEM_AMVA,Ocurrencia,CONTEO,Cobertura,Combustibl,Duración,Carga,geometry,Fuente
0,0,2012-01-01 14:55:00,6.128000,-75.638000,,,,,1.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.63799999999998 6.128000000000043),Bomberos
1,1,2012-01-01 13:05:00,6.142000,-75.633000,,,,,1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.63299999999998 6.142000000000053),Bomberos
2,2,2012-01-01 18:45:00,6.352000,-75.552000,,,,,1.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.55199999999996 6.352000000000032),Bomberos
3,3,2012-01-01 17:46:00,6.322000,-75.539000,,,,,1.0,Plantaciones Forestales,Árboles,100 horas,>100 ton/Ha,POINT (-75.53899999999999 6.32200000000006),Bomberos
4,4,2012-01-02 17:28:00,6.105000,-75.633000,,,,,1.0,Vegetación secundaria y transición,Árboles/arbustos,100 horas,>100 ton/ha,POINT (-75.63299999999998 6.105000000000075),Bomberos
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4226,4262,2023-11-12 00:00:00,6.245730,-75.536610,,,,,0.0,Pastos limpios,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.53660999999994 6.245730000000037),SIATA
4227,4263,2023-11-15 00:00:00,6.255544,-75.634810,,,,,0.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.63480999999996 6.255544000000043),SIATA
4228,4264,2023-11-23 00:00:00,6.395577,-75.405490,,,,,0.0,Bosque Fragmentado,Árboles/arbustos,100 horas,>100 ton/ha,POINT (-75.40548999999999 6.39557700000006),SIATA
4229,4265,2023-11-23 00:00:00,6.157310,-75.651900,,,,,0.0,Tejido Urbano discontinuo,Arbustos/Hierbas –árboles/hierbas –pastos/hier...,10 horas,50 a 100 ton/Ha,POINT (-75.65189999999996 6.157310000000052),SIATA


<h2><b>Dataset SNPP</b></h2>

Unnamed: 0,LATITUDE,LONGITUDE,BRIGHTNESS,SCAN,TRACK,ACQ_DATE,ACQ_TIME,SATELLITE,INSTRUMENT,CONFIDENCE,VERSION,BRIGHT_T31,FRP,DAYNIGHT,TYPE,geometry
0,6.422842,-75.338402,331.28,0.48,0.40,2012-02-23,1830,N,VIIRS,n,1,299.93,3.36,D,0,POINT (-75.33840 6.42284)
1,6.422386,-75.337593,333.15,0.48,0.40,2012-02-23,1830,N,VIIRS,n,1,299.67,3.23,D,0,POINT (-75.33759 6.42239)
2,6.381836,-75.394211,331.14,0.47,0.40,2012-09-02,1830,N,VIIRS,n,1,300.56,2.72,D,0,POINT (-75.39421 6.38184)
3,6.422888,-75.294113,331.80,0.41,0.37,2013-02-20,1824,N,VIIRS,n,1,298.20,3.22,D,0,POINT (-75.29411 6.42289)
4,6.423000,-75.432747,330.08,0.41,0.37,2013-04-25,1824,N,VIIRS,n,1,290.26,1.42,D,0,POINT (-75.43275 6.42300)
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
289,6.035447,-75.651604,330.02,0.62,0.71,2020-01-26,1912,N,VIIRS,n,1,286.37,5.29,D,0,POINT (-75.65160 6.03545)
290,6.096692,-75.659676,334.66,0.38,0.59,2021-01-18,1900,N,VIIRS,n,1,290.71,5.75,D,0,POINT (-75.65968 6.09669)
291,6.005105,-75.635872,330.33,0.60,0.53,2021-01-29,1854,N,VIIRS,n,1,291.31,3.08,D,0,POINT (-75.63587 6.00511)
292,6.097300,-75.661835,334.12,0.40,0.37,2021-07-20,1824,N,VIIRS,n,1,296.58,6.10,D,0,POINT (-75.66183 6.09730)


<h2><b>Dataset Columnas de humo SIATA</b></h2>

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5
0,id,lon,lat,hora,fecha,date
1,1,-75.59600,6.13500,15:11,2017-07-06,2017-07-06 15:11
2,2,-75.62500,6.22300,17:01,2017-07-06,2017-07-06 17:01
3,3,-75.61800,6.23200,17:12,2017-07-06,2017-07-06 17:12
4,4,-75.53800,6.22700,14:02,2017-07-07,2017-07-07 14:02
...,...,...,...,...,...,...
2970,,,,,,
2971,,,,,,
2972,,,,,,
2973,,,,,,


# **02. Ingeniería de datos**

## - Dataset SNPP

In [41]:
'''Filtrado por confidencia de los datos dataset SNPP:
   - 'l': Low (bajo)
   - 'n': Nominal (nominal o normal)
   - 'h': High (alto)'''

print(data_SNPP["CONFIDENCE"].unique())

data_SNPP_nh = data_SNPP.loc[(data_SNPP["CONFIDENCE"] == 'n') | (data_SNPP["CONFIDENCE"] == 'h')]

'''Se eliminar y renombran columnas'''
columns_to_drop = ['BRIGHTNESS','SCAN','TRACK','ACQ_TIME','SATELLITE','INSTRUMENT','CONFIDENCE','VERSION','BRIGHT_T31','FRP','DAYNIGHT','TYPE']
columns_to_rename = {'ACQ_DATE':'FECHA','LATITUDE':'LATITUD', 'LONGITUDE':'LONGITUD'}
data_SNPP_nh = data_SNPP_nh.drop(columns=columns_to_drop).rename(columns=columns_to_rename)
data_SNPP_nh = data_SNPP_nh[['FECHA','LATITUD','LONGITUD','geometry']]
data_SNPP_nh['Fuente'] = 'SNPP'
data_SNPP_nh

['n' 'l' 'h']


Unnamed: 0,FECHA,LATITUD,LONGITUD,geometry,Fuente
0,2012-02-23,6.422842,-75.338402,POINT (-75.33840 6.42284),SNPP
1,2012-02-23,6.422386,-75.337593,POINT (-75.33759 6.42239),SNPP
2,2012-09-02,6.381836,-75.394211,POINT (-75.39421 6.38184),SNPP
3,2013-02-20,6.422888,-75.294113,POINT (-75.29411 6.42289),SNPP
4,2013-04-25,6.423000,-75.432747,POINT (-75.43275 6.42300),SNPP
...,...,...,...,...,...
289,2020-01-26,6.035447,-75.651604,POINT (-75.65160 6.03545),SNPP
290,2021-01-18,6.096692,-75.659676,POINT (-75.65968 6.09669),SNPP
291,2021-01-29,6.005105,-75.635872,POINT (-75.63587 6.00511),SNPP
292,2021-07-20,6.097300,-75.661835,POINT (-75.66183 6.09730),SNPP


## - Dataset columnas de humo SIATA

In [42]:
'''Dataset columnas de humo SIATA'''
columns_to_rename = {'Unnamed: 0':'ID','Unnamed: 1':'LONGITUD', 'Unnamed: 2':'LATITUD', 'Unnamed: 3':'HORA', 'Unnamed: 4':'fecha', 'Unnamed: 5':'FECHA'}
data_humo = data_humo.rename(columns=columns_to_rename)
data_humo = data_humo.drop(index=0, columns='fecha')
data_humo = data_humo.dropna()
data_humo = data_humo[['FECHA', 'LATITUD', 'LONGITUD']]

'''Crear una geometría de puntos a partir de la latitud y longitud'''
geometry = [Point(xy) for xy in zip(data_humo['LONGITUD'], data_humo['LATITUD'])]

'''Crear un GeoDataFrame'''
gdf = gpd.GeoDataFrame(data_humo, geometry=geometry)
data_humo = gdf

data_humo['Fuente'] = 'SIATA'
data_humo

Unnamed: 0,FECHA,LATITUD,LONGITUD,geometry,Fuente
1,2017-07-06 15:11,6.13500,-75.59600,POINT (-75.59600 6.13500),SIATA
2,2017-07-06 17:01,6.22300,-75.62500,POINT (-75.62500 6.22300),SIATA
3,2017-07-06 17:12,6.23200,-75.61800,POINT (-75.61800 6.23200),SIATA
4,2017-07-07 14:02,6.22700,-75.53800,POINT (-75.53800 6.22700),SIATA
5,2017-07-07 16:03,6.22800,-75.62100,POINT (-75.62100 6.22800),SIATA
...,...,...,...,...,...
2042,2024-06-22 13:05,6.25534,-75.53389,POINT (-75.53389 6.25534),SIATA
2043,2024-06-26 10:09,6.27386,-75.53407,POINT (-75.53407 6.27386),SIATA
2044,2024-07-07 16:59,6.32026,-75.58175,POINT (-75.58175 6.32026),SIATA
2045,2024-07-08 14:39,6.29399,-75.62218,POINT (-75.62218 6.29399),SIATA


## - Correción fechas

In [43]:
''' Función para completar las fechas:
    La función completar_fecha toma una cadena de texto fecha y se asegura de que esté en el formato YYYY-MM-DD HH:MM:SS.'''
def completar_fecha(fecha):
    partes = fecha.split()  # Primero, divido la fecha en partes utilizando el espacio como separador (fecha.split()) 2024-07-09 12:02 --> |2024-07-09| |12:02|
    if len(partes) == 1:              # Si solo tiene la fecha (len(partes) == 1), 
        return fecha + ' 00:00:00'    # añade 00:00:00 para completar la hora.
    elif len(partes) == 2:                         
        fecha_part, hora_part = partes            # Si tiene tanto la fecha como la hora (len(partes) == 2),
        hora_partes = hora_part.split(':')        # Divido la parte de la hora en componentes (hora_part.split(':'))
        if len(hora_partes) == 2:                 # Si la hora solo tiene minutos (len(hora_partes) == 2), añade :00 para completar los segundos.
            hora_part += ':00'
        if len(hora_partes[0]) == 1:              # Si la hora solo tiene un dígito (len(hora_partes[0]) == 1), añade un 0 delante para asegurarse de que esté en formato de 24 horas.
            hora_part = '0' + hora_part
        return fecha_part + ' ' + hora_part
    return fecha  # Asumimos que ya tiene el formato correcto

# Aplicar la función a la columna de fechas
data_humo['FECHA'] = data_humo['FECHA'].apply(completar_fecha)

# Convertir a formato datetime
#data_humo['FECHA'] = pd.to_datetime(data_humo['FECHA'], format='%Y-%m-%d %H:%M:%S')

# Añadir segundos aleatorios entre 0 y 59
#data_humo['FECHA'] = data_humo['FECHA'] + pd.to_timedelta(np.random.randint(0, 60, data_humo.shape[0]), unit='s')

# Guardar el archivo actualizado
# data_humo.to_csv('datos_actualizados.csv', index=False)
data_humo

Unnamed: 0,FECHA,LATITUD,LONGITUD,geometry,Fuente
1,2017-07-06 15:11:00,6.13500,-75.59600,POINT (-75.59600 6.13500),SIATA
2,2017-07-06 17:01:00,6.22300,-75.62500,POINT (-75.62500 6.22300),SIATA
3,2017-07-06 17:12:00,6.23200,-75.61800,POINT (-75.61800 6.23200),SIATA
4,2017-07-07 14:02:00,6.22700,-75.53800,POINT (-75.53800 6.22700),SIATA
5,2017-07-07 16:03:00,6.22800,-75.62100,POINT (-75.62100 6.22800),SIATA
...,...,...,...,...,...
2042,2024-06-22 13:05:00,6.25534,-75.53389,POINT (-75.53389 6.25534),SIATA
2043,2024-06-26 10:09:00,6.27386,-75.53407,POINT (-75.53407 6.27386),SIATA
2044,2024-07-07 16:59:00,6.32026,-75.58175,POINT (-75.58175 6.32026),SIATA
2045,2024-07-08 14:39:00,6.29399,-75.62218,POINT (-75.62218 6.29399),SIATA


## **02.1. Busqueda de duplicados**
Se buscan duplicados entre las bases de datos en caso de que sea necesario algún filtrado de datos

In [44]:
'''Se buscan duplicados para el dataset de historico de incendios (ya se había hecho en el script anterior pero por si las moscas)'''

#common_columns = ['FECHA', 'LATITUD', 'LONGITUD']
common_columns = ['LATITUD', 'LONGITUD']
repeated_dates = data[data.duplicated(subset=common_columns, keep=False)]
print('Tamaño del dataframe: ', repeated_dates.shape)
display(Markdown("<h2><b>Datos duplicados histórico de incendios</b></h2>"))
display(repeated_dates.head())

'''Se encontraron 1553 datos duplicados: Los duplicados tienen en común las coordenadas pero no las fechas, esto puede indicar que los datos no son erroneos, puede 
que un incendio haya vuelto a empezar luego de haberse apagado y reportaron la columna de humo en la misma coordenadas pero con una fecha u hora diferente'''

common_columns = ['LATITUD', 'LONGITUD']
repeated_dates = data_humo[data_humo.duplicated(subset=common_columns, keep=False)]
print('Tamaño del dataframe: ', repeated_dates.shape)
display(Markdown("<h2><b>Datos duplicados columnas de humo SIATA</b></h2>"))
display(repeated_dates.head())

'''Se encontraron 120 datos duplicados: Los duplicados tienen en común las coordenadas pero no las fechas, esto puede indicar que los datos no son erroneos, puede que un incendio
haya vuelto a empezar luego de haberse apagado y reportaron la columna de humo en la misma coordenadas pero con una fecha u hora diferente'''

Tamaño del dataframe:  (1553, 15)


<h2><b>Datos duplicados histórico de incendios</b></h2>

Unnamed: 0.1,Unnamed: 0,FECHA,LATITUD,LONGITUD,T[°C] WC,Pmm_radar,DEM_AMVA,Ocurrencia,CONTEO,Cobertura,Combustibl,Duración,Carga,geometry,Fuente
2,2,2012-01-01 18:45:00,6.352,-75.552,,,,,1.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.55199999999996 6.352000000000032),Bomberos
5,5,2012-01-07 14:24:00,6.266,-75.602,,,,,1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.60199999999998 6.266000000000076),Bomberos
7,7,2012-01-09 12:41:00,6.282,-75.639,,,,,1.0,"Mosaico de cultivos, pastos y espacios naturales",Hierbas/ cultivos herbáceos,1 hora,1-50 ton/Ha,POINT (-75.63899999999995 6.282000000000039),Bomberos
8,8,2012-01-09 14:56:00,6.282,-75.639,,,,,1.0,"Mosaico de cultivos, pastos y espacios naturales",Hierbas/ cultivos herbáceos,1 hora,1-50 ton/Ha,POINT (-75.63899999999995 6.282000000000039),Bomberos
10,10,2012-01-10 14:00:00,6.187,-75.661,,,,,1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.66099999999994 6.187000000000069),Bomberos


Tamaño del dataframe:  (120, 5)


<h2><b>Datos duplicados columnas de humo SIATA</b></h2>

Unnamed: 0,FECHA,LATITUD,LONGITUD,geometry,Fuente
24,2017-07-18 12:01:00,6.271,-75.636,POINT (-75.63600 6.27100),SIATA
25,2017-07-18 14:14:00,6.271,-75.636,POINT (-75.63600 6.27100),SIATA
41,2017-07-29 16:30:00,6.31,-75.6237,POINT (-75.62370 6.31000),SIATA
64,2017-08-22 14:15:00,6.214,-75.617,POINT (-75.61700 6.21400),SIATA
88,2017-12-18 11:55:00,6.26921,-75.61513,POINT (-75.61513 6.26921),SIATA


'Se encontraron 120 datos duplicados: Los duplicados tienen en común las coordenadas pero no las fechas, esto puede indicar que los datos no son erroneos, puede que un incendio\nhaya vuelto a empezar luego de haberse apagado y reportaron la columna de humo en la misma coordenadas pero con una fecha u hora diferente'

In [45]:
common_columns = ['LATITUD', 'LONGITUD']

''' Agrupar por las columnas comunes y contar las ocurrencias'''
repeated_counts = data.groupby(common_columns).size().reset_index(name='count')

''' Filtrar para obtener solo las filas con más de una ocurrencia'''
repeated_counts = repeated_counts[repeated_counts['count'] > 1]

total_duplicates = repeated_counts['count'].sum()
print('Cantidad de datos repetidos:', total_duplicates)

repeated_counts

Cantidad de datos repetidos: 1553


Unnamed: 0,LATITUD,LONGITUD,count
13,6.061,-75.648,3
26,6.076,-75.652,2
32,6.080,-75.630,2
38,6.083,-75.644,2
40,6.084,-75.644,2
...,...,...,...
3097,6.442,-75.332,2
3099,6.443,-75.328,2
3101,6.444,-75.334,3
3109,6.452,-75.315,2


In [46]:
''' Combinar con el DataFrame original para obtener todas las filas duplicadas'''
duplicated_rows = data.merge(repeated_counts, on=common_columns, how='inner')

duplicated_rows

Unnamed: 0.1,Unnamed: 0,FECHA,LATITUD,LONGITUD,T[°C] WC,Pmm_radar,DEM_AMVA,Ocurrencia,CONTEO,Cobertura,Combustibl,Duración,Carga,geometry,Fuente,count
0,2,2012-01-01 18:45:00,6.352000,-75.552000,,,,,1.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.55199999999996 6.352000000000032),Bomberos,3
1,5,2012-01-07 14:24:00,6.266000,-75.602000,,,,,1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.60199999999998 6.266000000000076),Bomberos,12
2,7,2012-01-09 12:41:00,6.282000,-75.639000,,,,,1.0,"Mosaico de cultivos, pastos y espacios naturales",Hierbas/ cultivos herbáceos,1 hora,1-50 ton/Ha,POINT (-75.63899999999995 6.282000000000039),Bomberos,14
3,8,2012-01-09 14:56:00,6.282000,-75.639000,,,,,1.0,"Mosaico de cultivos, pastos y espacios naturales",Hierbas/ cultivos herbáceos,1 hora,1-50 ton/Ha,POINT (-75.63899999999995 6.282000000000039),Bomberos,14
4,10,2012-01-10 14:00:00,6.187000,-75.661000,,,,,1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.66099999999994 6.187000000000069),Bomberos,54
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1548,4112,2023-06-07 00:00:00,6.287410,-75.606050,,,,,0.0,Arbustal,Arbustos,10 horas,50 a 100 ton/ha,POINT (-75.60604999999998 6.287410000000023),SIATA,2
1549,4184,2023-08-06 00:00:00,6.185455,-75.608665,,,,,0.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.60866499999997 6.185455000000047),SIATA,2
1550,4186,2023-08-07 00:00:00,6.185455,-75.608665,,,,,0.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.60866499999997 6.185455000000047),SIATA,2
1551,4190,2023-08-08 00:00:00,6.207270,-75.533310,,,,,0.0,Bosque Fragmentado,Árboles/arbustos,100 horas,>100 ton/ha,POINT (-75.53330999999997 6.207270000000051),SIATA,2


## **02.2. Coincidencias entre data y data_humo**
Se buscan coincidencias entre las variables ['FECHA', 'LATITUD', 'LONGITUD']. Es importante tener en cuenta que la base de datos data y data_humo comparten la misma información desde 2017, es decir, misma fechas y coordenadas ya que "son la misma base de datos"

In [47]:
print('Formato de las variables: ', data_humo.dtypes)
#['FECHA', 'LATITUD', 'LONGITUD']

data_humo['FECHA'] = pd.to_datetime(data_humo['FECHA'])

data_humo['LATITUD'] = data_humo['LATITUD'].astype(float)
data_humo['LONGITUD'] = data_humo['LONGITUD'].astype(float)

'''Coincidencias por fecha, latitud y longitud'''
common_column = ['FECHA']

'''Hacemos un right join entre las dos bases de datos, conservamos la matriz derecha junto a los datos que coincidan de la izquierda'''
matches = pd.merge(data, data_humo, on=common_column, how='inner')

'''Si lo hacemos con ['FECHA', 'LATITUD', 'LONGITUD'] encontramos --> 746 coincidencias (debido a que data_humo tiene los valores de las coordenadas redoneados)
   Si lo hacemos con ['FECHA'] encontramos --> 1546 coincidencias (parece coherente que hayan 1500 coincidencias)'''

matches

Formato de las variables:  FECHA         object
LATITUD       object
LONGITUD      object
geometry    geometry
Fuente        object
dtype: object


Unnamed: 0.1,Unnamed: 0,FECHA,LATITUD_x,LONGITUD_x,T[°C] WC,Pmm_radar,DEM_AMVA,Ocurrencia,CONTEO,Cobertura,Combustibl,Duración,Carga,geometry_x,Fuente_x,LATITUD_y,LONGITUD_y,geometry_y,Fuente_y
0,2557,2017-07-06 17:01:00,6.22000,-75.63000,25.3898,20.413029,1801.0,1.0,1.0,Vegetación secundaria y transición,Árboles/arbustos,100 horas,>100 ton/ha,POINT (-75.62999999999994 6.220000000000027),SIATA,6.22300,-75.62500,POINT (-75.62500 6.22300),SIATA
1,2558,2017-07-06 17:12:00,6.23000,-75.62000,25.7338,14.441217,1766.0,1.0,1.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.61999999999995 6.230000000000075),SIATA,6.23200,-75.61800,POINT (-75.61800 6.23200),SIATA
2,2559,2017-07-06 15:11:00,6.14000,-75.60000,24.0003,22.810299,1940.0,1.0,1.0,Tejido Urbano discontinuo,Arbustos/Hierbas –árboles/hierbas –pastos/hier...,10 horas,50 a 100 ton/Ha,POINT (-75.59999999999997 6.140000000000043),SIATA,6.13500,-75.59600,POINT (-75.59600 6.13500),SIATA
3,2560,2017-07-07 16:03:00,6.23000,-75.62000,25.7338,2.717010,1766.0,1.0,1.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.61999999999995 6.230000000000075),SIATA,6.22800,-75.62100,POINT (-75.62100 6.22800),SIATA
4,2561,2017-07-07 14:02:00,6.23000,-75.54000,25.2829,2.231164,1715.0,1.0,1.0,Zonas verdes urbanas,Pastos – zonas verdes urbanas,1 hora,<1 ton/ha,POINT (-75.53999999999996 6.230000000000075),SIATA,6.22700,-75.53800,POINT (-75.53800 6.22700),SIATA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1541,4105,2023-05-27 15:52:00,6.41243,-75.41863,,,,,1.0,Tejido Urbano discontinuo,Arbustos/Hierbas –árboles/hierbas –pastos/hier...,10 horas,50 a 100 ton/Ha,POINT (-75.41862999999995 6.412430000000029),SIATA,6.41243,-75.41863,POINT (-75.41863 6.41243),SIATA
1542,4106,2023-06-01 18:22:00,6.23128,-75.55852,,,,,1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.55851999999999 6.231280000000027),SIATA,6.23128,-75.55852,POINT (-75.55852 6.23128),SIATA
1543,4107,2023-06-04 11:19:00,6.33358,-75.50845,,,,,1.0,Pastos enmalezados,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.50844999999998 6.33358000000004),SIATA,6.33358,-75.50845,POINT (-75.50845 6.33358),SIATA
1544,4108,2023-06-07 13:50:00,6.28741,-75.60605,,,,,1.0,Arbustal,Arbustos,10 horas,50 a 100 ton/ha,POINT (-75.60604999999998 6.287410000000023),SIATA,6.28741,-75.60605,POINT (-75.60605 6.28741),SIATA


## **02.3 Manipulación de fechas**
Explorando la base de dato se identifica que apartir de la fecha 2023-06-07 00:00:00 los datos de fecha NO TIENEN HORA

In [48]:
''' Suponiendo que 'FECHA' es una columna en formato datetime en tu DataFrame df'''

''' Cambio la columna de FECHA a formato datetime'''
data['FECHA'] = pd.to_datetime(data['FECHA'], errors='coerce')

data.sort_values(by='FECHA', inplace=True)                         # Ordenar por fecha
df_filtrado = data[data['FECHA'] >= '2023-06-07 00:00:00']
df_filtrado.head()

Unnamed: 0.1,Unnamed: 0,FECHA,LATITUD,LONGITUD,T[°C] WC,Pmm_radar,DEM_AMVA,Ocurrencia,CONTEO,Cobertura,Combustibl,Duración,Carga,geometry,Fuente
4078,4112,2023-06-07 00:00:00,6.28741,-75.60605,,,,,0.0,Arbustal,Arbustos,10 horas,50 a 100 ton/ha,POINT (-75.60604999999998 6.287410000000023),SIATA
4075,4108,2023-06-07 13:50:00,6.28741,-75.60605,,,,,1.0,Arbustal,Arbustos,10 horas,50 a 100 ton/ha,POINT (-75.60604999999998 6.287410000000023),SIATA
4079,4113,2023-06-12 00:00:00,6.271196,-75.600271,,,,,0.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.60027099999996 6.271196000000032),SIATA
4076,4109,2023-06-12 18:03:00,6.2712,-75.60027,,,,,1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.60026999999997 6.271200000000022),SIATA
4081,4115,2023-06-13 00:00:00,6.28223,-75.65155,,,,,0.0,Tejido Urbano discontinuo,Arbustos/Hierbas –árboles/hierbas –pastos/hier...,10 horas,50 a 100 ton/Ha,POINT (-75.65154999999999 6.282230000000027),SIATA


# **03. Concat de los dataframes data y data_humo**

In [50]:
''' Convertir la columna FECHA de data_humo a tipo datetime si no lo está'''
data_humo['FECHA'] = pd.to_datetime(data_humo['FECHA'])

''' Convertir la columna FECHA de data a tipo datetime si no lo está'''
data['FECHA'] = pd.to_datetime(data['FECHA'])

start_date = pd.to_datetime('2023-11-27')
df2_2024 = data_humo[data_humo['FECHA'] >= start_date].copy()

''' Añadir las columnas faltantes en data_humo para que coincidan con data'''
for column in data.columns:
    if column not in df2_2024.columns:
        df2_2024.loc[:,column] = None

''' Reordenar las columnas de df2_2024 para que coincidan con data'''
df2_2024 = df2_2024[data.columns]

''' Combinar data con df2_2024'''
df_combined = pd.concat([data, df2_2024], ignore_index=True)

df_combined


  df_combined = pd.concat([data, df2_2024], ignore_index=True)


Unnamed: 0.1,Unnamed: 0,FECHA,LATITUD,LONGITUD,T[°C] WC,Pmm_radar,DEM_AMVA,Ocurrencia,CONTEO,Cobertura,Combustibl,Duración,Carga,geometry,Fuente
0,1,2012-01-01 13:05:00,6.14200,-75.63300,,,,,1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.63299999999998 6.142000000000053),Bomberos
1,0,2012-01-01 14:55:00,6.12800,-75.63800,,,,,1.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.63799999999998 6.128000000000043),Bomberos
2,3,2012-01-01 17:46:00,6.32200,-75.53900,,,,,1.0,Plantaciones Forestales,Árboles,100 horas,>100 ton/Ha,POINT (-75.53899999999999 6.32200000000006),Bomberos
3,2,2012-01-01 18:45:00,6.35200,-75.55200,,,,,1.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.55199999999996 6.352000000000032),Bomberos
4,4,2012-01-02 17:28:00,6.10500,-75.63300,,,,,1.0,Vegetación secundaria y transición,Árboles/arbustos,100 horas,>100 ton/ha,POINT (-75.63299999999998 6.105000000000075),Bomberos
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4483,,2024-06-22 13:05:00,6.25534,-75.53389,,,,,,,,,,POINT (-75.53389 6.25534),SIATA
4484,,2024-06-26 10:09:00,6.27386,-75.53407,,,,,,,,,,POINT (-75.53407 6.27386),SIATA
4485,,2024-07-07 16:59:00,6.32026,-75.58175,,,,,,,,,,POINT (-75.58175 6.32026),SIATA
4486,,2024-07-08 14:39:00,6.29399,-75.62218,,,,,,,,,,POINT (-75.62218 6.29399),SIATA


## **04. Concat de los dataframes df_combined y data_SNPP_nh**

In [51]:
''' Combinar df_combined con data_SNPP_nh'''
Histórico_incendios = pd.concat([df_combined, data_SNPP_nh], ignore_index=False)

''' Convertir la columna FECHA de df_combined a tipo datetime y organizamos por fecha'''
Histórico_incendios['FECHA'] = pd.to_datetime(Histórico_incendios['FECHA'])
Histórico_incendios.sort_values(by='FECHA', inplace=True)

''' Restablecer el índice'''
Histórico_incendios.reset_index(drop=True, inplace=True)

''' Dropeamos'''
Histórico_incendios = Histórico_incendios.drop(columns='Unnamed: 0')
Histórico_incendios

Unnamed: 0,FECHA,LATITUD,LONGITUD,T[°C] WC,Pmm_radar,DEM_AMVA,Ocurrencia,CONTEO,Cobertura,Combustibl,Duración,Carga,geometry,Fuente
0,2012-01-01 13:05:00,6.14200,-75.63300,,,,,1.0,Tejido Urbano Continuo,No Combustibles,No Combustibles,No Combustibles,POINT (-75.63299999999998 6.142000000000053),Bomberos
1,2012-01-01 14:55:00,6.12800,-75.63800,,,,,1.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.63799999999998 6.128000000000043),Bomberos
2,2012-01-01 17:46:00,6.32200,-75.53900,,,,,1.0,Plantaciones Forestales,Árboles,100 horas,>100 ton/Ha,POINT (-75.53899999999999 6.32200000000006),Bomberos
3,2012-01-01 18:45:00,6.35200,-75.55200,,,,,1.0,Mosaico de pastos con espacios naturales,Pastos – zonas verdes urbanas,1 hora,1-50 ton/Ha,POINT (-75.55199999999996 6.352000000000032),Bomberos
4,2012-01-02 17:28:00,6.10500,-75.63300,,,,,1.0,Vegetación secundaria y transición,Árboles/arbustos,100 horas,>100 ton/ha,POINT (-75.63299999999998 6.105000000000075),Bomberos
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4745,2024-06-22 13:05:00,6.25534,-75.53389,,,,,,,,,,POINT (-75.53389 6.25534),SIATA
4746,2024-06-26 10:09:00,6.27386,-75.53407,,,,,,,,,,POINT (-75.53407 6.27386),SIATA
4747,2024-07-07 16:59:00,6.32026,-75.58175,,,,,,,,,,POINT (-75.58175 6.32026),SIATA
4748,2024-07-08 14:39:00,6.29399,-75.62218,,,,,,,,,,POINT (-75.62218 6.29399),SIATA


## **Guardar CSV y Shape para importarlo a ArcGIS Pro**

In [70]:
'''Guardar csv'''
Histórico_incendios.to_csv("Histórico_v2.csv", sep=";", encoding='utf-8')

''' Convertir las columnas de fecha y hora a cadenas de texto'''
Histórico_incendios['FECHA'] = Histórico_incendios['FECHA'].astype(str)

Histórico_incendios['geometry'] = Histórico_incendios.apply(lambda row: Point(row['LONGITUD'], row['LATITUD']), axis=1)

''' Ahora crear el GeoDataFrame'''
gdf = gpd.GeoDataFrame(Histórico_incendios, geometry='geometry', crs='EPSG:4326')
output_shapefile = 'C:/Users/mateo/Downloads/Avances AMVA/Scripts/03_07_24 Construcción base de datos historico de incendios/Histórico_shape_v1.shp'
gdf.to_file(output_shapefile, encoding='utf-8')

## **Después de hacer un spacial join en ArcGIS Pro quedamos con la siguiente base de datos**

In [68]:
ruta = 'C:/Users/mateo/Downloads/Avances AMVA/Scripts/03_07_24 Construcción base de datos historico de incendios/Histórico_shape_v1join/Histórico_shape_v3join.shp'

Histórico_join = gpd.read_file(ruta, encoding='utf-8')
columns_to_drop=['Join_Count','TARGET_FID','DEM_AMVA','Cobertura','Combustibl','Duración','Carga','OBJECTID','CODIGO','OBSERV', 'CONTEO',
                 'Ocurrencia','AREA_ha','GRUPO_USO','USO_ACT','NOMENCLAT','Shape_Leng','TCombCalif','Shape_Le_1','Shape_Area']
columns_to_rename={'T__C__WC':'T[°C] WC','RASTERVALU':'DEM_AMVA','N1_COBERT':'Cobertura1','N2_COBERT':'Cobertura2','N3_COBERT':'Cobertura3','Tip_Combus':'Combustible','Dur_Comb':'Duración'}
Histórico_join = Histórico_join.drop(columns=columns_to_drop).rename(columns=columns_to_rename)
Histórico_join.sort_values(by='FECHA', inplace=True)
Histórico_join

Unnamed: 0,FECHA,LATITUD,LONGITUD,T[°C] WC,Pmm_radar,Fuente,Cobertura1,Cobertura2,Cobertura3,Combustible,Duración,DEM_AMVA,geometry
0,2012-01-01 13:05:00,6.14200,-75.63300,0.0,0.0,Bomberos,Territorios Artificializados,Zonas urbanizadas,Tejido urbano continuo,No Combustibles,No Combustibles,1694,POINT (-75.63300 6.14200)
1,2012-01-01 14:55:00,6.12800,-75.63800,0.0,0.0,Bomberos,Territorios Agrícolas,Áreas agrícolas heterogéneas,Mosaico de pastos con espacios naturales,Hierbas–Pastos,1 Hora,1817,POINT (-75.63800 6.12800)
1203,2012-01-01 17:46:00,6.32200,-75.53900,0.0,0.0,Bomberos,Bosques y Áreas Seminaturales,Bosques,Plantación forestal,Árboles,100 Horas,1703,POINT (-75.53900 6.32200)
1204,2012-01-01 18:45:00,6.35200,-75.55200,0.0,0.0,Bomberos,Territorios Agrícolas,Áreas agrícolas heterogéneas,Mosaico de pastos con espacios naturales,Hierbas–Pastos,1 Hora,1670,POINT (-75.55200 6.35200)
2,2012-01-02 17:28:00,6.10500,-75.63300,0.0,0.0,Bomberos,Bosques y Áreas Seminaturales,Áreas con vegetación herbácea y/o arbustiva,Vegetación secundaria o en transición,Arbustos/Hierbas –árboles/hierbas–pastos/hierb...,10 Horas,1853,POINT (-75.63300 6.10500)
...,...,...,...,...,...,...,...,...,...,...,...,...,...
4388,2024-06-22 13:05:00,6.25534,-75.53389,0.0,0.0,SIATA,Territorios Agrícolas,Pastos,Pastos limpios,Hierbas–Pastos,1 Hora,2165,POINT (-75.53389 6.25534)
4389,2024-06-26 10:09:00,6.27386,-75.53407,0.0,0.0,SIATA,Territorios Agrícolas,Áreas agrícolas heterogéneas,Mosaico de pastos con espacios naturales,Hierbas–Pastos,1 Hora,2237,POINT (-75.53407 6.27386)
4390,2024-07-07 16:59:00,6.32026,-75.58175,0.0,0.0,SIATA,Territorios Agrícolas,Áreas agrícolas heterogéneas,"Mosaico de cultivos, pastos y espacios naturales",Hierbas–Pastos,1 Hora,1924,POINT (-75.58175 6.32026)
4391,2024-07-08 14:39:00,6.29399,-75.62218,0.0,0.0,SIATA,Bosques y Áreas Seminaturales,Áreas con vegetación herbácea y/o arbustiva,Vegetación secundaria o en transición,Arbustos/Hierbas –árboles/hierbas–pastos/hierb...,10 Horas,2217,POINT (-75.62218 6.29399)


# **Guardado final**

In [71]:
'''Guardar csv'''
Histórico_join.to_csv("Histórico_v3.csv", sep=";", encoding='utf-8')

''' Convertir las columnas de fecha y hora a cadenas de texto'''
Histórico_join['FECHA'] = Histórico_join['FECHA'].astype(str)

Histórico_join['geometry'] = Histórico_join.apply(lambda row: Point(row['LONGITUD'], row['LATITUD']), axis=1)

''' Ahora crear el GeoDataFrame'''
gdf = gpd.GeoDataFrame(Histórico_join, geometry='geometry', crs='EPSG:4326')
output_shapefile = 'C:/Users/mateo/Downloads/Avances AMVA/Scripts/03_07_24 Construcción base de datos historico de incendios/Histórico_shape_v2.shp'
gdf.to_file(output_shapefile, encoding='utf-8')

  gdf.to_file(output_shapefile, encoding='utf-8')
