# Minería de datos, Incendios: Analisis de Datos de los CSV

## importaciones de las librerías
### Importamos Pandas para:
<ul>
    <li>El trabajo con CSV</li>
    <li></li>
</ul>

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import numpy as np

## Importación de la data

In [None]:
cicatrices_incedios = pd.read_csv("https://raw.githubusercontent.com/Kiki1108/incendios/refs/heads/main/data/cicatrices_incendios_resumen.csv")
cicatrices_incedios.head()

### ¿Qué significa cada una de las columnas?

<ul>
    <li><strong>fireID</strong> → Identificador único del incendio.</li>
    <li><strong>season</strong> → Año en que ocurrió el incendio.</li>
    <li><strong>code</strong> → Código del área donde ocurrió el incendio (probablemente código regional o de país).</li>
    <li><strong>cut_reg</strong> → Código de la región administrativa en la que ocurrió el incendio.</li>
    <li><strong>region_conaf</strong> → Nombre de la región según la CONAF (Corporación Nacional Forestal de Chile).</li>
    <li><strong>name_conaf</strong> → Nombre asignado al incendio en los registros de CONAF.</li>
    <li><strong>area_conaf</strong> → Área del incendio registrada por CONAF en hectáreas.</li>
    <li><strong>ign_date_conaf</strong> → Fecha de inicio del incendio.</li>
    <li><strong>ctrl_date_conaf</strong> → Fecha en que el incendio fue controlado.</li>
    <li><strong>lat, lon</strong> → Latitud y longitud del incendio.</li>
    <li><strong>firescar</strong> → Identificación de la cicatriz del incendio (probablemente en imágenes satelitales).</li>
    <li><strong>folderloc</strong> → Ubicación del archivo en la base de datos.</li>
    <li><strong>firescar_img_name</strong> → Nombre de la imagen satelital de la cicatriz del incendio.</li>
    <li><strong>prefire_img_name</strong> → Nombre de la imagen satelital previa al incendio.</li>
    <li><strong>postfire_img_name</strong> → Nombre de la imagen satelital posterior al incendio.</li>
    <li><strong>rdnbr_img_name</strong> → Nombre de la imagen con el índice RDNBR (relacionado con la severidad del incendio).</li>
    <li><strong>sev_img_name</strong> → Imagen de severidad del incendio.</li>
    <li><strong>firescar_vec_name</strong> → Nombre del archivo vectorial de la cicatriz del incendio.</li>
    <li><strong>sev_vec_name</strong> → Nombre del archivo vectorial de la severidad del incendio.</li>
    <li><strong>north_lat, south_lat</strong> → Latitud máxima y mínima del área afectada.</li>
    <li><strong>west_lon, east_lon</strong> → Longitud máxima y mínima del área afectada.</li>
    <li><strong>width, height</strong> → Dimensiones de la zona afectada (posiblemente en píxeles o metros).</li>
    <li><strong>total_area</strong> → Área total afectada (posiblemente en m²).</li>
    <li><strong>area_unchs</strong> → Área sin cambios después del incendio.</li>
    <li><strong>area_lows</strong> → Área con baja severidad de quemado.</li>
    <li><strong>area_mods</strong> → Área con severidad moderada.</li>
    <li><strong>area_hs</strong> → Área con alta severidad.</li>
    <li><strong>firescar_poly</strong> → Polígonos de cicatrices de incendios.</li>
    <li><strong>sev_poly</strong> → Polígonos de severidad del incendio.</li>
    <li><strong>overlap</strong> → Superposición con incendios previos o cicatrices antiguas.</li>
    <li><strong>obs</strong> → Observaciones adicionales sobre el incendio.</li>
</ul>


## Analisis del estado / calidad de los datos

In [None]:
# Analisis de missing values
cicatrices_incedios.isna().sum()

In [None]:
# Revisión de duplicados
print(cicatrices_incedios.duplicated().sum())

In [None]:
# Descriptores generales
# Cantidad, media, desviación estandar, minimo, maximo, quartiles.
cicatrices_incedios.describe()

In [None]:
# Revisión de tipos de datos
cicatrices_incedios.info()

In [None]:
# Revisión de valores únicos por columna
cols = cicatrices_incedios.columns.tolist()
for col in cols:
    print(f"{col}: {cicatrices_incedios[col].unique()}")

In [None]:
# Asegurarse que ign_date_conaf es de tipo datetime
cicatrices_incedios["ign_date_conaf"] = pd.to_datetime(cicatrices_incedios["ign_date_conaf"])

# Extraer solo el mes en formato numérico (01, 02, ..., 12)
cicatrices_incedios["mes_incendio"] = cicatrices_incedios["ign_date_conaf"].dt.strftime("%m")

# Crear el gráfico Sunburst
fig = px.sunburst(cicatrices_incedios, path=["region_conaf", "mes_incendio"])
fig.update_traces(textinfo="label+percent parent")
fig.show()

In [None]:
data = cicatrices_incedios["mes_incendio"]
sns.histplot(data, bins=100, kde=True)

mean_val = np.mean(data)
median_val = np.median(data)
std_dev = np.std(data)
min_val = np.min(data)
max_val = np.max(data)

#plt.legend([f'Mean: {mean_val:.2f}', f'Median: {median_val:.2f}', f'Standard Deviation: {std_dev:.2f}', f'Min: {min_val:.2f}', f'Max: {max_val:.2f}'], loc='upper right', ncols=10)

plt.axvline(mean_val, color='red', linestyle='--', label=f'Mean: {mean_val:.2f}')
plt.axvline(median_val, color='green', linestyle='-.', label=f'Median: {median_val:.2f}')

plt.legend(loc='upper right')

print(min_val)
print(max_val)
print(std_dev)

plt.title("Histogram for average price per room")
plt.show()

In [None]:
# Revisión de la corralación entre variables
numeric_df = cicatrices_incedios.select_dtypes(include="number")
sns.heatmap(numeric_df.corr(method="pearson"), annot=True, cmap='coolwarm', annot_kws={"size": 6})
plt.show()

### Qué preguntantas nos podemos hacer??

<ul>
    <li>aaaa
    </li>
</ul>