# Analisis de incendios en Australia, Fuente XXXXXXXXXXX
Ramo Minería de datos

In [None]:
# Importación de librerías
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import numpy as np

In [None]:
# Importación de datos
incendios = pd.read_csv("https://raw.githubusercontent.com/Kiki1108/incendios/refs/heads/main/data/nws_australia.csv")
incendios.head()

### ¿Qué significa cada una de las columnas?

<ul>
    <li>AAAAAAAAAAAAAA</li>
</ul>

In [None]:
# Analisis de missing values
incendios.isna().sum()

In [None]:
# Revisión de duplicados
print(incendios.duplicated().sum())

In [None]:
# Descriptores generales
# Cantidad, media, desviación estandar, minimo, maximo, quartiles.
incendios.describe()

In [None]:
# Revisión de tipos de datos
incendios.info()

In [None]:
# Revisión de valores únicos por columna
cols = incendios.columns.tolist()
for col in cols:
    print(f"{col}: {incendios[col].unique()}")

### Qué preguntantas nos podemos hacer??

<ul>
    <li>¿En qué mes hay más incencios?</li>
    <li>¿Cuál es la distribución con los incendios en fecha?</li>
    <li>¿Cuál es la distribución con los incendios por año?</li>
    <li>Area por mes</li>
    <li>Area por año</li>
    <li>CSV datos metereológicos</li>
</ul>

In [None]:
# Años con más incendios
area_anual = incendios.groupby("Year")["AreaHa"].sum()

area_anual_df = area_anual.reset_index()  # convierte Series a DataFrame

sns.barplot(data=area_anual_df, x="Year", y="AreaHa")

plt.title("Área quemada por año")
plt.xlabel("Año")
plt.ylabel("Área quemada (hectáreas)")
plt.xticks(rotation=90)  # gira las etiquetas del eje x si hay muchos años
plt.tight_layout()
plt.show()


In [None]:
# Usamos los datos agrupados que ya tienes
area_anual = incendios.groupby("Year")["AreaHa"].sum()

# Ordenamos de mayor a menor para que se vea más claro
area_anual = area_anual.sort_values(ascending=False)

# Si hay demasiados años, mejor mostrar solo los más relevantes
top_n = 10
area_top = area_anual.head(top_n)
otros = area_anual.iloc[top_n:].sum()
area_top["Otros"] = otros  # agrupamos los años menores como "Otros"

# Gráfico de torta
plt.figure(figsize=(8, 8))
plt.pie(area_top, labels=area_top.index, autopct="%1.1f%%", startangle=90)

plt.title("Proporción del área quemada por año")
plt.tight_layout()
plt.show()

In [None]:
# Ordenamos de mayor a menor (opcional)
area_anual = area_anual.sort_values(ascending=False)

# Gráfico de torta
plt.figure(figsize=(10, 10))
plt.pie(
    area_anual,
    labels=area_anual.index,
    autopct="%1.1f%%",
    startangle=90,
    textprops={'fontsize': 6}  # Tamaño de letra más pequeño
)

plt.title("Proporción del área quemada por año", fontsize=12)
plt.tight_layout()
plt.show()

In [None]:
# Asegúrate de que las fechas estén bien
incendios["StartDate"] = pd.to_datetime(incendios["StartDate"])
incendios["mes_incendio"] = incendios["StartDate"].dt.strftime("%m")
incendios["anio"] = incendios["StartDate"].dt.year

# Contar cantidad de incendios por mes y año
conteo_por_mes_anio = incendios.groupby(["mes_incendio", "anio"]).size().reset_index(name="cantidad")

# Calcular el promedio por mes
promedio_incendios_mes = conteo_por_mes_anio.groupby("mes_incendio")["cantidad"].mean().reset_index()

# Ordenar los meses
orden_meses = ['07', '08', '09', '10', '11', '12', '01', '02', '03', '04', '05', '06']

# Gráfico
sns.barplot(data=promedio_incendios_mes, x="mes_incendio", y="cantidad", order=orden_meses)

plt.title("Promedio de incendios por mes (normalizado por año)")
plt.xlabel("Mes")
plt.ylabel("Promedio de incendios")
plt.tight_layout()
plt.show()


In [None]:
orden_meses = ['07', '08', '09', '10', '11', '12', '01', '02', '03', '04', '05', '06']

sns.countplot(data=incendios, x="mes_incendio", order=orden_meses)


plt.title("Cantidad de incendios por mes")
plt.xlabel("Mes")
plt.ylabel("Cantidad de incendios")
plt.show()

In [None]:
# Asegúrate que 'StartDate' está en datetime (ya lo tienes)
incendios["StartDate"] = pd.to_datetime(incendios["StartDate"])

# Extraer mes y año
incendios["mes_incendio"] = incendios["StartDate"].dt.strftime("%m")
incendios["anio"] = incendios["StartDate"].dt.year

# Crear tabla con área total por mes y año
area_por_mes_anio = incendios.groupby(["mes_incendio", "anio"])["AreaHa"].sum().reset_index()

# Ahora agrupamos solo por mes para sacar el promedio
area_mes_promedio = area_por_mes_anio.groupby("mes_incendio")["AreaHa"].mean().reset_index()

# Orden de meses
orden_meses = ['07', '08', '09', '10', '11', '12', '01', '02', '03', '04', '05', '06']

# Gráfico
sns.barplot(data=area_mes_promedio, x="mes_incendio", y="AreaHa", order=orden_meses)

plt.title("Promedio de área quemada por mes (normalizado por año)")
plt.xlabel("Mes")
plt.ylabel("Área quemada promedio (ha)")
plt.tight_layout()
plt.show()
