## Analisis de incendios en California, Fuente California Department of Forestry and Fire Protection 
Ramo Minería de datos

In [1]:
# Importación de librerías
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import numpy as np

In [2]:
# Importación de datos
incendios = pd.read_csv("https://raw.githubusercontent.com/Kiki1108/incendios/refs/heads/main/data/california.csv")
incendios.head()

Unnamed: 0,OBJECTID,YEAR_,STATE,AGENCY,UNIT_ID,FIRE_NAME,INC_NUM,ALARM_DATE,CONT_DATE,CAUSE,...,OBJECTIVE,GIS_ACRES,COMMENTS,COMPLEX_NAME,IRWINID,FIRE_NUM,COMPLEX_ID,DECADES,Shape__Area,Shape__Length
0,1,2023.0,CA,CDF,SKU,WHITWORTH,4808,2023/06/17 00:00:00+00,2023/06/17 00:00:00+00,5.0,...,1.0,5.729125,,,{7985848C-0AC2-4BA4-8F0E-29F778652E61},,,2020.0,41407.839844,1247.166034
1,2,2023.0,CA,LRA,BTU,KAISER,10225,2023/06/02 00:00:00+00,2023/06/02 00:00:00+00,5.0,...,1.0,13.60238,,,{43EBCC88-B3AC-48EB-8EF5-417FE0939CCF},,,2020.0,93455.878906,1285.51455
2,3,2023.0,CA,CDF,AEU,JACKSON,17640,2023/07/01 00:00:00+00,2023/07/02 00:00:00+00,2.0,...,1.0,27.81446,,,{B64E1355-BF1D-441A-95D0-BC1FBB93483B},,,2020.0,183028.5,2697.587429
3,4,2023.0,CA,CDF,AEU,CARBON,18821,2023/07/11 00:00:00+00,2023/07/11 00:00:00+00,9.0,...,1.0,58.76023,,,{CB41DB0A-E4B1-489D-A4EA-738F2CD6DB3B},,,2020.0,388221.953125,2548.738779
4,5,2023.0,CA,CDF,AEU,LIBERTY,18876,2023/07/11 00:00:00+00,2023/07/12 00:00:00+00,14.0,...,1.0,70.979,,,{F83F70A4-07A7-40B8-BD51-10CCC1C30D63},,,2020.0,466456.007812,5106.936526


### ¿Qué significa cada una de las columnas?

<ul>
    <li><strong>OBJECTID</strong> → Identificador único asignado automáticamente a cada registro dentro de una base de datos geoespacial.</li>
    <li><strong>YEAR_</strong> → Año en que ocurrió el incendio.</li>
    <li><strong>STATE</strong> → Estado de EE.UU. donde ocurrió el incendio (en este caso, generalmente es “CA”).</li>
    <li><strong>AGENCY</strong> → Agencia responsable de responder o registrar el incendio.</li>
    <li><strong>UNIT_ID</strong> → Identificador de la unidad local o regional de la agencia que respondió al incendio.</li>
    <li><strong>FIRE_NAME</strong> → Nombre oficial del incendio.</li>
    <li><strong>INC_NUM</strong> → Número de incidente asignado por la agencia correspondiente.</li>
    <li><strong>ALARM_DATE</strong> → Fecha en la que se detectó o reportó el incendio por primera vez.</li>
    <li><strong>CONT_DATE</strong> → Fecha en la que se declaró el incendio como contenido (es decir, bajo control).</li>
    <li><strong>CAUSE</strong> → Causa del incendio (estan descritas por un numero que significan algun suceso).</li>
    <li><strong>OBJECTIVE</strong> → Objetivo de manejo del incendio.</li>
    <li><strong>GIS_ACRES</strong> → Superficie quemada del incendio en acres, calculada mediante información geoespacial.</li>
    <li><strong>COMMENTS</strong> → Comentarios adicionales sobre el incidente.</li>
    <li><strong>COMPLEX_NAME</strong> → Nombre del complejo si el incendio fue parte de un grupo de incendios manejados como uno solo.</li>
    <li><strong>IRWINID</strong> → Identificador único del incidente dentro del sistema nacional IRWIN (Integrated Reporting of Wildland-Fire Information).</li>
    <li><strong>FIRE_NUM</strong> → Número secuencial asignado al incendio dentro de su jurisdicción o agencia en ese año.</li>
    <li><strong>COMPLEX_ID</strong> → Identificador del complejo al que pertenece el incendio si aplica.</li>
    <li><strong>DECADES</strong> → Década en la que ocurrió el incendio (por ejemplo, 1990s, 2000s).</li>
    <li><strong>Shape__Area</strong> → Área geoespacial del polígono que representa el incendio, en unidades del sistema geográfico usado (generalmente metros cuadrados).</li>
    <li><strong>Shape__Length</strong> → Longitud del perímetro del incendio en el sistema geoespacial utilizado.</li>
</ul>



## Analisis del estado / calidad de los datos

In [3]:
# Analisis de missing values
incendios.isna().sum()

OBJECTID             0
YEAR_               77
STATE                0
AGENCY              53
UNIT_ID             66
FIRE_NAME          172
INC_NUM            971
ALARM_DATE        5396
CONT_DATE        12629
CAUSE               24
C_METHOD         12121
OBJECTIVE          247
GIS_ACRES            0
COMMENTS         18278
COMPLEX_NAME     21659
IRWINID          19565
FIRE_NUM          5060
COMPLEX_ID       21901
DECADES             77
Shape__Area          0
Shape__Length        0
dtype: int64

In [4]:
# Revisión de duplicados
print(incendios.duplicated().sum())

0


In [5]:
# Descriptores generales
# Cantidad, media, desviación estandar, minimo, maximo, quartiles.
incendios.describe()

Unnamed: 0,OBJECTID,YEAR_,CAUSE,C_METHOD,OBJECTIVE,GIS_ACRES,DECADES,Shape__Area,Shape__Length
count,22261.0,22184.0,22237.0,10140.0,22014.0,22261.0,22184.0,22261.0,22261.0
mean,11131.0,1977.728814,9.26276,4.382544,1.01281,1937.376,1973.185179,12554120.0,11559.16
std,6426.341507,33.60415,5.162862,3.078567,0.112457,14701.74,33.828122,98982800.0,35831.27
min,1.0,1878.0,1.0,1.0,1.0,0.001356887,1800.0,7.933594,11.00426
25%,5566.0,1951.0,4.0,1.0,1.0,27.13978,1950.0,173900.5,2043.461
50%,11131.0,1984.0,10.0,5.0,1.0,148.6008,1980.0,944177.7,4753.036
75%,16696.0,2008.0,14.0,8.0,1.0,621.0093,2000.0,3988346.0,10323.76
max,22261.0,2023.0,19.0,8.0,2.0,1032700.0,2020.0,7116308000.0,2010262.0


In [6]:
# Revisión de tipos de datos
incendios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22261 entries, 0 to 22260
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   OBJECTID       22261 non-null  int64  
 1   YEAR_          22184 non-null  float64
 2   STATE          22261 non-null  object 
 3   AGENCY         22208 non-null  object 
 4   UNIT_ID        22195 non-null  object 
 5   FIRE_NAME      22089 non-null  object 
 6   INC_NUM        21290 non-null  object 
 7   ALARM_DATE     16865 non-null  object 
 8   CONT_DATE      9632 non-null   object 
 9   CAUSE          22237 non-null  float64
 10  C_METHOD       10140 non-null  float64
 11  OBJECTIVE      22014 non-null  float64
 12  GIS_ACRES      22261 non-null  float64
 13  COMMENTS       3983 non-null   object 
 14  COMPLEX_NAME   602 non-null    object 
 15  IRWINID        2696 non-null   object 
 16  FIRE_NUM       17201 non-null  object 
 17  COMPLEX_ID     360 non-null    object 
 18  DECADE

In [7]:
# Revisión de valores únicos por columna
cols = incendios.columns.tolist()
for col in cols:
    print(f"{col}: {incendios[col].unique()}")

OBJECTID: [    1     2     3 ... 22259 22260 22261]
YEAR_: [2023. 2022. 2021. 2020. 2019. 2018. 2017. 2016. 2015. 2014. 2013. 2012.
 2011. 2010. 2009. 2008. 2007. 2006. 2005. 2004. 2003. 2002. 2001. 2000.
 1999. 1998. 1997. 1996. 1995. 1994. 1993. 1992. 1991. 1990. 1989. 1988.
 1987. 1986. 1985. 1984. 1983. 1982. 1981. 1980. 1979. 1978. 1977. 1976.
 1975. 1974. 1973. 1972. 1971. 1970. 1969. 1968. 1967. 1966. 1965. 1964.
 1963. 1962. 1961. 1960. 1959. 1958. 1957. 1956. 1955. 1954. 1953. 1952.
 1951. 1950. 1949. 1948. 1947. 1946. 1945. 1944. 1943. 1942. 1941. 1940.
 1939. 1938. 1937. 1936. 1935. 1934. 1933. 1932. 1931. 1930. 1929. 1928.
 1927. 1926. 1925. 1924. 1923. 1922. 1921. 1920. 1919. 1918. 1917. 1916.
 1915. 1914. 1913. 1912. 1911. 1910. 1909. 1908. 1907. 1906. 1905. 1903.
 1902. 1900. 1898. 1896. 1895. 1878.   nan]
STATE: ['CA' 'OR' 'NV' 'AZ']
AGENCY: ['CDF' 'LRA' 'CCO' 'FWS' 'USF' 'NPS' 'BLM' 'BIA' 'DOD' nan 'OTH']
UNIT_ID: ['SKU' 'BTU' 'AEU' 'BEU' 'SHU' 'RRU' 'MEU' 'KRN' 'SBC' 