# Proceso de Extracción, Transformación y Carga de datos (ETL)

En este notebook, se cargará la información y se revisarán los tipos de cada columna para determinar cuáles serán útiles. En el notebook también se verificará la presencia de registros duplicados y si algún registro en una columna tiene valores vacíos o nulos. Además de estas transformaciones, se importarán las bibliotecas que se utilizarán a lo largo del notebook para manipular los datos, incluido nuestro módulo personalizado llamado 'Funciones'. Finalmente, los datos procesados se exportarán y estarán listos para el análisis.

# Importamos las librerías necesarias

In [1]:
import pandas as pd
import Funciones as F

# Lectura de archivos

Se realiza la lectura de los archivos extraidos de la [pagina de datos del gobierno argentino](https://datos.gob.ar/dataset/ambiente-incendios-forestales)

In [2]:
primero = pd.read_csv('Datasets/incendios_2023.csv',sep=';')
segundo = pd.read_csv('Datasets/incendios_prov_2023.csv',sep=';')
tercero = pd.read_csv('Datasets/focos_calor_año.csv',sep=';')
cuarto = pd.read_csv('Datasets/focos_calor_prov_2015_2023.csv',sep=';')
quinto = pd.read_csv('Datasets/incendio_region_2023.csv',sep=';')

---------------------

# Transformación de datos

### Incendios por mes y año

In [3]:
primero

Unnamed: 0,mes,año_2020,año_2021,año_2022,año_2023
0,Enero,125,78,176,253
1,Febrero,82,31,133,122
2,Marzo,173,47,33,95
3,Abril,74,23,54,22
4,Mayo,92,17,51,19
5,Junio,100,29,133,36
6,Julio,242,376,409,118
7,Agosto,286,785,463,464
8,Septiembre,191,423,496,360
9,Octubre,143,328,288,448


Utilizaremos una función de nuestro modelo de 'Funciones' para revisar los tipos de datos de cada columna y detectar los valores nulos.

In [4]:
F.analizar_datos(primero)

Unnamed: 0,Nombre,Tipos de Datos Únicos,% de Valores No Nulos,% de Valores Nulos,Cantidad de Valores Nulos
0,mes,[<class 'str'>],100.0,0.0,0
1,año_2020,[<class 'int'>],100.0,0.0,0
2,año_2021,[<class 'int'>],100.0,0.0,0
3,año_2022,[<class 'int'>],100.0,0.0,0
4,año_2023,[<class 'int'>],100.0,0.0,0


### Incendios por jurisdicción y año

In [5]:
segundo

Unnamed: 0,jurisdicción,año_2020,año_2021,año_2022,año_2023
0,Buenos Aires,63.0,39.0,60.0,37
1,CABA,,,,1
2,Catamarca,164.0,242.0,188.0,288
3,Chaco,203.0,122.0,110.0,6
4,Chubut,46.0,40.0,39.0,87
5,Córdoba,96.0,71.0,144.0,140
6,Corrientes,58.0,14.0,106.0,89
7,Entre Ríos,30.0,58.0,143.0,62
8,Formosa,9.0,34.0,18.0,17
9,Jujuy,221.0,342.0,378.0,319


Utilizaremos una función de nuestro modelo de 'Funciones' para revisar los tipos de datos de cada columna y detectar los valores nulos.

In [6]:
F.analizar_datos(segundo)

Unnamed: 0,Nombre,Tipos de Datos Únicos,% de Valores No Nulos,% de Valores Nulos,Cantidad de Valores Nulos
0,jurisdicción,[<class 'str'>],100.0,0.0,0
1,año_2020,[<class 'float'>],95.83,4.17,1
2,año_2021,[<class 'float'>],95.83,4.17,1
3,año_2022,[<class 'float'>],95.83,4.17,1
4,año_2023,[<class 'int'>],100.0,0.0,0


Cambiamos los tipos de datos para poder manipular la información de manera correcta.

In [7]:
segundo = segundo.fillna(value=0)
F.cambiar_tipo(segundo, 'año_2020', 'int')
F.cambiar_tipo(segundo, 'año_2021', 'int')
F.cambiar_tipo(segundo, 'año_2022', 'int')

El tipo de dato de la columna 'año_2020' se cambió correctamente a int.

El tipo de dato de la columna 'año_2021' se cambió correctamente a int.

El tipo de dato de la columna 'año_2022' se cambió correctamente a int.



### Focos de calor por año

In [8]:
tercero

Unnamed: 0,año,cantidad_focos_de_calor
0,2015,140984
1,2016,166434
2,2017,184806
3,2018,170674
4,2019,145745
5,2020,405904
6,2021,164096
7,2022,287685


Utilizaremos una función de nuestro modelo de 'Funciones' para revisar los tipos de datos de cada columna y detectar los valores nulos.

In [9]:
F.analizar_datos(tercero)

Unnamed: 0,Nombre,Tipos de Datos Únicos,% de Valores No Nulos,% de Valores Nulos,Cantidad de Valores Nulos
0,año,[<class 'int'>],100.0,0.0,0
1,cantidad_focos_de_calor,[<class 'int'>],100.0,0.0,0


### Focos de calor de cada jurisdicción por mes y año

In [10]:
cuarto

Unnamed: 0,jurisdicción,año,total,enero,febrero,marzo,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre
0,Buenos Aires,2015,8267,787,543,913,836,455,758,824,463,1062,441,513.0,672.0
1,Catamarca,2015,722,6,4,3,5,18,24,46,83,173,274,44.0,42.0
2,Chaco,2015,10698,140,169,574,178,105,402,1211,1833,3996,1519,261.0,310.0
3,Chubut,2015,6293,169,3963,1870,24,11,13,9,17,10,64,127.0,16.0
4,CABA,2015,3,0,0,0,0,0,1,0,0,1,0,1.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
211,Santa Cruz,2023,173,20,28,27,21,43,3,9,4,5,13,,
212,Santa Fe,2023,15553,1444,1173,876,768,850,813,1409,4465,1922,1833,,
213,Santiago del Estero,2023,9025,438,168,273,107,213,269,1137,2756,1971,1693,,
214,T. del Fuego,2023,51,7,5,3,7,13,5,4,4,2,1,,


Utilizaremos una función de nuestro modelo de 'Funciones' para revisar los tipos de datos de cada columna y detectar los valores nulos.

In [11]:
F.analizar_datos(cuarto)

Unnamed: 0,Nombre,Tipos de Datos Únicos,% de Valores No Nulos,% de Valores Nulos,Cantidad de Valores Nulos
0,jurisdicción,[<class 'str'>],100.0,0.0,0
1,año,[<class 'int'>],100.0,0.0,0
2,total,[<class 'str'>],100.0,0.0,0
3,enero,[<class 'int'>],100.0,0.0,0
4,febrero,[<class 'int'>],100.0,0.0,0
5,marzo,[<class 'int'>],100.0,0.0,0
6,abril,[<class 'int'>],100.0,0.0,0
7,mayo,[<class 'int'>],100.0,0.0,0
8,junio,[<class 'int'>],100.0,0.0,0
9,julio,[<class 'int'>],100.0,0.0,0


Cambiamos los tipos de datos para poder manipular la información de manera correcta.

In [12]:
cuarto = cuarto.fillna(value=0)
F.cambiar_tipo(cuarto,'total','int')
F.cambiar_tipo(cuarto,'noviembre','int')
F.cambiar_tipo(cuarto,'diciembre','int')

Error: No se pudo cambiar el tipo de dato de la columna 'total'. Verifica que los datos sean compatibles con el tipo int.

El tipo de dato de la columna 'noviembre' se cambió correctamente a int.

El tipo de dato de la columna 'diciembre' se cambió correctamente a int.



Verificamos cuál es el problema al momento de cambiar el tipo de dato de la columna 'total'.

In [13]:
cuarto['total'] = cuarto['total'].apply(pd.to_numeric,errors='coerce')
nulos = cuarto[cuarto['total'].isna()]
print(f'El registro que genero el incoveniente es:\n\n {nulos}\n')
cuarto = cuarto.fillna(value=0)
F.cambiar_tipo(cuarto,'total','int')

El registro que genero el incoveniente es:

    jurisdicción   año  total  enero  febrero  marzo  abril  mayo  junio  \
33        Jujuy  2016    NaN      9       10     20     11    24     67   

    julio  agosto  septiembre  octubre  noviembre  diciembre  
33     96     213         227      242        127         77  

El tipo de dato de la columna 'total' se cambió correctamente a int.



In [14]:
cuarto

Unnamed: 0,jurisdicción,año,total,enero,febrero,marzo,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre
0,Buenos Aires,2015,8267,787,543,913,836,455,758,824,463,1062,441,513,672
1,Catamarca,2015,722,6,4,3,5,18,24,46,83,173,274,44,42
2,Chaco,2015,10698,140,169,574,178,105,402,1211,1833,3996,1519,261,310
3,Chubut,2015,6293,169,3963,1870,24,11,13,9,17,10,64,127,16
4,CABA,2015,3,0,0,0,0,0,1,0,0,1,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
211,Santa Cruz,2023,173,20,28,27,21,43,3,9,4,5,13,0,0
212,Santa Fe,2023,15553,1444,1173,876,768,850,813,1409,4465,1922,1833,0,0
213,Santiago del Estero,2023,9025,438,168,273,107,213,269,1137,2756,1971,1693,0,0
214,T. del Fuego,2023,51,7,5,3,7,13,5,4,4,2,1,0,0


### Incendios por región y año

In [15]:
quinto

Unnamed: 0,región,año_2020,año_2021,año_2022,año_2023
0,TOTAL,1737,2338,2650,2212
1,NOA,603,1237,1164,1129
2,Norte,329,211,217,83
3,NEA,159,116,296,163
4,Centro,252,435,579,237
5,Pampeana,200,140,279,184
6,Patagonia,194,199,115,416


Utilizaremos una función de nuestro modelo de 'Funciones' para revisar los tipos de datos de cada columna y detectar los valores nulos.

In [16]:
F.analizar_datos(quinto)

Unnamed: 0,Nombre,Tipos de Datos Únicos,% de Valores No Nulos,% de Valores Nulos,Cantidad de Valores Nulos
0,región,[<class 'str'>],100.0,0.0,0
1,año_2020,[<class 'int'>],100.0,0.0,0
2,año_2021,[<class 'int'>],100.0,0.0,0
3,año_2022,[<class 'int'>],100.0,0.0,0
4,año_2023,[<class 'int'>],100.0,0.0,0


## Exportamos archivos

Se realizaron modificaciones en dos dataframes, por lo que serán exportados nuevamente para poder trabajar con consistencia y calidad en la parte analítica.

In [17]:
segundo.to_csv('Datasets/incendios_prov_2023_correcto.csv',index=False)
cuarto.to_csv('Datasets/focos_calor_prov_2015_2023_correcto.csv',index=False)


- Conclusiones:

    - En general, los datos estaban casi completos; aquellos que eran nulos se referían a CABA y indicaban que el valor es de 0 incendios, por lo que se imputaron con el valor 0.

    - Se cambiaron los tipos de datos y algunas columnas que marcaban flotante eran debido a que tenían valores nulos, los cuales se imputaron con el valor 0.

Finalizado este proceso de ETL, continuaremos con el Analisis Exploratorio de los datos para verlo haga click [aquí](EDA.ipynb)