# Limpieza de datos

**Objetivo del proyecto:** Analizar el nivel de impacto de las descargas de *Aguas Residuales* de las *Centrales Termoeléctricas* en los cuerpos receptores, siendo éstos, ríos, lagos y/o mares.

## Contexto general de los Datos

Nuestra fuente de datos proviene de la página web https://snifa.sma.gob.cl/DatosAbiertos, más específicamente del apartado RILES (Residuos Industriales Líquidos), el cual corresponde a una carpeta en Google Drive que contiene información entre los años 2017 al 2022, así como también un documento descriptivo en PDF que detalla los datos. 

## Importar librerías

In [1]:
import pandas as pd
import numpy as np

## Cargar y limpiar data

In [2]:
df = pd.DataFrame()
anio_inicial=2017
anio_final=2022
for anio in range(anio_inicial,anio_final+1):
    for mes in range(1,13):
        if(mes<10):
            mes="0"+str(mes)
        path = f'../data/raw/{anio}/EMISIONES/Emisiones{anio}-{mes}_Act2022-09-01.csv'
        frame = pd.read_csv(path,sep=',',low_memory=False)
        frame['ANIO'] = int(anio)
        frame['MES'] = int(mes)
        df = pd.concat([df, frame], axis=0, ignore_index=True)
        if(anio==2022) and (mes=='07'):
            break

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2626961 entries, 0 to 2626960
Data columns (total 32 columns):
 #   Column                   Dtype  
---  ------                   -----  
 0   PeriodoInforme           object 
 1   RUT                      object 
 2   RazonSocial              object 
 3   Planta                   object 
 4   PuntoDeDescarga          object 
 5   CuerpoReceptor           object 
 6   Norma                    object 
 7   Muestra                  int64  
 8   MuestraParametro_Codigo  int64  
 9   Parametro                object 
 10  Unidad                   object 
 11  Valor reportado          float64
 12  Caudal Muestra (m3/dia)  float64
 13  RPM                      float64
 14  Tipo de control          object 
 15  Laboratorio              object 
 16  UnidadFiscalizable       object 
 17  RegionId                 float64
 18  RegionNombre             object 
 19  ComunaId                 float64
 20  ComunaNombre             object 
 21  NombreCa

In [4]:
df_termoelectricas = df[df["NombreSubCategoria"] == "Central termoeléctrica"]

In [5]:
df_termoelectricas.shape

(234402, 32)

La emisión de distintos niveles de Metales Pesados y otros parámetros relevantes (Ejemplo: Hierro, Cobre, Mercurio, Molibdeno, Temperatura etc.) que se descargan a los cuerpos receptores

In [6]:
df_termoelectricas_filtrado = df_termoelectricas[(df_termoelectricas["Parametro"]=='Hierro Disuelto') |
        (df_termoelectricas["Parametro"]=='Cobre') |
        (df_termoelectricas["Parametro"]=='Mercurio') |
        (df_termoelectricas["Parametro"]=='Molibdeno') |
        (df_termoelectricas["Parametro"]=='Temperatura')]
df_termoelectricas_filtrado.reset_index()

Unnamed: 0,index,PeriodoInforme,RUT,RazonSocial,Planta,PuntoDeDescarga,CuerpoReceptor,Norma,Muestra,MuestraParametro_Codigo,...,NombreSubCategoria,Latitud,Longitud,CodigoRETC,Tabla,Direccion,NumeroRCA,FechaRCA,ANIO,MES
0,2146,2017/01/01 00:00:00,76004976-K,EMPRESA ELECTRICA ANGAMOS S.A.,CENTRAL TERMOELÉCTRICA ANGAMOS,T.ANGAMOS,BAHIA MEJILLONES,DS 90,30386,707147,...,Central termoeléctrica,-23.025082,-70.320068,5452292,Tabla 4,"SÉPTIMA INDUSTRIAL 1100, Mejillones",290,2013-08-01,2017,1
1,2153,2017/01/01 00:00:00,76004976-K,EMPRESA ELECTRICA ANGAMOS S.A.,CENTRAL TERMOELÉCTRICA ANGAMOS,T.ANGAMOS,BAHIA MEJILLONES,DS 90,707172,707172,...,Central termoeléctrica,-23.025082,-70.320068,5452292,Tabla 4,"SÉPTIMA INDUSTRIAL 1100, Mejillones",290,2013-08-01,2017,1
2,2157,2017/01/01 00:00:00,76004976-K,EMPRESA ELECTRICA ANGAMOS S.A.,CENTRAL TERMOELÉCTRICA ANGAMOS,T.ANGAMOS,BAHIA MEJILLONES,DS 90,30395,707359,...,Central termoeléctrica,-23.025082,-70.320068,5452292,Tabla 4,"SÉPTIMA INDUSTRIAL 1100, Mejillones",290,2013-08-01,2017,1
3,2164,2017/01/01 00:00:00,76004976-K,EMPRESA ELECTRICA ANGAMOS S.A.,CENTRAL TERMOELÉCTRICA ANGAMOS,T.ANGAMOS,BAHIA MEJILLONES,DS 90,707433,707433,...,Central termoeléctrica,-23.025082,-70.320068,5452292,Tabla 4,"SÉPTIMA INDUSTRIAL 1100, Mejillones",290,2013-08-01,2017,1
4,2168,2017/01/01 00:00:00,76004976-K,EMPRESA ELECTRICA ANGAMOS S.A.,CENTRAL TERMOELÉCTRICA ANGAMOS,T.ANGAMOS,BAHIA MEJILLONES,DS 90,30399,707561,...,Central termoeléctrica,-23.025082,-70.320068,5452292,Tabla 4,"SÉPTIMA INDUSTRIAL 1100, Mejillones",290,2013-08-01,2017,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
74983,2618999,2022/07/01 00:00:00,96717620-6,SOCIEDAD ELECTRICA SANTIAGO SPA,SANTA LIDIA,PUNTO 1 CANAL COLONIA SUR,CANAL COLONIA SUR,DS 90,132079,4328177,...,Central termoeléctrica,-37.078033,-72.345822,3188001,Tabla 1,"CAMINO A CHARRÚA KM 7, Cabrero",,,2022,7
74984,2620263,2022/07/01 00:00:00,96814370-0,EMPRESA ELECTRICA VENTANAS S.A,CENTRAL TERMOELÉCTRICA NUEVA VENTANAS,VENTANAS.3,BAHÍA QUINTERO,DS 90,4383883,4383883,...,Central termoeléctrica,-32.749400,-71.483300,309729,Tabla 4,"F-30-E S/N, Puchuncaví",1124,2013-08-16,2022,7
74985,2620274,2022/07/01 00:00:00,96814370-0,EMPRESA ELECTRICA VENTANAS S.A,CENTRAL TERMOELÉCTRICA NUEVA VENTANAS,VENTANAS.3,BAHÍA QUINTERO,DS 90,4383909,4383909,...,Central termoeléctrica,-32.749400,-71.483300,309729,Tabla 4,"F-30-E S/N, Puchuncaví",1124,2013-08-16,2022,7
74986,2620283,2022/07/01 00:00:00,96814370-0,EMPRESA ELECTRICA VENTANAS S.A,CENTRAL TERMOELÉCTRICA NUEVA VENTANAS,VENTANAS.3,BAHÍA QUINTERO,DS 90,4383919,4383919,...,Central termoeléctrica,-32.749400,-71.483300,309729,Tabla 4,"F-30-E S/N, Puchuncaví",1124,2013-08-16,2022,7


In [7]:
df_termoelectricas_filtrado.shape

(74988, 32)

In [8]:
df_termoelectricas_filtrado["Parametro"].value_counts()

Temperatura        63333
Hierro Disuelto     4782
Cobre               3162
Molibdeno           2004
Mercurio            1707
Name: Parametro, dtype: int64

Remover duplicados

In [9]:
df_termoelectricas_filtrado = df_termoelectricas_filtrado.drop_duplicates()
df_termoelectricas_filtrado.reset_index()

Unnamed: 0,index,PeriodoInforme,RUT,RazonSocial,Planta,PuntoDeDescarga,CuerpoReceptor,Norma,Muestra,MuestraParametro_Codigo,...,NombreSubCategoria,Latitud,Longitud,CodigoRETC,Tabla,Direccion,NumeroRCA,FechaRCA,ANIO,MES
0,2146,2017/01/01 00:00:00,76004976-K,EMPRESA ELECTRICA ANGAMOS S.A.,CENTRAL TERMOELÉCTRICA ANGAMOS,T.ANGAMOS,BAHIA MEJILLONES,DS 90,30386,707147,...,Central termoeléctrica,-23.025082,-70.320068,5452292,Tabla 4,"SÉPTIMA INDUSTRIAL 1100, Mejillones",290,2013-08-01,2017,1
1,2153,2017/01/01 00:00:00,76004976-K,EMPRESA ELECTRICA ANGAMOS S.A.,CENTRAL TERMOELÉCTRICA ANGAMOS,T.ANGAMOS,BAHIA MEJILLONES,DS 90,707172,707172,...,Central termoeléctrica,-23.025082,-70.320068,5452292,Tabla 4,"SÉPTIMA INDUSTRIAL 1100, Mejillones",290,2013-08-01,2017,1
2,2157,2017/01/01 00:00:00,76004976-K,EMPRESA ELECTRICA ANGAMOS S.A.,CENTRAL TERMOELÉCTRICA ANGAMOS,T.ANGAMOS,BAHIA MEJILLONES,DS 90,30395,707359,...,Central termoeléctrica,-23.025082,-70.320068,5452292,Tabla 4,"SÉPTIMA INDUSTRIAL 1100, Mejillones",290,2013-08-01,2017,1
3,2164,2017/01/01 00:00:00,76004976-K,EMPRESA ELECTRICA ANGAMOS S.A.,CENTRAL TERMOELÉCTRICA ANGAMOS,T.ANGAMOS,BAHIA MEJILLONES,DS 90,707433,707433,...,Central termoeléctrica,-23.025082,-70.320068,5452292,Tabla 4,"SÉPTIMA INDUSTRIAL 1100, Mejillones",290,2013-08-01,2017,1
4,2168,2017/01/01 00:00:00,76004976-K,EMPRESA ELECTRICA ANGAMOS S.A.,CENTRAL TERMOELÉCTRICA ANGAMOS,T.ANGAMOS,BAHIA MEJILLONES,DS 90,30399,707561,...,Central termoeléctrica,-23.025082,-70.320068,5452292,Tabla 4,"SÉPTIMA INDUSTRIAL 1100, Mejillones",290,2013-08-01,2017,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
52170,2618999,2022/07/01 00:00:00,96717620-6,SOCIEDAD ELECTRICA SANTIAGO SPA,SANTA LIDIA,PUNTO 1 CANAL COLONIA SUR,CANAL COLONIA SUR,DS 90,132079,4328177,...,Central termoeléctrica,-37.078033,-72.345822,3188001,Tabla 1,"CAMINO A CHARRÚA KM 7, Cabrero",,,2022,7
52171,2620263,2022/07/01 00:00:00,96814370-0,EMPRESA ELECTRICA VENTANAS S.A,CENTRAL TERMOELÉCTRICA NUEVA VENTANAS,VENTANAS.3,BAHÍA QUINTERO,DS 90,4383883,4383883,...,Central termoeléctrica,-32.749400,-71.483300,309729,Tabla 4,"F-30-E S/N, Puchuncaví",1124,2013-08-16,2022,7
52172,2620274,2022/07/01 00:00:00,96814370-0,EMPRESA ELECTRICA VENTANAS S.A,CENTRAL TERMOELÉCTRICA NUEVA VENTANAS,VENTANAS.3,BAHÍA QUINTERO,DS 90,4383909,4383909,...,Central termoeléctrica,-32.749400,-71.483300,309729,Tabla 4,"F-30-E S/N, Puchuncaví",1124,2013-08-16,2022,7
52173,2620283,2022/07/01 00:00:00,96814370-0,EMPRESA ELECTRICA VENTANAS S.A,CENTRAL TERMOELÉCTRICA NUEVA VENTANAS,VENTANAS.3,BAHÍA QUINTERO,DS 90,4383919,4383919,...,Central termoeléctrica,-32.749400,-71.483300,309729,Tabla 4,"F-30-E S/N, Puchuncaví",1124,2013-08-16,2022,7


In [10]:
df_termoelectricas_filtrado.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 52175 entries, 2146 to 2620293
Data columns (total 32 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   PeriodoInforme           52175 non-null  object 
 1   RUT                      52175 non-null  object 
 2   RazonSocial              52175 non-null  object 
 3   Planta                   52175 non-null  object 
 4   PuntoDeDescarga          52175 non-null  object 
 5   CuerpoReceptor           52175 non-null  object 
 6   Norma                    52175 non-null  object 
 7   Muestra                  52175 non-null  int64  
 8   MuestraParametro_Codigo  52175 non-null  int64  
 9   Parametro                52175 non-null  object 
 10  Unidad                   52175 non-null  object 
 11  Valor reportado          52175 non-null  float64
 12  Caudal Muestra (m3/dia)  52175 non-null  float64
 13  RPM                      52175 non-null  float64
 14  Tipo de control  

In [11]:
df_termoelectricas_filtrado["Planta"].value_counts()

CENTRAL TERMOELECTRICA BOCAMINA U1                8433
CENTRAL TERMOELÉCTRICA NUEVA TOCOPILLA            8130
GUACOLDA                                          6433
CENTRAL TERMICA ANDINA                            6395
CENTRAL TERMOELÉCTRICA COCHRANE                   3643
CENTRAL TERMOELECTRICA CAMPICHE                   3172
COMPLEJO TERMOELÉCTRICO NEHUENCO                  2805
CENTRAL TÉRMICA MEJILLONES                        2321
CENTRAL TERMOELÉCTRICA VENTANAS UNIDADES 1 Y 2    2069
SAN ISIDRO 2                                      1374
CENTRAL TERMICA TOCOPILLA                         1051
CENTRAL COLMITO                                    902
CENTRAL TERMOELÉCTRICA LOS PINOS                   736
SANTA LIDIA                                        722
CENTRAL SAN ISIDRO I                               672
RENCA NUEVA RENCA                                  671
CENTRAL TERMOELÉCTRICA ANGAMOS                     585
COMPLEJO TERMOELECTRICO SANTA MARIA                542
YUNGAY (EX

In [12]:
df_termoelectricas_filtrado["CuerpoReceptor"].value_counts()

BAHIA MEJILLONES      13059
BAHÍA ALGODONALES      9181
BAHÍA CORONEL          8975
PENINSULA GUACOLDA     6425
BAHÍA QUINTERO         5505
RIO ACONCAGUA          5245
ESTERO LAJARILLA        902
CANAL DE DERRAME        736
CANAL COLONIA SUR       722
RIO MAPOCHO             671
ESTERO LOS GUINDOS      494
ESTERO CADEGUA          252
PUERTO HUASCO             8
Name: CuerpoReceptor, dtype: int64

In [13]:
df_termoelectricas_filtrado.to_csv("../data/processed/tidy_data.csv", sep = ";", index = False)