<a href="https://colab.research.google.com/github/ElizaOG11/EDA-Analisis-exploratorio-Taller-1/blob/main/Preparaci%C3%B3n_de_los_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **PREPARACIÓN DE LOS DATOS**

Se eligió una base de datos de calidad de agua de ocho corrientes del Municipio de Popayán, manejada por la Corporación Autónoma Regional del Cauca (CRC), la cual tiene datos de diferentes parámetros de calidad del agua medidos en distintas estaciones de monitoreo en tres épocas del año para periodos entre 2010 y 2024, en varias de ellas. Como podrá observarse, la base de datos no está organizada y tiene muchos valores perdidos.

Teniendo en cuenta que el Río Cauca es una de las fuentes principales a nivel local, regional y nacional, y que en este convergen las principales corrientes hídricas monitoreadas, fue elegida como base de análisis para el proyecto.

De todas las variables se seleccionarán: Año, punto de monitoreo, época, DBO, DQO y SST, Corriente y municipio Ajustado.

In [45]:
#Importar librerías

import pandas as pd
import numpy as np
import statsmodels.api as sm
from sklearn.metrics import mean_squared_error
import statsmodels.formula.api as smf
import seaborn as sns
import matplotlib.pyplot as plt

# **Visión general de los datos**

In [46]:

#Cargar la base de datos y explorarla.
df = pd.read_csv('/content/Corrientes_CALIDAD_2010-2024.csv', sep = ';', encoding='ISO-8859-1', engine='python')
df.head()

Unnamed: 0,Ano,Epoca,FECHA_MONITOREO,CORRIENTE,PUNTO_MONITOREO,PUNTO_MONITOREO_COMPUESTO,PUNTO DE MONITOREO_Original,MUNICIPIO,MUNICIPIO_AJUSTADO,VEREDA,Variable,Unidades,Deteccion,Valor,CALIFICACIàN DE LA CALIDAD DEL AGUA
0,2010,Seca,7/09/2010,R¡o Cauca,Estaci¢n Julumito,R¡o Cauca - Estaci¢n Julumito,R.Cauca Puente Estaci¢n Julumito,Popay n,Popay n,Cajete,COLOR UPC,UPC,,38.0,
1,2010,Seca,7/09/2010,R¡o Cauca,Estaci¢n Julumito,R¡o Cauca - Estaci¢n Julumito,R.Cauca Puente Estaci¢n Julumito,Popay n,Popay n,Cajete,DBO,mg/L,,1.2,
2,2010,Seca,7/09/2010,R¡o Cauca,Estaci¢n Julumito,R¡o Cauca - Estaci¢n Julumito,R.Cauca Puente Estaci¢n Julumito,Popay n,Popay n,Cajete,DQO,mg/L,,4.0,
3,2010,Seca,7/09/2010,R¡o Cauca,Estaci¢n Julumito,R¡o Cauca - Estaci¢n Julumito,R.Cauca Puente Estaci¢n Julumito,Popay n,Popay n,Cajete,DUREZA,mg CaCO3/L,,53.5,
4,2010,Seca,7/09/2010,R¡o Cauca,Estaci¢n Julumito,R¡o Cauca - Estaci¢n Julumito,R.Cauca Puente Estaci¢n Julumito,Popay n,Popay n,Cajete,NITRATOS,mg NO3-N/L,,2.53,


In [47]:
#Ver tamaño del dataframe.
df.shape

(15232, 15)

In [48]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15232 entries, 0 to 15231
Data columns (total 15 columns):
 #   Column                                Non-Null Count  Dtype 
---  ------                                --------------  ----- 
 0   Ano                                   15232 non-null  int64 
 1   Epoca                                 15232 non-null  object
 2   FECHA_MONITOREO                       15232 non-null  object
 3   CORRIENTE                             15232 non-null  object
 4   PUNTO_MONITOREO                       15232 non-null  object
 5   PUNTO_MONITOREO_COMPUESTO             15232 non-null  object
 6   PUNTO DE MONITOREO_Original           15232 non-null  object
 7   MUNICIPIO                             15034 non-null  object
 8   MUNICIPIO_AJUSTADO                    15218 non-null  object
 9   VEREDA                                15174 non-null  object
 10  Variable                              15232 non-null  object
 11  Unidades                    

In [49]:
#Revisar las columnas del dataframe para seleccionar cuáles deben eliminarse.
df.columns

Index(['Ano', 'Epoca', 'FECHA_MONITOREO', 'CORRIENTE', 'PUNTO_MONITOREO',
       'PUNTO_MONITOREO_COMPUESTO', 'PUNTO DE MONITOREO_Original', 'MUNICIPIO',
       'MUNICIPIO_AJUSTADO', 'VEREDA', 'Variable', 'Unidades', 'Deteccion',
       'Valor', 'CALIFICACIàN DE LA CALIDAD DEL AGUA '],
      dtype='object')

# **Ajustar formato de los datos**

In [50]:
# Eliminar columnas innecesarias para el análisis y ver el resultado.
headers = ['FECHA_MONITOREO','PUNTO_MONITOREO','PUNTO_MONITOREO_COMPUESTO','MUNICIPIO','VEREDA', 'Unidades', 'Deteccion', 'CALIFICACIàN DE LA CALIDAD DEL AGUA ']
#print (headers)
newdf = df.drop(headers, axis = 1)
newdf.head(5)

Unnamed: 0,Ano,Epoca,CORRIENTE,PUNTO DE MONITOREO_Original,MUNICIPIO_AJUSTADO,Variable,Valor
0,2010,Seca,R¡o Cauca,R.Cauca Puente Estaci¢n Julumito,Popay n,COLOR UPC,38.0
1,2010,Seca,R¡o Cauca,R.Cauca Puente Estaci¢n Julumito,Popay n,DBO,1.2
2,2010,Seca,R¡o Cauca,R.Cauca Puente Estaci¢n Julumito,Popay n,DQO,4.0
3,2010,Seca,R¡o Cauca,R.Cauca Puente Estaci¢n Julumito,Popay n,DUREZA,53.5
4,2010,Seca,R¡o Cauca,R.Cauca Puente Estaci¢n Julumito,Popay n,NITRATOS,2.53


In [51]:
#Cambiar caracteres especiales por letras sin tildes y estandarizar los valores en las columnas tipo float
newdf['CORRIENTE'] = newdf['CORRIENTE'].replace('R¡o Cauca', 'Rio Cauca')
newdf['CORRIENTE'] = newdf['CORRIENTE'].replace('R. Cauca', 'Rio Cauca')
newdf['Epoca'] = newdf['Epoca'].replace('Transici¢n', 'Transicion')
newdf['MUNICIPIO_AJUSTADO'] = newdf['MUNICIPIO_AJUSTADO'].replace('Popay\xa0n', 'Popayan')
newdf['PUNTO DE MONITOREO_Original'].replace('R¡o Cauca puente met\xa0lico Vivero CRC', 'Puente vivero CRC',inplace=True)
newdf['PUNTO DE MONITOREO_Original'].replace('Estaci\xc3\xb3n Julumito', 'Estacion Julumito',inplace=True)
newdf['PUNTO DE MONITOREO_Original'].replace('R.Cauca Puente Estaci¢n Julumito', 'Estacion Julumito',inplace=True)
newdf['PUNTO DE MONITOREO_Original'].replace('R¡o Cauca puente met lico Vivero CRC', 'Puente vivero CRC',inplace=True)
newdf['PUNTO DE MONITOREO_Original'].replace('Estaci¢n Julumito', 'Estacion Julumito',inplace=True)
newdf['PUNTO DE MONITOREO_Original'].replace('R¡o Cauca estaci¢n Julumito', 'Estacion Julumito',inplace=True)

newdf.head()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  newdf['PUNTO DE MONITOREO_Original'].replace('R¡o Cauca puente met\xa0lico Vivero CRC', 'Puente vivero CRC',inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  newdf['PUNTO DE MONITOREO_Original'].replace('Estaci\xc3\xb3n Julumito', 'Estacion Julumito',inplace=True)
The

Unnamed: 0,Ano,Epoca,CORRIENTE,PUNTO DE MONITOREO_Original,MUNICIPIO_AJUSTADO,Variable,Valor
0,2010,Seca,Rio Cauca,Estacion Julumito,Popayan,COLOR UPC,38.0
1,2010,Seca,Rio Cauca,Estacion Julumito,Popayan,DBO,1.2
2,2010,Seca,Rio Cauca,Estacion Julumito,Popayan,DQO,4.0
3,2010,Seca,Rio Cauca,Estacion Julumito,Popayan,DUREZA,53.5
4,2010,Seca,Rio Cauca,Estacion Julumito,Popayan,NITRATOS,2.53


In [52]:
#Convertir comas a puntos en la columna 'Valor'
newdf['Valor'] = newdf['Valor'].str.replace(',', '.')

In [53]:
#Explorar el nuevo dataframe después de la eliminación
newdf.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15232 entries, 0 to 15231
Data columns (total 7 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   Ano                          15232 non-null  int64 
 1   Epoca                        15232 non-null  object
 2   CORRIENTE                    15232 non-null  object
 3   PUNTO DE MONITOREO_Original  15232 non-null  object
 4   MUNICIPIO_AJUSTADO           15218 non-null  object
 5   Variable                     15232 non-null  object
 6   Valor                        15232 non-null  object
dtypes: int64(1), object(6)
memory usage: 833.1+ KB


Teniendo en cuenta que el tipo de datos de 'Variable' es object, y esta alberga toso los valores de los parámetros, se debe hacer la transformación correspondiente.

# **Transformación del tipo de datos**

In [54]:
#Convertir object a float
newdf['Valor']=newdf['Valor'].astype('float')
newdf.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15232 entries, 0 to 15231
Data columns (total 7 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Ano                          15232 non-null  int64  
 1   Epoca                        15232 non-null  object 
 2   CORRIENTE                    15232 non-null  object 
 3   PUNTO DE MONITOREO_Original  15232 non-null  object 
 4   MUNICIPIO_AJUSTADO           15218 non-null  object 
 5   Variable                     15232 non-null  object 
 6   Valor                        15232 non-null  float64
dtypes: float64(1), int64(1), object(5)
memory usage: 833.1+ KB


# **Filtro de datos**

In [55]:
#Filtrar los datos de la columna 'Municipio_ajustado' para valores que solo contengan 'Popay' y terminen en 'n'

dfPop = newdf[newdf['MUNICIPIO_AJUSTADO'].str.contains('Popay.*n$', na=False)]
display(dfPop.head(5))

Unnamed: 0,Ano,Epoca,CORRIENTE,PUNTO DE MONITOREO_Original,MUNICIPIO_AJUSTADO,Variable,Valor
0,2010,Seca,Rio Cauca,Estacion Julumito,Popayan,COLOR UPC,38.0
1,2010,Seca,Rio Cauca,Estacion Julumito,Popayan,DBO,1.2
2,2010,Seca,Rio Cauca,Estacion Julumito,Popayan,DQO,4.0
3,2010,Seca,Rio Cauca,Estacion Julumito,Popayan,DUREZA,53.5
4,2010,Seca,Rio Cauca,Estacion Julumito,Popayan,NITRATOS,2.53


Todos los parámetros a analizar se encuentran como valores en filas dentro de la columna 'Variable', para poder realizar el análisis se necesita que cada parámetro se ubique en una columna, es por esto que es necesario hacer un pivot.

In [56]:
#Crear columnas con los parámetros encontrados en la columna 'Variable'. Ejm: DQO, DBO, Alcalinidad, etc., cada una con sus respectivos valores
newdfPop = dfPop.pivot_table(
    index=["Ano", "Epoca", "CORRIENTE", "PUNTO DE MONITOREO_Original", "MUNICIPIO_AJUSTADO"],
    columns="Variable",
    values='Valor',
    aggfunc='mean'
).reset_index()
newdfPop.head(10)

Variable,Ano,Epoca,CORRIENTE,PUNTO DE MONITOREO_Original,MUNICIPIO_AJUSTADO,% de OD,ALCALINIDAD,CAUDAL,COLIFORMES FECALES,COLIFORMES FECALES-NMP/100ml,...,Ica-5 Variables,NITRATOS,NITRITOS,NITRàGENO TOTAL,ORTOFOSFATOS,OXIGENO DISUELTO,PH,SST,TEMPERATURA,TURBIEDAD
0,2010,Seca,Rio Cauca,Estacion Julumito,Popayan,,,,,,...,,2.53,0.09,,,8.01,5.98,58.3,17.2,9.0
1,2010,Seca,Rio Cauca,Puente met lico Vivero CRC,Popayan,,,,,,...,,,,,,,,,,
2,2010,Seca,Rio Cauca,Puente vivero CRC,Popayan,,,,,,...,,0.8,0.02,,,13.0,5.81,35.0,16.6,1.3
3,2010,Seca,R¡o Ejido,Sauces- Floresta. Centro de salud,Popayan,,,,,,...,,,,,,,,,,
4,2010,Seca,R¡o Ejido,Antes de Barrio Avelino Ull,Popayan,,,,,,...,,,,,,,,,,
5,2010,Seca,R¡o Ejido,Barrio Jun¡n antes de r¡o Molino,Popayan,,,,,,...,,,,,,,,,,
6,2010,Seca,R¡o Ejido,"Barrio Los Sauces, frente a puesto de salud Ba...",Popayan,,,,,,...,,0.99,0.12,,,5.05,6.87,18.7,18.0,5.7
7,2010,Seca,R¡o Ejido,R¡o Ejido Barrio Jun¡n- (Antes de R. Molino),Popayan,,,,,,...,,3.4,0.02,,,3.66,7.39,25.7,18.1,14.5
8,2010,Seca,R¡o Ejido,R¡o Ejido (Antes) . Barrio Avelino Ull,Popayan,,,,,,...,,0.49,0.01,,,7.53,6.76,6.7,17.7,2.2
9,2010,Seca,R¡o Molino,Antes de Pueblillo,Popayan,,,,,,...,,,,,,,,,,


In [57]:
print('El nuevo tamaño del dataset transformado es:')
newdfPop.info()

El nuevo tamaño del dataset transformado es:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 787 entries, 0 to 786
Data columns (total 36 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Ano                           787 non-null    int64  
 1   Epoca                         787 non-null    object 
 2   CORRIENTE                     787 non-null    object 
 3   PUNTO DE MONITOREO_Original   787 non-null    object 
 4   MUNICIPIO_AJUSTADO            787 non-null    object 
 5   % de OD                       324 non-null    float64
 6   ALCALINIDAD                   400 non-null    float64
 7   CAUDAL                        273 non-null    float64
 8   COLIFORMES FECALES            20 non-null     float64
 9   COLIFORMES FECALES-NMP/100ml  280 non-null    float64
 10  COLIFORMES FECALES-UFC/100ml  110 non-null    float64
 11  COLIFORMES TOTALES            20 non-null     float64
 12  COLIFORMES TOTALES-

In [58]:
#Observar la transformación del primer dataframe 'df' al 'newdfPop'
print("El anterior dataframe 'df' tenía un tamaño de (15232, 15)")
print(f"El nuevo dataframe 'newdfPop' tiene: {newdfPop.shape}")

El anterior dataframe 'df' tenía un tamaño de (15232, 15)
El nuevo dataframe 'newdfPop' tiene: (787, 36)


# **Manejo de nulls y selección de variables**

In [59]:
#Contar nulos en todas las columnas
conteo_nulls = newdfPop.isnull().sum()
print(conteo_nulls)

Variable
Ano                               0
Epoca                             0
CORRIENTE                         0
PUNTO DE MONITOREO_Original       0
MUNICIPIO_AJUSTADO                0
% de OD                         463
ALCALINIDAD                     387
CAUDAL                          514
COLIFORMES FECALES              767
COLIFORMES FECALES-NMP/100ml    507
COLIFORMES FECALES-UFC/100ml    677
COLIFORMES TOTALES              767
COLIFORMES TOTALES-NMP/100ml    506
COLIFORMES TOTALES-UFC/100ml    677
COLOR UPC                       302
CONDUCTIVIDAD                   303
DBO                             302
DQO                             302
DUREZA                          302
FOSFORO TOTAL                   614
ICA-5 variables                 358
ICA-6 variables                 635
ICOMI                           389
ICOMO                           489
ICOSUS                          301
ICOTRO                          700
Ica-5 Variables                 771
NITRATOS           

In [60]:
#Cantidd total de nulls en el df
total_nulls = newdfPop.isnull().sum().sum()
print(f"Total nulls en el dataset: {total_nulls}")

Total nulls en el dataset: 14170


In [61]:
#Porcentaje de datos nulls en el dataset:

total_data_points = newdfPop.size
null_data_points = (total_nulls/total_data_points) * 100
print(f"Total de datos en el dataframe: {total_data_points}")
print(f'Porcentaje de nulls en el dataset: {null_data_points}')

Total de datos en el dataframe: 28332
Porcentaje de nulls en el dataset: 50.01411831144995


Antes de la selección de las variables para el análisis univariado, es preciso consolidar una base de datos organizada, sin valores nulls, con igual número de datos en todas las variables, para poder realizar una selección ecuánime. En primera medida, se van a seleccionar solo las variables que se tienen en cuenta en la normativa colombiana (Res 2115 de 2007) y cuyos valores exigen unos límites permisibles. Por otro lado, se seleccionará solo el río Cauca, dada la importancia a nivel local, regional y nacional.

In [62]:
#Eliminación de variables que no presentan valores límite en la normativa de agua potable.
df_sintesiscolPop = newdfPop.drop(['CAUDAL', '% de OD', 'COLIFORMES FECALES', 'COLIFORMES FECALES-NMP/100ml', 'COLIFORMES FECALES-UFC/100ml', 'COLIFORMES TOTALES', 'COLIFORMES TOTALES-NMP/100ml', 'FOSFORO TOTAL', 'ICA-5 variables', 'ICA-6 variables', 'ICOMI', 'ICOMO', 'ICOSUS', 'ICOTRO', 'Ica-5 Variables', 'NITRàGENO TOTAL', 'ORTOFOSFATOS'], axis=1)
df_sintesiscolPop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 787 entries, 0 to 786
Data columns (total 19 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Ano                           787 non-null    int64  
 1   Epoca                         787 non-null    object 
 2   CORRIENTE                     787 non-null    object 
 3   PUNTO DE MONITOREO_Original   787 non-null    object 
 4   MUNICIPIO_AJUSTADO            787 non-null    object 
 5   ALCALINIDAD                   400 non-null    float64
 6   COLIFORMES TOTALES-UFC/100ml  110 non-null    float64
 7   COLOR UPC                     485 non-null    float64
 8   CONDUCTIVIDAD                 484 non-null    float64
 9   DBO                           485 non-null    float64
 10  DQO                           485 non-null    float64
 11  DUREZA                        485 non-null    float64
 12  NITRATOS                      485 non-null    float64
 13  NITRI

*Eliminación de corrientes que no se usarán.*

In [63]:
#Eliminar Río Piedras
df_sintesiscolPop.drop(df_sintesiscolPop[df_sintesiscolPop['CORRIENTE']=='R¡o Piedras'].index, inplace=True)
df_sintesiscolPop.info()

#Eliminar Río Pisojé
df_sintesiscolPop.drop(df_sintesiscolPop[df_sintesiscolPop['CORRIENTE']=='R¡o Pisoje'].index, inplace=True)
df_sintesiscolPop.info()

#Eliminar Río Palacé
df_sintesiscolPop.drop(df_sintesiscolPop[df_sintesiscolPop['CORRIENTE']=='R¡o Palac'].index, inplace=True)
df_sintesiscolPop.info()

#Eliminar Quebrada Quitacalzón
df_sintesiscolPop.drop(df_sintesiscolPop[df_sintesiscolPop['CORRIENTE']=='Quebrada Quitaclaz¢n'].index, inplace=True)
df_sintesiscolPop.info()

#Eliminar Río Blanco
df_sintesiscolPop.drop(df_sintesiscolPop[df_sintesiscolPop['CORRIENTE']=='R¡o Blanco'].index, inplace=True)
df_sintesiscolPop.info()

#Eliminar Río Molino
df_sintesiscolPop.drop(df_sintesiscolPop[df_sintesiscolPop['CORRIENTE']=='R¡o Molino'].index, inplace=True)
df_sintesiscolPop.info()

#Eliminar Río Molino
df_sintesiscolPop.drop(df_sintesiscolPop[df_sintesiscolPop['CORRIENTE']=='R¡o Ejido'].index, inplace=True)
df_sintesiscolPop.info()


<class 'pandas.core.frame.DataFrame'>
Index: 668 entries, 0 to 786
Data columns (total 19 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Ano                           668 non-null    int64  
 1   Epoca                         668 non-null    object 
 2   CORRIENTE                     668 non-null    object 
 3   PUNTO DE MONITOREO_Original   668 non-null    object 
 4   MUNICIPIO_AJUSTADO            668 non-null    object 
 5   ALCALINIDAD                   331 non-null    float64
 6   COLIFORMES TOTALES-UFC/100ml  89 non-null     float64
 7   COLOR UPC                     411 non-null    float64
 8   CONDUCTIVIDAD                 410 non-null    float64
 9   DBO                           411 non-null    float64
 10  DQO                           411 non-null    float64
 11  DUREZA                        411 non-null    float64
 12  NITRATOS                      411 non-null    float64
 13  NITRITOS  

*Manejo de nulls*

In [64]:
#Eliminar filas con mas de 3 nulls y crear un dataframe con los ajustes.
df_defPop = df_sintesiscolPop.dropna(thresh=15)
df_defPop.head()

Variable,Ano,Epoca,CORRIENTE,PUNTO DE MONITOREO_Original,MUNICIPIO_AJUSTADO,ALCALINIDAD,COLIFORMES TOTALES-UFC/100ml,COLOR UPC,CONDUCTIVIDAD,DBO,DQO,DUREZA,NITRATOS,NITRITOS,OXIGENO DISUELTO,PH,SST,TEMPERATURA,TURBIEDAD
0,2010,Seca,Rio Cauca,Estacion Julumito,Popayan,,,38.0,237.0,1.2,4.0,53.5,2.53,0.09,8.01,5.98,58.3,17.2,9.0
2,2010,Seca,Rio Cauca,Puente vivero CRC,Popayan,,,75.0,190.6,0.5,4.0,34.0,0.8,0.02,13.0,5.81,35.0,16.6,1.3
18,2010,Transicion,Rio Cauca,Estacion Julumito,Popayan,,,49.0,100.0,2.9,10.0,21.4,2.14,0.18,5.96,6.53,115.0,16.1,33.2
20,2010,Transicion,Rio Cauca,Puente vivero CRC,Popayan,,,57.0,128.0,0.5,23.0,21.4,1.72,0.14,6.29,6.43,156.0,15.2,27.8
36,2011,Lluvias,Rio Cauca,Estacion Julumito,Popayan,,,20.0,116.2,1.6,10.0,48.4,0.9,0.1,4.5,7.3,128.0,18.5,8.4


Teniendo en cuenta que la variable coliformes tiene la mayoría de datos null y que, según la normativa nacional, el valor admisible de coliformes para el agua potable es 0, valor que es muy difícil de encontrar en aguas no tratadas previamente, y ademas, que el parámetro tiene sus pricipales repercusiones en la salud humana, no en la biota en general, se decide eliminar este parámetro o variable.

In [65]:
#Eliminación de columna 'Coliformes totales' después del análiis de valores nulls
df_defPop.drop('COLIFORMES TOTALES-UFC/100ml', axis=1, inplace=True)
df_defPop.info()

<class 'pandas.core.frame.DataFrame'>
Index: 78 entries, 0 to 771
Data columns (total 18 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Ano                          78 non-null     int64  
 1   Epoca                        78 non-null     object 
 2   CORRIENTE                    78 non-null     object 
 3   PUNTO DE MONITOREO_Original  78 non-null     object 
 4   MUNICIPIO_AJUSTADO           78 non-null     object 
 5   ALCALINIDAD                  60 non-null     float64
 6   COLOR UPC                    78 non-null     float64
 7   CONDUCTIVIDAD                78 non-null     float64
 8   DBO                          78 non-null     float64
 9   DQO                          78 non-null     float64
 10  DUREZA                       78 non-null     float64
 11  NITRATOS                     78 non-null     float64
 12  NITRITOS                     78 non-null     float64
 13  OXIGENO DISUELTO          

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_defPop.drop('COLIFORMES TOTALES-UFC/100ml', axis=1, inplace=True)


Por otro lado, la alcalinidad tiene 18 nulls, de un total de 70 datos, razón por la cual, se decide realizar una imputación de datos, decisión que se tomará a apartir de la visualización de la descripción estadística general, a continuación presentada:

In [66]:
df_defPop.describe()

Variable,Ano,ALCALINIDAD,COLOR UPC,CONDUCTIVIDAD,DBO,DQO,DUREZA,NITRATOS,NITRITOS,OXIGENO DISUELTO,PH,SST,TEMPERATURA,TURBIEDAD
count,78.0,60.0,78.0,78.0,78.0,78.0,78.0,78.0,78.0,78.0,78.0,78.0,78.0,78.0
mean,2016.769231,4.996167,81.948718,311.640385,4.828718,16.891667,62.825,1.081731,0.136064,6.698051,5.422154,68.072436,16.837564,21.878846
std,4.130731,10.867119,86.587753,357.57974,4.61102,11.735943,29.607949,1.191196,0.37247,1.506651,1.241284,57.41159,1.695233,24.448426
min,2010.0,0.49,2.0,5.2,0.5,4.0,14.4,0.01,0.0,4.153,2.82,10.0,13.2,0.2
25%,2013.25,0.5,22.75,155.625,0.8,10.0,48.25,0.1025,0.02,5.8025,4.385,32.1125,15.625,7.0
50%,2017.0,0.95,49.0,216.25,2.35,15.0,59.15,0.59,0.02,6.4875,5.53,51.75,16.65,13.05
75%,2020.75,2.65,104.0,316.9,10.0,15.825,75.75,1.7725,0.0475,7.6625,6.4225,87.75,17.975,29.9
max,2024.0,53.2,402.0,2689.0,20.8,70.0,237.0,4.26,2.15,13.0,7.9,369.0,21.3,156.0


Se observa una desviación muy alta con respecto a la media, casi el doble. También, una diferencia entre el mínimo y el máximo muy grande, lo que indica outliers. En este caso, la media no se considera una opción viable por la presencia de valores extremos, así que se opta por imputar con la mediana.

In [67]:
#Imputación de datos con la mediana
df_defPop['ALCALINIDAD'].fillna(df_defPop['ALCALINIDAD'].median(), inplace=True)
df_defPop.info()

<class 'pandas.core.frame.DataFrame'>
Index: 78 entries, 0 to 771
Data columns (total 18 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Ano                          78 non-null     int64  
 1   Epoca                        78 non-null     object 
 2   CORRIENTE                    78 non-null     object 
 3   PUNTO DE MONITOREO_Original  78 non-null     object 
 4   MUNICIPIO_AJUSTADO           78 non-null     object 
 5   ALCALINIDAD                  78 non-null     float64
 6   COLOR UPC                    78 non-null     float64
 7   CONDUCTIVIDAD                78 non-null     float64
 8   DBO                          78 non-null     float64
 9   DQO                          78 non-null     float64
 10  DUREZA                       78 non-null     float64
 11  NITRATOS                     78 non-null     float64
 12  NITRITOS                     78 non-null     float64
 13  OXIGENO DISUELTO          

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_defPop['ALCALINIDAD'].fillna(df_defPop['ALCALINIDAD'].median(), inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_defPop['ALCALINIDAD'].fillna(df_defPop['ALCALINIDAD'].median(), inplace=True)


In [68]:
#Contar datos null en el daframe definitivo
df_defPop.isnull().sum()

Unnamed: 0_level_0,0
Variable,Unnamed: 1_level_1
Ano,0
Epoca,0
CORRIENTE,0
PUNTO DE MONITOREO_Original,0
MUNICIPIO_AJUSTADO,0
ALCALINIDAD,0
COLOR UPC,0
CONDUCTIVIDAD,0
DBO,0
DQO,0


In [69]:
df_defPop.info()

<class 'pandas.core.frame.DataFrame'>
Index: 78 entries, 0 to 771
Data columns (total 18 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Ano                          78 non-null     int64  
 1   Epoca                        78 non-null     object 
 2   CORRIENTE                    78 non-null     object 
 3   PUNTO DE MONITOREO_Original  78 non-null     object 
 4   MUNICIPIO_AJUSTADO           78 non-null     object 
 5   ALCALINIDAD                  78 non-null     float64
 6   COLOR UPC                    78 non-null     float64
 7   CONDUCTIVIDAD                78 non-null     float64
 8   DBO                          78 non-null     float64
 9   DQO                          78 non-null     float64
 10  DUREZA                       78 non-null     float64
 11  NITRATOS                     78 non-null     float64
 12  NITRITOS                     78 non-null     float64
 13  OXIGENO DISUELTO          

Coo puede observarse, el dataset ya no tiene datos null.

In [70]:
#Total de datos en el dataframe definitivo df_defPop
total_data_defPop = df_defPop.size
print(f"Total de datos en el dataframe df_defPop: {total_data_defPop}")

Total de datos en el dataframe df_defPop: 1404


Se usará esta base de datos preparada para el análisis del trabajo final.
Se exporta, por lo tanto, como archivo .csv.

In [71]:
df_defPop.to_csv('calidad_corrientes_transf_pop', index=False)

# **Conclusiones**

Se debieron llevar a cabo varios tipos de procesos en el análisis exploratorio de datos, entre ellos:

*   Eliminación de variables o columnas innecesarias.
*   Filtros.
*   Transformación de tipo de datos: object a float.
*   Ajuste de formato: cambio de caracteres especiales, comas a puntos...
*   Pivot de filas a columnas.
*   Imputación de nulls con la media para ciertas variables.
*   Eliminación de variables por tener la mayoría de sus datos null

Se tenía un dataset original de tamaño: (15232, 15), 15232 entradas, 0 to 15231
, total 15 columnas, 14 tipo object y 1 tipo int64, el cual quedó transformado a uno de: 78 entradas, 0 to 771, un total de 18 columnas, 13 de ellas tipo float64, una tipo int64 y cuatro tipo object.

El datset final está libre de datos nulls, tiene datos tipo float, int y object, y cuenta solo con las variables necesarias, seleccionadas a partir de la norma vigente para calidad de agua: Resolución 2115 de 2007, con los puntos de monitoreo ubicados solo para el Río Cauca en el Municipio de Popayán.

