In [2]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
import logging

In [3]:
water = pd.read_csv("C:\\Users\\JSLV3\\Documents\\watersucia.csv",  delimiter=';' )
water.head()

    Año NombreDepartamento  Div_dpto NombreMunicipio  Divi_muni IrcaMinimo  \
0  2010            Bolívar        13        El Guamo      13248          0   
1  2010            Bolívar        13        El Guamo      13248          0   
2  2010            Bolívar        13        El Guamo      13248          0   
3  2010            Bolívar        13        El Guamo      13248          0   
4  2010            Bolívar        13        El Guamo      13248          0   

  IrcaMaximo IrcaPromedio NombreParametroAnalisis2  MuestrasEvaluadas  \
0        100        37,32        Alcanilidad Total                 67   
1        100        37,32                 Aluminio                 67   
2        100        37,32                 Arsénico                 67   
3        100        37,32                   Cadmio                 67   
4        100        37,32                   Calcio                 67   

   MuestrasTratadas  MuestrasSinTratar  NumeroParametrosMinimo  \
0                67       

## Creating greater value from our data
### Transformations

##### We identified the analysis parameters that have the greatest influence on water pollution:

Conversión de Tipos de Datos

In [4]:
# Convertir las columnas IrcaMinimo, IrcaMaximo, y IrcaPromedio a flotante
water['IrcaMinimo'] = water['IrcaMinimo'].str.replace(',', '.').astype(float)
water['IrcaMaximo'] = water['IrcaMaximo'].str.replace(',', '.').astype(float)
water['IrcaPromedio'] = water['IrcaPromedio'].str.replace(',', '.').astype(float)

# Mostrar la información actualizada del dataset para confirmar los cambios
water[['IrcaMinimo', 'IrcaMaximo', 'IrcaPromedio']].info(), water[['IrcaMinimo', 'IrcaMaximo', 'IrcaPromedio']].head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 408311 entries, 0 to 408310
Data columns (total 3 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   IrcaMinimo    408311 non-null  float64
 1   IrcaMaximo    408311 non-null  float64
 2   IrcaPromedio  408311 non-null  float64
dtypes: float64(3)
memory usage: 9.3 MB


(None,
    IrcaMinimo  IrcaMaximo  IrcaPromedio
 0         0.0       100.0         37.32
 1         0.0       100.0         37.32
 2         0.0       100.0         37.32
 3         0.0       100.0         37.32
 4         0.0       100.0         37.32)

IrcaMinimo, IrcaMaximo, IrcaPromedio: Estas columnas contienen valores numéricos que estaban en formato de texto y utilizaban comas como separadores decimales. La conversión a flotante es crucial porque permite realizar cálculos numéricos adecuados, que son esenciales para cualquier análisis estadístico, comparaciones o visualizaciones que impliquen estos valores.

Normalización de Datos

In [5]:
scaler = MinMaxScaler()
columns_to_scale = ['MuestrasEvaluadas', 'MuestrasTratadas', 'MuestrasSinTratar']

water[columns_to_scale] = scaler.fit_transform(water[columns_to_scale])

water[columns_to_scale].head()

Unnamed: 0,MuestrasEvaluadas,MuestrasTratadas,MuestrasSinTratar
0,0.00171,0.001768,0.0
1,0.00171,0.001768,0.0
2,0.00171,0.001768,0.0
3,0.00171,0.001768,0.0
4,0.00171,0.001768,0.0


MuestrasEvaluadas, MuestrasTratadas, MuestrasSinTratar: La normalización a una escala de 0 a 1 de estas columnas es fundamental para preparar los datos para algoritmos de aprendizaje automático y para facilitar comparaciones directas entre variables que originalmente tienen diferentes escalas y rangos. Por ejemplo, si una variable típicamente varía entre 0 y 1000 y otra entre 0 y 1000000, la normalización permite que ambas contribuyan equitativamente a los análisis sin que una domine debido a su mayor magnitud.

In [6]:
def standardize_column_names(df):
    df.columns = df.columns.str.lower().str.replace(' ', '_')
    logging.info("Column names standardized")
    return df

def clean_text_data(df):
    """ Limpia y estandariza texto en columnas específicas. """
    df['nombredepartamento'] = df['nombredepartamento'].str.capitalize()  # Primera letra en mayúscula, el resto en minúscula
    df['nombremunicipio'] = df['nombremunicipio'].str.capitalize()
    return df




In [7]:
parametros_influencia = water.groupby('NombreParametroAnalisis2')['IrcaPromedio'].mean().sort_values(ascending=False)
top_15_parametros = parametros_influencia.head(15)
top_15_parametros

NombreParametroAnalisis2
ph                               23.941989
Cromo total                      23.941989
Olor                             23.941989
Mesófilos                        23.941989
Mercurio                         23.941989
Manganeso                        23.941989
Magnesio                         23.941989
Hierro total                     23.941989
Organofosforados y carbamatos    23.941989
Alcanilidad Total                23.941989
Fosfatos                         23.941989
Fluoruros                        23.941989
Plomo                            23.941989
E.coli                           23.941989
Dureza total                     23.941989
Name: IrcaPromedio, dtype: float64

All these parameters have an average IRCA of approximately 23.94, suggesting an association with a considerable risk level. This can be useful for prioritizing which water quality parameters need more critical attention in monitoring and treatment programs.

In [8]:
water = water[water['NombreParametroAnalisis2'].isin(top_15_parametros.index)]

water.head(), water.shape

(     Año NombreDepartamento  Div_dpto NombreMunicipio  Divi_muni  IrcaMinimo  \
 0   2010            Bolívar        13        El Guamo      13248         0.0   
 13  2010            Bolívar        13        El Guamo      13248         0.0   
 14  2010            Bolívar        13        El Guamo      13248         0.0   
 15  2010            Bolívar        13        El Guamo      13248         0.0   
 16  2010            Bolívar        13        El Guamo      13248         0.0   
 
     IrcaMaximo  IrcaPromedio NombreParametroAnalisis2  MuestrasEvaluadas  \
 0        100.0         37.32        Alcanilidad Total            0.00171   
 13       100.0         37.32              Cromo total            0.00171   
 14       100.0         37.32             Dureza total            0.00171   
 15       100.0         37.32                   E.coli            0.00171   
 16       100.0         37.32                Fluoruros            0.00171   
 
     MuestrasTratadas  MuestrasSinTratar  Numero

We have filtered the dataset to only leave the rows corresponding to the top 15 analysis parameters related to water pollution, and the rest have been removed.

##### Classification of the Water Quality Risk Index (IRCA)

In [9]:
def clasificar_irca(irca):
    try:
        # Si irca ya es numérico (float), no se intenta reemplazar comas
        if not isinstance(irca, float):
            irca = float(irca.replace(',', '.'))
        if irca == 0:
            return 'Sin información'
        elif 0.001 <= irca <= 5:
            return 'Sin riesgo'
        elif 5.001 <= irca <= 14:
            return 'Riesgo bajo'
        elif 14.001 <= irca <= 35:
            return 'Riesgo medio'
        elif 35.001 <= irca <= 80:
            return 'Riesgo alto'
        elif 80.001 <= irca <= 100:
            return 'Inviable sanitariamente'
        else:
            return 'No clasificado'
    except ValueError:
        return 'No clasificado'

water['rango_irca'] = water['IrcaPromedio'].apply(clasificar_irca)
print(water[['rango_irca','IrcaPromedio']].head())


     rango_irca  IrcaPromedio
0   Riesgo alto         37.32
13  Riesgo alto         37.32
14  Riesgo alto         37.32
15  Riesgo alto         37.32
16  Riesgo alto         37.32



The classify_irca function transforms the numerical value of the Average IRCA into descriptive categories ranging from 'No risk' to 'Sanitarily unviable', facilitating the interpretation and decision-making in water quality management. This categorization is crucial for public health and environmental analyses, as it simplifies data visualization, allows for quick comparisons between regions, and is essential for modeling and predicting water quality, resulting in more effective interventions and evidence-based policies.

In [10]:
water['porcentaje_muestras_tratadas'] = (water['MuestrasTratadas'] / water['MuestrasEvaluadas']) * 100
print(water.head())

     Año NombreDepartamento  Div_dpto NombreMunicipio  Divi_muni  IrcaMinimo  \
0   2010            Bolívar        13        El Guamo      13248         0.0   
13  2010            Bolívar        13        El Guamo      13248         0.0   
14  2010            Bolívar        13        El Guamo      13248         0.0   
15  2010            Bolívar        13        El Guamo      13248         0.0   
16  2010            Bolívar        13        El Guamo      13248         0.0   

    IrcaMaximo  IrcaPromedio NombreParametroAnalisis2  MuestrasEvaluadas  \
0        100.0         37.32        Alcanilidad Total            0.00171   
13       100.0         37.32              Cromo total            0.00171   
14       100.0         37.32             Dureza total            0.00171   
15       100.0         37.32                   E.coli            0.00171   
16       100.0         37.32                Fluoruros            0.00171   

    MuestrasTratadas  MuestrasSinTratar  NumeroParametrosMinim

Esta métrica cuantifica el éxito de los esfuerzos de tratamiento al revelar qué porción de las muestras de agua evaluadas han sido efectivamente tratadas. Un porcentaje elevado refleja una operación de tratamiento efectiva y una cobertura amplia, aspectos cruciales para la salud pública. Por otro lado, un porcentaje más bajo puede señalar oportunidades de mejora en la infraestructura o en las operaciones de tratamiento. 

Amplitud de Evaluación de Calidad del Agua:

In [11]:
water['rango_parametros_analizados'] = water['NumeroParametrosMaximo'] - water['NumeroParametrosPromedio']

print(water[['NumeroParametrosMaximo', 'NumeroParametrosPromedio', 'rango_parametros_analizados']].head())

    NumeroParametrosMaximo  NumeroParametrosPromedio  \
0                        7                         2   
13                       7                         2   
14                       7                         2   
15                       7                         2   
16                       7                         2   

    rango_parametros_analizados  
0                             5  
13                            5  
14                            5  
15                            5  
16                            5  


Esta columna se deriva de la diferencia entre el número máximo posible de parámetros que se podrían examinar y el número promedio de parámetros que efectivamente se han analizado en las pruebas de calidad del agua. Al calcular esta diferencia, obtenemos una perspectiva directa sobre la amplitud de las pruebas realizadas.

##### Data Cleaning and Variable Selection

In [12]:
water = water.drop(['ResultadoMinimo', 'ResultadoMaximo', 'ResultadoPromedio'], axis=1)


To obtain a deeper understanding of the methodology and justification behind the removal of the 'Minimum Result', 'Maximum Result', and 'Average Result' columns, we invite you to consult the EDA_water_quality file. This document contains our exploratory data analysis, which distills key criteria and reveals significant insights that have guided the cleaning of our dataset.

In [13]:
columnas_a_eliminar = ['MuestrasTratadas', 'MuestrasEvaluadas', 'MuestrasSinTratar',
                      'NumeroParametrosMinimo', 'NumeroParametrosMaximo']
water = water.drop(columns=columnas_a_eliminar)


water.head()

Unnamed: 0,Año,NombreDepartamento,Div_dpto,NombreMunicipio,Divi_muni,IrcaMinimo,IrcaMaximo,IrcaPromedio,NombreParametroAnalisis2,NumeroParametrosPromedio,rango_irca,porcentaje_muestras_tratadas,rango_parametros_analizados
0,2010,Bolívar,13,El Guamo,13248,0.0,100.0,37.32,Alcanilidad Total,2,Riesgo alto,103.400628,5
13,2010,Bolívar,13,El Guamo,13248,0.0,100.0,37.32,Cromo total,2,Riesgo alto,103.400628,5
14,2010,Bolívar,13,El Guamo,13248,0.0,100.0,37.32,Dureza total,2,Riesgo alto,103.400628,5
15,2010,Bolívar,13,El Guamo,13248,0.0,100.0,37.32,E.coli,2,Riesgo alto,103.400628,5
16,2010,Bolívar,13,El Guamo,13248,0.0,100.0,37.32,Fluoruros,2,Riesgo alto,103.400628,5


In [16]:
new_column_names = [
    "año", 
    "nombre_departamento", 
    "div_dpto", 
    "nombre_municipio", 
    "divi_muni", 
    "irca_minimo", 
    "irca_maximo", 
    "irca_promedio", 
    "nombre_parametro_analisis", 
    "numero_parametros_promedio", 
    "rango_irca",
    "rango_parametros_analizados",
    "porcentaje_muestras_tratadas"
    
    
]
water.columns = new_column_names
print(water.head())

     año nombre_departamento  div_dpto nombre_municipio  divi_muni  \
0   2010             Bolívar        13         El Guamo      13248   
13  2010             Bolívar        13         El Guamo      13248   
14  2010             Bolívar        13         El Guamo      13248   
15  2010             Bolívar        13         El Guamo      13248   
16  2010             Bolívar        13         El Guamo      13248   

    irca_minimo  irca_maximo  irca_promedio nombre_parametro_analisis  \
0           0.0        100.0          37.32         Alcanilidad Total   
13          0.0        100.0          37.32               Cromo total   
14          0.0        100.0          37.32              Dureza total   
15          0.0        100.0          37.32                    E.coli   
16          0.0        100.0          37.32                 Fluoruros   

    numero_parametros_promedio   rango_irca  rango_parametros_analizados  \
0                            2  Riesgo alto                   10

In [17]:
water.to_csv('water_cleaned.csv', index=False)