# Procesamiento de datos con Python

## Identificación del problema

### Disponibilidad de agua apta para consumo

El acceso al agua potable es un derecho humano básico que tiene impacto no sólo en la salud, sino también en el ámbito económico de una región. Se ha observado que cuando se invierte en abastecimiento y saneamiento de agua, la ganancia se obtiene de la reducción de costos de atención médica ya que el consumo de agua contaminada produce enfermedades como la diarrea, hepatitis A, cólera, fiebre tifoidea, disentería y poliomielitis. Por lo tanto, protocolos de saneamiento deficientes o inexistentes exponen a la población a riesgos prevenibles.

Es por esto que, la sanidad del agua representa seguridad para la población, pues mejora la salud previniendo enfermedades infecciosas y puede erradicar el hambre y la pobreza.

La media internacional de disponibilidad de agua por habitante es de 1700 metros cúbicos al año, sin embargo, la UNICEF estima que mínimo 1.8 billones de personas alrededor del mundo ingieren agua contaminada de materia fecal. Según el censo del INEGI del 2015, de más de 31 millones de hogares sólo poco más de 29 millones cuentan con suministro de agua, pero no con la misma regularidad; puede ser diario, cada tercer día, o una o dos veces por semana. Los estados de la república con menor acceso son: Oaxaca, Guerrero, Chiapas, Veracruz y Puebla; por otro lado, los que tienen mayor dispobilidad son: Aguascalientes, Ciudad de México, Nuevo León y Jalisco. Además, el Consejo Consultivo del Agua reporta que del 30% al 50% que se abastece a los hogares, es desperdiciada por fugas en las redes de distribución y domicilios.

El uso habitacional del agua representa solo el 14.2\%, mientras que para la producción agrícola se requiere del 76.7\% del agua utilizable. La FAO estima que dentro de 30 años la demanda de agua por parte del sector agrícola aumentará 14\% para poder sostener la demanda alimentaria. Este aumento de demanda nos conduce al problema de la calidad del agua, ya que dependiendo del grado de contaminación, se conoce si es posible utilizarla y para qué fines. 

Las aguas de cuerpos superficiales y subterráneos se contaminan por las descargas sin tratamiento previo, así como por arrastres de las zonas agrícolas y pecuarias. La calidad del agua se determina por los materiales, sustancias y microorganismos que lleva presentes. 

Existen tres fuentes de contaminación del agua:

- Biológica: Por materia viva como bacterias, virus y protozoarios, generalmente de tipo fecal o residuos alimentarios.

- Física: Desechos sólidos o basura.

- Química: En general, residuos industriales.


Se han realizado numerosos trabajos relacionados con el agua potable, su consumo y disponibilidad. Por ejemplo, Moron (2021) realizó un análisis sobre el consumo de agua potable con el fin de predecir el uso irregular por medio de métodos de machine learning, Para esto, utilizó datos históricos de consumo de agua potable que reflejan el comportamiento de los usuarios a lo largo dos años. En particular se emplearon árboles de decisiones, redes neuronales y random forest, siendo éste último el mejor modelo con una precisión del 98\%.

Por otro lado, Ahmed y colaboradores (2019) modelan la calidad del agua no por el consumo, sino según la presencia de nitrógeno amoniacal (AN), sólidos en suspensión(SS) y pH; implementando un sistema de inferencia neurodifuso adaptativo (ANFIS), redes neuronales de función de base radial (RBF-ANN) y redes neuronales de perceptrón multicapa (MLP-ANN). Para el estudio se partieron de datos del río Johor a lo largo de varias estaciones río abajo. Se crearon modelos para dos escenarios: en el primero se predicen los parámetros de la calidad del agua según los datos de la misma estación, y en el segundo se predice la calidad del agua dados los datos de la estación inmediata anterior. Cabe mencionar que los modelos del segundo problema tuvieron los mejores resultados. El modelo con mayor capacidad de capturar la dinámica del proceso fue ANFIS, pues predijo valores de *pH* y *SS* con valores de $R^2$ de mínimo 0.9, y para el *AN* con valores menores a 0.9.

## Planteamiento del problema

Dado lo importante que es el agua potable para la vida, y la necesidad de monitorear de manera frecuente los cuerpos de agua para hacer más rápidos e incluso menos costosos estos protocolos, en nuestro proyecto pretendemos resolver las siguientes preguntas:

1. ¿Qué valores de pH son aceptables en el agua potable?

2. ¿Es posible que una muestra de agua tenga un pH neutro y no sea agua potable?

3. ¿Cuál es la cantidad máxima aceptada de contaminantes?

4. ¿Existen cuerpos de agua potable que no luzcan transparentes?

5. ¿Cuántas y cuáles son las características mínimas para poder distinguir el agua potable de la que no lo es?

## Datos

Utilizamos una colección de datos obtenida de la plataforma Kaggle https://www.kaggle.com/datasets/artimule/drinking-water-probability, la cual contiene información sobre características de 3276 diferentes cuerpos de agua con las siguientes métricas de calidad:

- *pH value*: El pH evalua el equilibrio ácido-base del agua e indica la condición ácida o alcalina del agua. La OMS recomienda el límite máximo permisible de pH de 6.5 a 8.5.

- *Hardness*: La dureza se define como la capacidad del agua para precipitar sales como el Calcio y el Magnesio. El tiempo que el agua está en contacto con el material que produce dureza ayuda a determinar cuánta dureza hay en el agua cruda.

- *Solids*: Sólidos disueltos totales. El agua tiene la capacidad de disolver una amplia gama de materiales orgánicos e inorgánicos como el potasio, calcio, sodio, bicarbonatos, cloruros, magnesio, sulfatos, entre otros. La presencia de estos minerales producen un sabor y color no deseado. Este es un parámetro muy importante pues el límite deseable es de 500mg/L y el límite máximo es de 1000mg/L.

- *Chloramines*: El cloro y la cloramina son los desinfectantes más utilizados en los sistemas públicos de agua. La cloramina se forma cuando se agrega amoniaco al cloro. Se consideran seguros hasta 4mg/L de cloro.

- *Sulfate*: Los sulfatos son sustancias naturales presentes en los minerales, el suelo y las rocas. También pueden encontrarse en el aire, agua subterránea, plantas y alimentos. Es ampliamente utilizado en la industria química. La concentración de sulfato en el agua de mar es de 2700mg/L aproximadamente, en el agua dulce varía de 3 a 30 mg/L aunque en algunos cuerpos de agua puede encontrarse hasta 1000mg/L.

- *Conductividad*: El agua pura no es un buen conductor de energía eléctrica, sino un buen aislante. Si hay una gran concentración de iones, la conductividad aumenta. Generalmente, la cantidad de sólidos disueltos determina la conductividad eléctrica. De acuerdo con la OMS, el valor de la conductividad eléctrica no debe exceder los 400μS/cm.

- *Organic carbon*: El carbono orgánico total (TOC) en el agua proviene de materia orgánica en descomposición. Concentraciones menores a 2mg/L son aceptables en agua bebible.

- *Trihalomethanes*: Los trihalometanos son sustancias que pueden estar presentes en agua tratada con cloro, su concentración en agua potable depende de la cantidad de materia orgánica en el agua, la cantidad de cloro utilizada y la temperatura del agua. Niveles menores a 800mg/L se consideran seguros.

- *Turbidity*: La turbidez del agua es una medida de las propiedades emisoras de luz del agua y depende de la cantidad de materia sólida presente en estado de suspensión, por lo que se utiliza para indicar la calidad de la descarga de desechos. El valor recomendado por la OMS es de 5NTU (Nephelometric Turbidity Unit).

- *Potability*: Indica si el agua es segura para el consumo humano, 1 significa POTABLE y 0 significa NO POTABLE.





## Análisis Exploratorio de Datos

In [None]:
# se importan los paquetes necesarios
import pandas as pd
import numpy as np

In [None]:
# se realiza la lectura de datos
df_original = pd.read_csv('https://raw.githubusercontent.com/MGuadalupeVazquez/Proyecto-final-BEDU/main/drinking_water_potability.csv')
df_original.head()

Unnamed: 0,ph,Hardness,Solids,Chloramines,Sulfate,Conductivity,Organic_carbon,Trihalomethanes,Turbidity,Potability
0,,204.890456,20791.31898,7.300212,368.516441,564.308654,10.379783,86.99097,2.963135,0
1,3.71608,129.422921,18630.05786,6.635246,,592.885359,15.180013,56.329076,4.500656,0
2,8.099124,224.236259,19909.54173,9.275884,,418.606213,16.868637,66.420093,3.055934,0
3,8.316766,214.373394,22018.41744,8.059332,356.886136,363.266516,18.436525,100.341674,4.628771,0
4,9.092223,181.101509,17978.98634,6.5466,310.135738,398.410813,11.558279,31.997993,4.075075,0


Al utilizar la función pd.read_csv para cargar los CSV, esta los devuelve como DataFrames, lo que se verifica a continuación:

In [None]:
print('El Dataframe es de tipo', type(df_original))

El Dataframe es de tipo <class 'pandas.core.frame.DataFrame'>


De acuerdo a su descripción en Kaggle, el dataframe contiene información sobre 3276 cuerpos de agua con las 10 características anteriormente descritas, verifiquemos esto.

Ya se mostraron los primeros registros del DataFrame, ahora veamos las últimas filas:

In [None]:
df_original.tail()

Unnamed: 0,ph,Hardness,Solids,Chloramines,Sulfate,Conductivity,Organic_carbon,Trihalomethanes,Turbidity,Potability
3271,4.668102,193.681736,47580.9916,7.166639,359.948574,526.424171,13.894419,66.687695,4.435821,1
3272,7.808856,193.553212,17329.80216,8.061362,,392.44958,19.903225,,2.798243,1
3273,9.41951,175.762646,33155.57822,7.350233,,432.044783,11.03907,69.8454,3.298875,1
3274,5.126763,230.603758,11983.86938,6.303357,,402.883113,11.168946,77.488213,4.708658,1
3275,7.874671,195.102299,17404.17706,7.509306,,327.459761,16.140368,78.698446,2.309149,1


Si los índices están correctamente ordenados, sí tenemos los 3276 registros pues la indexación comenzó en 0. Veamos las dimensiones del dataset:

In [None]:
print(f"El DataFrame contiene {df_original.shape[0]} filas y {df_original.shape[1]} columnas")

El DataFrame contiene 3276 filas y 10 columnas


Ahora comenzaremos con el análisis de las columnas del Dataframe, para ello utilizaremos el método `info` pues nos permite ver el nombre de cada columna, la cantidad de valores no nulos por columna y el tipo de dato.

In [None]:
df_original.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3276 entries, 0 to 3275
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   ph               2785 non-null   float64
 1   Hardness         3276 non-null   float64
 2   Solids           3276 non-null   float64
 3   Chloramines      3276 non-null   float64
 4   Sulfate          2495 non-null   float64
 5   Conductivity     3276 non-null   float64
 6   Organic_carbon   3276 non-null   float64
 7   Trihalomethanes  3114 non-null   float64
 8   Turbidity        3276 non-null   float64
 9   Potability       3276 non-null   int64  
dtypes: float64(9), int64(1)
memory usage: 256.1 KB


Notemos que los tipos de dato son correctos en todos los casos. Si bien nuestro conjunto de datos no es muy grande, creemos que son suficientes para responder nuestras preguntas planteadas inicialmente, aunque la columna `Sulfate` es la que tiene menos datos no nulos.

Los nombres de las columnas son apropiados, pero podríamos escribirlos en minúsculas por simplicidad. 

In [None]:
new_cols = {mayus:minus for (mayus,minus) in zip(df_original.columns,df_original.columns.str.lower())}
new_cols

{'ph': 'ph',
 'Hardness': 'hardness',
 'Solids': 'solids',
 'Chloramines': 'chloramines',
 'Sulfate': 'sulfate',
 'Conductivity': 'conductivity',
 'Organic_carbon': 'organic_carbon',
 'Trihalomethanes': 'trihalomethanes',
 'Turbidity': 'turbidity',
 'Potability': 'potability'}

In [None]:
df_original = df_original.rename(columns=new_cols)

Mostremos algunas filas al azar:

In [None]:
df_original.sample(5)

Unnamed: 0,ph,hardness,solids,chloramines,sulfate,conductivity,organic_carbon,trihalomethanes,turbidity,potability
2833,8.149437,220.203734,23978.10768,7.384126,360.414005,461.804548,13.364677,103.38021,4.949257,1
904,5.949519,160.442631,16898.8083,6.045906,367.328542,451.012788,16.359951,62.368234,4.072198,0
2533,6.76806,179.805992,23793.03136,5.332099,333.198191,461.530446,13.557381,60.571241,4.145807,0
927,6.751699,203.400452,26325.8177,8.36547,341.895636,381.440388,19.527319,58.293945,3.756007,0
1647,6.755669,209.362075,13821.55616,7.557415,334.619524,499.070909,19.339143,81.098746,3.959518,0


Aquí es posible que se muestren algunos NaNs, pero desde que visualizamos las primeras filas con el atributo `head()` ya notábamos la presencia de datos faltantes.

Contemos la cantidad de datos nulos por columna:

In [None]:
df_original.isna().sum()

ph                 491
hardness             0
solids               0
chloramines          0
sulfate            781
conductivity         0
organic_carbon       0
trihalomethanes    162
turbidity            0
potability           0
dtype: int64

Si bien, la cantidad de faltantes en `sulfate` llama bastante la atención, pongámoslo en perspectiva calculando qué porcentaje de nuestros datos totales representa, para ello emplearemos la función `calcula_porcentajes()`.

In [None]:
# porcentaje de valores nulos
def calcula_porcentajes(df):
  print(df.isna().sum()/len(df)*100) # len = df.shape[0] = numero de registros

In [None]:
calcula_porcentajes(df_original)

ph                 14.987790
hardness            0.000000
solids              0.000000
chloramines         0.000000
sulfate            23.840049
conductivity        0.000000
organic_carbon      0.000000
trihalomethanes     4.945055
turbidity           0.000000
potability          0.000000
dtype: float64


Casi una cuarta parte del dataset con datos faltantes están en la columna `sulfate`, por lo que tendremos que buscar la mejor manera de lidiar con ellos.

## Limpieza de datos

Por simplicidad podríamos pensar en eliminar los registros incompletos, aunque dicha acción podría llevarnos a una gran pérdida de información, aproximadamente más de una cuarta parte del dataset. Veamos qué sucede:

In [None]:
print(f"Se conservan {df_original.dropna(axis=0).shape[0]} datos,\
 el {df_original.dropna(axis=0).shape[0]/df_original.shape[0]*100:.4f}%")

Se conservan 2011 datos, el 61.3858%


Utilizar menos de dos terceras partes del dataset original no tiene mucho sentido. Entonces podríamos pensar en rellenar los valores faltantes, pero en nuestro contexto, consideramos que no es la mejor práctica, ya que cada registro corresponde a un cuerpo de agua diferente. Y en los trabajos previos consultados, los análisis se realizan para un único cuerpo de agua. 
Debido a esto, no podemos llenar el dato faltante con el promedio de otros registros que no guardan relación alguna, ni tampoco rellenar con un número fijo, dado que los valores de los parámetros aceptables para determinar que cierta agua es apta para consumo son muy estrictos, en otras palabras, oscilan en intervalos muy delimitados.

Si prescindimos de las columnas faltantes, estaríamos perdiendo 3 de 9 características, es decir, una tercera parte. La columna de pH es importante tanto a nivel de salud como para responder nuestras preguntas. Por lo tanto, eliminaremos únicamente la columna `sulfate`, con la esperanza de recuperarla en un futuro a traves de la prediccion por medio de las demás características.

In [None]:
df_col_drop = df_original.drop(columns=['sulfate'])
df_col_drop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3276 entries, 0 to 3275
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   ph               2785 non-null   float64
 1   hardness         3276 non-null   float64
 2   solids           3276 non-null   float64
 3   chloramines      3276 non-null   float64
 4   conductivity     3276 non-null   float64
 5   organic_carbon   3276 non-null   float64
 6   trihalomethanes  3114 non-null   float64
 7   turbidity        3276 non-null   float64
 8   potability       3276 non-null   int64  
dtypes: float64(8), int64(1)
memory usage: 230.5 KB


Ahora podemos eliminar los registros con datos faltantes, sin generar una pérdida grande de información:

In [None]:
print(f"Se conservan {df_col_drop.dropna(axis=0).shape[0]} datos,\
 el {df_col_drop.dropna(axis=0).shape[0]/df_col_drop.shape[0]*100:.4f}%")

Se conservan 2649 datos, el 80.8608%


Trabajar con el 80% de los datos parece mucho más cordial:

In [None]:
df = df_col_drop.dropna(axis=0)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2649 entries, 1 to 3275
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   ph               2649 non-null   float64
 1   hardness         2649 non-null   float64
 2   solids           2649 non-null   float64
 3   chloramines      2649 non-null   float64
 4   conductivity     2649 non-null   float64
 5   organic_carbon   2649 non-null   float64
 6   trihalomethanes  2649 non-null   float64
 7   turbidity        2649 non-null   float64
 8   potability       2649 non-null   int64  
dtypes: float64(8), int64(1)
memory usage: 207.0 KB


Ya tenemos un dataset limpio, de un tamaño aceptable y con las columnas necesarias para nuestro análisis. 

Reindexamos el dataset antes de guardarlo:

In [None]:
df.reset_index(drop=True, inplace=True)

In [None]:
df.to_csv('water_clean.csv')

## Respondiendo las preguntas

Ahora que el dataset ha sido procesado, podemos aplicarle varias funciones para responder nuestras preguntas. Separaremos el dataset en dos, uno de agua potable y otro de la no potable, para hacer más breves las instrucciones.

In [None]:
potable = df[df['potability']==1]
potable.shape

(1052, 9)

In [None]:
no_potable = df[df['potability']==0]
no_potable.shape

(1597, 9)

Tenemos más información de cuerpos de agua no potable, que potable.

### ¿Qué valores de pH son aceptables en el agua potable?

In [None]:
print('pH mínimo: ',potable['ph'].min())
print('pH máximo: ',potable['ph'].max())
print('pH promedio: ',potable['ph'].mean())

pH mínimo:  0.22749905
pH máximo:  11.89807803
pH promedio:  7.072624780707224


El rango de pH en cuerpos de agua potable va desde 0.22 hasta 11.89, un rango bastante amplio dentro de los ácidos. Sin embargo, en promedio el pH es neutro, ya que es cercano a 7.

### ¿Es posible que una muestra de agua tenga un pH neutro y no sea agua potable?

In [None]:
no_potable[no_potable['ph']==7]

Unnamed: 0,ph,hardness,solids,chloramines,conductivity,organic_carbon,trihalomethanes,turbidity,potability


No hay cuerpos de agua no potable con un pH exacto de 7, así que probaremos con un pequeño intervalo alrededor de 7.

In [None]:
neutro = (no_potable['ph']>6.9) & (no_potable['ph']<7.1)
no_potable[neutro]

Unnamed: 0,ph,hardness,solids,chloramines,conductivity,organic_carbon,trihalomethanes,turbidity,potability
13,7.051786,211.049406,30980.60079,10.094796,315.141267,20.397022,56.651604,4.268429,0
35,6.953864,209.638293,10575.18628,4.462707,391.184315,13.285334,87.390889,3.195710,0
72,6.953372,203.146547,11609.10905,5.495738,551.143337,9.387781,55.958006,3.651866,0
74,7.077874,220.670540,23873.37821,6.181840,333.050786,10.661799,90.297770,4.764508,0
101,6.912608,155.740495,17973.17886,4.916303,439.648051,18.380712,55.507468,2.612249,0
...,...,...,...,...,...,...,...,...,...
2425,6.901111,154.474092,21103.30319,7.928700,450.252974,14.643306,71.321372,3.616498,0
2445,6.988206,144.209535,33357.51586,6.771945,409.006789,17.880332,54.111785,1.899683,0
2495,6.968209,178.217311,39995.18627,8.930689,393.676958,14.243374,75.375743,3.632644,0
2497,6.920800,218.098612,13477.38159,5.659837,302.412374,11.054578,61.933779,4.915733,0


Hay 87 cuerpos de agua con un pH bastante cercano al 7.

La respuesta de estas dos primeras preguntas nos permite deducir que no es posible determinar la potabilidad del agua simplemente por su pH.

### ¿Cuál es la cantidad máxima aceptada de contaminantes?

La pregunta es ambigüa en el sentido de que pueden encontrarse muchos tipos de contaminantes en el agua. En nuestro dataset tenemos información de sólidos disueltos totales, cloraminas, carbón orgánico y trihalometanos. Determinaremos el rango de valores de estos parámetros en agua potable.

In [None]:
print(f"Intervalo de concentraciones aceptables de Sólidos Disueltos Totales en\
 agua potable: ({potable['solids'].min():.2f}, {potable['solids'].max():.2f}) mg/L")

Intervalo de concentraciones aceptables de Sólidos Disueltos Totales en agua potable: (728.75, 56488.67) mg/L


In [None]:
print(f"Intervalo de concentraciones aceptables de cloraminas en\
 agua potable: ({potable['chloramines'].min():.2f}, {potable['chloramines'].max():.2f}) mg/L")

Intervalo de concentraciones aceptables de cloraminas en agua potable: (0.53, 13.13) mg/L


In [None]:
print(f"Intervalo de concentraciones aceptables de trihalometanos en\
 agua potable: ({potable['organic_carbon'].min():.2f}, {potable['organic_carbon'].max():.2f}) mg/L")

Intervalo de concentraciones aceptables de trihalometanos en agua potable: (2.20, 23.60) mg/L


In [None]:
print(f"Intervalo de concentraciones aceptables de Carbono Orgánico en\
 agua potable: ({potable['trihalomethanes'].min():.2f}, {potable['trihalomethanes'].max():.2f}) mg/L")

Intervalo de concentraciones aceptables de Carbono Orgánico en agua potable: (8.18, 124.00) mg/L


### ¿Existen cuerpos de agua potable que no luzcan transparentes?

Como la turbidez se mide en NTU, investigando supimos que una transparencia >60 cm es equivalente a una turbidez de 10 NTU aproximadamente. Veamos qué registros superan este valor:

In [None]:
potable[potable['turbidity']>10]

Unnamed: 0,ph,hardness,solids,chloramines,conductivity,organic_carbon,trihalomethanes,turbidity,potability


Ningún cuerpo de agua satisface esta condición. Lo cual quiere decir que los cuerpos de agua potable lucen transparentes.

In [None]:
potable[potable['turbidity']<10]

Unnamed: 0,ph,hardness,solids,chloramines,conductivity,organic_carbon,trihalomethanes,turbidity,potability
198,9.445130,145.805402,13168.52916,9.444471,592.659021,8.606397,77.577460,3.875165,1
199,9.024845,128.096691,19859.67648,8.016423,451.143481,14.770863,73.778026,3.985251,1
200,6.800119,242.008082,39143.40333,9.501695,376.456593,11.432466,73.777275,3.854940,1
201,7.174135,203.408935,20401.10246,7.681806,315.549900,14.533510,74.405616,3.939896,1
202,7.657991,236.960889,14245.78912,6.289065,416.624189,10.464239,85.852769,2.437296,1
...,...,...,...,...,...,...,...,...,...
2644,6.069616,186.659040,26138.78019,7.747547,415.886955,12.067620,60.419921,3.669712,1
2645,4.668102,193.681736,47580.99160,7.166639,526.424171,13.894419,66.687695,4.435821,1
2646,9.419510,175.762646,33155.57822,7.350233,432.044783,11.039070,69.845400,3.298875,1
2647,5.126763,230.603758,11983.86938,6.303357,402.883113,11.168946,77.488213,4.708658,1


### ¿Cuántas y cuáles son las características mínimas para poder distinguir el agua potable de la que no lo es?

In [None]:
min_max = df.groupby(['potability'])[['ph', 'hardness', 'solids', 'chloramines', 'conductivity',\
                            'organic_carbon', 'trihalomethanes', 'turbidity']].agg([min,max])
min_max

Unnamed: 0_level_0,ph,ph,hardness,hardness,solids,solids,chloramines,chloramines,conductivity,conductivity,organic_carbon,organic_carbon,trihalomethanes,trihalomethanes,turbidity,turbidity
Unnamed: 0_level_1,min,max,min,max,min,max,min,max,min,max,min,max,min,max,min,max
potability,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
0,0.0,14.0,98.452931,304.235912,320.942611,56867.85924,1.683993,12.653362,181.483754,753.34262,4.371899,27.006707,0.738,120.030077,1.45,6.494749
1,0.227499,11.898078,73.492234,323.124,728.75083,56488.67241,0.530351,13.127,201.619737,695.369528,2.2,23.604298,8.175876,124.0,1.492207,6.494249


Ninguna característica toma valores en rangos disjuntos para el agua potable y no potable, por lo que, obviamente, una característica no es suficiente para determinar la potabilidad del agua.

## Planes futuros

Podrían analizarse las distribuciones de los datos para cada clase, con el fin de poder determinar intervalos de confianza para cada característica. Y no sólo los rangos, también queremos predecir la variable `sulfate` utilizando las demás características. Esto posiblemente se podría hacer utilizando un modelo de regresión multivariada. 
Por otro lado, sería interesante observar gráficos de dispersión por cada clase, para comenzar a seleccionar variables que nos permitan realizar una buena clasificación sin utilizar todas las características de los cuerpos de agua.

## Referencias Bibliográficas

1. Consejo Consultivo del Agua. (06 de octubre de 2016). *Agua: potabilidad, disponibilidad y uso en México.* Recuperado de https://www.aguas.org.mx/sitio/blog/noticias/item/832-agua-potabilidad-disponibilidad-y-uso-en-mexico.html#:~:text=La%20disponibilidad%20y%20calidad%20del,los%205%20mil%20metros%20c%C3%BAbicos el 08 de noviembre de 2022.

2. Comisión Nacional del Agua. (2015). *El agua en México*. Recuperado de https://biblioteca.semarnat.gob.mx/janium/Documentos/Ciga/Libros20 el 08 de noviembre de 2022.

3. Guo, X., Zhu, X., Yang, Z., Ma, J., Xiao, S., Ji, D., & Liu, D. (2020). Impacts of cascade reservoirs on the longitudinal variability of fine sediment characteristics: A case study of the Lancang and Nu Rivers. Journal of Hydrology, 581, 124343.

4. Moron, A. (2021). Predicción de consumo irregular del servicio de agua potable en métodos de machine learning en la provincia de Ilo [Tesis para optar por el Título Profesional de Ingeniero de Sistemas e Informática]. Universidad Nacional de Muquegua.