# Analisis de la calidad del agua.

![Imagen del agua](https://cdn-blog1.fibrasynormasdecolombia.com/wp-content/uploads/2018/04/CALIDAD_AGUA.jpg)

## Por Pablo Corvera.

## Introduccion:

La creciente demanda de agua, con la correspondiente presión sobre las cuencas hídricas provinciales e interprovinciales imponen, ante el deterioro en la calidad de sus aguas, establecer sistemas de vigilancia, alerta temprana y control de la contaminación.

El determinar la calidad del agua disponible es un requisito indispensable ante la función de suministrar el agua para consumo humano y abrevado de animales, el riego, la industria, fines recreativos o para la vida acuática. El estado de conservación de los recursos hídricos refleja el cuidado y preocupación tanto por el ambiente físico, como por el hombre y sus actividades en el largo plazo. La administración sustentable de nuestros recursos hídricos está por lo tanto íntimamente unida con la habilidad de garantizar tanto su cantidad y su calidad física, química y biológica.

La calidad del agua establece un conjunto de condiciones, entendidas como los niveles aceptables que deben cumplirse para asegurar la protección del recurso hídrico y la salud de la población en un territorio dado.

La determinación de los parámetros de calidad del agua debe realizarse en base a criterios físicos, químicos y biológicos, que consideran la dinámica de los procesos y elementos que los afectan, así como la capacidad del recurso o del ecosistema para soportar presiones y de su poder de autodepuración.Estos parámetros de calidad se fijan de manera diferenciada, de conformidad con los diversos usos a los que se va a destinar el recurso (consumo humano, riego, industria, ganadería, recreación, vida acuática, etc.).

### Parametros de la calidad del agua:

- Valor de pH: El PH es un parámetro importante para evaluar el equilibrio ácido-base del agua. También es el indicador de la condición ácida o alcalina del estado del agua. La OMS ha recomendado un límite máximo permisible de pH de 6,5 a 8,5. Los rangos de investigación actuales fueron de 6,52 a 6,83, que se encuentran en el rango de los estándares de la OMS.

- Dureza: La dureza es causada principalmente por sales de calcio y magnesio. Estas sales se disuelven a partir de depósitos geológicos a través de los cuales viaja el agua. El tiempo que el agua está en contacto con el material que produce dureza ayuda a determinar cuánta dureza hay en el agua cruda. La dureza se definió originalmente como la capacidad del agua para precipitar el jabón causado por el Calcio y el Magnesio. 

- Sólidos (Sólidos disueltos totales - TDS): El agua tiene la capacidad de disolver una amplia gama de minerales inorgánicos y algunos orgánicos o sales como potasio, calcio, sodio, bicarbonatos, cloruros, magnesio, sulfatos, etc. Estos minerales producen un- gusto deseado y color diluido en apariencia de agua. Este es el parámetro importante para el uso del agua. El agua con alto valor de TDS indica que el agua está altamente mineralizada. El límite deseable para TDS es 500 mg/l y el límite máximo es 1000 mg/l que se prescribe para beber. 

- Cloraminas: El cloro y la cloramina son los principales desinfectantes que se utilizan en los sistemas públicos de agua. Las cloraminas se forman más comúnmente cuando se agrega amoníaco al cloro para tratar el agua potable. Los niveles de cloro de hasta 4 miligramos por litro (mg/L o 4 partes por millón (ppm)) se consideran seguros en el agua potable. ---> Variable de entrada

- Sulfato: Los sulfatos son sustancias naturales que se encuentran en los minerales, el suelo y las rocas. Están presentes en el aire ambiente, las aguas subterráneas, las plantas y los alimentos. El principal uso comercial del sulfato es en la industria química. La concentración de sulfato en el agua de mar es de aproximadamente 2700 miligramos por litro (mg/L). Varía de 3 a 30 mg/L en la mayoría de los suministros de agua dulce, aunque se encuentran concentraciones mucho más altas (1000 mg/L) en algunas ubicaciones geográficas. 

- Conductividad: El agua pura no es un buen conductor de la corriente eléctrica sino un buen aislante. El aumento de la concentración de iones mejora la conductividad eléctrica del agua. Generalmente, la cantidad de sólidos disueltos en el agua determina la conductividad eléctrica. La conductividad eléctrica (CE) en realidad mide el proceso iónico de una solución que le permite transmitir corriente. De acuerdo con los estándares de la OMS, el valor de EC no debe exceder los 400 μS/cm. ---> Variable de entrada

- Carbono orgánico: el carbono orgánico total (TOC) en las fuentes de agua proviene de la materia orgánica natural en descomposición (NOM), así como de fuentes sintéticas. TOC es una medida de la cantidad total de carbono en compuestos orgánicos en agua pura. Según US EPA < 2 mg/L como TOC en agua tratada/bebible, y < 4 mg/Lt en agua de fuente que se usa para tratamiento.

- Trihalometanos: los THM son sustancias químicas que se pueden encontrar en el agua tratada con cloro. La concentración de THM en el agua potable varía según el nivel de materia orgánica en el agua, la cantidad de cloro requerida para tratar el agua y la temperatura del agua que se está tratando. Los niveles de THM de hasta 80 ppm se consideran seguros en el agua potable. 

- Turbidez: La turbidez del agua depende de la cantidad de materia sólida presente en estado de suspensión. Es una medida de las propiedades emisoras de luz del agua y la prueba se utiliza para indicar la calidad de la descarga de desechos con respecto a la materia coloidal. El valor medio de turbidez obtenido para Wondo Genet Campus (0,98 NTU) es inferior al valor recomendado por la OMS de 5,00 NTU. 

## Objetivo.


## Contenidos

1. Carga de datos.
2. Exploracion de datos
3. Limpieza de datos.
4. Presentacion de datos.
5. Conclusiones
6. Referencias

## Carga de datos

A continuacion se procede a instalar las librerias necesarias para llevar a cabo el analisis de datos.

In [7]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb


Y tambien el dataset a analizar.

In [10]:
ruta= "water_potability.csv"
df_calidad_agua = pd.read_csv(ruta)

## Exploracion de datos

Se muestran los datos de forma aleatoria

In [11]:
df_calidad_agua.sample(10)


Unnamed: 0,ph,Hardness,Solids,Chloramines,Sulfate,Conductivity,Organic_carbon,Trihalomethanes,Turbidity,Potability
507,7.121458,204.164139,20574.364258,7.089146,,353.927593,16.488156,57.022783,3.774601,0
2902,6.588007,244.94322,23898.974477,6.780936,273.736644,330.91482,9.250628,47.38874,4.216454,0
1504,6.277463,225.941935,22807.338851,7.38926,,328.68442,13.225666,50.803353,3.123166,1
1051,8.154841,202.317335,25620.771365,7.651668,367.224297,597.870073,11.802847,72.384762,3.696328,0
985,6.087306,214.556086,11628.336675,7.231927,,344.072028,13.232308,98.68662,3.666672,0
915,6.153369,237.139828,22052.034619,8.090494,306.23918,485.098483,17.075263,58.108259,4.030337,0
1331,6.057068,184.373232,14807.26849,5.753405,384.821967,462.00617,14.753055,34.26586,4.371748,0
1804,6.93147,156.841195,35793.757787,7.286336,384.654803,398.647944,17.858242,72.236525,4.249333,0
2425,7.744131,185.567618,30586.592663,8.04076,,314.425834,17.132369,59.871609,5.207683,1
792,3.940125,163.171653,25911.32168,4.13854,371.96718,487.985185,17.751705,63.612403,3.478005,1


In [4]:

df_calidad_agua.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3276 entries, 0 to 3275
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   ph               2785 non-null   float64
 1   Hardness         3276 non-null   float64
 2   Solids           3276 non-null   float64
 3   Chloramines      3276 non-null   float64
 4   Sulfate          2495 non-null   float64
 5   Conductivity     3276 non-null   float64
 6   Organic_carbon   3276 non-null   float64
 7   Trihalomethanes  3114 non-null   float64
 8   Turbidity        3276 non-null   float64
 9   Potability       3276 non-null   int64  
dtypes: float64(9), int64(1)
memory usage: 256.1 KB


In [6]:
df_calidad_agua.shape

(3276, 10)

Podemos observar que en la columna  ph, Sulfate y en menor cantidad Trihalomethanes contiene varios valores nulos.

## Limpieza de datos.

Ahora se procede a realizar la limpieza de los datos para su mejor comprension,teniendo en cuenta las siguientes consideraciones:

* Cambiar los nombres de las columnas.
* Llenar los valores nulos teniendo en cuenta el tipo de datos que se maneja (en este caso flotante)
* Redondear los datos numericos a 2 cifras.


In [12]:
#Cambiamos el nombre de todas las columnas
df_calidad_agua.columns=["pH","Dureza","Solidos","Cloraminas","Sulfatos","Conductividad","Cantidad de carbono organico","Tihalometanos","Turbidez","Indice de Potabilidad"]
df_calidad_agua

Unnamed: 0,pH,Dureza,Solidos,Cloraminas,Sulfatos,Conductividad,Cantidad de carbono organico,Tihalometanos,Turbidez,Indice de Potabilidad
0,,204.890455,20791.318981,7.300212,368.516441,564.308654,10.379783,86.990970,2.963135,0
1,3.716080,129.422921,18630.057858,6.635246,,592.885359,15.180013,56.329076,4.500656,0
2,8.099124,224.236259,19909.541732,9.275884,,418.606213,16.868637,66.420093,3.055934,0
3,8.316766,214.373394,22018.417441,8.059332,356.886136,363.266516,18.436524,100.341674,4.628771,0
4,9.092223,181.101509,17978.986339,6.546600,310.135738,398.410813,11.558279,31.997993,4.075075,0
...,...,...,...,...,...,...,...,...,...,...
3271,4.668102,193.681735,47580.991603,7.166639,359.948574,526.424171,13.894419,66.687695,4.435821,1
3272,7.808856,193.553212,17329.802160,8.061362,,392.449580,19.903225,,2.798243,1
3273,9.419510,175.762646,33155.578218,7.350233,,432.044783,11.039070,69.845400,3.298875,1
3274,5.126763,230.603758,11983.869376,6.303357,,402.883113,11.168946,77.488213,4.708658,1


In [14]:
#Llenado de valores nulos (se sustituye NaN por 0)
df_calidad_agua=df_calidad_agua.fillna(0)
df_calidad_agua

Unnamed: 0,pH,Dureza,Solidos,Cloraminas,Sulfatos,Conductividad,Cantidad de carbono organico,Tihalometanos,Turbidez,Indice de Potabilidad
0,0.000000,204.890455,20791.318981,7.300212,368.516441,564.308654,10.379783,86.990970,2.963135,0
1,3.716080,129.422921,18630.057858,6.635246,0.000000,592.885359,15.180013,56.329076,4.500656,0
2,8.099124,224.236259,19909.541732,9.275884,0.000000,418.606213,16.868637,66.420093,3.055934,0
3,8.316766,214.373394,22018.417441,8.059332,356.886136,363.266516,18.436524,100.341674,4.628771,0
4,9.092223,181.101509,17978.986339,6.546600,310.135738,398.410813,11.558279,31.997993,4.075075,0
...,...,...,...,...,...,...,...,...,...,...
3271,4.668102,193.681735,47580.991603,7.166639,359.948574,526.424171,13.894419,66.687695,4.435821,1
3272,7.808856,193.553212,17329.802160,8.061362,0.000000,392.449580,19.903225,0.000000,2.798243,1
3273,9.419510,175.762646,33155.578218,7.350233,0.000000,432.044783,11.039070,69.845400,3.298875,1
3274,5.126763,230.603758,11983.869376,6.303357,0.000000,402.883113,11.168946,77.488213,4.708658,1


In [15]:
#Redondeo de datos numeros a 2 cifras

df_calidad_agua=df_calidad_agua.round(2)
df_calidad_agua

Unnamed: 0,pH,Dureza,Solidos,Cloraminas,Sulfatos,Conductividad,Cantidad de carbono organico,Tihalometanos,Turbidez,Indice de Potabilidad
0,0.00,204.89,20791.32,7.30,368.52,564.31,10.38,86.99,2.96,0
1,3.72,129.42,18630.06,6.64,0.00,592.89,15.18,56.33,4.50,0
2,8.10,224.24,19909.54,9.28,0.00,418.61,16.87,66.42,3.06,0
3,8.32,214.37,22018.42,8.06,356.89,363.27,18.44,100.34,4.63,0
4,9.09,181.10,17978.99,6.55,310.14,398.41,11.56,32.00,4.08,0
...,...,...,...,...,...,...,...,...,...,...
3271,4.67,193.68,47580.99,7.17,359.95,526.42,13.89,66.69,4.44,1
3272,7.81,193.55,17329.80,8.06,0.00,392.45,19.90,0.00,2.80,1
3273,9.42,175.76,33155.58,7.35,0.00,432.04,11.04,69.85,3.30,1
3274,5.13,230.60,11983.87,6.30,0.00,402.88,11.17,77.49,4.71,1
