# Preparar datos químicos: ejemplo con el formato de CH Segura
La CH del Segura tiene los datos de la red química de aguas subterráneas en

https://www.chsegura.es/es/cuenca/redes-de-control/calidad-en-aguas-subterraneas/acceso-a-los-datos/

Aquí cambiamos el formato de algunos datos descargados para que se adecúen a la entrada de datos en GWChemPlot

In [1]:
import numpy as np
import pandas as pd

In [2]:
# vistazo al fichero descargado
fchs = r'E:\tmp\bajo_guadalentin.csv'
df = pd.read_csv(fchs, dtype={'Cod Masa':'string', 'Cod. Parámetro':'string'}, keep_default_na=False)
df.head()

Unnamed: 0,Estación,Fecha Toma,Cod. Parámetro,Nom. Parámetro,Unidades,Valor numérico,Valor texto,Coord. X,Coord. Y,Cod Masa,Nombre Masa,Municipio,Provincia,UH Geo,UH Geo Nombre,Acuifero,Profundidad,Nombre C.A
0,CA0730-SIC01,23/03/2021,TRIFLURALINA,Trifluralina,µg/L,0.0,"< 0,0060",622985,4172943,70.05,BAJO GUADALENTÍN,Lorca,MURCIA,7.3,BAJO GUADALENTIN,BAJO GUADALENTIN,180.0,"Murcia, Región de"
1,CA0730-SIC01,18/06/2021,TRIFLURALINA,Trifluralina,µg/L,0.0,"< 0,0060",622985,4172943,70.05,BAJO GUADALENTÍN,Lorca,MURCIA,7.3,BAJO GUADALENTIN,BAJO GUADALENTIN,180.0,"Murcia, Región de"
2,CA0730-SIC01,07/10/2020,TRIFLURALINA,Trifluralina,µg/L,0.0,"< 0,0060",622985,4172943,70.05,BAJO GUADALENTÍN,Lorca,MURCIA,7.3,BAJO GUADALENTIN,BAJO GUADALENTIN,180.0,"Murcia, Región de"
3,CA0730-SIC01,16/06/2020,TRIFLURALINA,Trifluralina,µg/L,0.0,"< 0,0060",622985,4172943,70.05,BAJO GUADALENTÍN,Lorca,MURCIA,7.3,BAJO GUADALENTIN,BAJO GUADALENTIN,180.0,"Murcia, Región de"
4,CA0730-SIC01,23/02/2022,TRIFLURALINA,Trifluralina,µg/L,0.0,"< 0,0060",622985,4172943,70.05,BAJO GUADALENTÍN,Lorca,MURCIA,7.3,BAJO GUADALENTIN,BAJO GUADALENTIN,180.0,"Murcia, Región de"


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9612 entries, 0 to 9611
Data columns (total 18 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Estación        9612 non-null   object 
 1   Fecha Toma      9612 non-null   object 
 2   Cod. Parámetro  9612 non-null   string 
 3   Nom. Parámetro  9612 non-null   object 
 4   Unidades        9612 non-null   object 
 5   Valor numérico  9612 non-null   float64
 6   Valor texto     9612 non-null   object 
 7   Coord. X        9612 non-null   int64  
 8   Coord. Y        9612 non-null   int64  
 9   Cod Masa        9612 non-null   string 
 10  Nombre Masa     9612 non-null   object 
 11  Municipio       9612 non-null   object 
 12  Provincia       9612 non-null   object 
 13  UH Geo          9612 non-null   float64
 14  UH Geo Nombre   9612 non-null   object 
 15  Acuifero        9612 non-null   object 
 16  Profundidad     9612 non-null   object 
 17  Nombre C.A      9612 non-null   o

In [4]:
# Otro repaso a valores NA u NaN
df.isna().sum()

Estación          0
Fecha Toma        0
Cod. Parámetro    0
Nom. Parámetro    0
Unidades          0
Valor numérico    0
Valor texto       0
Coord. X          0
Coord. Y          0
Cod Masa          0
Nombre Masa       0
Municipio         0
Provincia         0
UH Geo            0
UH Geo Nombre     0
Acuifero          0
Profundidad       0
Nombre C.A        0
dtype: int64

In [5]:
# simplifico nombre de columnas
new_col_names = {'Estación':'id', 'Fecha Toma':'fecha', 'Cod. Parámetro':'param', 'Nom. Parámetro':'param_name',
                 'Unidades' : 'uds' ,'Valor numérico':'v', 'Valor texto':'vstr', 'Cod Masa':'msbt',
                 'Acuifero':'acu', 'Profundidad':'prof'}
df.rename(columns = new_col_names, inplace = True)

In [6]:
# ajusto los tipos de las columnas
df["id"] = df["id"].astype('string')
df["fecha"] = pd.to_datetime(df["fecha"], format='%d/%m/%Y')
df["param_name"] = df["param_name"].astype('string')
df["uds"] = df["uds"].astype('string')
df["v"] = df["v"].astype('float32')
df["vstr"] = df["vstr"].astype('string')
df["msbt"] = df["msbt"].astype('category')
df["acu"] = df["acu"].astype('category')
df["prof"] = df["prof"].astype('str')

In [7]:
# rango de fechas de mis datos
print("Minimum date:", df['fecha'].min())
print("Maximum date:", df['fecha'].max())

Minimum date: 1989-10-25 00:00:00
Maximum date: 2022-10-26 00:00:00


In [8]:
# Datos por id (cada fila es un parámetro)
df.groupby('id')['fecha'].agg(['min', 'max', 'count'])

Unnamed: 0_level_0,min,max,count
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
CA0730-SIC01,2020-06-16,2022-10-26,553
CA0730-SIC02,2021-10-27,2021-10-27,91
CA0730001S,2012-11-29,2021-10-28,989
CA0730002,1989-10-25,2022-08-23,4032
CA07NI-28,2007-02-13,2022-10-26,2587
PC-073009703SS,2012-03-15,2020-03-05,1360


In [9]:
# selecciono las columnas con las que voy a trabajar
use_cols = [v for v in new_col_names.values()]
use_cols

['id',
 'fecha',
 'param',
 'param_name',
 'uds',
 'v',
 'vstr',
 'msbt',
 'acu',
 'prof']

In [10]:
# paso el contenido de param a minúsculas
df['param'] = df['param'].str.lower() 
# veo como queda
df = df[use_cols]
df

Unnamed: 0,id,fecha,param,param_name,uds,v,vstr,msbt,acu,prof
0,CA0730-SIC01,2021-03-23,trifluralina,Trifluralina,µg/L,0.0,"< 0,0060",070.050,BAJO GUADALENTIN,180.0
1,CA0730-SIC01,2021-06-18,trifluralina,Trifluralina,µg/L,0.0,"< 0,0060",070.050,BAJO GUADALENTIN,180.0
2,CA0730-SIC01,2020-10-07,trifluralina,Trifluralina,µg/L,0.0,"< 0,0060",070.050,BAJO GUADALENTIN,180.0
3,CA0730-SIC01,2020-06-16,trifluralina,Trifluralina,µg/L,0.0,"< 0,0060",070.050,BAJO GUADALENTIN,180.0
4,CA0730-SIC01,2022-02-23,trifluralina,Trifluralina,µg/L,0.0,"< 0,0060",070.050,BAJO GUADALENTIN,180.0
...,...,...,...,...,...,...,...,...,...,...
9607,PC-073009703SS,2019-02-14,tricloet,Tricloroetileno (TRI),µg/L,0.0,"< 0,5",070.050,BAJO GUADALENTIN,
9608,PC-073009703SS,2019-02-14,tmb1,"1,2,4-trimetilbenceno",µg/l,0.0,"< 0,5",070.050,BAJO GUADALENTIN,
9609,PC-073009703SS,2019-02-14,trifluralina,Trifluralina,µg/L,0.0,"< 0,006",070.050,BAJO GUADALENTIN,
9610,PC-073009703SS,2019-02-14,trz,TRIAZOFOS,µg/L,0.0,"< 0,010",070.050,BAJO GUADALENTIN,


In [11]:
# Inspecciono param_name y param
sorted((df['param_name'] + ' | ' + df['param']).unique())

['(m,p-xileno) (mezcla técnica) | xilm+p',
 '1,1,1,2-TETRACLOROETANO | 4cleta',
 '1,1,1-Tricloroetano (metilcloroformo) | tce',
 '1,1,2,2-TETRACLOROETANO | 4cleta2',
 '1,1,2-Tricloroetano | 3cleta',
 '1,1-DICLOROETANO | 2cleta',
 '1,1-DICLOROETENO | 2clete',
 '1,1-DICLOROPROPENO | 2clprope',
 '1,2,3-TRICLOROPROPANO | 3clpro',
 '1,2,3-Triclorobenceno | tcb123',
 '1,2,4-Triclorobenceno | tcb124',
 '1,2,4-trimetilbenceno | tmb1',
 '1,2-DIBROMO-3-CLOROPROPANO | 2br2clpro',
 '1,2-DIBROMOETANO | 12dibr',
 '1,2-DICLOROETENO | 2clete2',
 '1,2-DICLOROPROPANO | 2clpropa',
 '1,2-diclorobenceno (o-diclorobenceno) | o-dicloro',
 '1,2-dicloroetano (EDC, cloruro de etileno) | dce',
 '1,3,5-TRIMETILBENCENO | tmb2',
 '1,3,5-Triclorobenceno | tcb135',
 '1,3-DICLOROPROPANO | 2clpro',
 '1,3-diclorobenceno (m-diclorobenceno) | dcb-m',
 '1,4-diclorobenceno (p-diclorobenceno) | dcb-p',
 "2,2',3,4,4'-Pentabromodifenil éter (PBDE 85) | pbde085",
 '2,2-DICLOROPROPANO | 2clpropa2',
 '2-CLOROTOLUENO | cltol',
 '4

In [12]:
"""
creo una nueva df solo con mayoritarios y conductividades
'suo4' for 'so4'
'bicarb' for 'hc03'
'carb' for co3
"""
mayor = df[df['param'].isin(['na', 'k', 'ca', 'mg', 'cl', 'suo4', 'bicarb', 'co3', 'no3',
                             'cond 20º', 'cond20situ', 'cond25'])]
mayor

Unnamed: 0,id,fecha,param,param_name,uds,v,vstr,msbt,acu,prof
40,CA0730-SIC01,2021-03-23,suo4,Sulfatos,mg/L SO4,1335.0,1335,070.050,BAJO GUADALENTIN,180.0
41,CA0730-SIC01,2021-06-18,suo4,Sulfatos,mg/L SO4,1269.0,1269,070.050,BAJO GUADALENTIN,180.0
42,CA0730-SIC01,2020-10-07,suo4,Sulfatos,mg/L SO4,1313.0,1313,070.050,BAJO GUADALENTIN,180.0
43,CA0730-SIC01,2020-06-16,suo4,Sulfatos,mg/L SO4,1360.0,1360,070.050,BAJO GUADALENTIN,180.0
44,CA0730-SIC01,2022-02-23,suo4,Sulfatos,mg/L SO4,1461.0,1461,070.050,BAJO GUADALENTIN,180.0
...,...,...,...,...,...,...,...,...,...,...
9559,PC-073009703SS,2019-02-14,k,POTASIO,mg/L K,34.0,34,070.050,BAJO GUADALENTIN,
9564,PC-073009703SS,2019-02-14,mg,MAGNESIO,mg/L Mg,501.0,> 200 (501)*,070.050,BAJO GUADALENTIN,
9567,PC-073009703SS,2019-02-14,na,SODIO,mg/L Na,755.0,> 200 (755)*,070.050,BAJO GUADALENTIN,
9574,PC-073009703SS,2019-02-14,no3,Nitratos,mg/L NO3,3.0,30,070.050,BAJO GUADALENTIN,


In [13]:
# actualizo el valor del algunos param 
mayor.loc[mayor['param'] == 'suo4', 'param'] = 'so4'
mayor.loc[mayor['param'] == 'bicarb', 'param'] = 'hco3'
mayor.loc[mayor['param'] == 'carb', 'param'] = 'co3'
mayor.loc[mayor['param'] == 'cond 20º', 'param'] = 'cond20'

In [14]:
# pivot mayoritarios
mayor.pivot(index=['id','fecha'], columns='param', values='v').reset_index()

param,id,fecha,ca,cl,cond20,cond20situ,cond25,hco3,k,mg,na,no3,so4
0,CA0730-SIC01,2020-06-16,444.0,988.0,,4880.0,,417.0,18.0,221.0,570.0,50.000000,1360.0
1,CA0730-SIC01,2020-10-07,460.0,966.0,,4500.0,,418.0,17.0,242.0,621.0,50.200001,1313.0
2,CA0730-SIC01,2021-03-23,493.0,967.0,,4120.0,,420.0,20.0,285.0,665.0,46.599998,1335.0
3,CA0730-SIC01,2021-06-18,434.0,982.0,,4140.0,,444.0,17.0,224.0,557.0,48.400002,1269.0
4,CA0730-SIC01,2022-02-23,510.0,946.0,,5030.0,,414.0,18.0,253.0,622.0,49.400002,1461.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
126,PC-073009703SS,2019-02-14,486.0,1117.0,,7430.0,,1927.0,34.0,501.0,755.0,3.000000,1393.0
127,PC-073009703SS,2019-06-05,208.0,1324.0,,6580.0,,253.0,31.0,368.0,760.0,0.000000,1427.0
128,PC-073009703SS,2019-09-24,483.0,1057.0,,6890.0,,582.0,35.0,515.0,778.0,1.300000,1263.0
129,PC-073009703SS,2019-11-21,422.0,1400.0,,6800.0,,2086.0,31.0,427.0,619.0,0.000000,1779.0


In [15]:
# Como param cond20 y cond25 tienen casi siempe valores NaN 
# cargo otra ver mayor sin estos param
mayor = df[df['param'].isin(['na', 'k', 'ca', 'mg', 'cl', 'suo4', 'bicarb', 'co3', 'no3',
                             'cond20situ'])]

In [16]:
# resultado final
mayor_pivot = mayor.pivot(index=['id','fecha'], columns='param', values='v').reset_index()
mayor_pivot

param,id,fecha,bicarb,ca,cl,cond20situ,k,mg,na,no3,suo4
0,CA0730-SIC01,2020-06-16,417.0,444.0,988.0,4880.0,18.0,221.0,570.0,50.000000,1360.0
1,CA0730-SIC01,2020-10-07,418.0,460.0,966.0,4500.0,17.0,242.0,621.0,50.200001,1313.0
2,CA0730-SIC01,2021-03-23,420.0,493.0,967.0,4120.0,20.0,285.0,665.0,46.599998,1335.0
3,CA0730-SIC01,2021-06-18,444.0,434.0,982.0,4140.0,17.0,224.0,557.0,48.400002,1269.0
4,CA0730-SIC01,2022-02-23,414.0,510.0,946.0,5030.0,18.0,253.0,622.0,49.400002,1461.0
...,...,...,...,...,...,...,...,...,...,...,...
126,PC-073009703SS,2019-02-14,1927.0,486.0,1117.0,7430.0,34.0,501.0,755.0,3.000000,1393.0
127,PC-073009703SS,2019-06-05,253.0,208.0,1324.0,6580.0,31.0,368.0,760.0,0.000000,1427.0
128,PC-073009703SS,2019-09-24,582.0,483.0,1057.0,6890.0,35.0,515.0,778.0,1.300000,1263.0
129,PC-073009703SS,2019-11-21,2086.0,422.0,1400.0,6800.0,31.0,427.0,619.0,0.000000,1779.0


In [23]:
# pongo los nombres de los param q voy a usar para hecer los graficos
new_col_names1 = {'id':'Id', 'fecha':'Fecha',
                 'cl':'Cl', 'suo4':'SO4', 'bicarb':'HCO3', 'no3':'NO3',
                 'na':'Na', 'k':'K' ,'ca':'Ca', 'mg':'Mg',
                 'cond20situ': 'Cond20situ'}
mayor_pivot.rename(columns = new_col_names1, inplace = True)
mayor_pivot

param,Id,Fecha,HCO3,Ca,Cl,Cond20situ,K,Mg,Na,NO3,SO4
0,CA0730-SIC01,2020-06-16,417.0,444.0,988.0,4880.0,18.0,221.0,570.0,50.000000,1360.0
1,CA0730-SIC01,2020-10-07,418.0,460.0,966.0,4500.0,17.0,242.0,621.0,50.200001,1313.0
2,CA0730-SIC01,2021-03-23,420.0,493.0,967.0,4120.0,20.0,285.0,665.0,46.599998,1335.0
3,CA0730-SIC01,2021-06-18,444.0,434.0,982.0,4140.0,17.0,224.0,557.0,48.400002,1269.0
4,CA0730-SIC01,2022-02-23,414.0,510.0,946.0,5030.0,18.0,253.0,622.0,49.400002,1461.0
...,...,...,...,...,...,...,...,...,...,...,...
126,PC-073009703SS,2019-02-14,1927.0,486.0,1117.0,7430.0,34.0,501.0,755.0,3.000000,1393.0
127,PC-073009703SS,2019-06-05,253.0,208.0,1324.0,6580.0,31.0,368.0,760.0,0.000000,1427.0
128,PC-073009703SS,2019-09-24,582.0,483.0,1057.0,6890.0,35.0,515.0,778.0,1.300000,1263.0
129,PC-073009703SS,2019-11-21,2086.0,422.0,1400.0,6800.0,31.0,427.0,619.0,0.000000,1779.0


In [24]:
cols = [v for v in new_col_names1.values()]
cols

['Id',
 'Fecha',
 'Cl',
 'SO4',
 'HCO3',
 'NO3',
 'Na',
 'K',
 'Ca',
 'Mg',
 'Cond20situ']

In [25]:
fo = r'C:\Users\solis\Documents\DEV\python3\Graphs\GWChemPlot\data\chs_bg_mayor.csv'
mayor_pivot[cols].to_csv(fo, index=False)