# Ajuste de Oultiers
El presente notebook presenta un algoritmo para suavizar outliers en series temporales de variables ambientales. Se trabaja con los valores obtenidos por una red inalámbrica de sensores desplegada en un cultivo de cacao en una vereda del municipio de San Cayetano, Norte de Santander. Las mediciones analizadas corresponden a las variables Temperatura, Humedad Relativa, Humedad de la Tierra e Intensidad Lumínica.

### Importa los módulos necesarios y establece configuraciones

In [None]:
import pandas as pd
import matplotlib.pylab as plt
from matplotlib import cm
import seaborn as sns
import funs
from scipy.stats.stats import pearsonr
import warnings
warnings.filterwarnings('ignore')
# Se define un límite para las filas de los dataframes que se presenten en el notebook
pd.options.display.max_rows = 10

### Importa los registros de los nodos 2, 3 y 5 para el periodo 2

In [None]:
nodo = 2
periodo = 3
nodosp={}
for i in [2,3,5]:
    nodosp[i] = pd.read_csv('nodo%d_periodo%d.csv'%(i,periodo),
                                           parse_dates=True,index_col=0)
    nodosp[i] = nodosp[i].drop(columns=['HORA'])

### Grafica las mediciones de los tres nodos en gráficas separadas para cada variable

In [None]:
for i in range(4):
    plt.figure(figsize=[20,5])
    sub=510
    for n in nodosp:
        sub+=1
        plt.plot(nodosp[n].iloc[:,i],label='Nodo %d'%n)
        plt.title(nodosp[n].columns[i])
        plt.legend()
        plt.tight_layout()

### Se realizan copias del dataframe a analizar
- El llamado al módulo *funs* indica que la variable se se utiliza en funciones del módulo de manera global.

In [None]:
raw = nodosp[2]
funs.raw = raw.copy()
# filtrar para realzar un filtro de valores atípicos
# según un rango dundicado por teclado.
funs.filtrar = raw.copy()
# filtrado almacena almacenar el dataframe luego de aplicar filtro.
funs.filtrado = raw.copy() 
# Ajustado almacena el dataframe luego de aplicar el suavizado.
funs.ajustado = raw.copy()

### Grafica las variables temperatura y humedad de la tierra, el gráfico de dispersión de las dos variables y presenta la correlación entre las dos

In [None]:
funs.info_relation(raw,'TEMPERATURA','HUMEDAD RELATIVA')

### Aplica un filtro de rango para los valores, basado en el criterio de Tukey y el rango de medición de los sensores

In [None]:
#lim_menor = funs.filtro_menor(var1,var2, 20, 43, -1)
#lim_mayor = funs.filtro_mayor(var1,var2,20, 43, -1)
#print(lim_menor,lim_mayor)
funs.filtrar_variables('TEMPERATURA',20,35)


#lim_menor = funs.filtro_menor('HUMEDAD RELATIVA','TEMPERATURA', 19, 74, -1)
#lim_mayor = funs.filtro_mayor('HUMEDAD RELATIVA','TEMPERATURA',19, 74, -1)
#print(lim_menor,lim_mayor)
funs.filtrar_variables('HUMEDAD RELATIVA',10,74)
funs.info_relation(funs.filtrado,'TEMPERATURA','HUMEDAD RELATIVA')

In [None]:
funs.info_relation(funs.filtrado,'HUMEDAD DE LA TIERRA','HUMEDAD RELATIVA')

In [None]:
#var1= 'HUMEDAD DE LA TIERRA'
#var2= 'HUMEDAD RELATIVA'
#lim_menor = funs.filtro_menor(var2,var1, 68, 86, 1)
#lim_mayor = funs.filtro_mayor(var2,var1, 68, 86, 1)
#print(lim_menor,lim_mayor)
funs.filtrar_variables('HUMEDAD DE LA TIERRA',68,88)
funs.info_relation(funs.filtrado,'HUMEDAD DE LA TIERRA','HUMEDAD RELATIVA')

In [None]:
funs.info_relation(funs.filtrado,'INTENSIDAD LUMÍNICA','TEMPERATURA')

In [None]:
sns.heatmap(raw.corr(), annot=True, cmap='RdYlGn',fmt=".2f")
plt.figure()
sns.heatmap(funs.filtrado.corr(), annot=True, cmap='RdYlGn',fmt=".2f")

In [None]:
funs.ajuste_variacion('TEMPERATURA',50)
plt.figure(figsize=[17,5])
plt.plot(funs.ajustado.iloc[:,3],label='Nodo 2')
plt.plot(nodosp[3].iloc[:,3],label='Nodo 3')
plt.plot(nodosp[5].iloc[:,3],label='Nodo 5')
plt.legend()
plt.show()

funs.info_relation(funs.ajustado,'TEMPERATURA','HUMEDAD RELATIVA')

In [None]:
funs.ajuste_variacion('HUMEDAD RELATIVA',10)
plt.figure(figsize=[17,5])
plt.plot(funs.ajustado.iloc[:,1],label='Nodo 2')
plt.plot(nodosp[3].iloc[:,1],label='Nodo 3')
plt.plot(nodosp[5].iloc[:,1],label='Nodo 5')
plt.legend()
plt.show()

funs.info_relation(funs.ajustado,'TEMPERATURA','HUMEDAD RELATIVA')

In [None]:
funs.ajuste_variacion('HUMEDAD DE LA TIERRA',20)
plt.figure(figsize=[17,5])
plt.plot(funs.ajustado.iloc[:,0],label='Nodo 2')
plt.plot(nodosp[3].iloc[:,0],label='Nodo 3')
plt.plot(nodosp[5].iloc[:,0],label='Nodo 5')
plt.legend()
plt.show()
funs.info_relation(funs.ajustado,'HUMEDAD DE LA TIERRA','HUMEDAD RELATIVA')

funs.ajuste_variacion('INTENSIDAD LUMÍNICA',200)
plt.figure(figsize=[17,5])
plt.plot(funs.ajustado.iloc[:,2],label='Nodo 2')
plt.plot(nodosp[3].iloc[:,2],label='Nodo 3')
plt.plot(nodosp[5].iloc[:,2],label='Nodo 5')
plt.legend()
plt.show()
plt.figure()
funs.info_relation(funs.ajustado,'INTENSIDAD LUMÍNICA','TEMPERATURA')

In [None]:
sns.heatmap(raw.corr(), annot=True, cmap='RdYlGn',fmt=".2f")
plt.title('CORRELACIÓN DE LAS MEDICIONES DEL NODO %s' %nodo)
plt.figure()
sns.heatmap(funs.filtrado.corr(), annot=True, cmap='RdYlGn',fmt=".2f")
plt.title('MEDICIONES FILTRADAS DEL NODO %s' %nodo)
plt.figure()
sns.heatmap(funs.ajustado.corr(), annot=True, cmap='RdYlGn',fmt=".2f")
plt.title('MEDICIONES AJUSTADAS DEL NODO %s' %nodo)
plt.show()

In [None]:
funs.ajustado.hist(figsize=[15,3])
plt.show()

In [None]:
from IPython.display import display, Markdown, Latex
from scipy import stats
def relation(df,v1,v2,marca):
    'Permite visualizar la relación entre dos variables'
    df = df.loc[:,[v1, v2]].copy()
    corr = df.loc[:,[v1,v2]].corr().iloc[0,1]
    tabla = {'r':'ORIGINALES','d':'DUPLICADOS','a':'SUVIZADOS'}
    a=1  
    
    with plt.style.context(('seaborn')):

        plt.scatter(df[v1],df[v2],linewidths=.8,alpha=.6,label='Normales')
        x = df[v1]
        y = df[v2]
        slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)
        plt.plot(x, intercept + slope*x, 'g', label='Regresión Lineal')
                
        
        for v in [v1,v2]:
            li,ls = funs.tukey(df[v])
            try:
                ind = [[x,df[v][x]] for x in list(df[v].index)
                       if df[v].loc[x]<=li or df[v].loc[x]>=ls]
                df.loc[pd.DataFrame(ind).iloc[:,0],'o%d'%a] = pd.DataFrame(ind).iloc[:,1].values
                a+=1
                try:
                    plt.scatter(df['o1'],df[v2],color='r',label='Atípicos')
                except KeyError:
                    pass
                try: 
                    plt.scatter(df[v1],df['o2'],color='r',label='Atípicos')     
                except KeyError:
                    pass
                
            except (IndexError,NameError) as e:
                pass
    plt.xlabel('TEMPERATURA (°C)',fontsize=15)
    plt.ylabel('HUMEDAD RELATIVA (%RH)',fontsize=15)
    plt.legend()
    plt.title(r'VALORES %s $\rho$ = %.2f'%(tabla[marca],corr),fontsize=15)

In [None]:
with plt.style.context(('seaborn')):
    plt.figure(figsize=(20,6))
    plt.suptitle('GRÁFICOS DE DISPERSIÓN DE TEMPERATURA Y HUMEDAD RELATIVA',fontsize=15)
    plt.subplot(121)
    relation(raw,'TEMPERATURA','HUMEDAD RELATIVA','r')
    plt.subplot(122)
    relation(funs.ajustado,'TEMPERATURA','HUMEDAD RELATIVA','a')
    plt.savefig('disp.png', dpi=300)

In [None]:
import numpy as np
def graf(df,v1,marca):   
    'Permite visualizar la relación entre dos variables'
    global nodosp
    df = pd.DataFrame({v1:df.loc[:,v1].copy()})
    tabla = {'r':'ORIGINALES','d':'DUPLICADOS','s':'SUVIZADOS'}
    a=1      
    with plt.style.context(('seaborn')):

        plt.plot(df[v1],label='Nodo 2')
        plt.plot(nodosp[3].loc[:,'HUMEDAD RELATIVA'],label='Nodo 3',color='orange')
        plt.plot(nodosp[5].loc[:,'HUMEDAD RELATIVA'],label='Nodo 5',color='green')

        
        for v in [v1]:
            li,ls = funs.tukey(df[v])
            try:
                ind = [[x,df[v][x]] for x in list(df[v].index)
                       if df[v].loc[x]<=li or df[v].loc[x]>=ls]
                df.loc[pd.DataFrame(ind).iloc[:,0],'o%d'%a] = pd.DataFrame(ind).iloc[:,1].values
                a+=1
                try:
                    plt.plot(df['o1'],'ro',label='Atípicos')
                except KeyError:
                    pass
                
            except (IndexError,NameError) as e:
                pass
        plt.xlabel('FECHA',fontsize=15)
        plt.ylabel('HUMEDAD RELATIVA (%RH)',fontsize=15)
        plt.legend()
        if marca=='s':
            legend = plt.legend(title="NODOS",fancybox=True)
        else:
            legend = plt.legend(title="NODOS",fancybox=True)
        plt.title(r'VALORES %s'%(tabla[marca]),fontsize=15)

In [None]:
plt.figure(figsize=(20,6))
plt.suptitle('GRÁFICOS DE TEMPERATURA',fontsize=15)
plt.subplot(121)


graf(raw,'TEMPERATURA','r')
plt.subplot(122)

graf(funs.ajustado,'TEMPERATURA','s')
plt.savefig('graft.png', dpi=300)

In [None]:
plt.figure(figsize=(20,6))
plt.suptitle('GRÁFICOS DE HUMEDAD RELATIVA',fontsize=15)
plt.subplot(121)
graf(raw,'HUMEDAD RELATIVA','r')

plt.subplot(122)

graf(funs.ajustado,'HUMEDAD RELATIVA','s')
plt.savefig('graf.png', dpi=300)

In [None]:
(funs.ajustado).to_csv('ajustado.csv')

In [None]:
nodo = pd.read_csv('ajustado.csv',
                   parse_dates=True,index_col=0)

In [None]:
nodo