In [2]:
dir_to_files = 'C:\Users\Fabri\Documents\Documentos\PhD\Cursos\SeminarioCienciaDeDatos\TP1'

#set directory 
import os
os.chdir(dir_to_files)

In [None]:
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from  scipy import stats

#load file
file_name = 'tiempos.txt'

raw_data = np.loadtxt(file_name,skiprows=1)

In [None]:
#INSPECCION DE DATOS CRUDOS
cond_names=["Sol","Nublado","Lluvia"]   

#SEPARADO POR CONDICION
f, axarr = plt.subplots(3, 2) 
for i in range(1,4):
    axarr[i-1,0].hist(raw_data[:,i])    
    axarr[i-1,1].scatter(raw_data[:,0],raw_data[:,i])
    axarr[i-1,0].set_ylabel(cond_names[i-1])
    
axarr[2,0].set_xlabel('Tiempo')
axarr[2,1].set_xlabel('Corredor')    

plt.show()

In [None]:
#VISUALIZACIÓN DATOS CRUDOS JUNTOS
bins = np.linspace(0, 220, 100)

for i in range(1,4): 
    plt.hist(raw_data[:,i],bins,alpha=0.5, label=cond_names[i-1])

plt.xlabel('Tiempo')
plt.ylabel('Cuentas') 
plt.legend(loc='upper right')
plt.show()

markers = ['o','x','+']

for i in range(1,4):     
    plt.scatter(raw_data[:,0],raw_data[:,i], label=cond_names[i-1],marker=markers[i-1])


plt.xlabel('Corredor')
plt.ylabel('Tiempo') 
plt.legend(loc='upper right')
plt.show()

print('Por inspección visual se observa que hay un outlier en el caso de lluvia.')

In [None]:
#DETECCIÓN Y ELIMINACION DE OUTLIERS
#criterio de exclusión: se eliminarán aquellos valores por arriba o por debajo de dos desvíos estándar de la media de los datos
#por condición.

data = raw_data.copy()
for nr_cond in range(1,4):
    data_cond = data[:,nr_cond].copy()
    max_threshold = np.mean(data_cond) + 2 * np.std(data_cond)
    min_threshold = np.mean(data_cond) - 2 * np.std(data_cond)
    data_cond[data[:,nr_cond]>max_threshold] = np.nan
    data_cond[data[:,nr_cond]<min_threshold] = np.nan
    data[:,nr_cond] = data_cond
    
print(data)
print('Siguiendo este criterio se asigna como nan a un único outlier, que fue observado durante la insepcción.')

In [None]:
#VISUALIZACIÓN DATOS CURADOS, JUNTOS 
#(a partir de acá se trabajará con los datos curados solamente)
bins = np.linspace(0, 25, 10)

for i in range(1,4): 
    plt.hist(data[~np.isnan(data[:,i]),i],bins,alpha=0.5, label=cond_names[i-1])

plt.xlabel('Tiempo')
plt.ylabel('Cuentas') 
plt.legend(loc='upper right')
plt.show()

markers = ['o','x','+']

for i in range(1,4):     
    plt.scatter(data[~np.isnan(data[:,i]),0],data[~np.isnan(data[:,i]),i], label=cond_names[i-1],marker=markers[i-1])
        
plt.xlabel('Corredor')
plt.ylabel('Tiempo') 
plt.legend(loc='upper right')
plt.show()

In [None]:
#PRUEBAS DE NORMALIDAD E IGUALDAD DE VARIANZA

#Para determinar qué tipo de análisis estadísticos se podrán utilizar, realizamos pruebas de normalidad (Shapiro Wilk) 
#e igualdad de varianza (F-test).

#Shapiro-Wilk test de normalidad
for i in range(1,4):         
    print(cond_names[i-1] + ": p = " + str(round(stats.shapiro(data[~np.isnan(data[:,i]),i])[0],4)) + " (Shapiro-Wilk).")    


#TODO CONSULTAR F-test para igualdad de varianzas 
#mientras Levine test
for i1 in range(1,4):
    for i2 in range(i1+1,4):
        res = stats.levene(data[~np.isnan(data[:,i1]),i1],data[~np.isnan(data[:,i2]),i2],center='mean')
        print(cond_names[i1-1] + ' vs ' + cond_names[i2-1] + ': p = ' + str(round(res[1],4)) + ' (Levene Test).')
        
#El test de Shapiro-Wilk no rechaza la hipótesis de normalidad de los datos para cada condición.
#El test Levene indica que la condición de lluvia tiene una varianza significativamente diferente a las de las otras dos 
#condiciones. 
#Conclusión: Se podrá utilizar estadística paramétrica teniendo en cuenta la heterogeneidad de varianzas.        

In [None]:
#Abordaje de las preguntas
#1) Los Atletas son mas lentos en dias de lluvia que en día soleado
#T soleados lluvia, muewstras dep

# lluvia < sol (test de una cola) - no paramétrico
