# Test de Correlacion / Varianza

El análisis exploratorio de datos (EDA) y las estadísticas descriptivas forman solo los pasos iniciales de cualquier proyecto de ciencia de datos. El siguiente aspecto importante en cualquier proceso de análisis de datos es probar la significancia estadística. En palabras más simples, es el paso de verificación para comprobar si los resultados obtenidos durante la fase EDA fueron realmente confiables o son simplemente el resultado de una casualidad. La mayoría de las veces, la pura casualidad (o la aleatoriedad) juega un papel tan importante en el proceso de recopilación de datos, debido a limitaciones de presupuesto, tiempo o éticas, que es esencial evitar ser engañado por una muestra de datos.

Las pruebas de significación/hipótesis estadística  juegan un papel particularmente importante en el proceso de diseño experimental (como ya lo hemos visto las pruebas A/B son un ejemplo). Para validar (o invalidar) una hipótesis sobre una población, se seleccionan dos muestras al azar (aquí, por 'población' nos referimos a un grupo completo de objetos en consideración, como una cartera de clientes, dos versiones de una página web, productos lanzados al mercado con algunos cambios, etc.) . Una muestra (llamada grupo experimental o de prueba) está expuesta a un tratamiento, mientras que la otra muestra (llamada grupo de control) no lo está. A partir de los datos recopilados, se construye una estadística de prueba. El paso final en la prueba de hipótesis implica la comparación del valor del estadístico de prueba con un valor crítico, o alternativamento, el cálculo de la probabilidad de que el estadístico de prueba muestre accidentalmente el efecto nulo cuando el efecto está realmente presente (codificado en p-value), para refutar (o no refutar) la hipótesis nula.

La estadística de prueba depende del tipo de datos (numéricos, categóricos u ordinales, etc.) y de la hipótesis sobre los datos (asociación entre variables, comparación de la media de dos grupos, etc.). Una prueba de hipótesis estadística particular codifica esta información sobre las variables y la naturaleza de la pregunta y genera una estadística de prueba junto con un valor p para esa estadística de prueba. Por lo tanto, la prueba de significancia estadística se reduce a elegir una prueba estadística en particular.

Hay dos tipos de pruebas: pruebas paramétricas y no paramétricas. Las pruebas paramétricas suelen hacer una suposición sobre la forma de los datos (por ejemplo, algunas pruebas suponen que los datos se distribuyen normalmente). Los ejemplos de pruebas paramétricas incluyen la prueba z, la prueba t, etc., donde, como, los ejemplos de pruebas no paramétricas incluyen la prueba chi-cuadrado, la prueba de suma de rangos de Wilcoxon / prueba U de Mann-Whitney, etc.

**¿Qué prueba utilizo?**

Como ya habras podido descubir a lo largo del desarrollo del curso, qué prueba estadística se debe usar depende del tipo de datos y la tarea en cuestión (correlación / asociación / comparación). El árbol a continuación es una guía útil para decidir qué prueba es apropiada para ese tipo particular de datos y tarea en cuestión.

![](https://miro.medium.com/max/1000/1*cLmkuFab5PAEA1jxPECNiQ.png)


Ejemplos de algunas de las pruebas estadísticas más comunes:

  * Prueba Chi-square: Como se ve en el árbol anterior, si la tarea en cuestión es verificar la asociación entre dos variables categóricas, se debe usar la prueba de chi-cuadrado.

  * Prueba de correlación: Si, por otro lado, se desea verificar la asociación entre dos variables continuas, se debe usar una prueba de correlación, como la r de Peason (determinación del coeficiente de correlación).

  * Prueba t: La prueba t se utiliza para comparar dos medias muestrales e inferir si esas dos muestras provienen de la misma población o de poblaciones diferentes. (Un caso especial de prueba t es una prueba t de una muestra, donde se supone que una de las distribuciones es una distribución estándar, por ejemplo, una distribución normal).

  * ANOVA : El análisis de varianza (ANOVA) se puede considerar como una generalización de la prueba t. ANOVA se utiliza para comparar las medias de más de dos muestras o dos grupos.

--- 

Veamos las aplicaciones de algunas de las pruebas estadísticas en datos de muestra. Trabajaremos con los datos disponibles en el github de pandas. El origen de los datos es interesante: un camarero registró información sobre cada propina que recibió durante un período de unos meses trabajando en uno de los restaurantes.

Como primer paso, exploramos los datos y obtenemos una buena idea de las características, verificamos si hay valores atípicos, verificamos si faltan datos, etc. En estos pasos, se pueden generar algunos gráficos. Entonces, uno puede comenzar a pensar en varias hipótesis que se pueden formular con base en estos datos.

Según los parte descriptiva, se pueden hacer algunas preguntas:

> ¿Los hombres dejan más propina que las mujeres? (prueba t)

> ¿Los fumadores dejan más propina que los no fumadores? (prueba t)

> ¿Es más probable que los hombres paguen la cena que las mujeres? (Prueba de chi-cuadrado)

> ¿La mayoría de los fumadores son hombres? (Prueba de chi-cuadrado)

> ¿El monto de la propina se correlaciona con el monto total de la factura? (Prueba de correlación)

> ¿Es más probable que los clientes dejen propinas más altas en un día particular de la semana? (ANOVA)

In [None]:
# Chi square : TEst para independencia
from scipy.stats import chi2_contingency
import pandas as pd
tips = pd.read_csv("https://raw.githubusercontent.com/mono0926/python-for-data-analytics/master/ch08/tips.csv")
print(tips.head() , "\n")
print("Time vs. Sex")
table_TimeSex = contingency_tab = pd.crosstab(tips['time'], tips['sex'])
print(table_TimeSex)

print("\n Tabla de Contingencia : Chi^2")
table_Chi2_TimeSex = chi2_contingency(contingency_tab, correction=False)
print(table_Chi2_TimeSex[0])
print(table_Chi2_TimeSex[1])
print(table_Chi2_TimeSex[2])
print(table_Chi2_TimeSex[3])





In [None]:
help(chi2_contingency)

In [None]:
# Correlacion lineal
from scipy.stats import pearsonr

pearsonr(tips['tip'], tips['total_bill'])

# import matplotlib.pyplot as plt
# plt.plot(tips['tip'], tips['total_bill'], '*')

In [None]:
help(pearsonr)

In [None]:
# prueba/test t
from scipy.stats import ttest_ind
non_smoker = tips[tips['smoker']=='No']['tip']
smoker = tips[tips['smoker']=='Yes']['tip']
ttest_ind(non_smoker, smoker, equal_var=False)

In [None]:
help(ttest_ind)

In [None]:
# ANOVA
from scipy.stats import f_oneway
thu = tips[tips['day']=='Thur']['tip']
fri = tips[tips['day']=='Fri']['tip']
sat = tips[tips['day']=='Sat']['tip']
sun = tips[tips['day']=='Sun']['tip']
f_oneway(thu, fri, sat, sun)