<a href="https://colab.research.google.com/github/al34n1x/DataScience/blob/master/4.Estadistica/Estadistica_Sesi%C3%B3n_4_con_soluciones.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Intro a la estadística (Sesión 4)

---

## El test de Chi-cuadrado $\chi^2$

La prueba Chi-cuadrado se usa para datos discretos (categorizados), por ejemplo:

* Longitud del pie: continua.
* Talla de calzado: discreta.

Los datos geológicos discretos pueden ser:

* Tipo fósil (especie A, especie B, etc.).
* Clasificación de rocas (arenisca, caliza, lutita, etc.).
* Tipo de falla (normal, empuje, deslizamiento, etc.).

La prueba de Chi cuadrado proporciona una forma de evaluar qué tan probable es que los recuentos de datos discretos se ajusten a algún patrón esperado.

## Ejemplo de Chi-cuadrado

Tenemos muchos fósiles de trilobites de un depósito:

* Los fósiles son mudas.
* Tiene cranidia, librigena y pigidio.
* Debe tener una relación de 1: 2: 1.

¿Nuestros datos se apartan de esto? Si lo hace, podemos inferir un sesgo tafonómico, probablemente una clasificación actual.

![trilobite](http://www.trilobites.info/cepthopyg.gif)

![cranidium](http://upload.wikimedia.org/wikipedia/commons/thumb/1/19/Trilobite_cranidium-en.svg/270px-Trilobite_cranidium-en.svg.png)








## Ejemplo de Chi-cuadrado cont ...

La prueba de chi cuadrado requiere una tabla observada / esperada de esta forma:

|          | Registros reales | Esperados (basados en un ratio 1:2:1) |
|:---------|:------------------|:--------------------------------|
|Cranidia  | 20                |17.25                            |
|Librigena | 32                |34.5                             |
|Pygidia   | 17                |17.25                            |
|Total     | 69                |69                               |

Python proporciona una prueba de chi cuadrado mediante el método [scipy.stats.chisquare](http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chisquare.html), que prueba la hipótesis nula que los datos categóricos tienen las frecuencias dadas.

In [None]:
import numpy as np
from scipy import stats

Obs  = np.array([20, 32, 17])
Exp  = np.array([17.25, 34.5, 17.25])
s, p = stats.chisquare(Obs, Exp)
print ("p-value = {}".format(p))

p-value = 0.7322786244871056


Por lo tanto, aceptamos la hipótesis nula: la muestra de datos tiene las frecuencias esperadas.

## Supuestos de chi cuadrado

La prueba de Chi-cuadrado tiene una amplia aplicabilidad. No hay ningún requisito de normalidad, pero:

* Las frecuencias esperadas para cada categoría deberán ser 1 como mínimo.
* No más de un 20% de las categorías deberán tener frecuencias esperadas menores que 5.

# Ejercicio 4.1: Prueba de Chi-cuadrado

## Determine si las clasificaciones de calificaciones para un curso son atípicas

El análisis de las calificaciones generales del curso muestra que el desglose de las calificaciones típicas es el siguiente:

Reprobado: 4.3%
A: 9.5%
B: 18.4%
C: 38.4%
D: 29.4%

Ahora considere la siguiente distribución de resultados de dos grupos diferentes de estudiantes:

|Grade     | Grupo 1           |Grupo 2            |
|:---------|:------------------|:------------------|
|Reprobado | 3                 | 0                 |
|A         | 10                | 8                 |
|B         | 23                | 7                 |
|C         | 30                |25                 |
|D         | 20                |39                 |


**Considere a cada grupo por separado: ¿son sus resultados atípicos?**

## Sugerencia 1: La prueba de chi cuadrado se utiliza para determinar si los recuentos de observaciones discretas se ajustan a un patrón predeterminado de expectativas.

[scipy.stats.chisquare (obs, exp)](http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chisquare.html) - realice una prueba de Chi-cuadrado en matrices obs (Valores observados) y exp (Valores esperados)

Devuelve una tupla de (s_statistic, p_value), donde s_statistic es el valor de Chi-cuadrado (como con las otras pruebas, probablemente puede ignorar esto), y p_value es la probabilidad (de dos colas) de que este resultado ocurra por casualidad (es decir, de las observaciones que realmente se ajustan a las expectativas).

Las pruebas de chi cuadrado son siempre de dos colas (solo prueban las diferencias entre lo observado y lo esperado), no existe un concepto de "dirección" de diferencia.

IMPORTANTE: la función toma matrices numpy, NO la lista de Python normal. Utilice la función de matriz numpy para convertir. Ejemplo de uso:


In [None]:
#Input numpy array of observed values
obs = np.array([20, 32, 17])
#Input numpy of expected values
exp = np.array([17.25, 34.5, 17.25])

s_statistic, p_value = stats.chisquare(obs, exp)

## Sugerencia 2: Exponga su hipótesis.

H0: El curso tiene un desglose de clasificación esperado

H1: El desglose de la clasificación del curso no sigue el patrón esperado

## Sugerencia 3: Para calcular Chi-cuadrado necesitas una lista de valores esperados.

Encuentre el total de los valores de entrada (puede usar la función de suma incorporada para hacer esto), multiplique esto por cada valor de porcentaje dado anteriormente y divida por 100.

## Sugerencia 4: Verifique que la prueba sea válida.

Debe verificar dos cosas:

1. Ninguno de sus valores esperados debe ser inferior a 1.
2. No más de uno (es decir, más de 1/5) de ellos es menos de 5.

In [None]:
# Solucion aquí
import numpy as np

# As we want to do this twice, lets write a function.
def marks_atypical(Obs):
    # Observations 
    total = np.sum(Obs)

    # Typical distribution of marks.
    typical = np.array([4.3, 9.5, 18.4, 38.4, 29.4])

    # Expected marks
    Exp = total*typical/100.0

    # Check assumptions for the use of this test.
    greater_than_5 = 0
    for val in Exp:
        # Check all values are greater than 1.
        assert val > 1
        if val >= 5:
            greater_than_5 += 1
    # Check at least 20% are greater than 5.
    assert greater_than_5 > 0.2*Exp.size

    from scipy import stats
    s_statistic, p_value = stats.chisquare(Obs,Exp)
    
    if p_value < 0.05:
        return True # ie the distributions are not the same
    else:
        return False

Obs = np.array([3, 10, 23, 30, 20])
print ("Dataset: ", Obs)
if marks_atypical(Obs):
    print ("Marks are atypical.")
else:
    print ("Marks are typical.")

Obs = np.array([0, 8, 7, 25, 39])
print ("Dataset: ", Obs)
if marks_atypical(Obs):
    print ("Marks are atypical.")
else:
    print ("Marks are typical.")

Dataset:  [ 3 10 23 30 20]
Marks are typical.
Dataset:  [ 0  8  7 25 39]
Marks are atypical.
