## Estadística  Ejercicios

In [None]:
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import scipy
from scipy import stats

import random
import pickle as pkl

In [None]:
# Versiones

print(f"numpy=={np.__version__}")
print(f"matplotlib=={matplotlib.__version__}")
print(f"scipy=={scipy.__version__}")

In [None]:
with open("../Data/FUELCONSUMPTION_CITY.pkl", "br") as f:
    fuel_city = pkl.load(f)
    
with open("../Data/FUELCONSUMPTION_HWY.pkl", "br") as f:
    fuel_hwy = pkl.load(f)

In [None]:
fuel_city # Gasto de combustible en la ciudad

In [None]:
fuel_hwy # Gasto de combustible en la autovía

### Ejercicio 01:
- Define una función que tome como entrada un array y retorne la varianza. Apóyate en la siguiente fórmula:
$$ \mathbf{S^2} = \frac{1}{n} \sum_{i=1}^{n} (x_{i}^{2}- \overline{x}^2)$$

- Comprueba que funciona correctamente comparándola con _**np.var()**_.

In [None]:
def varianza(array):
    mean_pow = np.mean(array)**2
    tot = []
    for elem in array:
        tot.append(elem**2 - mean_pow)
        
    return np.sum(tot)/len(array)

In [None]:
varianza(fuel_hwy)

In [None]:
np.var(fuel_hwy)

### Ejercicio 02:
- Define una función que tome como entrada un array y retorne la desviación estándar. Apóyate en la siguiente fórmula:

$$ \mathbf{S} = \sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} x_{i}^{2}- \overline{x}^2}$$

- Comprueba que funciona correctamente comprobándola con _**np.std()**_.

In [None]:
def std(array):
    return np.sqrt(varianza(array))

In [None]:
std(fuel_hwy)

In [None]:
np.std(fuel_hwy)

### Ejercicio 03:
- Define una función que tome como parámetro un array y retorne los siguientes estadísticos en forma de diccionario:
    - Mínimo
    - Máximo
    - Media
    - Cuartiles Q1, Q2 (mediana) y Q3
    - Rango intercuartil
    - Desviación estándar
- Prueba la función con los arrays **fuel_city** y **fuel_hwy**.

In [None]:
def estadisticas(array):
    
    minimo = np.min(array)
    maximo = np.max(array)
    
    media = np.mean(array)
    
    q1 = np.quantile(array, 0.25)
    mediana = np.median(array)
    q3 = np.quantile(array, 0.75)
    
    ric = q3 - q1
    
    desv = np.std(array)
    
    dict_datos = {"min" : minimo,
                  "max" : maximo,
                  "mean" : media,
                  "q1" : q1,
                  "median" : mediana,
                  "q3" : q3,
                  "RIC" : ric,
                  "std" : desv}
    
    return dict_datos

In [None]:
datos = [fuel_city, fuel_hwy]

for dato in datos:
    print(estadisticas(dato))

### Ejercicio 04:
- Define una función que toma un array como entrada, y retorna el mismo array sin los outliers.
- Utiliza la **Puntuación Z** para el filtrado de valores atípicos.
- Prueba la función con los arrays _**fuel_city**_ y _**fuel_hwy**_, y calcula qué porcentaje de datos se ha conservado tras el filtrado de outliers para cada caso.

In [None]:
def quitar_outliers(array, z = 3):
    media = np.mean(array)
    std = np.std(array)
    
    lim_izq = media - z*std
    lim_der = media + z*std
    
    datos_sin_outliers = [elemento for elemento in array if lim_izq < elemento < lim_der]
    
    return datos_sin_outliers

In [None]:
fuel_city_sin_outliers = quitar_outliers(fuel_city)
fuel_hwy_sin_outliers = quitar_outliers(fuel_hwy)

In [None]:
city_conservado = len(fuel_city_sin_outliers)/len(fuel_city)
hwy_conservado = len(fuel_hwy_sin_outliers)/len(fuel_hwy)

print(f"Se han conservado {city_conservado:.4f} de datos de fuel_city")
print(f"Se han conservado {hwy_conservado:.4f} de datos de fuel_hwy")

### Ejercicio 05:
- Repite el ejercicio 4 usando la **Valla de Tukey** para el filtrado de outliers.

In [None]:
def quitar_outliers_tukey(array, k=1.5):
    q1 = np.quantile(array, 0.25)
    q3 = np.quantile(array, 0.75)
    
    ric = q3 - q1
    
    lim_izq = q1 - k*ric
    lim_der = q3 + k*ric
    
    datos_sin_outliers = [elemento for elemento in array if lim_izq < elemento < lim_der]
    return datos_sin_outliers

In [None]:
fuel_city_sin_outliers = quitar_outliers_tukey(fuel_city)
fuel_hwy_sin_outliers = quitar_outliers_tukey(fuel_hwy)

In [None]:
city_conservado = len(fuel_city_sin_outliers)/len(fuel_city)
hwy_conservado = len(fuel_hwy_sin_outliers)/len(fuel_hwy)

print(f"Se han conservado {city_conservado:.4f} de datos de fuel_city")
print(f"Se han conservado {hwy_conservado:.4f} de datos de fuel_hwy")

### Ejercicio 06:
- Define una función que tome como parámetro un array y dibuje un plot. El plot debe tener:
    - La distribución de los datos del array como un histograma de color verde pastel.
    - Una línea vertical de color rojo que represente el promedio.
    - Una línea vertical de color dorado que represente la mediana.
    - Dos líneas verticales discontinuas de color gris claro que representen $-z$ y $z$.
    - Dos líneas verticales discontinuas de color gris oscuro que representen $-3z$ y $3z$.
    - Los outliers se tienen que marcar con un color naranja chillón.
    
- Aprovecha las funciones del ejercicio 1 y del ejercicio 3 para obtener los estadísticos necesarios y filtrar los outliers.
- Guiate por los notebooks de teoría para cambiar el color de las gráficas y hacer las lineas verticales.

In [None]:
def plot_datos(array):
    info = estadisticas(array)
    
    datos_normales = quitar_outliers_tukey(array)
    outliers = np.array([elem for elem in array if elem not in datos_normales])
    
    plt.hist(datos_normales, bins=50, color="lightgreen")
    plt.hist(outliers, bins=50, color="orange")
    
    plt.axvline(info["mean"], color="red")
    plt.axvline(info["median"], color="gold")
    
    plt.axvline(info["mean"]-info["std"], color="black", alpha=0.25, linestyle="--")
    plt.axvline(info["mean"]+info["std"], color="black", alpha=0.25, linestyle="--")
    
    plt.axvline(info["mean"]-info["std"]*3, color="black", alpha=0.75, linestyle="--")
    plt.axvline(info["mean"]+info["std"]*3, color="black", alpha=0.75, linestyle="--")
    
    plt.show()
    
plot_datos(fuel_hwy)

### Ejercicio 07:
- Define una función que estandarice los datos de un array usando la siguiente fórmula:

$$
z = \frac{x_{i} - \overline{x}}{\sigma_{x}} = \frac{x_{i} - mean(x)}{std(x)}
$$

- Prueba estandarizar un array y hacer un plot usando la función del ejercicio anterior. ¿Qué diferencias ves?

In [None]:
def estandarizacion(array):
    
    info = estadisticas(array)
    
    lista_norm = np.array([(x - info["mean"]) / info["std"] for x in array])
        
    return lista_norm

In [None]:
fuel_hwy_norm = estandarizacion(fuel_hwy)

In [None]:
plot_datos(fuel_hwy_norm)

### Ejercicio 08:
- Aplica una transformación de logaritmo neperiano (_**np.log**_) a los datos de **fuel_city** y **fuel_hwy** y vuelve a probar a usar la función del ejercicio 6.
- ¿Cómo son ahora las distribuciones?
- ¿Qué ocurre con los outliers?

In [None]:
plot_datos(fuel_hwy)

In [None]:
plot_datos(np.log(fuel_hwy))

In [None]:
plot_datos(fuel_city)

In [None]:
plot_datos(np.log(fuel_city))

### Ejercicio 09:
- Defina una función que calcule la correlación entre dos arrays. Apoyate en las siguientes fórmulas:

$$
\Large Cov(X, Y) = \frac{\sum_{i=1}^{n}(x_{i} - \bar{x})(y_{i} - \bar{y})}{n}\\
$$

<br>

$$
\Large \rho = \frac{Cov(X, Y)}{\sigma_{x}\sigma_{y}}
$$

- Usa la función para calcular la correlación entre **fuel_city** y **fuel_hwy**.
- Comprueba que funciona correctamente contrastando con el resultado de la función _**stats.pearsonr()**_.

In [None]:
from scipy.stats import pearsonr # Correlación de Pearson

def cov(array_1, array_2):
    mean_1 = np.mean(array_1)
    mean_2 = np.mean(array_2)
    
    tot = []
    for a, b in zip(array_1, array_2):
        res = (a - mean_1)*(b - mean_1)
        tot.append(res)
        
    return sum(tot)/len(array_1)

def corr(array_1, array_2):
    std_1 = np.std(array_1)
    std_2 = np.std(array_2)
    
    cv = cov(array_1, array_2)
    
    return cv / (std_1 * std_2)

In [None]:
corr(fuel_city, fuel_hwy)

In [None]:
stats.pearsonr(fuel_city, fuel_hwy)[0]

### Ejercicio 10:
- Elige un array y toma 50 elementos aleatorios. Calcula las estadísticas para ese nuevo conjunto de datos.
- ¿Son similares estos resultados a los obtenidos de la población total?

In [None]:
sample = random.choices(population = fuel_city, k = 50)

estadisticas(sample)

In [None]:
estadisticas(fuel_city)

### Ejercicio 11:
- Repite el ejercicio anterior, esta vez creando 5 conjuntos de 50 elementos aleatorios.
    - Calcula las estadísticas para cada conjunto de 50 elementos, guarda estos datos.
    - Calcula las estadísticas de los resultados anteriores.
    - ¿Son similares estos datos con los obtenidos de la población total?
    - Prueba hacerlo creando 100 conjuntos de 50 elementos esta vez.

In [None]:
# Fuel City

samples = [[random.choices(population = fuel_city, k = 50)] for i in range(10)]

lista_dict = list()

for sample in samples:
    
    lista_dict.append(estadisticas(sample))

    
lista_min = np.mean([lista["min"] for lista in lista_dict])
lista_max = np.mean([lista["max"] for lista in lista_dict])
lista_mean = np.mean([lista["mean"] for lista in lista_dict])
lista_q1 = np.mean([lista["q1"] for lista in lista_dict])
lista_median = np.mean([lista["median"] for lista in lista_dict])
lista_q3 = np.mean([lista["q3"] for lista in lista_dict])
lista_ric = np.mean([lista["RIC"] for lista in lista_dict])
lista_std = np.mean([lista["std"] for lista in lista_dict])

samples_dict = {"min"    : lista_min,
                "max"    : lista_max,
                "mean"   : lista_mean,
                "q1"    : lista_q1,
                "median" : lista_median,
                "q3"    : lista_q3,
                "RIC"    : lista_ric,
                "std"    : lista_std}

In [None]:
samples_dict

In [None]:
estadisticas(fuel_city)

In [None]:
samples = [[random.choices(population = fuel_city, k = 50)] for i in range(100)]

lista_dict = list()

for sample in samples:

    lista_dict.append(estadisticas(sample))


lista_min = np.mean([lista["min"] for lista in lista_dict])
lista_max = np.mean([lista["max"] for lista in lista_dict])
lista_mean = np.mean([lista["mean"] for lista in lista_dict])
lista_q1 = np.mean([lista["q1"] for lista in lista_dict])
lista_median = np.mean([lista["median"] for lista in lista_dict])
lista_q3 = np.mean([lista["q3"] for lista in lista_dict])
lista_ric = np.mean([lista["RIC"] for lista in lista_dict])
lista_std = np.mean([lista["std"] for lista in lista_dict])

samples_dict = {"min"    : lista_min,
                "max"    : lista_max,
                "mean"   : lista_mean,
                "q1"    : lista_q1,
                "median" : lista_median,
                "q3"    : lista_q3,
                "RIC"    : lista_ric,
                "std"    : lista_std}

print(f"Samples:\n\n{samples_dict}\n\n")
print(f"Poblacion:\n\n{estadisticas(fuel_city)}\n\n")

### Ejercicio 12:
- Realiza un contraste de hipótesis y comprueba si se gasta más combustible en la ciudad que en la autovía.
    - **fuel_city**: gasto en ciudad
    - **fuel_hwy**: gasto en autovía
    - $H_0$: el gasto de combustible en la ciudad es igual o menor al gasto en la autovía.
    - $H_1$: el gasto de combustible en la ciudad es mayor al gasto en la autovía.
    
_**Pista**: hay que aplicar una prueba **t de Student** para **muestras pareadas** `stats.ttest_rel()`, o una prueba **Wilcoxon** para **muestras pareadas** `stats.wilcoxon()`, dependiendo de si se cumplen los supuestos de normalidad y homogeneidad de varianzas. Pueden especificar el parámetro `alternative` con el argumento `"greater"` para un contraste de tipo `a>b`._

In [None]:
alpha = 0.05

In [None]:
# normalidad con el test D'Agostino-Pearson
_, p_city = stats.normaltest(fuel_city)
_, p_hwy = stats.normaltest(fuel_hwy)

# podemos usar también el test de Shapiro-Wilk para asegurarnos
_, p_city_shap = stats.shapiro(fuel_city)
_, p_hwy_shap = stats.shapiro(fuel_hwy)

print(f"fuel_city | D'Agostino-Pearson: {p_city:e}, Shapiro-Wilk: {p_city_shap:e}")
print(f"fuel_hwy | D'Agostino-Pearson: {p_hwy:e}, Shapiro-Wilk: {p_hwy_shap:e}")

In [None]:
# homogeneidad de varianzas
_, p_lev = stats.levene(fuel_city, fuel_hwy)

print(f"homogeneidad Levene: {p_lev:e}")

In [None]:
suposiciones = all([p>alpha for p in [p_city, p_hwy, p_city_shap, p_hwy_shap, p_lev]])
print("Se cumplen" if suposiciones else "No se cumplen", "todas las suposiciones")

In [None]:
if suposiciones:
    # t de Student
    t, p = stats.ttest_rel(fuel_city, fuel_hwy, alternative="greater")
else:
    # Wilcoxon
    stat, p = stats.wilcoxon(fuel_city, fuel_hwy, alternative="greater")

In [None]:
interpretacion = f"""La diferencia entre los promedios es de {abs(np.mean(fuel_city) - np.mean(fuel_hwy)):f}. \
El valor p es {p:4e} por lo que {'es' if p<alpha else 'no es'} estadísticamente significativa."""
print(interpretacion)

In [None]:
##############################################################################################################################