## Estadística  Ejercicios

In [1]:
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import scipy
from scipy import stats

import random
import pickle as pkl

In [2]:
# Versiones

print(f"numpy=={np.__version__}")
print(f"matplotlib=={matplotlib.__version__}")
print(f"scipy=={scipy.__version__}")

numpy==1.26.4
matplotlib==3.10.0
scipy==1.14.1


In [3]:
with open("../Data/FUELCONSUMPTION_CITY.pkl", "br") as f:
    fuel_city = pkl.load(f)
    
with open("../Data/FUELCONSUMPTION_HWY.pkl", "br") as f:
    fuel_hwy = pkl.load(f)

In [None]:
fuel_city # Gasto de combustible en la ciudad

In [None]:
fuel_hwy # Gasto de combustible en la autovía

### Ejercicio 01:
- Define una función que tome como entrada un array y retorne la varianza. Apóyate en la siguiente fórmula:
$$ \mathbf{S^2} = \frac{1}{n} \sum_{i=1}^{n} (x_{i}^{2}- \overline{x}^2)$$

- Comprueba que funciona correctamente comparándola con _**np.var()**_.

In [7]:
fuel_ciudad = np.array(fuel_city)

def calcular_varianza(array):
    # Paso 1: Tamaño del array
    n = len(array)
    
    # Paso 2: Media de los datos
    media = np.mean(array)
    
    # Paso 3: Suma de las diferencias al cuadrado (según la fórmula)
    suma = np.sum(array**2) - n * (media**2)
    
    # Paso 4: Aplicar la fórmula
    varianza = suma / n
    
    return varianza

In [8]:
varianza_np = np.var(fuel_ciudad)

print(f"La varianza usando np.var() es: {varianza_np}")

print(f"La varianza calculandolo a traves de la función calcular_varianza es: {calcular_varianza(fuel_ciudad)}")

La varianza usando np.var() es: 16.80451468569305
La varianza calculandolo a traves de la función calcular_varianza es: 16.80451468569308


### Ejercicio 02:
- Define una función que tome como entrada un array y retorne la desviación estándar. Apóyate en la siguiente fórmula:

$$ \mathbf{S} = \sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} x_{i}^{2}- \overline{x}^2}$$

- Comprueba que funciona correctamente comprobándola con _**np.std()**_.

In [12]:
def calcular_desviacion_estandar(array):
    
    # Paso 1: Tamaño del array
    n = len(array)
    
    # Paso 2: Suma de los elementos
    suma_elementos = np.sum(array)
    
    # Paso 3: Suma de los cuadrados
    suma_cuadrados = np.sum(array**2)
    
    # Paso 4: Calcular la varianza usando la fórmula correcta
    varianza = (suma_cuadrados / n) - (suma_elementos / n)**2
    
    desviacion_estandar = np.sqrt(varianza)
    
    return desviacion_estandar
    
    

In [13]:
desviacion_estandar_numpy = np.std(fuel_ciudad)

print(f"La desviación estandar usando np.std() es: {desviacion_estandar_numpy}")

print(f"La desviación estandar a traves de la función calcular_desviacion_estandar() es: {calcular_desviacion_estandar(fuel_ciudad)}")

La desviación estandar usando np.std() es: 4.099331004651009
La desviación estandar a traves de la función calcular_desviacion_estandar() es: 4.099331004651012


### Ejercicio 03:
- Define una función que tome como parámetro un array y retorne los siguientes estadísticos en forma de diccionario:
    - Mínimo
    - Máximo
    - Media
    - Cuartiles Q1, Q2 (mediana) y Q3
    - Rango intercuartil
    - Desviación estándar
- Prueba la función con los arrays **fuel_city** y **fuel_hwy**.

In [25]:
def calcular_estadisticos(array):
    
    # Cálculo de los estadísticos
    minimo = np.min(array)
    maximo = np.max(array)
    media = np.mean(array)
    mediana = np.median(array)
    q1 = np.percentile(array, 25)
    q3 = np.percentile(array, 75)
    rango_intercuartil = q3 - q1
    desviacion_estandar = np.std(array)
    
    # Diccionario con los resultados
    estadisticos = {
        "Mínimo": minimo,
        "Máximo": maximo,
        "Media": media,
        "Mediana (Q2)": mediana,
        "Q1": q1,
        "Q3": q3,
        "Rango Intercuartil": rango_intercuartil,
        "Desviación Estándar": desviacion_estandar
    }
    
    return estadisticos

In [27]:
estadisticas_fuel_city= calcular_estadisticos(fuel_ciudad)

fuel_carretera = np.array(fuel_hwy)

estadisticas_fuel_carretera = calcular_estadisticos(fuel_hwy)

print(f"Los datos estadísticos de la ciudad son: {estadisticas_fuel_city}")
print(f"Los datos estadísticos de la carretera son: {estadisticas_fuel_carretera}")

Los datos estadísticos de la ciudad son: {'Mínimo': 4.6, 'Máximo': 30.2, 'Media': 13.296532333645736, 'Mediana (Q2)': 12.6, 'Q1': 10.25, 'Q3': 15.55, 'Rango Intercuartil': 5.300000000000001, 'Desviación Estándar': 4.099331004651009}
Los datos estadísticos de la carretera son: {'Mínimo': 4.9, 'Máximo': 20.5, 'Media': 9.474601686972822, 'Mediana (Q2)': 8.8, 'Q1': 7.5, 'Q3': 10.850000000000001, 'Rango Intercuartil': 3.3500000000000014, 'Desviación Estándar': 2.793200625370099}


### Ejercicio 04:
- Define una función que toma un array como entrada, y retorna el mismo array sin los outliers.
- Utiliza la **Puntuación Z** para el filtrado de valores atípicos.
- Prueba la función con los arrays _**fuel_city**_ y _**fuel_hwy**_, y calcula qué porcentaje de datos se ha conservado tras el filtrado de outliers para cada caso.

In [33]:
def filtrar_outliers(array, z = 3):
    
    # Calculamos media y std
    mean = np.mean(array)
    std = np.std(array)
    
    # Calculamos los limites laterales (𝜇 ± z*𝜎)
    lim_l = mean - z*std
    lim_r = mean + z*std
    
    # Filtramos los elementos del array, los que esten fuera de los limites laterales.
    outliers = [elem for elem in array if elem < lim_l or elem > lim_r]
    
    # Filtramos los elementos del array, los que no pertenezcan a outliers.
    normal_data = [elem for elem in array if elem not in outliers]
    
    # retornar array_filtrado
    return np.array(normal_data)

In [34]:
fuel_city_filtrado = filtrar_outliers(fuel_ciudad)
fuel_hwy_filtrado = filtrar_outliers(fuel_carretera)

print("Fuel Ciudad:", fuel_city_filtrado)
print("Fuel Carretera:", fuel_hwy_filtrado)

Fuel Ciudad: [ 9.9 11.2  6.  ... 13.4 12.9 14.9]
Fuel Carretera: [ 6.7  7.7  5.8 ...  9.8  9.3 10.2]


### Ejercicio 05:
- Repite el ejercicio 4 usando la **Valla de Tukey** para el filtrado de outliers.

### Ejercicio 06:
- Define una función que tome como parámetro un array y dibuje un plot. El plot debe tener:
    - La distribución de los datos del array como un histograma de color verde pastel.
    - Una línea vertical de color rojo que represente el promedio.
    - Una línea vertical de color dorado que represente la mediana.
    - Dos líneas verticales discontinuas de color gris claro que representen $-z$ y $z$.
    - Dos líneas verticales discontinuas de color gris oscuro que representen $-3z$ y $3z$.
    - Los outliers se tienen que marcar con un color naranja chillón.
    
- Aprovecha las funciones del ejercicio 1 y del ejercicio 3 para obtener los estadísticos necesarios y filtrar los outliers.
- Guiate por los notebooks de teoría para cambiar el color de las gráficas y hacer las lineas verticales.

### Ejercicio 07:
- Define una función que estandarice los datos de un array usando la siguiente fórmula:

$$
z = \frac{x_{i} - \overline{x}}{\sigma_{x}} = \frac{x_{i} - mean(x)}{std(x)}
$$

- Prueba estandarizar un array y hacer un plot usando la función del ejercicio anterior. ¿Qué diferencias ves?

### Ejercicio 08:
- Aplica una transformación de logaritmo neperiano (_**np.log**_) a los datos de **fuel_city** y **fuel_hwy** y vuelve a probar a usar la función del ejercicio 6.
- ¿Cómo son ahora las distribuciones?
- ¿Qué ocurre con los outliers?

### Ejercicio 09:
- Defina una función que calcule la correlación entre dos arrays. Apoyate en las siguientes fórmulas:

$$
\Large Cov(X, Y) = \frac{\sum_{i=1}^{n}(x_{i} - \bar{x})(y_{i} - \bar{y})}{n}\\
$$

<br>

$$
\Large \rho = \frac{Cov(X, Y)}{\sigma_{x}\sigma_{y}}
$$

- Usa la función para calcular la correlación entre **fuel_city** y **fuel_hwy**.
- Comprueba que funciona correctamente contrastando con el resultado de la función _**stats.pearsonr()**_.

### Ejercicio 10:
- Elige un array y toma 50 elementos aleatorios. Calcula las estadísticas para ese nuevo conjunto de datos.
- ¿Son similares estos resultados a los obtenidos de la población total?

### Ejercicio 11:
- Repite el ejercicio anterior, esta vez creando 5 conjuntos de 50 elementos aleatorios.
    - Calcula las estadísticas para cada conjunto de 50 elementos, guarda estos datos.
    - Calcula las estadísticas de los resultados anteriores.
    - ¿Son similares estos datos con los obtenidos de la población total?
    - Prueba hacerlo creando 100 conjuntos de 50 elementos esta vez.

### Ejercicio 12:
- Realiza un contraste de hipótesis y comprueba si se gasta más combustible en la ciudad que en la autovía.
    - **fuel_city**: gasto en ciudad
    - **fuel_hwy**: gasto en autovía
    - $H_0$: el gasto de combustible en la ciudad es igual o menor al gasto en la autovía.
    - $H_1$: el gasto de combustible en la ciudad es mayor al gasto en la autovía.
    
_**Pista**: hay que aplicar una prueba **t de Student** para **muestras pareadas** `stats.ttest_rel()`, o una prueba **Wilcoxon** para **muestras pareadas** `stats.wilcoxon()`, dependiendo de si se cumplen los supuestos de normalidad y homogeneidad de varianzas. Pueden especificar el parámetro `alternative` con el argumento `"greater"` para un contraste de tipo `a>b`._

In [None]:
##############################################################################################################################