## Estadística  Ejercicios

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import random

### Ejercicio 01:
- Usando el dataset **`FuelConsumptionCo2.csv`** encuentra para cada lista:
    - Mínimo, media, mediana, máximo y desviación estandar (usa *numpy*).
    - Guarda la información en un diccionario.
    - **Define una función que tome como parámetro una lista, calcule esas métricas y retorne la información como diccionario.**

In [None]:
df = pd.read_csv("FuelConsumptionCo2.csv")._get_numeric_data()

model_year = df["MODELYEAR"].tolist()
engine_size = df["ENGINESIZE"].tolist()
cylinders = df["CYLINDERS"].tolist()
fuel_city = df["FUELCONSUMPTION_CITY"].tolist()
fuel_hwy = df["FUELCONSUMPTION_HWY"].tolist()
fuel_comb = df["FUELCONSUMPTION_COMB"].tolist()
co2_emissions = df["CO2EMISSIONS"].tolist()

In [None]:
def estadisticas(datos):
    
    minimo = np.min(datos)
    media = np.mean(datos)
    mediana = np.median(datos)
    maximo = np.max(datos)
    desv = np.std(datos)
    
    dict_datos = {"min" : minimo, "mean" : media, "median" : mediana, "max" : maximo, "std" : desv}
    
    return dict_datos

In [None]:
estadisticas(model_year)

In [None]:
datos = [model_year, engine_size, cylinders, fuel_city, fuel_hwy, fuel_comb, co2_emissions]

for dato in datos:
    print(estadisticas(dato))

### Ejercicio 02:
- Elige una lista y toma 50 elementos aleatorios y calcula las estadísticas para ese nuevo conjunto de datos.
    - ¿Son similares estos resultados a los obtenidos de la población total?

In [None]:
sample = random.choices(population = fuel_city, k = 50)

estadisticas(sample)

In [None]:
estadisticas(fuel_city)

### Ejercicio 03:
- Repite el ejercicio anterior, esta vez creando 10 conjuntos de 50 elementos aleatorios.
    - Calcula las estadísticas para cada conjunto de 50 elementos, guarda estos datos.
    - Calcula las estadísticas de los resultados anteriores. (Teorema del limite central)
    - ¿Son similares estos datos con los obtenidos de la población total?
    - Prueba con todas las listas usando un bucle.

In [None]:
# Fuel City

samples = [[random.choices(population = fuel_city, k = 50)] for i in range(10)]

lista_dict = list()

for sample in samples:
    
    lista_dict.append(estadisticas(sample))

    
lista_min = np.mean([lista["min"] for lista in lista_dict])
lista_mean = np.mean([lista["mean"] for lista in lista_dict])
lista_median = np.mean([lista["median"] for lista in lista_dict])
lista_max = np.mean([lista["max"] for lista in lista_dict])
lista_std = np.mean([lista["std"] for lista in lista_dict])

samples_dict = {"min"    : lista_min,
                "mean"   : lista_mean,
                "median" : lista_median,
                "max"    : lista_max,
                "std"    : lista_std}

In [None]:
samples_dict

In [None]:
estadisticas(fuel_city)

In [None]:
# Todas las listas

for dato in datos:
    
    # Fuel City

    samples = [[random.choices(population = dato, k = 50)] for i in range(10)]

    lista_dict = list()

    for sample in samples:

        lista_dict.append(estadisticas(sample))


    lista_min = np.mean([lista["min"] for lista in lista_dict])
    lista_mean = np.mean([lista["mean"] for lista in lista_dict])
    lista_median = np.mean([lista["median"] for lista in lista_dict])
    lista_max = np.mean([lista["max"] for lista in lista_dict])
    lista_std = np.mean([lista["std"] for lista in lista_dict])

    samples_dict = {"min"    : lista_min,
                    "mean"   : lista_mean,
                    "median" : lista_median,
                    "max"    : lista_max,
                    "std"    : lista_std}
    
    print(f"Samples: {samples_dict}")
    print(f"Poblacion: {estadisticas(dato)}")
    print("*"*100)

### Ejercicio 04:
- Estandariza los datos de cada lista usando la siguiente formula:

$$
    \frac{x_{i} - mean(x)}{std(x)}
$$

In [None]:
def estandarizacion(lista):
    
    info = estadisticas(lista)
    
    lista_norm = list()
    
    for x in lista:
        
        lista_norm.append((x - info["mean"]) / info["std"])
        
    return lista_norm

In [None]:
model_year_norm    = estandarizacion(model_year)
engine_size_norm   = estandarizacion(engine_size)
cylinders_norm     = estandarizacion(cylinders)
fuel_city_norm     = estandarizacion(fuel_city)
fuel_hwy_norm      = estandarizacion(fuel_hwy)
fuel_comb_norm     = estandarizacion(fuel_comb)
co2_emissions_norm = estandarizacion(co2_emissions)

In [None]:
for x, y in zip(fuel_city[:10], fuel_city_norm[:10]):
    print(f"Real: {x}\t Normalizado: {y}")

### Ejercicio 05:
- Usa la siguiente función **`plot_kde()`** para mostrar la gráfica de cada lista.
    - Encuentra valores atípicos viendo la gráfica.
    - Usa **np.quantile()** y bucles para acotar los datos para cada lista con outliers, guarda estos resultados en nuevas listas.
    - Vuelve a graficar los datos sin outliers.

In [None]:
def plot_kde(datos):
    
    sns.kdeplot(datos, color = "blue")
    plt.show()

In [None]:
plot_kde(engine_size)

In [None]:
# Engine Size
outlier = np.quantile(a = engine_size, q = 0.98)

engine_size_outlier = [x for x in engine_size if x < outlier]

plot_kde(engine_size_outlier)

### Ejercicio 06:
- Calcula la correlación entre cada lista (usa las listas originales).
    - ¿Cuales columnas están mas correlacionadas?
    
- Llena una matriz con esas correlaciones y usa la función **`heat_map()`** para ver la gráfica de las correlaciones.

In [None]:
from scipy.stats import pearsonr # Correlación de Pearson

def heat_map(matriz):
    
    plt.figure(figsize = (15, 10))
    
    sns.heatmap(matriz, annot = True)
    plt.show()

In [None]:
lista1 = [random.random() for i in range(1000)]
lista2 = [random.randint(1000, 2000) for i in range(1000)]

corr = pearsonr(lista1, lista2)[0]

print(corr)

In [None]:
corr = list()

for dato1 in datos:
    
    corr_bucle = list()
    
    for dato2 in datos:
        
        corr_bucle.append(pearsonr(dato1, dato2)[0])
        
    corr.append(corr_bucle)
    
# corr = [[pearsonr(dato1, dato2)[0] for dato2 in datos] for dato1 in datos]

In [None]:
for c in corr:
    print(c)

In [None]:
heat_map(corr)

### Ejercicio 07:
- Une todas las listas en una matriz.
- Define una función que calcule la distancia entre 2 puntos de **n-dimensiones**.
- Calcula la distancia entre el primer punto y todos los demás, guardalo en una lista llamada **`distancias`**.
- Usa el código para mostrar los puntos.

In [None]:
def distancia_euclideana(x, y):
    return np.sqrt(np.sum([(a - b)**2 for a, b in zip(x, y)]))

In [None]:
matriz = list()

for a, b, c, d, e, f, g in zip(model_year, engine_size, cylinders, fuel_city, fuel_hwy, fuel_comb, co2_emissions):
    
    matriz.append([a, b, c, d, e, f, g])

In [None]:
for x in matriz[:10]:
    print(x)

In [None]:
distancias = list()

for x in matriz:
    
    distancias.append(distancia_euclideana(matriz[0], x))
    
distancias

In [None]:
plt.plot(distancias, marker = "*", linestyle = "", alpha = 0.5)
plt.show()

In [None]:
################################################################################################################################