### Estudio Estadístico - Precios de Coches

Usando el archivo _**data_sample.pkl**_ vamos a hacer un estudio estadístico, el objetivo es ver como se relaciona la variable de **precio** con la variable de **año**.

Estructura del archivo _**data_sample.pkl**_
```python
{0: {'año': 2023.0, 'precio': 29000.0},
 1: {'año': 2023.0, 'precio': 30500.0},
 2: {'año': 2023.0, 'precio': 43800.0},
 3: {'año': 2023.0, 'precio': 38990.0},
 ... }
```

1. **Preparación de los Datos**: Define una función que tome como parámetro de entrada el diccionario de _**data_sample.pkl**_ y que retorne una matriz de **numpy** de dos columna, la primera con los años y la segunda con los precios. Llama la función **preparacion_datos()**.

2. **Identificar Outliers**: Define una función que tome como parámetro de entrada un **np.array** y una variable $z$. Esta función debe usar la **Puntuación Z (Z-Score)** para calcular la cantidad de elementos dentro de $-z$ y $z$ desviaciones estandar. La función debe imprimir por pantalla la cantidad de elementos del **np.array** (en porcentaje) dentro de ese intervalo. Usa la función con ambas columnas de la matriz del punto 1. LLama la función **z_score()**

3. **Estandarización de Datos**: Define una función que tome como parámetro de entrada un **np.array** de una dimensión. Esta función debe aplicar la siguiente formula a todos los elementos del **np.array**:
$$z = \frac{x_{i} - \overline{x}}{\sigma_{x}} = \frac{x_{i} - mean(x)}{std(x)}$$
Utiliza esta función con cada columna de la matriz del punto 1. Llama a esta función **standard_scaler()**.

4. **Correlación de Variables**: Define una función que tome como parámetro de entrada la matriz estandarizada del punto 3. Esta función debe usar la función de correlación de Pearson (_**stats.pearsonr()**_) con ambas columnas e imprimir por pantalla el resultado. Llama a esta función **pearson_corr()**

5. **Transformación Logarítmica**: Define una función que tome como parámetro de entrada un **np.array** de una dimensión. Esta funcón debe aplicar la función de logarítmo **np.log()** a cada elemento del **np.array**. Utiliza esta función con la columna de precio únicamente. Llama esta función **log_trans()**.

6. Usa de nuevo la función **pearson_corr()** pero ahora con la nueva matriz. ¿Cambió el resultado?

In [6]:
import numpy as np
from scipy import stats
import pickle
from scipy.stats import zscore, pearsonr

In [7]:
with open("data_sample.pkl", "rb") as file:
    data_sample =pickle.load(file)

data_sample

{0: {'año': 2023.0, 'precio': 29000.0},
 1: {'año': 2023.0, 'precio': 30500.0},
 2: {'año': 2023.0, 'precio': 43800.0},
 3: {'año': 2023.0, 'precio': 38990.0},
 4: {'año': 2023.0, 'precio': 35990.0},
 5: {'año': 2023.0, 'precio': 35990.0},
 6: {'año': 2023.0, 'precio': 35990.0},
 7: {'año': 2023.0, 'precio': 33400.0},
 8: {'año': 2023.0, 'precio': 33900.0},
 9: {'año': 2023.0, 'precio': 28880.0},
 10: {'año': 2023.0, 'precio': 28880.0},
 11: {'año': 2023.0, 'precio': 28880.0},
 12: {'año': 2023.0, 'precio': 28880.0},
 13: {'año': 2023.0, 'precio': 28880.0},
 14: {'año': 2023.0, 'precio': 28880.0},
 15: {'año': 2023.0, 'precio': 28880.0},
 16: {'año': 2023.0, 'precio': 38900.0},
 17: {'año': 2023.0, 'precio': 38900.0},
 18: {'año': 2023.0, 'precio': 38900.0},
 19: {'año': 2023.0, 'precio': 27200.0},
 20: {'año': 2024.0, 'precio': 38900.0},
 21: {'año': 2023.0, 'precio': 29850.0},
 22: {'año': 2023.0, 'precio': 28900.0},
 23: {'año': 2023.0, 'precio': 32490.0},
 24: {'año': 2022.0, 'prec

In [8]:
len(data_sample)

106371

In [None]:
#Preparación de los Datos

In [24]:
def preparacion_datos(data_sample):
    
    año = []
    precio =[]
    
    for key in data_sample:
        
        año.append(data_sample[key]["año"])
        precio.append(data_sample[key]["precio"])
        
    return np.column_stack((año,precio))

In [25]:
preparacion_datos(data_sample)

array([[  2023.,  29000.],
       [  2023.,  30500.],
       [  2023.,  43800.],
       ...,
       [  2009., 209900.],
       [  2007., 189900.],
       [  2021.,  12490.]])

In [None]:
#Identificar Outliers: 

In [26]:
def z_score(data_sample, z=3):
    data_sample= preparacion_datos(data_sample)
    
    for i in range(data_sample.shape[1]):
        
        columna = data_sample[:, i]
        mean = np.mean(columna)
        std = np.std(columna)
        
        lim_l = mean - z*std
        lim_r = mean + z*std
        
        outliers = [elem for elem in columna if elem < lim_l or elem > lim_r]
        
        z_scores = [(x - mean) / std for x in columna]
        count = len([x for x in z_scores if -z <= x <= z])
        porcentajes = (count / len(columna)) * 100
        
        print(f"desviacion estándar en la columna {i}: {porcentajes:.2f}%")
        print(f"Count Z {count}")
        print(f"Limite left {lim_l}")
        print(f"Limite right {lim_r}")
        print(f"Porcentaje de elementos dentro de {z} desviaciones estándar en la columna {i}: {porcentajes:.2f}%")

In [27]:
z_score(data_sample, z=3)

desviacion estándar en la columna 0: 97.79%
Count Z 104025
Limite left 2005.1659544546571
Limite right 2031.8844634223958
Porcentaje de elementos dentro de 3 desviaciones estándar en la columna 0: 97.79%
desviacion estándar en la columna 1: 99.08%
Count Z 105388
Limite left -274387.1213195913
Limite right 344695.92069160054
Porcentaje de elementos dentro de 3 desviaciones estándar en la columna 1: 99.08%


In [None]:
#Estandarización de Datos:

In [28]:
def standar_scaler(data_sample):
    data_sample= preparacion_datos(data_sample)
    
    mean = np.mean(data_sample)
    std = np.std(data_sample)
    
    return (data_sample - mean) / std

In [29]:
standar_scaler(data_sample)

array([[-0.22138592,  0.13918651],
       [-0.22138592,  0.1592354 ],
       [-0.22138592,  0.33700214],
       ...,
       [-0.22157304,  2.55708153],
       [-0.22159978,  2.28976312],
       [-0.22141265, -0.08148483]])

In [28]:
#Correlacion de variables:

In [30]:
def pearson_corr(data_sample):
    data_sample = standar_scaler(data_sample)
    
    corr, p_valor =pearsonr(data_sample[:,0] , data_sample[:,1])
    
    print(f"Corr_pearson {corr:.2}, p_valor: {p_valor:.2}")

In [31]:
pearson_corr(data_sample)

Corr_pearson 0.087, p_valor: 2.1e-178


In [31]:
#Transformación logaritmica:

In [32]:
def log_trans(data_sample):
    data_sample = preparacion_datos(data_sample)
    
    log_precio = np.log(data_sample[:,1])
    
    return log_precio

In [33]:
log_trans(data_sample)

array([10.27505111, 10.32548196, 10.6873891 , ..., 12.25438651,
       12.1542529 ,  9.4326836 ])

In [None]:
##############################################################################################################################