### Estudio Estadístico - Precios de Coches

Usando el archivo _**data_sample.pkl**_ vamos a hacer un estudio estadístico, el objetivo es ver como se relaciona la variable de **precio** con la variable de **año**.

Estructura del archivo _**data_sample.pkl**_
```python
{0: {'año': 2023.0, 'precio': 29000.0},
 1: {'año': 2023.0, 'precio': 30500.0},
 2: {'año': 2023.0, 'precio': 43800.0},
 3: {'año': 2023.0, 'precio': 38990.0},
 ... }
```

1. **Preparación de los Datos**: Define una función que tome como parámetro de entrada el diccionario de _**data_sample.pkl**_ y que retorne una matriz de **numpy** de dos columna, la primera con los años y la segunda con los precios. Llama la función **preparacion_datos()**.

2. **Identificar Outliers**: Define una función que tome como parámetro de entrada un **np.array** y una variable $z$. Esta función debe usar la **Puntuación Z (Z-Score)** para calcular la cantidad de elementos dentro de $-z$ y $z$ desviaciones estandar. La función debe imprimir por pantalla la cantidad de elementos del **np.array** (en porcentaje) dentro de ese intervalo. Usa la función con ambas columnas de la matriz del punto 1. LLama la función **z_score()**

3. **Estandarización de Datos**: Define una función que tome como parámetro de entrada un **np.array** de una dimensión. Esta función debe aplicar la siguiente formula a todos los elementos del **np.array**:
$$z = \frac{x_{i} - \overline{x}}{\sigma_{x}} = \frac{x_{i} - mean(x)}{std(x)}$$
Utiliza esta función con cada columna de la matriz del punto 1. Llama a esta función **standard_scaler()**.

4. **Correlación de Variables**: Define una función que tome como parámetro de entrada la matriz estandarizada del punto 3. Esta función debe usar la función de correlación de Pearson (_**stats.pearsonr()**_) con ambas columnas e imprimir por pantalla el resultado. Llama a esta función **pearson_corr()**

5. **Transformación Logarítmica**: Define una función que tome como parámetro de entrada un **np.array** de una dimensión. Esta funcón debe aplicar la función de logarítmo **np.log()** a cada elemento del **np.array**. Utiliza esta función con la columna de precio únicamente. Llama esta función **log_trans()**.

6. Usa de nuevo la función **pearson_corr()** pero ahora con la nueva matriz. ¿Cambió el resultado?

**RESOLUCIÓN:**

Empezamos, como siempre, importando todas las librerías con las que vamos a trabajar:

In [9]:
import numpy as np
from scipy import stats
import pickle
import random

A continuación, abrimos nuestro archivo *.pkl* en modo lectura y lo cargamos en la variable *data_sample*:

In [4]:
with open("data_sample.pkl", "br") as file:
    data_sample = pickle.load(file)
    
data_sample

{0: {'año': np.float64(2023.0), 'precio': np.float64(29000.0)},
 1: {'año': np.float64(2023.0), 'precio': np.float64(30500.0)},
 2: {'año': np.float64(2023.0), 'precio': np.float64(43800.0)},
 3: {'año': np.float64(2023.0), 'precio': np.float64(38990.0)},
 4: {'año': np.float64(2023.0), 'precio': np.float64(35990.0)},
 5: {'año': np.float64(2023.0), 'precio': np.float64(35990.0)},
 6: {'año': np.float64(2023.0), 'precio': np.float64(35990.0)},
 7: {'año': np.float64(2023.0), 'precio': np.float64(33400.0)},
 8: {'año': np.float64(2023.0), 'precio': np.float64(33900.0)},
 9: {'año': np.float64(2023.0), 'precio': np.float64(28880.0)},
 10: {'año': np.float64(2023.0), 'precio': np.float64(28880.0)},
 11: {'año': np.float64(2023.0), 'precio': np.float64(28880.0)},
 12: {'año': np.float64(2023.0), 'precio': np.float64(28880.0)},
 13: {'año': np.float64(2023.0), 'precio': np.float64(28880.0)},
 14: {'año': np.float64(2023.0), 'precio': np.float64(28880.0)},
 15: {'año': np.float64(2023.0), 'p

1. **Preparación de los Datos**: Define una función que tome como parámetro de entrada el diccionario de _**data_sample.pkl**_ y que retorne una matriz de **numpy** de dos columna, la primera con los años y la segunda con los precios. Llama la función **preparacion_datos()**.

In [5]:
def preparacion_datos():
    años = []
    precios = []
    for i in data_sample:
        años.append(data_sample[i]["año"])
        precios.append(data_sample[i]["precio"])
    años_array = np.reshape(np.array(años), shape = (106371, 1))
    precios_array = np.reshape(np.array(precios), shape = (106371, 1))
    matriz_data = np.hstack((años_array, precios_array))
    return matriz_data

In [28]:
matriz = preparacion_datos()
print(matriz)

[[  2023.  29000.]
 [  2023.  30500.]
 [  2023.  43800.]
 ...
 [  2009. 209900.]
 [  2007. 189900.]
 [  2021.  12490.]]


2. **Identificar Outliers**: Define una función que tome como parámetro de entrada un **np.array** y una variable $z$. Esta función debe usar la **Puntuación Z (Z-Score)** para calcular la cantidad de elementos dentro de $-z$ y $z$ desviaciones estandar. La función debe imprimir por pantalla la cantidad de elementos del **np.array** (en porcentaje) dentro de ese intervalo. Usa la función con ambas columnas de la matriz del punto 1. LLama la función **z_score()**

In [29]:
def z_score(array, z):
    media = np.mean(array)
    std = np.std(array)

    lim1 = media - z*std
    lim2 = media + z*std

    datos_dentro = [i for i in array if i >= lim1 and i <= lim2]

    return (len(datos_dentro)/len(array))*100

In [40]:
array0 = matriz[:, 0]
array1 = matriz[:, 1]

In [41]:
z_score(array0, 3)
z_score(array1, 3)

print(f"El Z-score de la primera columna de nuestra matriz es {z_score(array0, 3)}, mientras que el Z-score de la segunda columna es {z_score(array1, 3)}.")

El Z-score de la primera columna de nuestra matriz es 97.79451166201314, mientras que el Z-score de la segunda columna es 99.07587594363125.


3. **Estandarización de Datos**: Define una función que tome como parámetro de entrada un **np.array** de una dimensión. Esta función debe aplicar la siguiente formula a todos los elementos del **np.array**:
$$z = \frac{x_{i} - \overline{x}}{\sigma_{x}} = \frac{x_{i} - mean(x)}{std(x)}$$
Utiliza esta función con cada columna de la matriz del punto 1. Llama a esta función **standard_scaler()**.


In [42]:
def standard_scaler(array):
    media = np.mean(array)
    std = np.std(array)

    resultados_estandar = [(i - media) / std for i in array]

    return resultados_estandar

In [71]:
array0_est = standard_scaler(array0)
array0_est

[np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.2294378555519199),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(0.7803109969203431),
 np.float64(1.0048744262361315),
 np.float64(1.0048744262361315),
 np.float64(0.7803109969203431),
 np.float64(1.0048744262361315),
 np.float64(0.7803109969203431),
 np.float6

In [59]:
array1_std = standard_scaler(array1)
array1_std

[np.float64(-0.05964692231928446),
 np.float64(-0.045109292648857637),
 np.float64(0.08379102376226023),
 np.float64(0.037173691285758204),
 np.float64(0.00809843194490455),
 np.float64(0.00809843194490455),
 np.float64(0.00809843194490455),
 np.float64(-0.01700320861936577),
 np.float64(-0.012157332062556828),
 np.float64(-0.06080993269291861),
 np.float64(-0.06080993269291861),
 np.float64(-0.06080993269291861),
 np.float64(-0.06080993269291861),
 np.float64(-0.06080993269291861),
 np.float64(-0.06080993269291861),
 np.float64(-0.06080993269291861),
 np.float64(0.036301433505532596),
 np.float64(0.036301433505532596),
 np.float64(0.036301433505532596),
 np.float64(-0.07709207792379666),
 np.float64(0.036301433505532596),
 np.float64(-0.05140893217270926),
 np.float64(-0.06061609763064625),
 np.float64(-0.025822703952758045),
 np.float64(0.03145555694872365),
 np.float64(-0.025725786421621866),
 np.float64(-0.025725786421621866),
 np.float64(0.09823173590155088),
 np.float64(-0.025822

In [60]:
array0_est_v = np.reshape(np.array(array0_est), shape = (106371, 1))
array1_std_v = np.reshape(np.array(array1_std), shape = (106371, 1))
matriz_est = np.hstack((standard_scaler(array0_est_v), standard_scaler(array1_std_v)))

matriz_est


array([[ 1.00487443, -0.05964692],
       [ 1.00487443, -0.04510929],
       [ 1.00487443,  0.08379102],
       ...,
       [-2.13901358,  1.69359122],
       [-2.58814044,  1.49975615],
       [ 0.55574757, -0.21965777]], shape=(106371, 2))

4. **Correlación de Variables**: Define una función que tome como parámetro de entrada la matriz estandarizada del punto 3. Esta función debe usar la función de correlación de Pearson (_**stats.pearsonr()**_) con ambas columnas e imprimir por pantalla el resultado. Llama a esta función **pearson_corr()**

In [66]:
def pearson_corr(matriz):
    return stats.pearsonr(matriz[:, 0], matriz[:, 1])

pearson_corr(matriz_est)

PearsonRResult(statistic=np.float64(0.08715807456020275), pvalue=np.float64(2.0663745641013456e-178))

5. **Transformación Logarítmica**: Define una función que tome como parámetro de entrada un **np.array** de una dimensión. Esta funcón debe aplicar la función de logarítmo **np.log()** a cada elemento del **np.array**. Utiliza esta función con la columna de precio únicamente. Llama esta función **log_trans()**.

In [83]:
def log_trans(array):
    for i in array:
        i = np.log(i)
    return array

log_trans(matriz[:, 1])

array([ 29000.,  30500.,  43800., ..., 209900., 189900.,  12490.],
      shape=(106371,))

Intenté hacer este ejercicio con los valores estandarizados de la columna de precios pero, al contener valores negativos, me devolvía el array sin modificar con un warning advirtiendo de que habían valores que no se podían transformar.

6. Usa de nuevo la función **pearson_corr()** pero ahora con la nueva matriz. ¿Cambió el resultado?

In [88]:
array0_est_v = np.reshape(np.array(array0_est), shape = (106371, 1))
array_log = np.reshape(np.array(log_trans(matriz[:, 1])), shape = (106371, 1))
matriz_nueva = np.hstack((standard_scaler(array0_est_v), array_log))

matriz_nueva

pearson_corr(matriz_nueva)


PearsonRResult(statistic=np.float64(0.08715807456020275), pvalue=np.float64(2.0663745641013456e-178))

En teoría dan lo mismo, pero creo que es porque estamos comparando valores estandarizados con otros que no lo están.

In [None]:
##############################################################################################################################