# Análisis de Datos Exploratorio

## Objetivos

Después de completar este laboratorio será capas de:

- Explorar distintivos o características para predecir el precio del automóvil


## Tabla de Contenidos

1.  [Importar los Datos de Análisis](#0)
2.  [Análisis de Patrones de Características Individuales Mediante Visualización](#2)
3.  [Análisis Estadístico Descriptivo](#4)
4.  [Conceptos Básicos de Agrupación](#6)
5.  [Correlación y Causalidad](#8)
6.  [ANOVA](#10)

>---
>**¿Cuáles son las características o atributos principales que más inciden en el precio de un automóvil?**
>
>---

# 1. Importar los Datos de Análisis <a id="0"></a>


## Carga y Preparación de Datos


Instalar e importar Bibliotecas:


In [None]:
# Instalar bibliotecas específicas para trabajar en el laboratorio

#!pip install numpy
#!pip install pandas
#!pip install matplotlib
#!pip install seaborn
#!pip install scipy

In [None]:
import pandas as pd
import numpy as np

Cargar los datos y guárdarlos en el dataframe `df`:

In [None]:
# ruta de datos

path='datos/automobileEDA.csv'
df = pd.read_csv(path)
df.head()

# 2. Análisis de Patrones de Características Individuales Mediante Visualización <a id="2"></a>

Recuerde que para instalar **Seaborn** utilice el comando **pip** que es el instalador de paquetes de Python.

Importar los paquetes de visualización **Matplotlib** y **Seaborn**. No olvidar de poner `% matplotlib inline` para que las gráficas puedan aparecer en *Jupyter Notebook*.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline 

**¿Cómo elegir el método de visualización adecuado?**

Al visualizar variables individuales, es importante comprender primero con qué tipo de variable se está tratando. Esto nos ayudará a encontrar el método de visualización adecuado para esa variable.

In [None]:
# lista de los tipos de datos para cada columna
print(df.dtypes)

---

**$\bigstar$ Pregunta:** ¿Cuál es el tipo de datos de la columna "peak-rpm"?

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo



Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

float64

-->    

---

Por ejemplo, se puede calcular la correlación entre variables de tipo "int64" o "float64" usando el método "corr":

In [None]:
df.corr()

Los elementos diagonales son siempre uno; se estudiará la correlación, más precisamente la **correlación de Pearson** con mayor profundidad en la parte final de este laboratorio.


**¿Cuál es la diferencia entre una relación y una correlación?**

**Relación**

Una relación es un vínculo o una correspondencia. En el caso de la relación matemática, se trata de la correspondencia que existe entre dos conjuntos: a cada elemento del primer conjunto le corresponde al menos un elemento del segundo conjunto. Una relación es una correspondencia o conexión entre algo o alguien con otra cosa u otra persona. De esta forma, la noción de relación se utiliza en diversas ciencias para explicar todo tipo de fenómenos.

**Correlación**

En probabilidad y estadística, la correlación indica la **fuerza** y la **dirección** de una relación lineal y proporcionalidad entre dos variables estadísticas. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas **varían sistemáticamente** con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación entre ellas si al disminuir los valores de A lo hacen también los de B y viceversa. 

En conclusión la correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad y cuando se habla de relación se entiende como un vínculo y correspondencia entre los elementos.

<center>

![ejemplos_correlacion](imagenes/ejemplos_correlacion15.png)

</center>


---

**$\bigstar$ Pregunta:** 

Encuentre la correlación entre las siguientes columnas: bore, stroke, compression-ratio, y horsepower.

Sugerencia: si desea seleccionar esas columnas, use la siguiente sintaxis: df[['bore','stroke','compression-ratio','horsepower']]

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo 


Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

df[['bore', 'stroke', 'compression-ratio', 'horsepower']].corr()

--> 

--- 

## Variables Numéricas Continuas

Las variables numéricas continuas son variables que pueden contener cualquier valor dentro de algún rango. Pueden ser del tipo `int64` o `float64`. Una forma de visualizar estas variables es mediante diagramas de dispersión con líneas ajustadas.

Para comenzar a comprender la relación (lineal) entre una variable individual y el precio, se puede usar `regplot` que grafica el diagrama de dispersión más la línea de regresión ajustada para los datos.

A continuación se verán varios ejemplos de diferentes relaciones lineales:

### Relación Lineal Positiva


Encontrar el diagrama de dispersión de `engine-size` y `price`.

In [None]:
# El tamaño del motor como potencial variable predictora del precio
sns.regplot(x="engine-size", y="price", data=df)
plt.ylim(0,)

A medida que aumenta el tamaño del motor, aumenta el precio: esto indica una **correlación directa/positiva** entre estas dos variables. El tamaño del motor parece un indicador bastante bueno del precio, ya que la línea de regresión es casi una línea diagonal perfecta.

Se puede examinar la correlación entre las variables `engine-size` y `price` y ver que es aproximadamente 0,87.

In [None]:
df[["engine-size", "price"]].corr()

### Relación Lineal Negativa


Ahora, se podría verificar el atributo del consumo de millas por galón en carretera es una variable predictiva potencial del precio. Para verificar esto se debiera generar el gráfico de dispersión de las variables `highway-mpg` y `price`.

In [None]:
sns.regplot(x="highway-mpg", y="price", data=df)

Del gráfico se puede observar que a medida que aumenta el valor del consumo de millas por galón en carretera, el precio del vehículo baja: esto indica una **correlación inversa/negativa** entre estas dos variables. Así el consumo de millas por galón en carretera podría ser potencialmente un predictor del precio.

Se puede examinar la correlación entre las variables `highway-mpg` y `price` y ver que es aproximadamente -0.704.

In [None]:
df[['highway-mpg', 'price']].corr()

### Relación Lineal Débil


A continuación, verifiquemos si el atributo del máximo de evoluciones `peak-rpm` es un predictor del atributo precio `price`.

In [None]:
sns.regplot(x="peak-rpm", y="price", data=df)

El atributo del máximo de revoluciones no parecen ser un buen predictor del precio en absoluto, ya que la línea de regresión está cerca de la horizontal. Además, los puntos de datos están muy dispersos y lejos de la línea ajustada, mostrando mucha variabilidad. Por lo tanto, no es una variable confiable.

Se puede examinar la correlación entre las variables `peak-rpm` y `price` y ver que es aproximadamente -0.101616.

In [None]:
df[['peak-rpm','price']].corr()

---

**$\bigstar$ Pregunta:** 

Encuentre la correlación entre las columnas: stroke y price.

Sugerencia: si desea seleccionar esas columnas, use la siguiente sintaxis:: df[['stroke','price']]

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo




Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

df[["stroke","price"]].corr()

#La correlación es 0.08231, los elementos no diagonales de la tabla.

-->    

---

**$\bigstar$ Pregunta:** 

Dados los resultados de la correlación entre `price` y `stroke`, ¿ Se esperaría una relación lineal?

Verificar este resultado usando la función `regplot()`.

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo




Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

# Existe una correlación débil entre la variable 'stroke' y 'price', por lo tanto, la regresión no funcionaría bien. 
# Este se podría demostrar usando `regplot`

sns.regplot(x="stroke", y="price", data=df)

-->    

---

## Variables categóricas

Estas son variables que describen una **característica** de una unidad de datos y se seleccionan de un pequeño grupo de categorías. Las variables categóricas pueden tener el tipo `objet` o `int64`. Una buena manera de visualizar variables categóricas es mediante diagramas de caja.


Mostrar la relación entre `body-style` y `price`.

In [None]:
sns.boxplot(x="body-style", y="price", data=df)

A partir de la gráfica se puede observar que las distribuciones de precio entre las diferentes categorías de estilo de carrocería tienen una superposición significativa, por lo que el estilo de carrocería no sería un buen predictor del precio. 

Ahora, se podría examinar la relación entre `engine-location` y `price`:

In [None]:
sns.boxplot(x="engine-location", y="price", data=df)

Aquí se puede observar que la distribución del precio entre estas dos categorías de ubicación del motor, delantera y trasera, son lo suficientemente distintas como para tomar la ubicación del motor como un buen predictor potencial del precio.

Otra relación que se podría examinar es entre `drive-wheels` y `price`.

In [None]:
sns.boxplot(x="drive-wheels", y="price", data=df)

Para este caso se puede observar que la distribución del precio entre las diferentes categorías del tipo de tracción es diferente. Como tal, el tipo de tracción podría potencialmente predecir el precio.

# 3. Análisis Estadístico Descriptivo <a id="4"></a>

El primer paso es analizar las variables utilizando un método de descripción.

La función `.describe()` calcula automáticamente estadísticas básicas para todas las variables continuas. Cualquier valor `NaN` se omite automáticamente en estas estadísticas.

Esta función mostrará:
- el conteo de esa variable
- la media
- la desviación estándar (std)
- el valor mínimo
- el IQR (Rango Intercuartílico: 25%, 50% y 75%)
- el valor máximo

Se puede aplicar el método `.describe()` de la siguiente manera:

In [None]:
df.describe()

La configuración predeterminada de `.describe()`omite variables de tipo objeto. Sin embargo, se puede aplicar el método `.describe()` sobre las variables de tipo `objet` de la siguiente manera:

In [None]:
df.describe(include=['object'])

## Recuento de Valores

El recuento de valores es una buena forma de saber cuántas unidades de cada característica/variable se tiene. Por ejemplo, se puede aplicar el método `value_counts()` en la columna `drive-wheels`. Recordar que el método `value_counts()` solo funciona en series de pandas, no en dataframes de pandas. Por este motivo, solo se incluirá un corchete `df['drive-wheels']`, y no dos corchetes `df[['drive-wheels']]`.

In [None]:
df['drive-wheels'].value_counts()

Ahora, se puede convertir la serie a un dataframe de la siguiente manera:

In [None]:
df['drive-wheels'].value_counts().to_frame()

Repetir los pasos anteriores, teniendo el cuidado de guardar los resultados en el dataframe `drive_wheels_contador` y cambiar el nombre de la columna `drive-wheels` a `value_counts`.

In [None]:
drive_wheels_contador = df['drive-wheels'].value_counts().to_frame()
drive_wheels_contador.rename(columns={'drive-wheels': 'value_counts'}, inplace=True)
drive_wheels_contador

A continuación, se cambiará el nombre del índice a `drive-wheels`:

In [None]:
drive_wheels_contador.index.name = 'drive-wheels'
drive_wheels_contador

Este mismo proceso se puede repetir para la variable `engine-location`.


In [None]:
engine_loc_contador = df['engine-location'].value_counts().to_frame()
engine_loc_contador.rename(columns={'engine-location': 'value_counts'}, inplace=True)
engine_loc_contador.index.name = 'engine-location'
engine_loc_contador.head()

Después de examinar los recuentos de valor de la ubicación del motor, se puede observar que la ubicación del motor no sería una buena variable de predicción del precio. Esto se debe a que solo se tiene tres autos con motor trasero y 198 con motor delantero, por lo que este resultado está sesgado. Por lo tanto, no se puede sacar ninguna conclusión en relación con la ubicación del motor.

# 4. Conceptos Básicos de Agrupación <a id="6"></a>



El método `groupby` agrupa los datos por diferentes categorías. Los datos se agrupan en función de una o varias variables, y el análisis se realiza en los grupos individuales.

Por ejemplo, si se agrupa por la variable `drive-wheels` se puede observar que hay 3 categorías diferentes tracción.

In [None]:
df['drive-wheels'].unique()

Ahora, si se quiere saber, en promedio, qué tipo de tracción se valora más, se puede agrupar por `drive-wheels` y luego calcular su promedio.

Así, se puede seleccionar las columnas `drive-wheels`, `body-style` y `price`, para luego asignarlas a la variable "df_grupo_uno".

In [None]:
df_grupo_uno = df[['drive-wheels','body-style','price']]
df_grupo_uno

Luego se puede calcular el precio promedio para cada una de las diferentes categorías de datos.

In [None]:
# resultados del agrupamiento
df_grupo_uno = df_grupo_uno.groupby(['drive-wheels'],as_index=False).mean()
df_grupo_uno

Según los datos, parece que los vehículos con tracción trasera son, en promedio, los más caros, mientras que los con tracción integral y los de tracción delantera tienen aproximadamente el mismo precio.

También puede agrupar por múltiples variables. Por ejemplo, agrupemos por `drive-wheels` y `body-style`. Esto agrupa el dataframe por la combinación única de tipo de tracción y estilo de la carrocería. Así, se puede almacenar los resultados en la variable `agrupados_prueba1`.

In [None]:
# resultados del agrupamiento
df_gp_prb = df[['drive-wheels','body-style','price']]
agrupados_prueba1 = df_gp_prb.groupby(['drive-wheels','body-style'],as_index=False).mean()
agrupados_prueba1

Estos datos agrupados son mucho más fáciles de visualizar cuando se convierten en una **tabla dinámica** o **pivot table**. Una tabla dinámica es como una hoja de cálculo de Excel, con una variable a lo largo de la columna y otra a lo largo de la fila. Así, se puede convertir el dataframe en una tabla dinámica usando el método `pivot` para crear una tabla dinámica a partir de los grupos.

En este caso, se dejará la variable `drive-wheels` como las filas de la tabla y se pivotará `body-style` para que se convierta en las columnas de la tabla:

In [None]:
agrupado_pivote = agrupados_prueba1.pivot(index='drive-wheels',columns='body-style')
agrupado_pivote

En ocasiones, no se tendrá datos para algunas de las celdas dinámicas. Se puede llenar estas celdas que faltan con el valor 0, pero también se podría usar cualquier otro valor. Cabe mencionar que la falta de datos es un tema bastante complejo y es un curso completo por sí solo.

In [None]:
agrupado_pivote = agrupado_pivote.fillna(0) #rellenando los valores perdidos con 0
agrupado_pivote

---

**$\bigstar$ Pregunta:** 

Use la función `groupby` para encontrar el precio promedio de cada automóvil según el tipo de carrocería `body-style`.

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo




Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

# resultados del agrupamiento
df_gp_prb2 = df[['body-style','price']]
agrupados_prueba1_bodystyle = df_gp_prb2.groupby(['body-style'],as_index= False).mean()
agrupados_prueba1_bodystyle

-->    

---

## Variables: drive-wheels y body-style versus price

Utilizar un mapa de calor para visualizar la relación entre `body-style` y `price`.

In [None]:
# usar el resultado de la agrupación
plt.pcolor(agrupado_pivote, cmap='RdBu')
plt.colorbar()
plt.show()

El mapa de calor grafica la variable objetivo (precio) proporcional al color con respecto a las variables `drive-wheel` y `body-style` en el eje vertical y horizontal, respectivamente. Esto permite visualizar cómo se relaciona el precio con las variables `drive-wheel` y `body-style`.

Las etiquetas predeterminadas no nos transmiten información útil por lo que se procederá a cambiarlas.

In [None]:
figura, ax = plt.subplots()
imagen = ax.pcolor(agrupado_pivote, cmap='RdBu')

#nombres de las etiquetas
etiqueta_filas = agrupado_pivote.columns.levels[1]
etiqueta_columnas = agrupado_pivote.index

#mueve los marcadores y etiquetas al centro
ax.set_xticks(np.arange(agrupado_pivote.shape[1]) + 0.5, minor=False)
ax.set_yticks(np.arange(agrupado_pivote.shape[0]) + 0.5, minor=False)

#inserta etiquetas
ax.set_xticklabels(etiqueta_filas, minor=False)
ax.set_yticklabels(etiqueta_columnas, minor=False)

#gira las etiquetas si son muy largas
plt.xticks(rotation=90)

figura.colorbar(imagen)
plt.show()

La visualización es muy importante en la ciencia de datos, y los paquetes de visualización de Python brindan una gran libertad. 

La pregunta principal que se quiere responder en este módulo es: *¿Cuáles son las principales columnas/atributos/características/variables que tienen un mayor impacto en el precio del automóvil?*.

Para medir cuáles atributos son los más relevantes, se debe observar la correlación de estos atributos con el precio del automóvil. En otras palabras: ¿cómo depende el precio del automóvil de estas variables?

# 5. Correlación y Causalidad <a id="8"></a>

**Correlación**: una medida del grado de interdependencia entre variables.

**Causalidad**: la relación entre causa y efecto entre dos variables.

Es importante saber la diferencia entre estos dos. La correlación no implica causa. Determinar la correlación es mucho más simple que determinar la causalidad, ya que la causalidad puede requerir una experimentación independiente.

**Correlación de Pearson**

La **Correlación de Pearson** mide la dependencia lineal entre dos variables X e Y.

El coeficiente resultante es un valor entre -1 y 1 inclusive, donde:
- 1: Correlación lineal positiva perfecta.
- 0: Sin correlación lineal, lo más probable es que las dos variables no se afecten entre sí.
- -1: Correlación lineal negativa perfecta.


La **Correlación de Pearson** es el método predeterminado de la función `corr()`. Como se realizó anteriormente, se puede calcular la **Correlación de Pearson** de las variables `int64` o `float64`.

In [None]:
df.corr()

En algunas ocasiones sería conveniente saber la **significancia** de la correlación estimada. La significancia estadística es una medida de fiabilidad en el resultado de un análisis que permite tener confianza a la hora de tomar decisiones. En otras palabras, la significacia estadística es la probabilidad de que una relación entre dos o más variables en un análisis no sea pura coincidencia, sino que en realidad sea causada por otro factor. Es decir, es una forma de demostrar matemáticamente que puedes confiar en una estadística determinada.

**Valor P**

¿Qué es el **valor P**? El **valor P** es el valor de probabilidad de que la correlación entre estas dos variables sea estadísticamente significativa. Normalmente, elegimos un nivel de significancia de 0.05, lo que significa que estamos 95% seguros de que la correlación entre las variables es significativa.

Por convención, cuando el
- **valor P** es $<$ 0.001: decimos que hay una fuerte evidencia de que la correlación es significativa.
- **valor P** es $<$ 0.05: existe evidencia moderada de que la correlación es significativa.
- **valor P** es $<$ 0.1: hay evidencia débil de que la correlación es significativa.
- **valor P** es $>$ 0.1: no hay evidencia de que la correlación sea significativa.

La información del **valor P** se puede obtener usando el módulo `stats` de la biblioteca `scipy`.

In [None]:
from scipy import stats

## Distancia entre ejes versus precio

Calcular el coeficiente de la **Correlación de Pearson** y el **valor P** de `wheel-base` y `price`.

In [None]:
coeficiente_pearson, valor_p = stats.pearsonr(df['wheel-base'], df['price'])
print("El coeficiente de la Correlación de Pearson es", coeficiente_pearson, " con un valor de P =", valor_p)

**$\therefore $ Conclusión:**

Dado que el valor P es $<$ 0.001, la correlación entre la *distancia entre ejes* y el *precio* es estadísticamente significativa, aunque la relación lineal no es extremadamente fuerte (~0.585).

## Caballos de fuerza versus precio

Calcular el coeficiente de la **Correlación de Pearson** y el **valor P** de `horsepower` y `price`.

In [None]:
coeficiente_pearson, valor_p = stats.pearsonr(df['horsepower'], df['price'])
print("El coeficiente de la Correlación de Pearson es", coeficiente_pearson, " con un valor de P =", valor_p)  

**$\therefore $ Conclusión:**

Dado que el valor P es $<$ 0.001, la correlación entre los *caballos de fuerza* y el *precio* es estadísticamente significativa, y la relación lineal es bastante fuerte (~0.809, cerca de 1).

## Largo versus precio

Calcular el coeficiente de la **Correlación de Pearson** y el **valor P** de `length` y `price`.

In [None]:
coeficiente_pearson, valor_p = stats.pearsonr(df['length'], df['price'])
print("El coeficiente de la Correlación de Pearson es", coeficiente_pearson, " con un valor de P =", valor_p)

**$\therefore $ Conclusión:**

Dado que el valor P es $<$ 0.001, la correlación entre el *largo* y el *precio* es estadísticamente significativa, y la relación lineal es moderadamente fuerte (~0.691).

## Ancho versus precio

Calcular el coeficiente de la **Correlación de Pearson** y el **valor P** de `width` y `price`.

In [None]:
coeficiente_pearson, valor_p = stats.pearsonr(df['width'], df['price'])
print("El coeficiente de la Correlación de Pearson es", coeficiente_pearson, " con un valor de P =", valor_p) 

**$\therefore $ Conclusión:**

Dado que el valor P es $<$ 0.001, la correlación entre el *ancho* y el *precio* es estadísticamente significativa, y la relación lineal es bastante fuerte (~0.751).

## Peso en vacío versus precio

Calcular el coeficiente de la **Correlación de Pearson** y el **valor P** de `curb-weight` y `price`.

In [None]:
coeficiente_pearson, valor_p = stats.pearsonr(df['curb-weight'], df['price'])
print("El coeficiente de la Correlación de Pearson es", coeficiente_pearson, " con un valor de P =", valor_p)

**$\therefore $ Conclusión:**

Dado que el valor P es $<$ 0.001, la correlación entre el *peso al vacío* y el *precio* es estadísticamente significativa, y la relación lineal es bastante fuerte (~0.834).

## Tamaño del motor versus precio

Calcular el coeficiente de la **Correlación de Pearson** y el **valor P** de `engine-size` y `price`.

In [None]:
coeficiente_pearson, valor_p = stats.pearsonr(df['engine-size'], df['price'])
print("El coeficiente de la Correlación de Pearson es", coeficiente_pearson, " con un valor de P =", valor_p)

**$\therefore $ Conclusión:**

Dado que el valor P es $<$ 0.001, la correlación entre la *distancia entre ejes* y el *precio* es estadísticamente significativa, y la relación lineal es muy fuerte (~0.872).

## Diámetro del cilindro versus precio

Calcular el coeficiente de la **Correlación de Pearson** y el **valor P** de `bore` y `price`.

In [None]:
coeficiente_pearson, valor_p = stats.pearsonr(df['bore'], df['price'])
print("El coeficiente de la Correlación de Pearson es", coeficiente_pearson, " con un valor de P =", valor_p)

**$\therefore $ Conclusión:**

Dado que el valor P es $<$ 0.001, la correlación entre el *diámetro del cilindro* y el *precio* es estadísticamente significativa, pero la relación lineal es solo moderada (~0.543).

## Millas por galón en ciudad versus precio

<h3>City-mpg vs. Price</h3>


In [None]:
coeficiente_pearson, valor_p = stats.pearsonr(df['city-mpg'], df['price'])
print("El coeficiente de la Correlación de Pearson es", coeficiente_pearson, " con un valor de P =", valor_p)

**$\therefore $ Conclusión:**

Dado que el valor P es $<$ 0.001, la correlación entre las *milas por galón en ciudad* y el *precio* es estadísticamente significativa, y el coeficiente de alrededor de (~-0.687) muestra que la relación es negativa y moderadamente fuerte.

## Millas por galón en carretera versus precio

In [None]:
coeficiente_pearson, valor_p = stats.pearsonr(df['highway-mpg'], df['price'])
print("El coeficiente de la Correlación de Pearson es", coeficiente_pearson, " con un valor de P =", valor_p)

**$\therefore $ Conclusión:**

Dado que el valor P es $<$ 0.001, la correlación entre las *milas por galón en carretera* y el *precio* es estadísticamente significativa, y el coeficiente de alrededor de (~-0.705) muestra que la relación es negativa y moderadamente fuerte.

# 6. ANOVA <a id="10"></a>

## ANOVA: Análisis de Varianza

El Análisis de Varianza (ANOVA, del inglés **AN**alysis **O**f **VA**riance) es un método estadístico utilizado para probar si existen diferencias significativas entre las medias de **dos o más grupos**. ANOVA devuelve dos parámetros:

- **Puntuación de la prueba F** o **F-test score**: ANOVA asume que las medias de todos los grupos son iguales, calcula cuánto se desvían las medias reales de la suposición y lo informa como la puntuación de la prueba F. Una puntuación mayor significa que hay una diferencia mayor entre las medias.

- **Valor P** o **P-value**: el valor P indica cuán estadísticamente significativo es nuestro valor de puntuación calculado.

Si nuestra variable de precio está fuertemente correlacionada con la variable que estamos analizando, esperamos que ANOVA arroje una puntuación de prueba F considerable y un valor de P pequeño.

## Tipo de tracción

Dado que ANOVA analiza la diferencia entre diferentes grupos de la misma variable, la función `groupby` será útil. Debido a que el algoritmo ANOVA promedia los datos automáticamente, no necesitamos tomar el promedio de antemano.

Para ver si los diferentes tipos de tracción impactan en el precio, se procederá a agrupar los datos utilizando el dataframe `df_gp_prb` ya generado con las columnas del tipo de tracción `drive_wheels` y el estilo de carrocería `body_style`.

In [None]:
agrupados_prueba2=df_gp_prb[['drive-wheels', 'price']].groupby(['drive-wheels'])
agrupados_prueba2.head()

Se puede obtener los valores del método de agrupar para un grupo en particular (por ejemplo, `4wd`) usando el método `get_group`.

In [None]:
agrupados_prueba2.get_group('4wd')['price']

Se puede usar la función `f_oneway` del módulo `stats` para obtener la **puntuación de la prueba F** y el **valor P**.

In [None]:
# ANOVA

valor_f, valor_p = stats.f_oneway(agrupados_prueba2.get_group('fwd')['price'], agrupados_prueba2.get_group('rwd')['price'], agrupados_prueba2.get_group('4wd')['price'])  
 
print( "Resultados de ANOVA: F=", valor_f, ", P =", valor_p)   

Este es un gran resultado con una gran puntuación en la prueba F que muestra una fuerte correlación y un valor P de casi 0, lo que implica una significancia estadística casi segura. Pero, ¿significa esto que los tres grupos evaluados están altamente correlacionados?

Para ello, hay que examinarlos por separado.

### Tración delantera versus tracción trasera

In [None]:
valor_f, valor_p = stats.f_oneway(agrupados_prueba2.get_group('fwd')['price'], agrupados_prueba2.get_group('rwd')['price'])  
 
print( "Resultados de ANOVA: F=", valor_f, ", P =", valor_p)

### Tración integral versus tracción trasera

In [None]:
valor_f, valor_p = stats.f_oneway(agrupados_prueba2.get_group('4wd')['price'], agrupados_prueba2.get_group('rwd')['price'])  
   
print( "Resultados de ANOVA: F=", valor_f, ", P =", valor_p)   

### Tración integral versus tracción delantera

In [None]:
valor_f, valor_p = stats.f_oneway(agrupados_prueba2.get_group('4wd')['price'], agrupados_prueba2.get_group('fwd')['price'])  
 
print( "Resultados de ANOVA: F=", valor_f, ", P =", valor_p)   

## $\therefore$ Conclusión: Variables importantes


Ahora se tiene una mejor idea de cómo se ven los datos y qué variables son importante tener en cuenta al predecir el precio del automóvil. Se ha reducido a las siguientes variables:

Variables numéricas continuas:
- Length
- Width
- Curb-weight
- Engine-size
- Horsepower
- City-mpg
- Highway-mpg
- Wheel-base
- Bore

Variables categóricas:
- Drive-wheels

A medida que se avanza hacia la creación de modelos de aprendizaje automático para automatizar nuestro análisis, alimentar el modelo con variables que afecten de manera significativa a nuestra variable objetivo mejorará el rendimiento de predicción del modelo.