# **Exploratory Data Analysis (EDA)** 

* Summarize main characteristics of the data
* Gain better understanding of the data set
* Uncover relationships between variables
* Extract important variables

E.g. ¿Cuáles son las caracterísiticas que influyen más en el precio del auto?

**Descriptive Statistics**

Describe las características básicas de un conjunto de datos, obtiene ejemplos y measures. Se puede usar la función df.describe(). Que nos proporciona información sobre:
* count
* mean
* desv. std.
* min
* 25% (cuartil)
* 50% 
* 75% 
* máx

___

Para categorical variables se puede usar value_counts() para contar categorías de una columna. Es decir, cuando nuestra columna no es totalmente numérica.

____

También tenemos box plots o de bigotes. Para analizar la distribución de los datos.

____

Para datos continuos (como price o engine size - que están en un rango). Para ello podemos usar un Scatter Plot/Diagrama de dispersión. 

* Donde tenemos una variable predictora (eje de las x)
* Y una variable target (eje de las y).

**Group By**

Groupby() agrupa variables categóricas. Es decir, podemos agrupar las columnas por una categoría y por una sub categoría. Groupby funciona con la lógica de bases de datos (similar).

Este es un extracto de código:

```
df_test = df[['drive-wheels', 'body-style', 'price']]

df_grp = df_test.groupby(['drive-wheels', 'body-style'], as_index = False).mean()
```

Con el cuál agrupamos los autos por drive wheels (grupo), y después por body style (subgrupo). Y le comparamos el precio promedio.

Y para hacer una visualización mucho más sencilla con una tabla tipo excel podemos usar un pivot. Con este otro extracto de código:

```
df_pivot = df_grp.pivot(index = 'drive-wheels', columns = 'body-style')

#y lo transformamos en un heatmap con la línea:
plt.pcolor(df_pivot, cmp='RdBu')
plt.colorbar()
plt.show()
```

**Analysis of Variance ANOVA**

Dentro de una variable categórica, ¿cuál de sus posibles valores influye más en una variable target?

*Tibco. (2022). ¿Qué es Análisis de la Varianza (ANOVA)?*
https://www.tibco.com/es/reference-center/what-is-analysis-of-variance-anova

**Correlation**

Correlación entre dos variables. A más lluvia, más umbrellas en la calle. A más cigarros, más cáncer en los pulmones. 

Primero se analiza un scatter plot y una linea de regresión (que toca la mayor parte de los puntos).

Podemos notar si hay una correlación positiva si tenemos una línea de regresión ascendente. O una negativa si la línea es descendente.

O también podemos tener variables sin correlación.

**Correlación - métodos de estadística**

*Pearson Correlation*

* Tenemos un **coeficiente de correlación**
* Si es cerca al 1, tenemos una correlación positiva
* Si es cerca del -1, tenemos una correlación negativa
* Si es cerca del 0, no hay correlación

Así como un **p-value**
* p-value < 0.001 Strong certainity in the result
* p-value < 0.05 Moderate certainity
* p-value < 0.1 Weak certainity
* p-value > 0.1 NO certainity

Un ejemplo con código podría ser: 

```
pearson_coef, p_value = stats.pearsonr(df['horsepower'], df['price'])

#Si el coeficiente de correlación fuera un 0.81, sería positivo. Y si el p-value fuera minúscula, entonces habría mucha seguridad en esa predicción.
```

___

# Lab 3



**Question #1**

What is the data type of the column "peak-rpm"?

In [None]:
df['peak-rpm'].dtypes

**Question #2**

Find the correlation between the following columns: bore, stroke, compression-ratio, and horsepower.

Hint: if you would like to select those columns, use the following syntax: df[['bore','stroke','compression-ratio','horsepower']]

In [None]:
df[['bore','stroke','compression-ratio','horsepower']].corr()

**Question 3 a)**

Find the correlation between x="stroke" and y="price".

Hint: if you would like to select those columns, use the following syntax: df[["stroke","price"]].

In [None]:
df[["stroke","price"]].corr()

**Question 3 b)**

Given the correlation results between "price" and "stroke", do you expect a linear relationship?

Verify your results using the function "regplot()".

In [None]:
#No. There is a weak correlation between both variables.

**Question 4**

Use the "groupby" function to find the average "price" of each car based on "body-style".

In [None]:
df_test = df[['body-style', 'price']]

df_grp = df_test.groupby(['body-style'], as_index = False).mean()

___

# Graded Questions

Las capturas de pantalla de las graded questions se encuentran aquí: https://drive.google.com/drive/folders/18axA7WfuehikU3BLOzjB4r_6fR449qGf?usp=sharing 