# Práctica EDA
El conjunto de datos que utilizaremos aquí son los datos de calidad del vino que contienen cierta información sobre el vino tinto y blanco.  
La calidad del vino se basa en puntuaciones sensoriales (mediana de al menos 3 evaluaciones realizadas por expertos en vino).  
Cada experto calificó la calidad del vino entre 0 (muy mala) y 10 (muy excelente).

Variables

Entrada:
- fixed acidity
- volatile acidity
- citric acid
- residual sugar
- chlorides
- free sulfur dioxide
- total sulfur dioxide
- density
- pH
- sulphates
- alcohol

Salida:
- quality (score between 0 and 10)

Importamos las librerías que vamos a utilizar

In [89]:
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

dataset_url = "https://raw.githubusercontent.com/dphi-official/Datasets/master/Wine_Dataset/winequality-red.csv"



## Exploración
12 mini-ejercicios de pandas.
La idea es que lo resuelvan utilizando funciones de la librería.
Cada ejercicio tiene su solución, pero ¡primero intentar resolverlo!

### 1.1 Carga de Datos

In [None]:
# 1.1 Cargar datos en el dataframe
df_wine = ...

#### Solución 1.1

In [None]:
df_wine = pd.read_csv(dataset_url, sep=';')

### 1.2 obtener los primeros 5 registros

In [None]:
# completar

#### 1.2 Solución

In [None]:
df_wine.head(5)

### 1.3 obtener los últimos 5 registros

#### 1.3 Solución

In [None]:
df_wine.tail(5)


### 1.4 obtener registor al azar


#### 1.4 Solución

In [None]:
# obtener registros al azar
df_wine.sample(5)


### 1.5 Obtener el número de columnas y filas

In [None]:
# completar

#### 1.5 solución

In [None]:
# obtener el número de columnas y filas
df_wine.shape

### 1.6 Obtener estadísticas del dataset

#### 1.6 Solución

In [None]:
df_wine.describe().T

### 1.7 descripción informativa del dataframe (tipo de datos, tiene nulls)

#### 1.7 Solución

In [None]:
df_wine.info()

### 1.8 ¿cuántos valores únicos de la variable "quality" existen?

#### 1.8 Solución

In [None]:
df_wine.quality.nunique(), df_wine.quality.unique()

### 1.9 ¿Cuál es la frecuencia de valores de "quality"? (cuántos valores de cada tipo)

#### 1.9 Solución

In [None]:
df_wine.quality.value_counts()

### 1.10 ¿cuántos valores nulos tiene cada columna?

#### 1.10 Solución

In [None]:
df_wine.isna().sum()

# isna te dice si un dato (fila, columna) es nulo. Si es nulo, devuelve True. Con la función sum() sumamos los "True".
# también se puede usar la función info() u otras alternativas

### 1.11 ¿hay filas duplicadas? ¿cuántas son?

#### 1.11 Solución

In [None]:
print(df_wine[df_wine.duplicated()].shape)
df_wine[df_wine.duplicated()]


### 1.12 Calcular la media y desviación de la columna 'residual sugar'

#### 1.12 Solución

In [None]:
df_wine['residual sugar'].mean(), df_wine['residual sugar'].std()

### Otras funciones interesantes

In [None]:
# otras funciones a investigar
print(df_wine['residual sugar'].median())
print(df_wine['residual sugar'].kurtosis(), df_wine['residual sugar'].skew()) # https://www.odiolaestadistica.com/estadistica-python/asimetria/



## Visualizaciones



En estos ejercicios se utilizará pyplot y seaborn para visualizaciones. 
Pueden intentar resolverlo con otras librerías a modo de ejercicio, tales como:
- bokeh
- plotly
- datashader
- ...

### 2.1 Visualizar en un gráfico de barra, la cantidad de vinos por calidad.


#### 2.1 Solución

In [None]:
df_wine['quality'].value_counts().plot(kind='bar')

In [None]:
sns.countplot(df_wine, x='quality', hue='quality', palette='husl')

### 2.2 Imprimir un histograma para cada variable numérica 
Opcional: corroborar skew y kurtosis

#### 2.2 Solución

In [None]:
_ = df_wine.hist(figsize=(20,10))

In [None]:
sns.histplot(df_wine, x='alcohol', palette='husl') # probar agregarle hue='quality'

### 2.4 Crear un heatmap
- Quitar la variable quality (pero no perderla, usar método drop), 
- calcular la correlación entre las variables restantes con 'corr()' 
- visualizarla con un heatmap

In [None]:
plt.figure(figsize=(16,10)) # dejar esto para que se vea un poquito más grande la figura
# completar

#### 2.4 solución

In [None]:
plt.figure(figsize=(16,10))
sns.heatmap(df_wine.drop(columns='quality').corr(), annot=True)

### 2.5 Usar pairplot
- sns tiene muchas funciones, una de ellas son los "pairplots" la cual permite ver la correlación (como el heatmap). 
- Utilizar la columna "quality" como "hue" y aplicarlo a nuestro dataset.
- HUE: https://en.wikipedia.org/wiki/Hue.
- NOTA: puede tardar un poco en ejecutarse. 

#### 2.5 Solución

In [None]:
plt.figure(figsize=(16,10))
sns.pairplot(df_wine, hue='quality', palette='husl')

### 2.6 graficar un boxplot para la variable alcohol, agrupado por quality

#### 2.6 Solución

In [None]:
# graficar un boxplot para la variable alcohol, agrupado por quality

df_wine.boxplot(column='alcohol', by='quality')

In [None]:
sns.boxplot(x='quality', y='alcohol', data=df_wine)