# Analisis Exploratorio de Datos

## Importar datos, librerias y creación de funciones

In [None]:
# Importar librerias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split


In [None]:
# Cargar dataset redWine y whiteWine
redWine = pd.read_csv('winequality-red.csv', sep=';')
whiteWine = pd.read_csv('winequality-white.csv', sep=';')

In [None]:
# Funcion para mostrar histograma y boxplot de un atributo
def histograma_boxplot(dataset, atributo):
  plt.figure(figsize=(10,4))

  plt.subplot(1,2,1)
  sns.histplot(dataset[atributo])

  plt.subplot(1,2,2)
  sns.boxplot(data=dataset[atributo])

In [None]:
# Funcion deteccion de outliers
def deteccion_outliers(dataset):
  cols = dataset.columns
  for i in cols:
    if i == 'type':
      continue
    q1 = dataset[i].quantile(0.25)
    q3 = dataset[i].quantile(0.75)
    iqr = q3 - q1
    lim_inf = q1 - 1.5 * iqr
    lim_sup = q3 + 1.5 * iqr
    outliers = dataset[(dataset[i] < lim_inf) | (dataset[i] > lim_sup)].shape[0]
    print(f"El atributo {i} tiene {outliers} outliers")

In [None]:
# Funcion resumen de datos
def resumen_datos(dataset):
  print("Cantidad de datos en wine: ", dataset.shape[0])
  print("Calidad media de vinos: ", dataset['quality'].mean())
  print("Cantidad de vinos con calidad mayor a la media: ", dataset[dataset['quality'] > dataset['quality'].mean()].shape[0])
  print("Cantidad de vinos con calidad menor a la media: ", dataset[dataset['quality'] < dataset['quality'].mean()].shape[0])
  print("La desviacion estandar de la calidad de los vinos es: ", dataset['quality'].std())
  print("La calidad minima de los vinos es: ", dataset['quality'].min())
  print("La calidad maxima de los vinos es: ", dataset['quality'].max())
  print("El 25% de los vinos tiene una calidad menor a: ", dataset['quality'].quantile(0.25))
  print("El 75% de los vinos tiene una calidad mayor a: ", dataset['quality'].quantile(0.75))
  print("El ultimo 25% de los vinos tiene una calidad entre ", dataset['quality'].quantile(0.25), " y ", dataset['quality'].quantile(0.75))
  print("La mayor concentracion de vinos se encuentra entre ", dataset['quality'].quantile(0.25), " y ", dataset['quality'].quantile(0.75))

In [None]:
# Funcion detección de asimetria
def deteccion_asimetria(dataset):
  cols = dataset.columns
  for i in cols:
    if i == 'type':
      continue
    print(f"El atributo {i} tiene una asimetria de {dataset[i].skew()}")

In [None]:
# Funcion mostrar mayor correlacion entre atributos
def mayor_correlacion(dataset, max_valor = 0, atributo = ''):
  corr = dataset.corr()
  if atributo != '':
    corr_quality = corr[[atributo]].copy()
    corr_quality['abs_corr'] = corr_quality[atributo].abs()
    corr_quality = corr_quality[corr_quality['abs_corr'] != 1]  # Excluir correlaciones igual a 1
    corr_quality = corr_quality.sort_values('abs_corr', ascending=False).head(3)

    print(corr_quality)
  elif max_valor != 0:
    max_valor = abs(max_valor)
    high_corr = corr[(corr > max_valor) | (corr < -max_valor)]
    high_corr = high_corr.stack().reset_index()
    high_corr['abs_corr'] = high_corr[0].abs()
    high_corr = high_corr[high_corr[0] != 1]  # Filtrar correlaciones diferentes de 1
    high_corr = high_corr.sort_values('abs_corr', ascending=False).drop_duplicates(0)
    print(high_corr)

## Analisis de los datos de Red Wine

### Resumen de Datos

In [None]:
# Observar dataset redWine
redWine.head()

In [None]:
# Cantidad de datos en redWine y whiteWine
print("Cantidad de datos en redWine: ", redWine.shape[0])

In [None]:
# Tipos de datos en redWine
print("Red Wine:")
redWine.info()

Se observa que no es necesario hacer algun cambio en los datos, ya que no hay datos categoricos

In [None]:
# Resumen de datos en relacion de RedWine en base al atributo 'quality'
resumen_datos(redWine)

### Graficos de Histogramas y Boxplots

In [None]:
# Cantidades de vinos por calidad
sns.countplot(x='quality', data=redWine)

In [None]:
# Por cada atributo, mostrar histograma y boxplot
for atributo in redWine.columns:
  histograma_boxplot(redWine, atributo)

### Deteccion de Outliers

In [None]:
# Deteccion de outliers en wine
deteccion_outliers(redWine)

### Analisis Asimetrías

In [None]:
# Detectar asimetria en redWine
deteccion_asimetria(redWine)

### Analisis de Correlaciones entre variables

In [None]:
# Coeficiente de correlación de Pearson
plt.figure(figsize=(10,10))
sns.heatmap(redWine.corr(method='pearson'), annot=True, cmap='RdYlGn')
plt.show()

In [None]:
# Atributos con mayor correlacion entre ellos
mayor_correlacion(redWine, max_valor=0.6)

### Analisis de Correlaciones en relacion a la variable Quality

In [None]:
# Correlacion con la variable 'quality' del dataset wine a través de un mapa de calor
plt.figure(figsize=(5,5))
sns.heatmap(redWine.corr()[['quality']], annot=True, cmap='RdYlGn')
plt.show()

In [None]:
# Atributos con mayor correlacion con 'quality'
mayor_correlacion(redWine, atributo='quality')

## Analisis de los datos de White Wine

### Resumen de Datos

In [None]:
# Observar dataset WhiteWine
whiteWine.head()

In [None]:
# Cantidad de datos en whiteWine
print("Cantidad de datos en redWine: ", whiteWine.shape[0])

In [None]:
# Tipos de datos en WhiteWine
print("White Wine:")
whiteWine.info()

Se observa que no es necesario hacer algun cambio en los datos, ya que no hay datos categoricos

In [None]:
# Resumen de datos en relacion de WhiteWine en base al atributo 'quality'
resumen_datos(whiteWine)

### Graficos de Histogramas y Boxplots

In [None]:
# Cantidades de vinos por calidad
sns.countplot(x='quality', data=whiteWine)

In [None]:
# Por cada atributo, mostrar histograma y boxplot
for atributo in whiteWine.columns:
  histograma_boxplot(whiteWine, atributo)

### Deteccion de Outliers

In [None]:
# Deteccion de outliers en wine
deteccion_outliers(whiteWine)

### Analisis Asimetrías

In [None]:
# Detectar asimetria en redWine
deteccion_asimetria(whiteWine)

### Analisis de Correlaciones entre variables

In [None]:
# Coeficiente de correlación de Pearson
plt.figure(figsize=(10,10))
sns.heatmap(whiteWine.corr(method='pearson'), annot=True, cmap='RdYlGn')
plt.show()

In [None]:
# Atributos con mayor correlacion entre ellos
mayor_correlacion(whiteWine, max_valor=0.6)

### Analisis de Correlaciones en relacion a la variable Quality

In [None]:
# Correlacion con la variable 'quality' del dataset wine a través de un mapa de calor
plt.figure(figsize=(5,5))
sns.heatmap(whiteWine.corr()[['quality']], annot=True, cmap='RdYlGn')
plt.show()

In [None]:
# Atributos con mayor correlacion con 'quality'
mayor_correlacion(whiteWine, atributo='quality')