# Exploratory Data Analysis (EDA)

In [None]:
# Vamos come√ßar importando as bibliotecas e o conjunto de dados a serem usados
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.style as style

wine_quality = pd.read_csv("../bases/winequality-red.csv", sep = ",")

In [None]:
wine_quality.head()

In [None]:
# Vamos ver as √∫ltimas 5 linhas
wine_quality.tail()

In [None]:
#linhas e colunas 
print(wine_quality.shape)

In [None]:
# nome dos atributos/colunas
wine_quality.columns

Provavelmente se n√£o somos conhecedores de vinhos, estas vari√°veis ‚Äã‚Äãfazem pouco sentido para n√≥s. Lembremos que o ideal √© que tenhamos conhecimento do assunto que vamos trabalhar (claro que tamb√©m podemos contratar um especialista para nos orientar üòâ).

Para mais informa√ß√µes sobre o significado de cada vari√°vel, podemos acessar os seguintes links:
* https://wineserver.ucdavis.edu/industry-info/enology/methods-and-techniques/common-chemical-reagents/citric-acid
* https://waterhouse.ucdavis.edu/whats-in-wine
* https://winefolly.com/deep-dive/what-is-residual-sugar-in-wine/
* https://www.mt.com/gb/en/home/supportive_content/ana_chem_applications/titration/AP015.html

In [None]:
#Tipo de dato para cada columna
wine_quality.dtypes

**Completude dos dados**:
Antes de iniciar qualquer an√°lise, √© bom revisar os dados em busca de informa√ß√µes faltantes; e se houver, decidir o que podemos fazer com esses registros ausentes. Com dataframes do pandas, podemos usar a fun√ß√£o info() para encontrar os dados ausentes.

In [None]:
wine_quality.info()

In [None]:
#Outra forma de obter as mesmas informa√ß√µes seria calcular todos os registros por colunas
wine_quality.count()

In [None]:
#Antes de analizar lo principales estad√≠sticos, verifiquemos si tenemos como estructura de dato un dataframe!
type(wine_quality)

# Estad√≠sticas descriptivas

In [None]:
wine_quality.describe()

In [None]:
# Vamos usar a fun√ß√£o round para visualizar melhor nossos dados
wine_quality.describe().round()

In [None]:
#Histograma
from seaborn import displot
displot(wine_quality.quality,kind="kde")

Como podemos ver, nosso conjunto de dados √© desequilibrado, com muito mais 5 e 6 do que qualquer outro valor.

In [None]:
# Podemos usar um pouco de c√≥digo para exibir mais de uma vari√°vel por vez
variables = ['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar',
            'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density',
            'pH', 'sulphates', 'alcohol', 'quality']

columns = 4

fig, axes = plt.subplots(len(variables) //columns, columns, figsize=(15,8))

for current_idx, variable in enumerate(variables):
    i = current_idx // columns
    j = current_idx % columns
    #sns.distplot(wine_quality[variable], ax=axes[i][j])
    #sns.displot(wine_quality[variable], ax=axes[i][j],kde=True)
    sns.histplot(wine_quality[variable], ax=axes[i][j],kde=True)
    axes[i][j].set_title(variable)
    axes[i][j].set_xlabel("")
    
plt.tight_layout()

In [None]:
#Veamos otra variable!
displot(wine_quality["volatile acidity"],kde=True)

A partir deste gr√°fico podemos identificar v√°rios aspectos, como, por exemplo, que muitas das vari√°veis apresentam distribui√ß√£o assim√©trica (acidez fixa, a√ß√∫car residual, cloretos, por exemplo), al√©m do fato de alguns valores parecerem ter valores extremos (a√ß√∫car residual, sulfatos, di√≥xido de enxofre total).

# Boxplots
Como sabemos, os boxplots permitem-nos analisar e ver muito rapidamente quais vari√°veis t√™m valores extremos.

In [None]:
variables = ['fixed acidity', 'residual sugar',
             'chlorides', 'free sulfur dioxide', 
             'total sulfur dioxide','sulphates', 'alcohol']

fig, axes = plt.subplots(1, len(variables), figsize=(15,6))

for ax, variable in zip(axes, variables):
    ax = sns.boxplot( y=variable, data=wine_quality, ax=ax)
plt.tight_layout()

# Scatterplots
Agora vamos tentar identificar de forma r√°pida e visual a correla√ß√£o entre as vari√°veis!

In [None]:
from seaborn import lmplot
lmplot(x='free sulfur dioxide', y='total sulfur dioxide', data=wine_quality, fit_reg=True) 

No gr√°fico anterior pode-se observar uma clara rela√ß√£o entre as vari√°veis ‚Äã‚Äãanalisadas. Tamb√©m podemos
usar a Matriz de Correla√ß√£o se quisermos ver, por exemplo, o coeficiente de **Pearson**

In [None]:
correlation = wine_quality.corr(method="pearson")
correlation.round(3)

In [None]:

plt.figure(figsize=(15,15)) 

# Gera o mapa de calor
sns.heatmap(correlation, 
            cbar = True, 
            square = True, 
            annot=True,
            fmt= '.2f',
            annot_kws={'size': 15},
            cmap= 'coolwarm') 

# Eu giro os eixos para que fiquem inclinados
plt.xticks(rotation = 45)
plt.yticks(rotation = 45)
plt.show()

# Complemento üòâ

![imagen.png](attachment:imagen.png)

O perfil do Pandas √© um m√≥dulo Python de c√≥digo aberto com o qual podemos fazer an√°lises explorat√≥rias de dados rapidamente com apenas algumas linhas de c√≥digo. Tamb√©m gera relat√≥rios interativos em formato web.

Link: https://pypi.org/project/pandas-profiling/

In [None]:
from pandas_profiling import ProfileReport
ProfileReport(wine_quality, minimal=True)