---
<h1 style="text-align: center;">Projeto AMG:</h1>
<h2 style="text-align: center;">Análise de Qualidade de Vinhos</h2>

*Nome:* Gabriel D'assumpção de Carvalho

*Matrícula:* 20210025889

*Curso:* Ciências Atuarias

*Date:* 08/05/2024

---
---

# Introdução

O seguinte relatório vai estar utilizando a ([base de dados de vinho](https://archive.ics.uci.edu/dataset/186/wine+quality)), a qual é multivariada e contém diversas variáveis que descrevem as características físico-químicas de vinhos brancos e tintos, bem como sua qualidade atribuída por especialistas. As variáveis incluem medidas como acidez fixa, acidez volátil, teor alcoólico, entre outras.

| **Nome da variável**       | **Papel**          | **Tipo**       | **Descrição**                 | **Valores ausentes** |
|------------------------|----------------|------------|---------------------------|------------------|
| acidez fixa          | Característica | Contínuo   |                           | Não              |
| acidez volátil       | Característica | Contínuo   |                           | Não              |
| ácido cítrico            | Característica | Contínuo   |                           | Não              |
| açúcar residual         | Característica | Contínuo   |                           | Não              |
| Cloretos               | Característica | Contínuo   |                           | Não              |
| Dióxido de enxofre livre    | Característica | Contínuo   |                           | Não              |
| Dióxido de enxofre total   | Característica | Contínuo   |                           | Não              |
| densidade              | Característica | Contínuo   |                           | Não              |
| ph                     | Característica | Contínuo   |                           | Não              |
| Sulfatos               | Característica | Contínuo   |                           | Não              |
| álcool                 | Característica | Contínuo   |                           | Não              |
| qualidade              | Alvo           | Categórico    | escore entre 0 e 10       | Não              |
| Cor                    | Característica          | Categórico | vermelho ou branco        | Não              |


A primeira parte deste relatório consistirá em uma análise exploratória dos dados, com o objetivo de compreender melhor as 13 variáveis. Serão apresentados detalhes como mínimo, máximo, média, mediana, variância, possíveis outliers, assimetria/simetria e a distribuição de probabilidade de cada variável.

Em seguida, avançaremos para a construção de quatro modelos de machine learning, utilizando as seguintes técnicas:

1) Arvores de decisão;
2) Bayesiano ingenuo;
3) Regressão logistica;
4) k-vizinhos.
  
A variável **qualidade** será utilizada como a variável resposta/dependente (y), fornecendo dados sobre a qualidade do vinho, variando de 0 (menor nota) a 10 (maior nota).

# Análise Exploratória

## Biblioteca utilizadas:

1) Pandas -> manipulação de dados;
2) numpy -> cálculos estatísticos;
3) plotly -> gráficos interrativos;
4) matplotlib -> gráficos;
5) scipy -> transformação de variável.

In [None]:
# Instalação das bibliotecas
# %pip install pandas

# %pip install ucimlrepo

# %pip install numpy

# %pip install plotly

# %pip install scipy

# %pip install matplotlib

In [2]:
# Importação das bibliotecas
import pandas as pd

import numpy as np

import plotly.express as px

from scipy.stats import boxcox

import matplotlib.pyplot as plt

In [4]:
# Importando os dados
df = pd.read_csv("winequality-white.csv", sep=";")

In [5]:
# Obtendo as variáveis independentes e dependente
x = df.iloc[:, :11]
y = df.iloc[:, -1]  # Qualidade vinho

In [6]:
# Verificando as 5 primeiras linhas de x e y
x.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol
0,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8
1,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5
2,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1
3,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9
4,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9


In [7]:
y.head()

0    6
1    6
2    6
3    6
4    6
Name: quality, dtype: int64

## Variáveis Explicativas
Vamos realizar uma análise exploratória das variáveis explicativas do conjunto de dados. Abaixo estão as estatísticas descritivas e visualizações para cada variável.

In [8]:
pd.options.display.float_format = "{:.4f}".format
x.describe()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol
count,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0,4898.0
mean,6.8548,0.2782,0.3342,6.3914,0.0458,35.3081,138.3607,0.994,3.1883,0.4898,10.5143
std,0.8439,0.1008,0.121,5.0721,0.0218,17.0071,42.4981,0.003,0.151,0.1141,1.2306
min,3.8,0.08,0.0,0.6,0.009,2.0,9.0,0.9871,2.72,0.22,8.0
25%,6.3,0.21,0.27,1.7,0.036,23.0,108.0,0.9917,3.09,0.41,9.5
50%,6.8,0.26,0.32,5.2,0.043,34.0,134.0,0.9937,3.18,0.47,10.4
75%,7.3,0.32,0.39,9.9,0.05,46.0,167.0,0.9961,3.28,0.55,11.4
max,14.2,1.1,1.66,65.8,0.346,289.0,440.0,1.039,3.82,1.08,14.2


### Dados faltantes

Como pode ser visto na descrição das variáveis explicativas, todas elas possuem 4898 observações, portanto nenhuma possui dados faltantes.

### Acidez Fixa

Ao analisarmos a variável que contém os dados da acidez fixa, podemos verificar que a maioria dos vinhos tem uma acidez próxima de 6.85, variando entre 3.8 e 14.2. Além disso, o desvio padrão é de 0.84, indicando que a grande maioria dos vinhos tem acidez entre 6.01 e 7.69.

Além disso, o segundo quartil, também conhecido como mediana, está em 6.8, próximo à media. Com base nesses dados, é provável que a distribuição dessa variável seja quase simétrica. 

Para verificar a questão da sua destribuição e possíveis outlires vamos utilizar gráfico de histograma e box-plot.

In [28]:
# Calculando a moda da acidez fixa
moda_acid_f = x["fixed acidity"].mode()
moda_acid_f

0   6.8000
Name: fixed acidity, dtype: float64

Podemos observar que a maioria dos vinhos possui uma quantidade de acidez fixa em torno de 6.8. Essa tendência é confirmada pelo pico no histograma abaixo.

In [26]:
# Criação do grafico histograma para a variável 'fixed acidity'
hist_acid_f = px.histogram(x["fixed acidity"])
hist_acid_f.show()

In [68]:
# Criação do grafico box-plot para a variável 'fixed acidity'
bp_acid_f = px.box(x["fixed acidity"])
print(bp_acid_f.show())

Como podemos ver no histograma e no boxplot, a variável de acidez fixa possui uma distribuição uniforme. No entanto, ao analisar o boxplot, identificamos a presença de 24 possíveis outliers.

Para lidar com esses outliers, foram propostas diversas transformações nessa variável, como a aplicação da raiz quadrada, raiz cúbica, logarítmica, exponencial, potencialização e transformação Box-Cox. No entanto, nenhuma dessas transformações foi capaz de ajustar os dados para a remoção dos outliers.

Ao final dos modelos propostos, vamos verificar se o modelo se ajusta melhor com a remoção dessas observações atípicas.

### Acidez Volátil
Ao verificar as estatística da acidez volátil, é possível dizer que os vinhos tem uma acidez volátil em torno de 0.278, variando entre 0.08 e 1.1. Entretando, o seu desvio padrão é de 0.1, indicando que a grande parte dos vinhos tem essa acidez entre 6.01 e 7.69.

Ainda podemos ver que metade dos vinhos tem uma acidez vólatil abaixo de 0.26 e a outra metade acima. Tendo essas analises, é bem provável que essa variável tenha uma distribuição parecida com a acidez fixa.

In [29]:
# Calculando a moda da acidez fixa
moda_acid_v = x["volatile acidity"].mode()
moda_acid_v

0   0.2800
Name: volatile acidity, dtype: float64

In [41]:
# Criação do grafico histograma para a variável 'fixed acidity'
hist_acid_v = px.histogram(x["volatile acidity"])
hist_acid_v.show()

Observando o gráfico de histograma da variável de acidez volátil, podemos ver que essa varíavel possui uma assimetria positiva nos seus dados, afim de melhorar isso podemos propor uma transformação logarítimica para tentar corrigir essa assimetria possitiva.

In [45]:
# Criação do grafico box-plot para a variável 'fixed acidity'
bp_acid_v = px.box(x["volatile acidity"])
bp_acid_v.show()

Observando o histograma da variável de acidez volátil, notamos uma assimetria positiva nos dados, o que é confirmado pelo gráfico de boxplot que apresenta 46 possíveis outliers. Para melhorar a qualidade dos dados dessa variável, vamos propor a aplicação de uma transformação logarítmica.

#### Transformação logarítmica seguida pela transformação de raiz quadrada

A transformação logarítmica será aplicada na tentativa de reduzir a dispersão dos dados e corrigir a assimetria positiva da variável "acidez volátil". É importante destacar que essa transformação só pode ser aplicada a dados estritamente positivos.

Após a aplicação da transformação logarítmica, os valores resultantes serão elevados ao quadrado e, em seguida, terão a raiz quadrada aplicada, garantindo que todos os valores transformados sejam positivos.

In [64]:
# volatile_acidity_log = np.log(x['volatile acidity'])
vola_acidity_t = np.sqrt((np.log(x["volatile acidity"])) ** 2)
vola_acidity_t.describe()

count   4898.0000
mean       1.3376
std        0.3380
min        0.0050
25%        1.1394
50%        1.3471
75%        1.5606
max        2.5257
Name: volatile acidity, dtype: float64

In [60]:
x["volatile acidity"].describe()

count   4898.0000
mean       0.2782
std        0.1008
min        0.0800
25%        0.2100
50%        0.2600
75%        0.3200
max        1.1000
Name: volatile acidity, dtype: float64

Observando apenas o resumo da variável após a sua transformação, podemos verificar que a média ficou mais próxima da mediana e a distância entre o 1º quartil e o 3º quartil diminuiu, indicando uma redução na dispersão dos dados.

Essas observações são confirmadas pelos gráficos abaixo:

In [58]:
# Criação do grafico histograma para a variável 'volatile acidity' após transformação
hist_acid_v = px.histogram(vola_acidity_t)
hist_acid_v.show()

In [59]:
# Criação do gráfico box-plot para a variável 'volatile acidity' após transformação
bp_acid_v = px.box(vola_acidity_t)
bp_acid_v.show()

Além da melhora na dispersão dos dados, o gráfico de boxplot também apresentou uma redução no número de possíveis outliers, de 46 para 34, após a transformação.