<a href="https://colab.research.google.com/github/kellyortiz/aula-Estruturas-de-Dados-em-Python/blob/main/analise_qualidade_vinhos_uci.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise de Qualidade de Vinhos com Dados do UCI Wine Quality Dataset

## Contexto

Karina é filha de um pequeno produtor de vinhos do sul do Brasil e sempre ajudou a família no cultivo das parreiras, participando do plantio, poda e colheita das uvas usadas para produzir o vinho tinto Giarolez. Interessada em um dia assumir a vinícola do pai, Karina estudou agronomia e fez cursos de enologia, onde aprendeu a analisar características físico-químicas que influenciam a qualidade do vinho, como acidez fixa, acidez volátil, concentração de ácido cítrico, teor alcoólico, pH, entre outros.

Para entender melhor o que torna um vinho competitivo no mercado, Karina coletou amostras de vinhos tintos e brancos da região durante três anos e mediu diversas propriedades físico-químicas de cada amostra. Cada vinho recebeu uma nota de qualidade de 0 a 10 após análises sensoriais.

Com mais de 6.400 amostras em mãos e milhares de dados para analisar, Karina precisava de uma forma eficiente de processar essas informações. Por isso, contratou um analista de dados que utilizou a linguagem Python para gerar análises descritivas dos parâmetros físico-químicos e das notas atribuídas, separando os melhores e piores vinhos para encontrar padrões que ajudem a melhorar a produção.

---

## Objetivo

Neste notebook, iremos:

- Carregar os dados de vinhos tintos e brancos do dataset "Wine Quality" disponível no repositório UCI Machine Learning Repository;
- Gerar tabelas descritivas com estatísticas (média, desvio padrão, mínimo, máximo, número de amostras) para todos os parâmetros físicos e notas de qualidade;
- Comparar estatísticas dos melhores vinhos (notas mais altas) com os piores vinhos (notas mais baixas), tanto para vinhos tintos quanto para brancos;
- Visualizar graficamente a distribuição de variáveis importantes para entender quais parâmetros mais diferenciam os vinhos de qualidade superior e inferior.

---

## Fonte dos Dados

Os dados utilizados são do repositório **UCI Machine Learning Repository** e podem ser acessados aqui:

- Página do dataset: https://archive.ics.uci.edu/ml/datasets/wine+quality  
- Dados dos vinhos tintos (CSV): https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv  
- Dados dos vinhos brancos (CSV): https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv


In [2]:
import pandas as pd

# URLs dos arquivos no site do UCI
url_tinto = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv'
url_branco = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv'

vinho_tinto = pd.read_csv(url_tinto, sep=';')
vinho_branco = pd.read_csv(url_branco, sep=';')

def resumo_estatistico(df):
    resumo = df.describe().T
    resumo = resumo[['count', 'mean', 'std', 'min', 'max']]
    resumo.columns = ['Num Amostras', 'Média', 'Desvio Padrão', 'Mínimo', 'Máximo']
    return resumo

print("Tabela Geral - Vinho Tinto")
print(resumo_estatistico(vinho_tinto), '\n')

print("Tabela Geral - Vinho Branco")
print(resumo_estatistico(vinho_branco), '\n')

melhores_brancos = vinho_branco[vinho_branco['quality'] > 8]
piores_brancos = vinho_branco[vinho_branco['quality'] < 4]

print("Melhores Vinhos Brancos (nota superior a 8)")
print(resumo_estatistico(melhores_brancos), '\n')

print("Piores Vinhos Brancos (nota inferior a 4)")
print(resumo_estatistico(piores_brancos), '\n')

melhores_tintos = vinho_tinto[vinho_tinto['quality'] > 7]
piores_tintos = vinho_tinto[vinho_tinto['quality'] < 4]

print("Melhores Vinhos Tintos (nota superior a 7)")
print(resumo_estatistico(melhores_tintos), '\n')

print("Piores Vinhos Tintos (nota inferior a 4)")
print(resumo_estatistico(piores_tintos), '\n')

Tabela Geral - Vinho Tinto
                      Num Amostras      Média  Desvio Padrão   Mínimo  \
fixed acidity               1599.0   8.319637       1.741096  4.60000   
volatile acidity            1599.0   0.527821       0.179060  0.12000   
citric acid                 1599.0   0.270976       0.194801  0.00000   
residual sugar              1599.0   2.538806       1.409928  0.90000   
chlorides                   1599.0   0.087467       0.047065  0.01200   
free sulfur dioxide         1599.0  15.874922      10.460157  1.00000   
total sulfur dioxide        1599.0  46.467792      32.895324  6.00000   
density                     1599.0   0.996747       0.001887  0.99007   
pH                          1599.0   3.311113       0.154386  2.74000   
sulphates                   1599.0   0.658149       0.169507  0.33000   
alcohol                     1599.0  10.422983       1.065668  8.40000   
quality                     1599.0   5.636023       0.807569  3.00000   

                       