# Wine Findings (exploração do dataset)

@autores<br>
Henrique de Fraia Paschoal<br>
Samuel Luiz Martins dos Santos<br>

***

## Panorama geral

**Wine Findings** é uma aplicação multiplataforma que permita aos usuários prever a qualidade de um vinho e receber recomendações de harmonizações baseadas em seus gostos pessoais através de técnicas de mineração de dados que agrupam padrões e criam dashboards interativos a fim de explicar as relações dos dados com suas preferencias palativas, oferecendo assim uma experiência de descoberta e certeza de uma boa escolha, ajudando o usuário a encontrar vinhos que realmente correspondam ao seu perfil.

O treinamento dos modelos de predição é feito em cima do dataset "[Portuguese Wines Blog os Vinhos](https://www.kaggle.com/datasets/mariazhokhova/portuguese-wines-blog-os-vinhos)" retirado do site [Kaggle.com](https://www.kaggle.com/).

> NOTA<br>
> Se estamos enganados e o seu tipo de licensa não permite usá-lo ou compartilhá-lo desta maneira, iremos remover o conteúdo caso requisitado.

São quase três mil avaliações de vinhos coletados diretamente do blog "[Os Vinhos](https://osvinhos.blogspot.com/)" de diversos tipos e diversas regiões do mundo.

Algumas colunas possuem conteúdo em português e os valores "-1", "null" ou "-" correspondem a dados não encontrados no blog. O álcool é calculado em porcentagem e os preços dos vinhos em euros. A pontuação da qualidade de cada vinho é definida entre 0 e 20.

@informações do kaggle
- Autor do dataset: [Luís Oliveira](https://data.world/loliveira1999)
- Início da cobertura: 31/12/1964
- Término da cobertura: 30/12/2018
- Região de cobertura: Portugal
- Fonte original: https://data.world/loliveira1999/portuguese-wine-dataset-from-blogosvinhos
- Licensa: https://opendatacommons.org/licenses/dbcl/1-0/

***

## Importando bibliotecas

In [8]:
import pandas as pd
import io

from termcolor import colored
from tabulate import tabulate

print(colored('\nTodas as bibliotecas importadas com sucesso', 'green'))


Todas as bibliotecas importadas com sucesso


## Configurando as bibliotecas

In [2]:
pd.set_option('display.max_columns', None)

print(colored('\nTodas as bibliotecas configuradas com sucesso', 'green'))


Todas as bibliotecas configuradas com sucesso


## Importando dados

In [3]:
data = pd.read_csv('/content/dataset.csv')

print(tabulate(data.head(5), headers='keys', tablefmt='fancy_grid'))


╒════╤══════════════╤════════╤═══════════════════╤════════╤═════════╤═════════════════════════════════════════════════════════════════╤═════════════════════╤══════════════════════════════╤════════════════╤════════════════╤═══════════════════════════════╤═══════════════╤═══════════════╤════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════╤═════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════

### Descrição de cada atributo

```
- Unnamed: 0          → Seria o equivalente ao número indentificador (ID) de um dado.

- Name                → Representa o nome do vinho.

- Region              → Representa a região em que o vinho foi produzido.

- Year                → Representa o ano em que o vinho foi produzido.

- Color               → Representa a cor do vinho (branco, vermelho, rosé).

- Castes              → Representa o tipo de safra utilizado na fabricação do vinho (o(s) tipo(s) de uva(s)).

- AlcoholPercentage   → Representa a porcentagem de teor alcólico do vinho.

- Producer            → Representa o nome do produtor do vinho.

- MinimunPrice        → Representa o valor mínimo de preço já registrado para o vinho em euros.

- MaximumPrice        → Representa o valor máximo de preço já regitrado para o vinho em euros.

- Judge               → Representa o nome do(s) juís(es) que analisou(aram) o vinho.

- JudgeRating         → Representa a nota dada pelo(s) juís(es) na avaliação do vinho.

- Date                → Representa a data de avaliação do vinho.

- JudgeNotes          → Representa a experiência sensorial que o(s) juís(es) obteve(ram) ao experimentar o vinho.

- Label               → Representa a descrição do rótulo do vinho pelos seus produtores.

- Link                → Representa o link da página web onde foram retirados os dados do vinho.
```

## Análise dos dados

In [12]:
def display_dataset_info(data: pd.DataFrame, custom_missing: list = ["null", "-1", "-"]) -> pd.DataFrame:
    """
    Exibe informações do dataset (data.info()) e os valores ausentes,
    alinhando as contagens de missing values com as colunas apresentadas.

    Parâmetros:
      - data: DataFrame a ser analisado.
      - custom_missing: Lista de valores que devem ser considerados como ausentes.

    Retorna:
      - DataFrame com valores ausentes substituídos por NaN.
    """
    # Substitui os valores personalizados por NaN para padronizar as análises futuras
    data_replaced = data.replace(custom_missing, pd.NA)

    # Captura a saída do data.info() em um buffer de texto
    buffer = io.StringIO()
    data_replaced.info(buf=buffer)
    info_text = [line.strip() for line in buffer.getvalue().split("\n") if line.strip()]

    # Cria DataFrame com a contagem de valores ausentes por coluna
    missing_counts = data_replaced.isna().sum().astype(int).reset_index()
    missing_counts.columns = ['Coluna', 'Valores Ausentes']

    # Encontra a linha onde a listagem das colunas inicia em info_text
    start_idx = next(i for i, line in enumerate(info_text) if "Column" in line) + 2

    # Alinha os valores ausentes com as informações de data.info()
    aligned_missing = [""] * start_idx + missing_counts["Valores Ausentes"].astype(str).tolist()
    aligned_missing += [""] * (len(info_text) - len(aligned_missing))

    # Cria DataFrame final para exibição
    final_table = pd.DataFrame({
        "Info Dataset": info_text,
        "Valores Ausentes": aligned_missing
    })

    # Exibi a tabela formatada e a dimensão do dataset
    print(tabulate(final_table, headers='keys', tablefmt='fancy_grid'))
    print("\nDimensão:", data_replaced.shape)

    # Retorna o DataFrame com os valores substituidos
    return data_replaced

data_replaced = display_dataset_info(data)


╒════╤════════════════════════════════════════════════╤════════════════════╕
│    │ Info Dataset                                   │ Valores Ausentes   │
╞════╪════════════════════════════════════════════════╪════════════════════╡
│  0 │ <class 'pandas.core.frame.DataFrame'>          │                    │
├────┼────────────────────────────────────────────────┼────────────────────┤
│  1 │ RangeIndex: 2993 entries, 0 to 2992            │                    │
├────┼────────────────────────────────────────────────┼────────────────────┤
│  2 │ Data columns (total 16 columns):               │                    │
├────┼────────────────────────────────────────────────┼────────────────────┤
│  3 │ #   Column             Non-Null Count  Dtype   │                    │
├────┼────────────────────────────────────────────────┼────────────────────┤
│  4 │ ---  ------             --------------  -----  │                    │
├────┼────────────────────────────────────────────────┼────────────────────┤

NOTA

_O dataset possui ao todo 2993 dados de entradas organizados em 16 colunas._

_A coluna "Unnamed: 0" aparenta ser irrelevante para nossa análise dado que visa representar o ID dos dados._

_As colunas "Name", "Region", "Color", "Castes", "Producer", "Judge", "Date", "JudgeNotes", "Label" e "Link" são tratados como objetos (no geral, texto ou outros tipos de dados que não são exatamente numéricos)._

_Acredito que suas informações são relevantes para a aplicação e a avaliação final de cada vinho, portanto pode ser interessante encontrar padrões e transformar seus dados em novas colunas de tipo booleano (verdadeiro ou falso)._

_A coluna "Year" é tratada como número inteiro e as colunas "AlcoholPercentage", "MinimunPrice", "MaximumPrice" e "JudgeRating" são tratados como números decimais._

_Existem ao todo 639 dados faltando entre as colunas:_

- _Year = 4_
- _Castes = 26_
- _Producer = 5_
- _Judge = 43_
- _Date = 23_
- _JudgeNotes = 1_
- _Label = 537_

In [13]:
print("\nEstatísticas do Dataset:")
data_replaced.describe().T.style.background_gradient(axis=0)
"""
describe() nos dá uma visão rápida de como os dados estão distribuídos nas colunas numéricas do DataFrame.

Estatísticas Geradas:

  - count : Número de valores não ausentes em cada coluna.
  - mean  : Média dos valores.
  - std   : Desvio padrão, que indica a dispersão dos dados.
  - min   : O valor mínimo.
  - 25%   : O primeiro quartil (Q1), o valor abaixo do qual 25% dos dados estão.
  - 50%   : O segundo quartil (Q2 ou mediana), o valor abaixo do qual 50% dos dados estão.
  - 75%   : O terceiro quartil (Q3), o valor abaixo do qual 75% dos dados estão.
  - max   : O valor máximo.
"""



Estatísticas do Dataset:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Unnamed: 0,2993.0,1496.0,864.149003,0.0,748.0,1496.0,2244.0,2992.0
Year,2993.0,2000.924156,127.122885,-1.0,2005.0,2009.0,2013.0,2018.0
AlcoholPercentage,2993.0,13.405112,0.939524,-1.0,13.0,13.5,14.0,17.0
MinimunPrice,2993.0,9.657701,8.548043,-1.0,4.0,7.5,12.5,155.0
MaximumPrice,2993.0,14.688573,40.8814,-1.0,7.5,10.0,15.0,2150.0
JudgeRating,2993.0,15.639492,1.130448,-1.0,15.0,15.5,16.5,19.0
