# Análise exploratória de dados

### Importando Bibliotecas

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from pathlib import Path 

## 1. Descrição dos dados

In [2]:
# Trazendo o dicionário
data_path = Path('../data/external/dictionary.csv')

# Lendo o dataset
df_dictionary = pd.read_csv(data_path, sep=',') 

# Exibindo o DataFrame
df_dictionary

Unnamed: 0,variavel,descricao,tipo,subtipo
0,winery,Nome da vinícola,qualitativa,nominal
1,wine,Nome do vinho,qualitativa,nominal
2,year,Ano em que as uvas foram colhidas,quantitativa,discreta
3,rating,Avaliação média dada ao vinho pelos usuários [...,quantitativa,contínua
4,num_reviews,Número de usuários que avaliaram o vinho,quantitativa,discreta
5,country,País de origem [Espanha],qualitativa,nominal
6,region,Região do vinho,qualitativa,nominal
7,price,Preço em euros [€],quantitativa,contínua
8,type,Variedade de vinho,qualitativa,nominal
9,body,"Pontuação de corpo, definida como a riqueza e ...",quantitativa,contínua


In [3]:
df= pd.read_csv("../data/raw/wines_SPA.csv")
df.head()


Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body,acidity
0,Teso La Monja,Tinto,2013,4.9,58,Espana,Toro,995.0,Toro Red,5.0,3.0
1,Artadi,Vina El Pison,2018,4.9,31,Espana,Vino de Espana,313.5,Tempranillo,4.0,2.0
2,Vega Sicilia,Unico,2009,4.8,1793,Espana,Ribera del Duero,324.95,Ribera Del Duero Red,5.0,3.0
3,Vega Sicilia,Unico,1999,4.8,1705,Espana,Ribera del Duero,692.96,Ribera Del Duero Red,5.0,3.0
4,Vega Sicilia,Unico,1996,4.8,1309,Espana,Ribera del Duero,778.06,Ribera Del Duero Red,5.0,3.0


#### Transformando os nomes de colunas para pt-BR

In [4]:
# Renomeando as colunas
df.rename(columns={
    'winery': 'vinícola',
    'wine': 'vinho',
    'year': 'ano',
    'rating': 'avaliação',
    'num_reviews': 'num_avaliações',
    'country': 'país',
    'region': 'região',
    'price': 'preço',
    'type': 'tipo',
    'body': 'corpo',
    'acidity': 'acidez'
    
}, inplace=True)

# Exibir as primeiras linhas do DataFrame após renomear as colunas
df.head()

Unnamed: 0,vinícola,vinho,ano,avaliação,num_avaliações,país,região,preço,tipo,corpo,acidez
0,Teso La Monja,Tinto,2013,4.9,58,Espana,Toro,995.0,Toro Red,5.0,3.0
1,Artadi,Vina El Pison,2018,4.9,31,Espana,Vino de Espana,313.5,Tempranillo,4.0,2.0
2,Vega Sicilia,Unico,2009,4.8,1793,Espana,Ribera del Duero,324.95,Ribera Del Duero Red,5.0,3.0
3,Vega Sicilia,Unico,1999,4.8,1705,Espana,Ribera del Duero,692.96,Ribera Del Duero Red,5.0,3.0
4,Vega Sicilia,Unico,1996,4.8,1309,Espana,Ribera del Duero,778.06,Ribera Del Duero Red,5.0,3.0


#### Verificando os valores da coluna país

In [5]:
df["país"].value_counts() 

país
Espana    7500
Name: count, dtype: int64

In [7]:
# Valores únicos espana - coluna foi removida
df = df.drop(columns=['país'])
df

Unnamed: 0,vinícola,vinho,ano,avaliação,num_avaliações,região,preço,tipo,corpo,acidez
0,Teso La Monja,Tinto,2013,4.9,58,Toro,995.00,Toro Red,5.0,3.0
1,Artadi,Vina El Pison,2018,4.9,31,Vino de Espana,313.50,Tempranillo,4.0,2.0
2,Vega Sicilia,Unico,2009,4.8,1793,Ribera del Duero,324.95,Ribera Del Duero Red,5.0,3.0
3,Vega Sicilia,Unico,1999,4.8,1705,Ribera del Duero,692.96,Ribera Del Duero Red,5.0,3.0
4,Vega Sicilia,Unico,1996,4.8,1309,Ribera del Duero,778.06,Ribera Del Duero Red,5.0,3.0
...,...,...,...,...,...,...,...,...,...,...
7495,Contino,Reserva,2016,4.2,392,Rioja,19.98,Rioja Red,4.0,3.0
7496,Conreria d'Scala Dei,Les Brugueres,2018,4.2,390,Priorato,16.76,Priorat Red,4.0,3.0
7497,Mustiguillo,Finca Terrerazo,2017,4.2,390,El Terrerazo,24.45,Red,4.0,3.0
7498,Matarromera,Gran Reserva,2011,4.2,389,Ribera del Duero,64.50,Ribera Del Duero Red,5.0,3.0


In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7500 entries, 0 to 7499
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   vinícola        7500 non-null   object 
 1   vinho           7500 non-null   object 
 2   ano             7498 non-null   object 
 3   avaliação       7500 non-null   float64
 4   num_avaliações  7500 non-null   int64  
 5   região          7500 non-null   object 
 6   preço           7500 non-null   float64
 7   tipo            6955 non-null   object 
 8   corpo           6331 non-null   float64
 9   acidez          6331 non-null   float64
dtypes: float64(4), int64(1), object(5)
memory usage: 586.1+ KB


In [15]:
df.isnull().sum()

vinícola             0
vinho                0
ano                  2
avaliação            0
num_avaliações       0
região               0
preço                0
tipo               545
corpo             1169
acidez            1169
dtype: int64

In [17]:
duplicatas = df.duplicated()
duplicatas

0       False
1       False
2       False
3       False
4       False
        ...  
7495     True
7496     True
7497     True
7498     True
7499     True
Length: 7500, dtype: bool

## 2. Perguntas de partida e hipóteses

1. Há uma correlação entre o preço dos vinhos e a avaliação média?
2. Quais são as regiões com os vinhos mais caros em média?
3. tem diferenças entre a popularidade do vinho e seu tipo?
4. A acidez ou o corpo dos vinhos influenciam a avaliação média dos usuários?
5. Quais são os melhores anos de vinhos avaliados? São os mais antigos?
6. Qual país oferece os vinhos com melhor custo-benefício(preço + avaliação)?
7. Quais vinícolas produzem vinhos com maior variação de corpo e acidez e com menos?

## 3. Insights