# Análise exploratória de dados

In [1]:
import pandas as pd

## 1. Descrição dos dados

In [2]:
df = pd.read_csv('../data/raw/wines_SPA.csv')

In [3]:
df

Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body,acidity
0,Teso La Monja,Tinto,2013,4.9,58,Espana,Toro,995.00,Toro Red,5.0,3.0
1,Artadi,Vina El Pison,2018,4.9,31,Espana,Vino de Espana,313.50,Tempranillo,4.0,2.0
2,Vega Sicilia,Unico,2009,4.8,1793,Espana,Ribera del Duero,324.95,Ribera Del Duero Red,5.0,3.0
3,Vega Sicilia,Unico,1999,4.8,1705,Espana,Ribera del Duero,692.96,Ribera Del Duero Red,5.0,3.0
4,Vega Sicilia,Unico,1996,4.8,1309,Espana,Ribera del Duero,778.06,Ribera Del Duero Red,5.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...
7495,Contino,Reserva,2016,4.2,392,Espana,Rioja,19.98,Rioja Red,4.0,3.0
7496,Conreria d'Scala Dei,Les Brugueres,2018,4.2,390,Espana,Priorato,16.76,Priorat Red,4.0,3.0
7497,Mustiguillo,Finca Terrerazo,2017,4.2,390,Espana,El Terrerazo,24.45,Red,4.0,3.0
7498,Matarromera,Gran Reserva,2011,4.2,389,Espana,Ribera del Duero,64.50,Ribera Del Duero Red,5.0,3.0


In [4]:
df_dict = pd.DataFrame([
    {
        'variavel':'winery',
        'descricao':'Vinícola: local onde o vinho foi produzido',
        'tipo':'qualitativa',
        'subtipo':'nominal'
    },{
        'variavel':'nome do wine',
        'descricao':'vinho',
        'tipo':'qualitativa',
        'subtipo':'nominal'
    },{
        'variavel':'year',
        'descricao':'ano',
        'tipo':'quantitativa',
        'subtipo':'discreta'
    },{
        'variavel':'rating',
        'descricao':'avaliação',
        'tipo':'quantitativa',
        'subtipo':'discreta'
    },{
        'variavel':'num_reviews',
        'descricao':'número de avaliações',
        'tipo':'quantitativa',
        'subtipo':'discreta'
    },{
        'variavel':'country',
        'descricao':'país de origem',
        'tipo':'qualitativa',
        'subtipo':'nominal'
    },{
        'variavel':'region',
        'descricao':'região do vinho',
        'tipo':'qualitativa',
        'subtipo':'nominal'
    },{
        'variavel':'price',
        'descricao':'preço em euros',
        'tipo':'quantitativa',
        'subtipo':'continua'
    },{
        'variavel':'type',
        'descricao':'tipo do vinho',
        'tipo':'qualitativa',
        'subtipo':'nominal'
    },{
        'variavel':'body',
        'descricao':'corpo do vinho: como o vinho "cai" na boca',
        'tipo':'quantitativa',
        'subtipo':'discreta'
    },{
        'variavel':'acidity',
        'descricao':'acidez',
        'tipo':'quantitativa',
        'subtipo':'discreta'
    }
])

In [5]:
df_dict

Unnamed: 0,variavel,descricao,tipo,subtipo
0,winery,Vinícola: local onde o vinho foi produzido,qualitativa,nominal
1,nome do wine,vinho,qualitativa,nominal
2,year,ano,quantitativa,discreta
3,rating,avaliação,quantitativa,discreta
4,num_reviews,número de avaliações,quantitativa,discreta
5,country,país de origem,qualitativa,nominal
6,region,região do vinho,qualitativa,nominal
7,price,preço em euros,quantitativa,continua
8,type,tipo do vinho,qualitativa,nominal
9,body,"corpo do vinho: como o vinho ""cai"" na boca",quantitativa,discreta


- São 11 variáveis, sendo 1 quantitativa contínuas, 5 quantitativas discretas e 5 qualitativas nominais.

In [6]:
df_dict.to_csv('../data/external/dict.csv', index=False)

## 2. Perguntas de partida e hipóteses

In [7]:
number_of_na_by_column = df.isnull().sum().loc[lambda x: x > 0]
number_of_na_rows = df.isnull().any(axis=1).sum()

In [8]:
print(df.isnull().sum())
number_of_na_rows = df.isnull().any(axis=1).sum()
number_of_na_by_column = df.isnull().sum().loc[lambda x: x > 0]

print(f'''
A partir dessa informação percebemos que existem valores faltantes na(s) variável(is) {number_of_na_by_column.axes[0].tolist()}.
Além disso, sabemos que existem {number_of_na_rows} linhas com valores faltantes''')

winery            0
wine              0
year              2
rating            0
num_reviews       0
country           0
region            0
price             0
type            545
body           1169
acidity        1169
dtype: int64

A partir dessa informação percebemos que existem valores faltantes na(s) variável(is) ['year', 'type', 'body', 'acidity'].
Além disso, sabemos que existem 1171 linhas com valores faltantes


In [9]:
df.describe(include='all')

Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body,acidity
count,7500,7500,7498.0,7500.0,7500.0,7500,7500,7500.0,6955,6331.0,6331.0
unique,480,847,71.0,,,1,76,,21,,
top,Contino,Reserva,2011.0,,,Espana,Rioja,,Rioja Red,,
freq,457,467,1190.0,,,7500,2440,,2357,,
mean,,,,4.254933,451.109067,,,60.095822,,4.158427,2.946612
std,,,,0.118029,723.001856,,,150.356676,,0.583352,0.248202
min,,,,4.2,25.0,,,4.99,,2.0,1.0
25%,,,,4.2,389.0,,,18.9,,4.0,3.0
50%,,,,4.2,404.0,,,28.53,,4.0,3.0
75%,,,,4.2,415.0,,,51.35,,5.0,3.0


- Como só existe um país, Espanha, podemos retirá-lo para a continuação das observções.

In [10]:
del df['country']

In [11]:
df

Unnamed: 0,winery,wine,year,rating,num_reviews,region,price,type,body,acidity
0,Teso La Monja,Tinto,2013,4.9,58,Toro,995.00,Toro Red,5.0,3.0
1,Artadi,Vina El Pison,2018,4.9,31,Vino de Espana,313.50,Tempranillo,4.0,2.0
2,Vega Sicilia,Unico,2009,4.8,1793,Ribera del Duero,324.95,Ribera Del Duero Red,5.0,3.0
3,Vega Sicilia,Unico,1999,4.8,1705,Ribera del Duero,692.96,Ribera Del Duero Red,5.0,3.0
4,Vega Sicilia,Unico,1996,4.8,1309,Ribera del Duero,778.06,Ribera Del Duero Red,5.0,3.0
...,...,...,...,...,...,...,...,...,...,...
7495,Contino,Reserva,2016,4.2,392,Rioja,19.98,Rioja Red,4.0,3.0
7496,Conreria d'Scala Dei,Les Brugueres,2018,4.2,390,Priorato,16.76,Priorat Red,4.0,3.0
7497,Mustiguillo,Finca Terrerazo,2017,4.2,390,El Terrerazo,24.45,Red,4.0,3.0
7498,Matarromera,Gran Reserva,2011,4.2,389,Ribera del Duero,64.50,Ribera Del Duero Red,5.0,3.0


In [12]:
df.describe(include='all')

Unnamed: 0,winery,wine,year,rating,num_reviews,region,price,type,body,acidity
count,7500,7500,7498.0,7500.0,7500.0,7500,7500.0,6955,6331.0,6331.0
unique,480,847,71.0,,,76,,21,,
top,Contino,Reserva,2011.0,,,Rioja,,Rioja Red,,
freq,457,467,1190.0,,,2440,,2357,,
mean,,,,4.254933,451.109067,,60.095822,,4.158427,2.946612
std,,,,0.118029,723.001856,,150.356676,,0.583352,0.248202
min,,,,4.2,25.0,,4.99,,2.0,1.0
25%,,,,4.2,389.0,,18.9,,4.0,3.0
50%,,,,4.2,404.0,,28.53,,4.0,3.0
75%,,,,4.2,415.0,,51.35,,5.0,3.0


- Dos 7500 totais, são únicos 847 vinhos, 480 vinícolas, 76 regiões e 21 tipos.
- O vinho mais comum é o Reserva com 467 aparições.
- A vinícola mais comum é a Contino com 457 aparições.
- O ano mais comum é 2011 com 1190 aparições.
- A região mais comum é Rioja com 2440 aparições.
- O tipo mais comum é Rioja Red com 2357 aparições.
- A média de preço é, aproximadamente, 60.10 euros.

## 3. Insights