<a href="https://colab.research.google.com/github/FTCLuis/Mineracao-de-Dados/blob/main/Luis_Felipe_Laudacio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **ATIVIDADE P1**

## Análise Exploratória de Dados

Links deste exercício:
- https://www.kaggle.com/datasets/zynicide/wine-reviews
- https://seaborn.pydata.org/
- https://www.wine-searcher.com/critics-17-wine+enthusiast

Fomos contratados por uma grande empresa distribuidora de vinhos. Nosso cliente deseja melhorar as vendas entregando produtos que agradem os diversos perfis de clientes. O foco do nosso projeto aqui é desenvolver uma análise exploratória nos [dados de avaliações de vinhos](https://www.kaggle.com/datasets/zynicide/wine-reviews).

Uma análise exploratória bem elaborada consiste em algumas etapas:

- Compreensão do negócio
- Compreensão dos dados
- Preparar os dados (limpeza e tratamento)
- Análise de dados (extrair informações relevantes e responder perguntas)
- Avaliação dos resultados

Nosso objetivo ao concluir esse projeto é responder as seguintes perguntas:

1. De onde vem o melhor vinho ?
2. O preço do vinho está relacionado com a qualidade ?
3. Certas variedades de uvas são de maior qualidade ?
4. Qual é o melhor vinho em cada faixa de preço ?
5. Que palavras são mais utilizadas para descrever um vinho ?

Vamos começar!

# **Importação dos Dados**

Importando todas as bibliotecas para a utilização durante o notebook

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set()

Agora, vamos mostrar o dataset

In [3]:
df = pd.read_csv("/content/winemag-data-130k-v2.csv")
df.head()

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


Para um entendimento melhor do todas as colunas do dataset, vamos elaborar um pequeno dicionário com a explicação de cada coluna.

---


- **unnamed** - parece ser uma coluna de índice que podemos remover

- **country** - país onde o vinho foi feito (interessante)

- **description** - descrição do vinho

- **designation** - vinhedo dentro da adega de onde as uvas que fizeram o vinho foram coletadas.

- **points** - é o número de pontos que o vinho obteve em sua avaliação (precisamos entender a escala de pontos)

- **price** - preço da garrafa de vinho

- **province** - é a província (estado) onde o vinho foi feito

- **region_1** - é a região onde o vinho foi feito

- **region_2** - região mais específica dentro de uma vitícola (podemos remover isso)

- **taster_name** - nome do revisor

- **taster_twitter_handle** - perfil do Twitter do avaliador

- **title** - nome do vinho analisado (o ano de fabricação está no título)

- **variety** - tipo de uvas utilizadas na fabricação do vinho

- **winery** - adega onde o vinho foi feito.

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 129971 entries, 0 to 129970
Data columns (total 14 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   Unnamed: 0             129971 non-null  int64  
 1   country                129908 non-null  object 
 2   description            129971 non-null  object 
 3   designation            92506 non-null   object 
 4   points                 129971 non-null  int64  
 5   price                  120975 non-null  float64
 6   province               129908 non-null  object 
 7   region_1               108724 non-null  object 
 8   region_2               50511 non-null   object 
 9   taster_name            103727 non-null  object 
 10  taster_twitter_handle  98758 non-null   object 
 11  title                  129971 non-null  object 
 12  variety                129970 non-null  object 
 13  winery                 129971 non-null  object 
dtypes: float64(1), int64(2), object(11)


Temos, no nosso dataset, 129.971 registros, com 14 colunas ao todo. Podemos perceber também que, existem dados em colunas que estão nulos, e que precisaremos tirar para uma melhor análise da nossa base.

In [5]:
df.describe()

Unnamed: 0.1,Unnamed: 0,points,price
count,129971.0,129971.0,120975.0
mean,64985.0,88.447138,35.363389
std,37519.540256,3.03973,41.022218
min,0.0,80.0,4.0
25%,32492.5,86.0,17.0
50%,64985.0,88.0,25.0
75%,97477.5,91.0,42.0
max,129970.0,100.0,3300.0


O describe mostra que existe uma variação de **pontuação** e de **preço**. A variação de pontuação, podemos seguir uma tabelinha de classificação:

- **98–100** – Clássico
- **94–97** – Soberbo
- **90–93** – Excelente
- **87–89** – Muito bom
- **83–86** – Bom
- **80–82** – Aceitável

In [6]:
df['country'].value_counts()

Unnamed: 0_level_0,count
country,Unnamed: 1_level_1
US,54504
France,22093
Italy,19540
Spain,6645
Portugal,5691
Chile,4472
Argentina,3800
Austria,3345
Australia,2329
Germany,2165


  Podemos visualizar que, a maioria dos vinhos presentes na tabela são dos **Estados Unidos**, **França**, **Itália**, **Espanha** e **Portugal**.

In [7]:
df["variety"].value_counts()

Unnamed: 0_level_0,count
variety,Unnamed: 1_level_1
Pinot Noir,13272
Chardonnay,11753
Cabernet Sauvignon,9472
Red Blend,8946
Bordeaux-style Red Blend,6915
...,...
Cabernet Sauvignon-Barbera,1
Sauvignonasse,1
Forcallà,1
Meseguera,1


Já com o **Variety**, podemos ver quais foram os tipos de uvas que mais foram utilizadas durante as fabricações dos vinhos.


O próximo passo seria fazer a limpeza dos dados, para retirar colunas que não iremos utilizar ou dados nulos que possam existir no dataframe.

# Limpando os Dados

Antes de fazer qualquer coisa no dataframe, temos que fazer uma cópia do dataframe para evitar qualquer tipo de acidente que possa ocorrer durante a análise dos dados.

In [8]:
df1 = df.copy()

Agora vamos remover todas as colunas que não iremos utilizar na nossa análise:

In [9]:
df1 = df1.drop(["Unnamed: 0", "designation", "region_1", "region_2", "taster_name", "taster_twitter_handle"], axis=1)
df1.head()

Unnamed: 0,country,description,points,price,province,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",87,,Sicily & Sardinia,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",87,15.0,Douro,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",87,14.0,Oregon,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",87,13.0,Michigan,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",87,65.0,Oregon,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


Vamos agora retirar todos os dados que estão nulos nos registros na tabela:

In [12]:
df1 = df1.dropna(subset=["country", "price", "province", "variety"])
df1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 120915 entries, 1 to 129970
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   country      120915 non-null  object 
 1   description  120915 non-null  object 
 2   points       120915 non-null  int64  
 3   price        120915 non-null  float64
 4   province     120915 non-null  object 
 5   title        120915 non-null  object 
 6   variety      120915 non-null  object 
 7   winery       120915 non-null  object 
dtypes: float64(1), int64(1), object(6)
memory usage: 8.3+ MB


# Análise Exploratória