# Avaliações de Vinhos

Abaixo podemos ver dados sobre avaliações de vinhos pelo mundo em comparação com o Brasil.

In [4]:
import pandas as pd

df = pd.read_csv(r'..\\data\\interim\\tech_challenge\\comercio_vinhos_rs.csv', delimiter=';')

# Remove as linhas que não contêm "_" na coluna "id_produto"
df_filtered = df[df['id_produto'].str.contains('_')]

# Exibe apenas o cabeçalho do DataFrame filtrado
display(df_filtered.head())

Unnamed: 0,id_produto,produto,ano,quantidade_com_rs
1,vm_tinto,tinto,1970,83300735
2,vm_rosado,rosado,1970,107681
3,vm_branco,branco,1970,14919190
5,vm_tinto,tinto,1970,435354
6,vm_rosado,rosado,1970,183234


In [5]:
# Identifica o maior ano presente na coluna "ano"
maior_ano = df_filtered['ano'].max()

# Calcula o limite inferior do intervalo de 15 anos
limite_inferior = maior_ano - 15

# Filtra o DataFrame para exibir apenas as linhas a partir de 15 anos em relação ao maior ano
df_final = df_filtered[df_filtered['ano'] >= limite_inferior]

display(df_final.head())

Unnamed: 0,id_produto,produto,ano,quantidade_com_rs
2197,vm_tinto,tinto,2006,209438207
2198,vm_rosado,rosado,2006,3071382
2199,vm_branco,branco,2006,33116025
2201,vm_tinto,tinto,2006,13920655
2202,vm_rosado,rosado,2006,307189


In [6]:
# Agrupa por produto e calcula a soma da quantidade exportada
df_soma_exportacao = df_filtered.groupby('produto')['quantidade_com_rs'].sum().reset_index()

# Calcula a soma total
soma_total = df_soma_exportacao['quantidade_com_rs'].sum()

# Calcula a representatividade da quantidade
df_soma_exportacao['representatividade'] = df_soma_exportacao['quantidade_com_rs'] / soma_total * 100

# Ordena o DataFrame pela soma total em ordem decrescente
df_soma_exportacao = df_soma_exportacao.sort_values(by='quantidade_com_rs', ascending=False)

# Exibe o DataFrame com a soma total exportada agrupada por produto, ordenado e com a representatividade da quantidade
display(df_soma_exportacao.head())

Unnamed: 0,produto,quantidade_com_rs,representatividade
36,tinto,8248377243,63.244838
10,branco,2016771710,15.463696
31,rosado,630710299,4.836002
33,suco natural integral,361256175,2.769949
18,filtrado doce,311678070,2.389807


In [7]:
df = pd.read_csv(r'..\\data\\processed\\wine_ratings\\winemag-data-130k-v2.csv', delimiter=',')

display(df)

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129966,129966,Germany,Notes of honeysuckle and cantaloupe sweeten th...,Brauneberger Juffer-Sonnenuhr Spätlese,90,28.0,Mosel,,,Anna Lee C. Iijima,,Dr. H. Thanisch (Erben Müller-Burggraef) 2013 ...,Riesling,Dr. H. Thanisch (Erben Müller-Burggraef)
129967,129967,US,Citation is given as much as a decade of bottl...,,90,75.0,Oregon,Oregon,Oregon Other,Paul Gregutt,@paulgwine,Citation 2004 Pinot Noir (Oregon),Pinot Noir,Citation
129968,129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss


In [8]:
filtered_df = df[['country', 'designation', 'points', 'province', 'title', 'variety']]

display(filtered_df)

Unnamed: 0,country,designation,points,province,title,variety
0,Italy,Vulkà Bianco,87,Sicily & Sardinia,Nicosia 2013 Vulkà Bianco (Etna),White Blend
1,Portugal,Avidagos,87,Douro,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red
2,US,,87,Oregon,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris
3,US,Reserve Late Harvest,87,Michigan,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling
4,US,Vintner's Reserve Wild Child Block,87,Oregon,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir
...,...,...,...,...,...,...
129966,Germany,Brauneberger Juffer-Sonnenuhr Spätlese,90,Mosel,Dr. H. Thanisch (Erben Müller-Burggraef) 2013 ...,Riesling
129967,US,,90,Oregon,Citation 2004 Pinot Noir (Oregon),Pinot Noir
129968,France,Kritt,90,Alsace,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer
129969,France,,90,Alsace,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris


In [9]:
tipo_vinho_dict = {
    'Pinot Noir': 'tinto',
    'Chardonnay': 'branco',
    'Cabernet Sauvignon': 'tinto',
    'Red Blend': 'tinto',
    'Bordeaux-style Red Blend': 'tinto',
    'Riesling': 'branco',
    'Sauvignon Blanc': 'branco',
    'Syrah': 'tinto',
    'Rosé': 'rosado',
    'Merlot': 'tinto',
    'Nebbiolo': 'tinto',
    'Zinfandel': 'tinto',
    'Sangiovese': 'tinto',
    'Malbec': 'tinto',
    'Portuguese Red': 'tinto',
    'White Blend': 'branco',
    'Sparkling Blend': 'branco',
    'Tempranillo': 'tinto',
    'Rhône-style Red Blend': 'tinto',
    'Pinot Gris': 'branco',
    'Champagne Blend': 'branco',
    'Cabernet Franc': 'tinto',
    'Grüner Veltliner': 'branco',
    'Portuguese White': 'branco',
    'Bordeaux-style White Blend': 'branco',
    'Pinot Grigio': 'branco',
    'Gamay': 'tinto',
    'Gewürztraminer': 'branco',
    'Viognier': 'branco',
    'Shiraz': 'tinto',
    'Petite Sirah': 'tinto',
    'Sangiovese Grosso': 'tinto',
    'Barbera': 'tinto',
    'Glera': 'branco',
    'Port': 'tinto',
    'Grenache': 'tinto',
    'Corvina, Rondinella, Molinara': 'tinto',
    'Chenin Blanc': 'branco',
    'Tempranillo Blend': 'tinto',
    'Carmenère': 'tinto'
}

filtered_df['tipo'] = filtered_df['variety'].map(lambda x: tipo_vinho_dict.get(x, 'Outro'))

# Remover as linhas em que o tipo de vinho é 'Outro'
filtered_df = filtered_df[filtered_df['tipo'] != 'Outro']

# Exibir o DataFrame atualizado
display(filtered_df)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filtered_df['tipo'] = filtered_df['variety'].map(lambda x: tipo_vinho_dict.get(x, 'Outro'))


Unnamed: 0,country,designation,points,province,title,variety,tipo
0,Italy,Vulkà Bianco,87,Sicily & Sardinia,Nicosia 2013 Vulkà Bianco (Etna),White Blend,branco
1,Portugal,Avidagos,87,Douro,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,tinto
2,US,,87,Oregon,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,branco
3,US,Reserve Late Harvest,87,Michigan,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,branco
4,US,Vintner's Reserve Wild Child Block,87,Oregon,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,tinto
...,...,...,...,...,...,...,...
129966,Germany,Brauneberger Juffer-Sonnenuhr Spätlese,90,Mosel,Dr. H. Thanisch (Erben Müller-Burggraef) 2013 ...,Riesling,branco
129967,US,,90,Oregon,Citation 2004 Pinot Noir (Oregon),Pinot Noir,tinto
129968,France,Kritt,90,Alsace,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,branco
129969,France,,90,Alsace,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,branco


In [10]:
# Agrupar os dados por país e tipo, calculando a média dos pontos
grouped_df = filtered_df.groupby(['country', 'tipo']).agg({'points': 'mean'})

# Resetar o índice do DataFrame
grouped_df = grouped_df.reset_index()

# Ordenar o DataFrame agrupado por país em ordem alfabética
grouped_df_sorted = grouped_df.sort_values(by='country')

# Exibir o DataFrame ordenado
display(grouped_df_sorted)


Unnamed: 0,country,tipo,points
0,Argentina,branco,84.742574
1,Argentina,rosado,84.131579
2,Argentina,tinto,87.206461
3,Armenia,rosado,88.000000
4,Australia,branco,87.581301
...,...,...,...
100,Ukraine,rosado,84.000000
101,Ukraine,tinto,84.000000
103,Uruguay,rosado,84.333333
102,Uruguay,branco,82.800000


In [11]:
import plotly.graph_objects as go

# Ordenar o DataFrame por tipo, média e país, com points em ordem decrescente
grouped_df = grouped_df.sort_values(by=['tipo', 'points', 'country'], ascending=[True, False, True])

# Criar os gráficos de barra separados
figs = []

# Definir as cores para cada tipo de vinho
colors = {'tinto': 'red', 'branco': 'grey', 'rosado': 'pink'}

# Encontrar a pontuação média do país "Brazil"
brazil_mean_points = grouped_df[(grouped_df['country'] == 'Brazil')]['points'].mean()

# Gerar um gráfico de barra para cada tipo de vinho
for tipo in grouped_df['tipo'].unique():
    data = grouped_df[grouped_df['tipo'] == tipo]
    data = data.sort_values(by='points', ascending=False)

    # Criar a figura para o tipo de vinho atual
    fig = go.Figure()

    # Adicionar um trace de barra para o tipo de vinho atual
    fig.add_trace(go.Bar(x=data['country'], y=data['points'], name=tipo, marker_color=colors[tipo]))

    # Adicionar uma linha horizontal tracejada no valor da pontuação média do país "Brazil"
    fig.add_shape(
        type='line',
        x0=data['country'].iloc[0],
        x1=data['country'].iloc[-1],
        y0=brazil_mean_points,
        y1=brazil_mean_points,
        line=dict(color='black', width=3, dash='dash')
    )

    # Configurar o layout do gráfico atual
    fig.update_layout(
        title=f'Média de Pontuação por País - Tipo: {tipo}',
        xaxis=dict(title='País'),
        yaxis=dict(title='Pontuação Média'),
        barmode='group'
    )

    figs.append(fig)

# Exibir os gráficos separadamente, um abaixo do outro
for fig in figs:
    fig.show()

In [12]:
import plotly.graph_objects as go

fig = go.Figure(data=[go.Histogram(x=filtered_df['points'], nbinsx=20)])

fig.update_layout(
    xaxis_title='Pontos',
    yaxis_title='Frequência',
    title='Distribuição dos Pontos dos Vinhos'
)

fig.show()


In [13]:
# Filtrar apenas as colunas desejadas
filtered_df = df[['country', 'variety', 'points']]

# Agrupar por país e variedade de uva e calcular as estatísticas
statistics_by_country_variety = filtered_df.groupby(['country', 'variety'])['points'].agg(['mean', 'median', 'min', 'max', 'std', 'count'])

# Filtrar combinações de país e variedade com pelo menos 30 avaliações
filtered_countries_varieties = statistics_by_country_variety[statistics_by_country_variety['count'] >= 30]

# Ordenar as combinações de país e variedade em ordem decrescente da maior média de pontos
sorted_countries_varieties = filtered_countries_varieties.sort_values(by='mean', ascending=False)

# Exibir as combinações de país e variedade ordenadas com pelo menos 30 avaliações
print(sorted_countries_varieties)

                                mean  median  min  max       std  count
country   variety                                                      
France    Petit Manseng    91.944444    92.0   86   95  1.739367     36
          Tannat           91.508475    91.0   86   96  2.200101     59
Austria   Riesling         91.428571    92.0   84   96  2.435473    581
England   Sparkling Blend  91.340426    91.0   89   95  1.821091     47
Spain     Pedro Ximénez    90.857143    91.0   87   96  2.102420     35
...                              ...     ...  ...  ...       ...    ...
Portugal  Rosé             84.557447    84.0   80   90  1.476272    235
Spain     Sauvignon Blanc  84.363636    85.0   80   88  1.997157     33
Argentina Sauvignon Blanc  84.346154    84.0   80   89  1.885191     78
Chile     Rosé             84.250000    84.0   80   88  1.869274     44
Argentina Rosé             84.131579    84.5   80   87  2.170702     38

[292 rows x 6 columns]


In [14]:
import pandas as pd
import plotly.graph_objects as go

# Filtrar apenas as colunas desejadas
filtered_df = df[['country', 'points']]

# Agrupar por país e calcular as estatísticas
statistics_by_country = filtered_df.groupby('country')['points'].agg(['mean', 'median', 'min', 'max', 'std', 'count'])

# Filtrar países com pelo menos 30 avaliações
filtered_countries = statistics_by_country[statistics_by_country['count'] >= 30]

# Selecionar os top 10 países com base na média de pontos
top_10_countries = filtered_countries.nlargest(10, 'mean')

# Configurar os dados para o gráfico
mean_points = top_10_countries['mean']
countries = top_10_countries.index

# Criar o gráfico de candlesticks com a média no eixo esquerdo e o país no eixo direito
fig = go.Figure()

# Configurar os valores para o gráfico de candlesticks
candlestick_data = []
for country in top_10_countries.index:
    country_data = filtered_df[filtered_df['country'] == country]['points']
    candlestick_data.append([country_data.min(), country_data.max(), country_data.mean()])

# Plotar o gráfico de candlesticks
candlestick_colors = ['red', 'green', 'blue']
candlestick_labels = ['Min', 'Max', 'Mean']

for i, (min_val, max_val, median_val) in enumerate(candlestick_data):
    fig.add_trace(go.Candlestick(x=[countries[i]], open=[min_val], high=[max_val], low=[min_val], close=[max_val], name=countries[i], increasing_line_color='green', decreasing_line_color='red'))
    fig.add_trace(go.Scatter(x=[countries[i]], y=[median_val], mode='markers', name='Mean', marker=dict(color='blue', size=8)))

# Configurar o layout do gráfico
fig.update_layout(
    title='Candlestick Plot - Top 10 Countries',
    xaxis=dict(rangeslider=dict(visible=False)),
    yaxis=dict(title='Wine Ratings'),
    showlegend=False
)

# Exibir o gráfico
fig.show()