![](http://jordigital.iesb.br/wp-content/uploads/2017/02/iesb.jpg)

# SOFTWARES PARA USO EM CIÊNCIA DE DADOS II - TRABALHO FINAL

> Prof.: Marcos G.
> 
> Aluno: Ramonn G.


## 1. INTRODUÇÃO
> Como sabemos, o futebol tornou-se uma das paixões dos brasileiros. Uma das versões sobre o início do futebol no Brasil é que Charles Miller, um brasileiro que estudava na Inglaterra, trouxe uma bola e um conjunto de regras em 1894 e, no ano seguinte, 1895, ocorreu a primeira partida.
>  
> Com o auxílio deste dataset, coletado e disponibilizado pelo usuário Mart Jürisoo, que contempla os resultados das partidas internacionais de futebol desde 1972 a 2019, realizaremos algumas análises acerca dos resultados das partidas para entendermos um pouco mais sobre os times mais vitoriosos e goleadores.

## 2. LEITURA E RECONHECIMENTO DO DATASET

![](https://1.bp.blogspot.com/-d_UwHAVJwUI/VwRkHF569xI/AAAAAAAAs-E/WfwPf_FUDz0KqsHiVc9Uy3MJONs2Hbi9w/s1600/finn.gif)

### Importando as bibliotecas e listando o caminho do dataset

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

### Leitura do arquivo CSV

In [None]:
df = pd.read_csv('/kaggle/input/international-football-results-from-1872-to-2017/results.csv')
df.head()

### Proporção do dataset (Quantidade de linhas, Quantidade de colunas)

In [None]:
df.shape

### Primeiros 5 registros

In [None]:
df.head()

### Últimos 5 registros

In [None]:
df.tail()

### Listo os tipos das colunas, bem como os valores não-nulos
> Observa-se que o dataset não possui dados nulos, bem como possui 2 colunas do tipo inteiro, 1 do tipo booleano e 6 do tipo object (texto)

In [None]:
df.info()

## 3. TRATAMENTO DOS DADOS
![](http://pa1.narvii.com/6285/8da2bf6c7d510cfbc5d55e01897b59cb2978d2c0_hq.gif)

### Alterando o nome das colunas

In [None]:
df.rename(columns={'date':'Data', 
                   'home_team':'Time da Casa',
                   'away_team':'Time Visitantes',
                   'home_score':'Gols Casa',
                   'away_score':'Gols Visitantes',
                   'tournament':'Competição',
                   'city':'Cidade',
                   'country':'País',
                   'neutral':'Local Neutro'                                                  
                  }, inplace=True)

df.head()

### Removendo as partidas entre amigos (Competição = Friendly)
> Optou-se pela retirada destas partidas, pois normalmente são realizadas com outras finalidades

In [None]:
df = df[df['Competição'] != 'Friendly']
df.head()

### Alterando o valor da coluna Local Neutro
> Para facilitar o entendimento, alteraremos o valor da coluna Local Neutro de "False" para não "Não" e de "True" para "Sim"

In [None]:
df['Local Neutro'] = np.where(df['Local Neutro'] == False, 'Não', 'Sim')
df.head()

### Criando a coluna Total de Gols
> Composição da coluna será o somatório de gols dos visitantes e gols do time da casa

In [None]:
df['Total de Gols'] = df['Gols Visitantes'] + df['Gols Casa']
df.head()

### Criando a coluna Vitória
> A coluna vitória irá informar quem foi o vitorioso e será determinada apelas pelo resultado do tempo normal (Gols Casa e Gols Visitantes), que são as informações disponibilizadas no dataset.

In [None]:
resultado = []

for index, result in df.iterrows():
    if result['Gols Casa'] > result['Gols Visitantes']:
        resultado.append('Casa')

    elif result['Gols Casa'] < result['Gols Visitantes']:
        resultado.append('Visitantes')
    
    else:
        resultado.append('Empate')

df['Vitória'] = resultado

df.head()

### Adicionando a coluna Ano
> A coluna Ano será a extração do ano da coluna Data

In [None]:
df['Ano'] = pd.DatetimeIndex(df['Data']).year
df.head()

## 4. ANÁLISE DOS DADOS

![](https://4.bp.blogspot.com/-ns2PiVUn_4o/T5CREp_j99I/AAAAAAAAHA0/eaefi7b5KRE/s1600/hacker.gif)

## 4.1 Cenário Histórico

### Correlação entre as variáveis numéricas
> Observa-se que o ano influencia negativamente as demais variáveis numéricas, contudo, é uma influência tida como desprezível, devido aos seus valores baixos.

In [None]:
f, ax = plt.subplots(figsize=(6,4))
sns.heatmap(df[{'Gols Casa', 'Gols Visitantes', 'Ano'}].corr(), annot=True, fmt='.2f', linecolor='black', ax=ax, lw=.7)
f.tight_layout()

### Distribuição dos resultados das partidas
> De acordo com o resultado, é possível determinar que normalmente o time da casa é quem ganha, havendo quase o dobro de partidas ganhas.

In [None]:
pd.value_counts(df['Vitória']).plot.bar(color='#4682B4')
plt.xticks(rotation=0)
plt.show()

### As 10 maiores quantidades de gols feitos pelo time da casa
> Com a evolução do futebol, tornando-se este mais técnico, dificilmente vemos partidas com 10 gols, porém a história conta que em 2001 o time da casa, Austrália, fez 31 gols no time American Samoa pela competição FIFA World Cup qualification. Naquele mesmo ano e competição, o time Austrália também goleou, em casa, o time Tonga, com o resultado de 22 a 0. Não distante do time Austrália, há também a goleada do Tahiti sobre o Cook Islands com 30 gols pela competição South Pacific Games. Este também voltou a golear na mesma competição, porém outro ano, o time Tuvalu por 18 a 0.


In [None]:
df.sort_values(['Gols Casa'], ascending=[False]).head(10).style.hide_index()

### As 10 maiores quantidades de gols feitos pelo time visitante
Já para visitante com melhor resultado temos North Korea com 21 a 0 sobre o Guam em 2005 pela competição EAFF Championship. Um destaque negativo vai para o time Darfur, o qual sofreu três goleadas no top 10 nos anos 2012 e 2014.

In [None]:
df.sort_values(['Gols Visitantes'], ascending=[False]).head(10).style.hide_index()

### Os 5 times que mais marcaram em casa
> Brasil e Argentina possuem as primeiras colocações entre os times que mais marcaram em casa, Argentina 879 em 382 jogos e Brasil 851 em 340 jogos.

In [None]:
df[{'Gols Casa', 'Time da Casa', 'Ano'}].groupby(['Time da Casa']).agg({'Gols Casa':'sum', 'Ano':'count'}).reset_index().rename(columns={'Ano':'Qtd de Jogos'}).nlargest(5, 'Gols Casa').style.hide_index()

### Os 5 times que mais marcaram fora de casa
> Já no top 5 entre os times que mais marcaram fora de casa, Inglaterra assume a primeira colocação com 564 gols feitos em 289 jogos, seguida por Uruguai com 499 em 330 jogos. Argentina e Brasil, que fizeram mais gols em casa, não aparecem nesta relação.

In [None]:
df[{'Gols Visitantes', 'Time Visitantes', 'Ano'}].groupby(['Time Visitantes']).agg({'Gols Visitantes':'sum', 'Ano':'count'}).reset_index().rename(columns={'Ano':'Qtd de Jogos'}).nlargest(5, 'Gols Visitantes').style.hide_index()

### As 5 competições com maior quantidade de gols do time da casa
> FIFA World Cup qualification lidera o top 5 com 12838 gols em 7100 jogos, seguida por UEFA Euro qualification com 4151 gols em 2482 jogos.

In [None]:
df[{'Gols Casa', 'Competição', 'Ano'}].groupby(['Competição']).agg({'Gols Casa':'sum', 'Ano':'count'}).reset_index().rename(columns={'Ano':'Qtd de Jogos'}).nlargest(5, 'Gols Casa').style.hide_index()

### As 5 competições com maior quantidade de gols dos visitantes
> FIFA World Cup qualification lidera o top 5 com 7682 gols em 7100 jogos, seguida por UEFA Euro qualification com 2839 gols em 2482 jogos.

In [None]:
df[{'Gols Visitantes', 'Competição', 'Ano'}].groupby(['Competição']).agg({'Gols Visitantes':'sum', 'Ano':'count'}).reset_index().rename(columns={'Ano':'Qtd de Jogos'}).nlargest(5, 'Gols Visitantes').style.hide_index()

### Os 5 anos com maior quantidade de gols pelo time da casa e os times que realizaram
> Na primeira colocação está o time Austrália, com 73 gols feitos em 2001 em apenas 8 jogos, seguida por Burma com 51 gols em 1971 (14 jogos) e Brasil com 46 gols em 1949 (8 jogos).

In [None]:
df[{'Gols Casa', 'Time da Casa', 'Ano', 'Data'}].groupby(['Time da Casa', 'Ano']).agg({'Gols Casa':'sum', 'Data':'count'}).reset_index().rename(columns={'Data':'Qtd de Jogos'}).nlargest(5, 'Gols Casa').style.hide_index()

### Os 5 anos com maior quantidade de gols pelo time visitante e os times que realizaram
> Já para os visitantes, na primeira colocação está o time New Caledonia, com 36 gols feitos em 2012 (8 jogos), seguido por Iran com 34 gols em 1997 (9 jogos) e North Korea com 30 gols em 2005 (9 jogos).

In [None]:
df[{'Gols Visitantes', 'Time Visitantes', 'Ano', 'Data'}].groupby(['Time Visitantes', 'Ano']).agg({'Gols Visitantes':'sum', 'Data':'count'}).reset_index().rename(columns={'Data':'Qtd de Jogos'}).nlargest(5, 'Gols Visitantes').style.hide_index()

## 4.2 Cenário Atual
> Agora que avaliamos o cenário histórico, como será que está o desempenho das equipes de 2010 pra cá? Trataremos como cenário atual este período.

### Criando dataframe contendo as partidas realizadas a partir de 2010

In [None]:
df_atual = df[df['Ano'] >= 2010]
df_atual.head()

### Boxplots para as variáveis numéricas
> De acordo com os gráficos, podemos observar que normalmente as partidas não passam de 8 gols, ao passo que o normal é ter até 5 gols para visitantes e time da casa, desconsiderando os outliers. Também observamos que 75% dos jogos não passam de 4 gols em sua totalidade e que em 75% dos jogos, tanto visitantes quanto time da casa, quando o fazem, não passam de 2 gols.

In [None]:
# Dicionário das colunas numéricas
dicionario = {'Gols Casa':1, 'Gols Visitantes':2, 'Total de Gols':3}

# Printo os boxplots
plt.figure(figsize=(15,6))

for variavel,i in dicionario.items():
    plt.subplot(1,3,i)
    plt.boxplot(df_atual[variavel], whis=1.5)
    plt.title(variavel)
    
    # tornar em inteiros os valores apresentados no eixo y
    yint = []
    for vl in range(12):
        if (df_atual[variavel].max() + 2 > (vl * 2)):
            yint.append(int(vl * 2))
    plt.yticks(yint)

plt.show()

### Distribuição dos resultados das partidas no cenário atual
> As proporções de vitórias do time da casa e dos visitantes, bem como empates a partir de 2010 é semelhante às proporções de vitórias para todo o dataset.

In [None]:
pd.value_counts(df_atual['Vitória']).plot.bar(color='#4682B4')
plt.xticks(rotation=0)
plt.show()

### Distribuição de gols por ano no cenário atual
> Os anos 2011 e 2015 tiveram os maiores saldos de gols, enquanto 2010 e 2018 tiveram os menores.

In [None]:
plt.plot('Ano',
         'Total de Gols',
         data=df_atual[{'Total de Gols', 'Ano'}].groupby(['Ano']).agg({'Total de Gols':'sum'}).reset_index(), # retorno df com o total de gols por ano
         color='skyblue')
plt.grid(True)
plt.show()

### As 5 equipes com maior número de vitórias dentro e fora de casa
> Temos Alemanha com 63 vitórias, seguida por Espanha com 57.

In [None]:
# separo as partidas onde houve vitória
df_vitorias_vis = df_atual[df_atual['Vitória'] == 'Visitantes'][{'Vitória', 'Time Visitantes'}].groupby(['Time Visitantes']).agg({'Vitória':'count'}).reset_index().rename(columns={'Time Visitantes':'Time', 'Vitória':'Vitórias'})
df_vitorias_casa = df_atual[df_atual['Vitória'] == 'Casa'][{'Vitória', 'Time da Casa'}].groupby(['Time da Casa']).agg({'Vitória':'count'}).reset_index().rename(columns={'Time da Casa':'Time', 'Vitória':'Vitórias'})

# uno os dataframes
# uso outer, pois existem times sem registro em casa, assim como times sem registro fora de casa
df_vitorias = pd.merge(df_vitorias_vis, df_vitorias_casa, on = 'Time', how='outer', suffixes=('_vis', '_casa'))

# preencho os valores nulos com 0
df_vitorias['Vitórias_vis'] = df_vitorias['Vitórias_vis'].fillna(0)
df_vitorias['Vitórias_casa'] = df_vitorias['Vitórias_casa'].fillna(0)

# somo as vitórias
df_vitorias['Total Vitórias'] = df_vitorias['Vitórias_vis'] + df_vitorias['Vitórias_casa']

# deixo somente o top 5 e reordeno o dataframe para printar em ordem crescente
df_top5_vitorias = df_vitorias.nlargest(5, 'Total Vitórias').sort_values('Total Vitórias')

plt.figure(figsize=(6,7))
ax = sns.barplot(
    data=df_top5_vitorias,
    x='Time', 
    y='Total Vitórias',
    palette="Blues_d")

# printo os valores acima das barras
for i, v in enumerate(df_top5_vitorias['Total Vitórias'].iteritems()):        
    ax.text(i - 0.05 ,v[1], int(v[1]), color='black', va ='bottom', rotation=0)
    
plt.tight_layout()
plt.show()

### As 5 equipes com maior número de gols dentro e fora de casa
> Assim como no gráfico de vitórias, temos Alemanha na primeira posição com 222 gols, seguida por Espanha com 179 gols.

In [None]:
# separo as partidas onde houve vitória
df_gols_vis = df_atual[{'Gols Visitantes', 'Time Visitantes', 'Ano'}].groupby(['Time Visitantes']).agg({'Gols Visitantes':'sum', 'Ano':'count'}).reset_index().rename(columns={'Time Visitantes':'Time', 'Gols Visitantes':'Qtd de Gols', 'Ano':'Qtd de Jogos'})
df_gols_casa = df_atual[{'Gols Casa', 'Time da Casa', 'Ano'}].groupby(['Time da Casa']).agg({'Gols Casa':'sum', 'Ano':'count'}).reset_index().rename(columns={'Time da Casa':'Time', 'Gols Casa':'Qtd de Gols', 'Ano':'Qtd de Jogos'})

# uno os dataframes
# uso outer, pois existem times sem registro em casa, assim como times sem registro fora de casa
df_gols = pd.merge(df_gols_vis, df_gols_casa, on = 'Time', how='outer', suffixes=('_vis', '_casa'))

# preencho os valores nulos com 0
df_gols['Qtd de Gols_vis'] = df_gols['Qtd de Gols_vis'].fillna(0)
df_gols['Qtd de Jogos_vis'] = df_gols['Qtd de Jogos_vis'].fillna(0)
df_gols['Qtd de Gols_casa'] = df_gols['Qtd de Gols_casa'].fillna(0)
df_gols['Qtd de Jogos_casa'] = df_gols['Qtd de Jogos_casa'].fillna(0)

# somo as quantidades de gols
df_gols['Total de Gols'] = df_gols['Qtd de Gols_vis'] + df_gols['Qtd de Gols_casa']

# deixo somente o top 5 e reordeno o dataframe para printar em ordem crescente
df_top5_gols = df_gols.nlargest(5, 'Total de Gols').sort_values('Total de Gols')

plt.figure(figsize=(6,8))
ax = sns.barplot(
    data=df_top5_gols,
    x='Time', 
    y='Total de Gols',
    palette="Blues_d")

# printo os valores acima das barras
for i, v in enumerate(df_top5_gols['Total de Gols'].iteritems()):        
    ax.text(i - 0.1 ,v[1], int(v[1]), color='black', va ='bottom', rotation=0)
    
plt.tight_layout()
plt.show()

### Uno os dataframes anteriores
> Faço um resumo da quantidade de vitórias e gols

In [None]:
# Aproveito os dataframes anteriores e os uno
df_resumo = pd.merge(df_vitorias, df_gols, on = 'Time', how='outer')

# trato os nulos, existem times sem vitórias
df_resumo['Vitórias_vis'] = df_resumo['Vitórias_vis'].fillna(0)
df_resumo['Vitórias_casa'] = df_resumo['Vitórias_casa'].fillna(0)
df_resumo['Total Vitórias'] = df_resumo['Total Vitórias'].fillna(0)

# Renomeio algumas colunas
df_resumo.rename(columns={
    'Vitórias_vis':'Vitórias Fora', 
    'Vitórias_casa':'Vitórias Casa',
    'Qtd de Gols_vis':'Qtd de Gols Fora',
    'Qtd de Gols_casa':'Qtd de Gols Casa',
    'Qtd de Jogos_vis':'Qtd de Jogos Fora',
    'Qtd de Jogos_casa':'Qtd de Jogos Casa'
}, inplace=True)

# Adiciono as colunas "% de Vitória Casa", "% de Vitória Fora", "% Total de Vitórias" e "Qtd Total de Jogos"
df_resumo['% de Vitórias Casa'] =  np.around(df_resumo['Vitórias Casa'] / df_resumo['Qtd de Jogos Casa'], decimals=2)
df_resumo['% de Vitórias Fora'] =  np.around(df_resumo['Vitórias Fora'] / df_resumo['Qtd de Jogos Fora'], decimals=2)
df_resumo['% Total de Vitórias'] =  np.around((df_resumo['Vitórias Casa'] + df_resumo['Vitórias Fora']) / (df_resumo['Qtd de Jogos Casa'] + df_resumo['Qtd de Jogos Fora']), decimals=2)
df_resumo['Qtd Total de Jogos'] = df_resumo['Qtd de Jogos Fora'] + df_resumo['Qtd de Jogos Casa']

df_resumo.head()

### Correlação entre Total de Gols e Total de Vitórias
> Abaixo, podemos observar a correlação entre a quantidade total de gols e o número de vitórias e observa-se que é positiva.

In [None]:
plt.figure(figsize=(7,7))

sns.scatterplot(data=df_resumo,
                x='Total de Gols', 
                y='Total Vitórias'
               )

### As 10 melhores taxas de vitórias
> Para listar as 10 melhores, levou-se em conta somente os times que possuem, pelo menos, mais da metade da média de jogos de todos os times, de modo que aqueles times que possuem apenas alguns jogos não entrem na listagem.

> Observa-se que o time Alemanha, não só possui a maior quantidade de vitórias e gols, conforme gráficos anteriores, como também possui a melhor taxa de vitória, seguido pelos times Espanha e Bélgica.

> O Brasil aparece na 10ª posição, tendo um índice de 60% de vitória.

In [None]:
df_top10_porc_vitorias = df_resumo[df_resumo['Qtd Total de Jogos'] > df_resumo['Qtd Total de Jogos'].mean()][{'Time', '% Total de Vitórias', 'Qtd Total de Jogos'}].nlargest(10, '% Total de Vitórias')

# deixo somente o top 5 e reordeno o dataframe para printar em ordem crescente
df_top10_porc_vitorias = df_top10_porc_vitorias.sort_values('% Total de Vitórias')

plt.figure(figsize=(12,8))
ax = sns.barplot(
    data=df_top10_porc_vitorias,
    x='Time', 
    y='% Total de Vitórias',
    palette="Blues_d")

# printo os valores acima das barras
for i, v in enumerate(df_top10_porc_vitorias['% Total de Vitórias'].iteritems()):
    ax.text(i ,v[1], v[1], color='black', va='bottom', rotation=45)     
    
plt.tight_layout()
plt.show()

## 4.2.1 Brasil
> E o Brasil? Como será que está o desempenho do Brasil no cenário atual?

### Limitando dataframe aos jogos com o time do Brasil

In [None]:
brasil = df_atual[(df_atual['Time da Casa'] == 'Brazil') | (df_atual['Time Visitantes'] == 'Brazil')].copy()
brasil.head()

### Adicionando a coluna Resultado
> A coluna Resultado informará se o campeão

### As 5 maiores goleadas em casa
> Entre as 5 maiores goleadas, os destaques são Haiti (7x1) e Bolívia (5x0).

In [None]:
brasil[brasil['Time da Casa'] == 'Brazil'].nlargest(5, 'Gols Casa')

### As 5 maiores goleadas fora de casa
> Já para as goleadas fora de casa, Peru foi quem levou mais gols (5x0) e Uruguai levou a segunda maior quantidade de gols (4x1).

In [None]:
brasil[brasil['Time Visitantes'] == 'Brazil'].nlargest(5, 'Gols Visitantes')

### Gols fora de casa por local neutro (sim ou não)
> Há uma variável, Local Neutro, que indica se o jogo foi realizado de fato na casa do "Time da Casa" ou se foi realizado em um campo neutro. Neste caso, o gráfico separa em duas colunas as quantidades de gols, portanto fica claro que a maior goleada realizada foi fora de casa, local neutro, e que três das cinco maiores goleadas foram realizadas em casa.

In [None]:
plt.figure(figsize=(7,7))
sns.swarmplot(y='Gols Casa', x='Local Neutro', data=brasil[brasil['Time da Casa'] == 'Brazil'])

### Uno os resultados, tanto como time da casa, quanto como time visitante

In [None]:
brasil_resumo_competicao = brasil[brasil['Time da Casa'] == 'Brazil'][{'Time da Casa', 'Gols Casa', 'Competição', 'Ano', 'Vitória'}].rename(columns={'Time da Casa':'Time', 'Gols Casa':'Gols'}).append(brasil[brasil['Time Visitantes'] == 'Brazil'][{'Time Visitantes', 'Gols Visitantes', 'Competição', 'Ano', 'Vitória'}].rename(columns={'Time Visitantes':'Time', 'Gols Visitantes':'Gols'}), sort=False)
brasil_resumo_competicao.head()

### Média de gols do Brasil por partida no decorrer dos anos
> Observa-se média alta de gols nos anos 2013 e 2016 e baixa nos anos 2011, 2014, 2015 e 2018.

In [None]:
f, ax = plt.subplots(figsize=(9,5))

plot = brasil_resumo_competicao[{'Ano', 'Gols'}].groupby(['Ano']).mean()[{'Gols'}].plot(ax=ax)
plot.legend(loc='upper left', ncol=1)

plt.show()

f.tight_layout()

### Total de gols por competição
> Conforme gráfico, é possível identificar que o Brasil possui maior quantidade de gols feitos pela competição FIFA World Cup qualification do que as demais, mesmo tendo apenas um jogo de diferença da segunda, Copa América, e da terceira, FIFA World Cup.

In [None]:
brasil_gols_competicao = brasil_resumo_competicao.groupby(['Competição']).agg({'Gols':'sum', 'Time':'count'}).rename(columns={'Time':'Qtd de Jogos'}).sort_values('Gols').reset_index()

plt.figure(figsize=(10,4))
ax = sns.barplot(
    data=brasil_gols_competicao,
    y='Competição', 
    x='Gols',
    palette='Blues_d')

for index, row in brasil_gols_competicao.iterrows():    
    ax.text(2, index, 'Qtd de Jogos: ' + str(row['Qtd de Jogos']), color='white', va='bottom', rotation=0) 
    ax.text(row['Gols'] + 0.2, index, row['Gols'], color='black', va='bottom', rotation=0) 
    
plt.tight_layout()
plt.show()

### Resultados dos jogos do Brasil
> Observa-se que o Brasil tem um grande aproveitamente nas suas partidas em casa, onde normalmente sai com vitória ou empate. Quanto aos resultados dos jogos do Brasil fora de casa, há também um índice de vitórias muito alto, porém bem próximo à quantidade de empates. 

In [None]:
plt.figure(figsize=(12,6))

plt.subplot(1,2,1)
pd.value_counts(brasil[(brasil['Time da Casa'] == 'Brazil')]['Vitória']).plot.bar(color='#4682B4')
plt.title('Resultados dos jogos em casa')
plt.xticks(rotation=0)

plt.subplot(1,2,2)
pd.value_counts(brasil[(brasil['Time Visitantes'] == 'Brazil')]['Vitória']).plot.bar(color='#708090')
plt.title('Resultados dos jogos fora de casa')
plt.xticks(rotation=0)

plt.show()

### Total de vitórias em cada competição
> O Brasil, pela Confederations Cup, alcançou uma taxa de vitórias de 100%, pois ganhou os 5 jogos aos quais participou. Também teve uma ótima participação na FIFA World Cup qualification, onde ganhou 12 dos 18 jogos participados.

In [None]:
# junto as vitórias, visitante + casa
df_brasil_vitorias = brasil[(brasil['Time da Casa'] == 'Brazil') & (brasil['Vitória'] == 'Casa')][{'Competição', 'Ano'}].append(brasil[(brasil['Time Visitantes'] == 'Brazil') & (brasil['Vitória'] == 'Visitantes')][{'Competição', 'Ano'}])
df_brasil_derrotas = brasil[(brasil['Time da Casa'] == 'Brazil') & (brasil['Vitória'] == 'Visitantes')][{'Competição', 'Ano'}].append(brasil[(brasil['Time Visitantes'] == 'Brazil') & (brasil['Vitória'] == 'Casa')][{'Competição', 'Ano'}])
df_brasil_empates = brasil[(brasil['Vitória'] == 'Empate')][{'Competição', 'Ano'}]

# agrupo por competição
df_brasil_vitorias_competicao = df_brasil_vitorias[{'Competição', 'Ano'}].groupby(['Competição']).agg({'Ano':'count'}).rename(columns={'Ano':'Qtd de Vitórias'}).sort_values('Competição').reset_index()

plt.figure(figsize=(10,4))
ax = sns.barplot(
    data=df_brasil_vitorias_competicao,
    y='Competição', 
    x='Qtd de Vitórias',
    palette='Blues_d')

for index, row in df_brasil_vitorias_competicao.iterrows():    
    ax.text(row['Qtd de Vitórias'] + 0.05, index, row['Qtd de Vitórias'], color='black', va='bottom', rotation=0)
    ax.text(1, index, 'Qtd de Jogos: ' + str(df_brasil_vitorias[df_brasil_vitorias['Competição'] == row['Competição']].count()[0] + df_brasil_empates[df_brasil_empates['Competição'] == row['Competição']].count()[0] + df_brasil_derrotas[df_brasil_derrotas['Competição'] == row['Competição']].count()[0]), color='white', va='bottom', rotation=0) 
    
plt.tight_layout()
plt.show()

## 5. CONCLUSÃO

![](https://media1.giphy.com/media/pd7E3wihp5L2/giphy.gif)


> Diante do estudo realizado, é possível identificar resultados históricos no futebol quanto ao que diz respeito às vitórias e gols feitos, tanto em casa quanto fora de casa. Também é possível entender o cenário atual, onde podemos perceber que times como Alemanha e Espanha dominam as melhores marcas (gols, vitórias), e que nosso querido Brasil também está incluso em alguns indicadores, a exemplo da taxa de vitórias.

> Quanto ao Python, com a conclusão deste trabalho e disciplina é possível perceber quão grandes são as possibilidades de se trabalhar com esta linguagem e bibliotecas disponíveis, a começar por Pandas e Numpy, as quais permitiram a preparação dos dados para análise, sem deixar de ressaltar a importância das bibliotecas Seaborn e matplotlib, que permitiram a inclusão de diversos gráficos.