#                    Análise de Dados no Futebol #

### Integrantes do projeto:

    Antônio Victor
    Eduardo Gomes Meneses Filho
    Jéssica Rangel de Jesus
    Rafael Lima Barbosa

##                    1. Motivação e Objetivos da Análise

   Sendo um esporte de alto rendimento, o futebol exige uma abordagem estratégica em sua tomada de decisão para garantir o sucesso tanto dentro quanto fora de campo. E, para isso, a análise dos resultados de desempenho dos times, dos investimentos realizados e das receitas acumuladas é fundamental.
   Neste projeto, buscamos analisar o comportamento das receitas dos clubes, a variação de valor de mercado dos jogadores de times brasileiros e comparar como o engajamento dos torcedores afetam os clubes brasileiros em relação a performance esportiva e a gestão financeira a longo prazo.

##                    2. Datasets Utilizados

Foram utilizados arquivos CSV organizados como: 
    
    - Dados dos Clubes:
        - Tabelas_clube
        
    - Dados Financeiros:
        - Receitas_do_Futebol
        - Valor_time
        - Valor_Jogador
        
    - Dados de Torcidas:
        - Torcida.csv

    Para a visualização das tabelas a seguir, foi utilizado a biblioteca "pandas"

In [None]:
import pandas as pd

###   2.1.1 Dados dos Clubes

    A seguir, faremos a importação e visualização dos respectivos datasets que estão localizados no github:

In [None]:
#Importação dos dados
url = 'https://github.com/AVTBrasil/An-lise-de-Dados-no-Futebol/raw/main/tabela_clubes.csv'
dados = pd.read_csv(url)
dados.head()

### 2.1.2 Dados Financeiros

In [None]:
#Importação dos dados
url = 'https://github.com/AVTBrasil/An-lise-de-Dados-no-Futebol/raw/main/receitas_do_futebol.csv'
dadosf1 = pd.read_csv(url)
dadosf1.head()

In [None]:
#Importação dos dados
url = 'https://github.com/AVTBrasil/An-lise-de-Dados-no-Futebol/raw/main/valor_time.csv'
dadosf2 = pd.read_csv(url)
dadosf2.head()

In [None]:
#Importação dos dados
url = 'https://github.com/AVTBrasil/An-lise-de-Dados-no-Futebol/raw/main/Valor_Jogador.csv'
dadosf3 = pd.read_csv(url)
dadosf3.head()

### 2.1.3 Dados de Torcida

In [None]:
#Importação dos dados
url = 'https://github.com/AVTBrasil/An-lise-de-Dados-no-Futebol/raw/main/Torcida.csv'
dadost = pd.read_csv(url)
dadost.head()

##         3. Pré- processamento: Limpeza e transformação dos datasets

    O dataset que necessitou de limpeza antes de sua utilização foi o referente aos dados dos clubes. Nele, fizemos a limpeza de colunas e removemos alguns clubes que apareceram até 3 vezes no arquivo, o que não influenciaria na nossa busca.

In [None]:
dados = dados.drop(dados.columns[13:17], axis = 1)

In [None]:
# Contagem de quantas vezes cada time aparece na coluna 'Clubes'
contagem_times = dados['Clubes'].value_counts()

print(contagem_times)

In [None]:

dados = dados[~dados['Clubes'].isin(['Guarani', 'Nautico','Joinville', 'Prudente', 'Portuguesa', 'Santo Andre', 'Criciuma', 'Avai', "Coritiba", 'Figueirense' ])]


    A seguir, a visualização da tabela após a limpeza de dados desnecessários:

In [None]:
dados

    Para a visualização dos dados, foram utilizadas as seguintes bibliotecas:

In [None]:
#Importação das bibliotecas 
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import plotly.express as px
import squarify

    Nesta parte, houve a seleção de cores que serão utilizadas nos gráficos.

In [None]:
team_colors = {
    "Palmeiras": "#004D40",  # Verde Escuro
    "Flamengo": "#B71C1C",  # Vermelho Escuro
    "Corinthians": "#0D1321",  # Preto
    "Sao Paulo": "#D32F2F",  # Vermelho
    "Santos": "dimgray",  # Cinza escuro
    "Gremio": "blue",  # Azul
    "Vasco": "grey",  # Cinza
    "Botafogo": "#000000",  # Preto
    "Atletico-MG": "#FDD017",  # Amarelo
    "Cruzeiro": "#0033A0",  # Azul Escuro
}

    Aqui foi concluído a limpeza do dataset, a importação das bibliotecas utilizadas para a visualização e a seleção de 
    cores dos gráficos que serão criados.

## 4. Questões Investigadas

    Questões investigadas:
    1) "Existe algum padrão na distribuição de receita dos clubes ?"
    2) "O que é analisado em um jogador para ele ser valorizado pelo mercado?"
    3) "Quantidade de torcedores influencia no desempenho esportivo ?"

### *Existe algum padrão na distribuição de receita dos clubes ?*

In [None]:
plt.figure(figsize=(10, 6))

data_to_plot = dadosf2.melt(id_vars=['Clube'],
             value_vars=['Valor_2023', 'Valor_2024'], var_name='Ano', value_name='Valor')

# Plotando o gráfico de barras
sns.barplot(data=data_to_plot, x='Clube', y='Valor', hue='Ano', palette='dark')

# Adicionando título e rótulos dos eixos
plt.title("Valorização dos times da Série A (2023-2024)", fontsize=20)
plt.xlabel("Clube", fontsize=14)
plt.ylabel("Valor", fontsize=14)

# Exibindo o gráfico
plt.legend(title='Ano', loc='upper right')
plt.xticks(rotation=45)  
plt.grid('darkgrid')
plt.tight_layout()
plt.show()

In [None]:
dados_agrupados = dadosf1.groupby('tipo')[' receita'].sum().reset_index()

# Calculando o total de receitas
total_receitas = dados_agrupados[' receita'].sum()

# Valores para o tamanho de cada retângulo
sizes = dados_agrupados[' receita'].values
labels = dados_agrupados['tipo'].apply(lambda x: str(x)).values
percentages = [f"{(value/total_receitas)*100:.2f}%" for value in sizes]
new_labels = [f"{label}\n({percent})" for label, percent in zip(labels, percentages)]

# Cores - gerando uma paleta de cores
colors = plt.cm.Spectral(np.linspace(0, 1, len(labels)))

# Criando o TreeMap
plt.figure(figsize=(12, 8))
squarify.plot(sizes=sizes, label=new_labels, color=colors, alpha=0.8)

# Título do gráfico
plt.title('Distribuição de Receita por Tipo')
plt.axis('off')  # Desliga os eixos

# Mostrar o gráfico
plt.show()

In [None]:
plt.show()

### *O que é analisado em um jogador para ele ser valorizado pelo mercado?*

In [None]:
cores_clubes = {'SE Palmeiras': 'darkgreen', 'Fluminense FC': 'limegreen',
                'CR Flamengo': 'darkred', 'Atlético Mineiro': 'yellow',
                'SC Corinthians': 'grey', 'São Paulo FC': 'black'}

sns.set_style("whitegrid")

plt.figure(figsize=(10, 6))

df_jogador_filtrado = dadosf3[dadosf3['Valor de mercado'] > 13.8]

sns.barplot(data=df_jogador_filtrado, x='Jogadores', y='Valor de mercado',
 hue='Clube', palette=cores_clubes, dodge=False, linewidth=0)


plt.xlabel('Jogadores')
plt.ylabel('Valor de Mercado')
plt.title('Top 10 Jogadores mais valorizados da Serie A', fontsize=20, fontweight='bold')
plt.xticks(rotation=45)
plt.tight_layout()
plt.legend(bbox_to_anchor=(0.5, -0.45), loc='upper center', ncol=3)
plt.show()


### *Quantidade de torcedores influencia no desempenho esportivo?*

In [None]:
import squarify

maiores_torcidas = dadost.groupby('Clube').sum()

cores_clubes = {
    'Flamengo': 'darkred',
    'Corinthians': 'grey',
    'São Paulo': 'pink',
    'Palmeiras': 'darkgreen',
    'Vasco': 'teal',
    'Cruzeiro': 'darkblue',
    'Grêmio': 'blue',  
    'Atlético-MG': 'yellow',
    'Bahia': 'lightblue',
    'Internacional': 'red',  
    'Fluminense': 'lightgreen',
    'Santos': 'darkgrey',
    'Botafogo': 'cyan',  
    'Sport': 'gold'
}

cores = [cores_clubes[clube] for clube in maiores_torcidas.index]

plt.figure(figsize=(10, 6))
squarify.plot(sizes=maiores_torcidas['Percentual (%)'], label=[f'{index}\n{value:.1f}%' for index, value in zip(maiores_torcidas.index, maiores_torcidas['Percentual (%)'])], color=cores, alpha=0.8)
plt.title('Maiores torcidas do Brasil', size=24)
plt.axis('off')

handles = [plt.Rectangle((0,0),1,1, color=cores_clubes[clube]) for clube in maiores_torcidas.index]
plt.legend(handles, maiores_torcidas.index, loc="upper left", fontsize='small', bbox_to_anchor=(1.05, 1))
plt.subplots_adjust(left=0.1, right=0.85)  
plt.show()


## Conclusão

resumir os resultados encontrados e explicar por que são importantes. Apontar limitações, trabalhos futuros e melhorias que podem ser feitas.