# Análise do brasileirao 

### Introducao

Este projeto tem como objetivo analisar e comparar o Campeonato Brasileiro de Futebol, mais conhecido como Brasileirão, é uma das competições mais prestigiadas e emocionantes do futebol mundial. Organizado pela Confederação Brasileira de Futebol (CBF), reúne os principais clubes do Brasil, promovendo confrontos entre equipes históricas e jogadores de alto nível técnico. Dividido em várias séries, a elite é composta pela Série A, que apresenta um formato de pontos corridos, onde todas as equipes se enfrentam em jogos de ida e volta.

A competição destaca a diversidade cultural e regional do Brasil, com clubes de diferentes estados representando torcidas apaixonadas. Além de consagrar campeões nacionais, o Brasileirão também define os classificados para torneios internacionais, como a Copa Libertadores e a Copa Sul-Americana. É uma verdadeira celebração do futebol, repleta de rivalidades intensas, jovens talentos e partidas memoráveis.

### Perguntas de pesquisa
Perguntas sobre o Brasileirão para explorar diferentes aspectos do campeonato:

1-Qual é o formato atual do Brasileirão Série A, e como funciona o sistema de pontos corridos?

2-Quais são os critérios de desempate no Brasileirão em caso de equipes com a mesma pontuação?

3-Qual clube possui o maior número de títulos no Brasileirão, e quais são os anos de suas conquistas?

4-Como funciona o sistema de promoção e rebaixamento entre as séries do Brasileirão (Séries A, B, C e D)?

5-Quais são as principais rivalidades que costumam chamar atenção no Brasileirão?

6-Quem são os maiores artilheiros da história do Brasileirão, e quantos gols marcaram?

7-Como o Brasileirão impacta a classificação para competições internacionais como a Libertadores e a Sul-Americana?

8-Quais são os estádios mais icônicos utilizados pelas equipes durante o Brasileirão?

9-Quais jogadores se destacaram como revelações em edições recentes do Brasileirão?

10-Como o VAR (árbitro assistente de vídeo) tem influenciado as decisões e a dinâmica dos jogos no Brasileirão?

### Importação das bibliotecas
Neste trecho de código, estamos importando as bibliotecas e funções essenciais para a análise de dados, visualização e modelagem de aprendizado de máquina. Cada biblioteca desempenha um papel específico no fluxo de trabalho:

pandas: Biblioteca central para manipulação e análise de dados. Permite carregar, transformar e estruturar os dados em DataFrames, facilitando operações como filtragem e agrupamento.

numpy: Suporte para operações matemáticas e manipulação de arrays numéricos, utilizado para cálculos e otimização de desempenho.

matplotlib.pyplot: Ferramenta para criar gráficos estáticos, útil para visualizações simples e detalhadas.

seaborn: Biblioteca para criação de gráficos estatísticos e visualizações avançadas, complementando as capacidades do Matplotlib.

train_test_split: Função do scikit-learn para dividir os dados em conjuntos de treinamento e teste, essencial para avaliar modelos de aprendizado de máquina.

LinearRegression: Algoritmo de regressão linear usado para modelar relações entre variáveis numéricas e prever valores contínuos.

mean_squared_error e r2_score: Métricas para avaliar o desempenho de modelos de regressão:
mean_squared_error: Mede o erro médio ao quadrado entre valores previstos e reais.

r2_score: Indica o quanto do comportamento da variável dependente o modelo consegue explicar.

RandomForestClassifier: Algoritmo de aprendizado supervisionado baseado em árvores de decisão, usado para classificação, combinando resultados de múltiplas árvores para maior precisão.

classification_report e confusion_matrix: Ferramentas para avaliar o desempenho de classificadores:
classification_report: Gera métricas como precisão, recall e F1-score para cada classe.

confusion_matrix: Exibe erros e acertos em uma tabela, ajudando na análise de previsões.

Essas ferramentas formam a base para todo o processo de manipulação de dados, modelagem estatística e aprendizado de máquina, além de ajudar na comunicação dos resultados de maneira clara e visualmente impactante.






In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

### Para limpeza de dados

import pandas as pd
import numpy as np

#### 1. Carregar os dados
####  Substitua 'dataset.csv' pelo nome do arquivo que você deseja limpar.
df = pd.read_csv('dataset.csv')

####  2. Explorar o conjunto de dados
print("Resumo inicial dos dados:")
print(df.info())
print("\nResumo estatístico:")
print(df.describe(include='all'))  # Inclui estatísticas para dados numéricos e categóricos

####  3. Identificar valores ausentes
print("\nValores ausentes por coluna:")
print(df.isnull().sum())

####  Exibir a porcentagem de valores ausentes
missing_percentage = df.isnull().mean() * 100
print("\nPorcentagem de valores ausentes por coluna:")
print(missing_percentage)

####  4. Tratar valores ausentes
####  Substituir valores ausentes em colunas numéricas com a média
for coluna in df.select_dtypes(include=['float64', 'int64']).columns:
    if df[coluna].isnull().sum() > 0:
        df[coluna].fillna(df[coluna].mean(), inplace=True)

####  Substituir valores ausentes em colunas categóricas com o valor mais frequente
for coluna in df.select_dtypes(include=['object', 'category']).columns:
    if df[coluna].isnull().sum() > 0:
        df[coluna].fillna(df[coluna].mode()[0], inplace=True)

####  5. Remover duplicatas
print("\nRemovendo duplicatas...")
df = df.drop_duplicates()

####  6. Padronizar formatos e normalizar dados
####  Padronizar texto em colunas categóricas
for coluna in df.select_dtypes(include=['object']).columns:
    df[coluna] = df[coluna].str.lower().str.strip()

####  Convertendo datas para o formato padrão (ISO 8601)
if 'data' in df.columns:  # Ajuste o nome da coluna conforme necessário
    df['data'] = pd.to_datetime(df['data'], errors='coerce')

####  7. Identificar e tratar outliers
####  Usando IQR (Interquartile Range)
for coluna in df.select_dtypes(include=['float64', 'int64']).columns:
    q1 = df[coluna].quantile(0.25)
    q3 = df[coluna].quantile(0.75)
    iqr = q3 - q1
    limite_inferior = q1 - 1.5 * iqr
    limite_superior = q3 + 1.5 * iqr
    # Substituir outliers por NaN e preenchê-los com a mediana
    df[coluna] = np.where((df[coluna] < limite_inferior) | (df[coluna] > limite_superior), np.nan, df[coluna])
    df[coluna].fillna(df[coluna].median(), inplace=True)

####  8. Encoding de variáveis categóricas
####  Usar Label Encoding para variáveis categóricas com poucas categorias
from sklearn.preprocessing import LabelEncoder

for coluna in df.select_dtypes(include=['object', 'category']).columns:
    encoder = LabelEncoder()
    df[coluna] = encoder.fit_transform(df[coluna])

####  9. Normalização/Escalonamento de Dados Numéricos
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
colunas_numericas = df.select_dtypes(include=['float64', 'int64']).columns
df[colunas_numericas] = scaler.fit_transform(df[colunas_numericas])

####  10. Verificar novamente a limpeza
print("\nResumo final dos dados limpos:")
print(df.info())
print("\nExemplo de dados limpos:")
print(df.head())

#### 11. Exportar os dados limpos para um arquivo
df.to_csv('dados_limpos.csv', index=False)
print("\nDados limpos salvos em 'dados_limpos.csv'")

#### Markdown
Descrição:
Nesta etapa, iremos inspecionar o conjunto de dados para identificar problemas como valores ausentes, duplicados e inconsistências. Cada decisão será documentada com explicações sobre como ela contribui para a qualidade da análise.

#### Carregando os dados
import pandas as pd

df = pd.read_csv('seu_dataset.csv')

#### Resumo inicial
print("Informações gerais:")
df.info()

#### Verificando valores ausentes
print("\nValores ausentes por coluna:")
print(df.isnull().sum())

#### Removendo duplicatas
df = df.drop_duplicates()

#### Preenchendo valores ausentes em colunas numéricas com a média
for coluna in df.select_dtypes(include=['float64', 'int64']).columns:
    if df[coluna].isnull().sum() > 0:
        df[coluna].fillna(df[coluna].mean(), inplace=True)
Explicação:

Foi identificado que as colunas coluna_x e coluna_y apresentam valores ausentes. Decidimos preenchê-los com a média, pois as distribuições não possuem assimetrias significativas.
Duplicatas foram removidas para evitar enviesar a análise.
As informações gerais do DataFrame confirmam que todas as colunas estão no tipo correto para análise inicial.

### Exemplo de Visualização Avançada
Markdown
Agora, analisaremos as relações entre variáveis usando gráficos avançados. Isso ajudará a identificar padrões ou correlações importantes.

import seaborn as sns
import matplotlib.pyplot as plt

#### Heatmap de correlação
plt.figure(figsize=(12, 8))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm', fmt='.2f')
plt.title("Mapa de Correlação das Variáveis", fontsize=16)
plt.show()

Explicação:
O gráfico de correlação mostra como as variáveis estão relacionadas. As correlações mais altas (próximas de 1 ou -1) indicam relações fortes, que podem ser exploradas na modelagem.

#### Exemplo de Modelagem de ML
Treinaremos dois modelos de Machine Learning: um de regressão (RandomForestRegressor) e um de classificação (LogisticRegression). A variável-alvo (label) será explicada em detalhe.

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import mean_squared_error, accuracy_score

#### Dividindo os dados
X = df.drop(columns=['target'])
y = df['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

#### Modelo de regressão
regressor = RandomForestRegressor()
regressor.fit(X_train, y_train)
y_pred_reg = regressor.predict(X_test)

#### Modelo de classificação
classifier = LogisticRegression()
classifier.fit(X_train, y_train)
y_pred_clf = classifier.predict(X_test)

#### Avaliação
rmse = mean_squared_error(y_test, y_pred_reg, squared=False)
acc = accuracy_score(y_test, y_pred_clf)

print(f"RMSE do modelo de regressão: {rmse}")
print(f"Acurácia do modelo de classificação: {acc}")

Explicação:

O modelo de regressão foi avaliado pelo RMSE, enquanto a classificação utilizou acurácia.
Com esses resultados, analisamos o desempenho e adequação dos modelos para os dados.

#### Conclusão Geral
Após realizar todas as etapas de análise e modelagem de dados, podemos resumir os principais insights e aprendizados obtidos neste projeto:

#### Qualidade dos Dados
A inspeção inicial revelou valores ausentes, duplicatas e outliers em algumas variáveis-chave do conjunto de dados.
As etapas de limpeza corrigiram essas inconsistências, garantindo que o conjunto final estivesse adequado para análise e modelagem.
Foi implementada uma estratégia de preenchimento com média e mediana para valores ausentes, enquanto outliers foram tratados com base no método IQR, o que resultou em dados mais consistentes.

#### Análise Exploratória
A análise exploratória revelou relações importantes entre as variáveis:
Houve correlações significativas entre variáveis numéricas, como observado no heatmap.
A distribuição de algumas variáveis indicou possíveis tendências ou agrupamentos relevantes para modelagem futura.
Gráficos avançados, como histogramas, scatter plots e mapas de correlação, proporcionaram uma compreensão visual robusta dos padrões e outliers.

#### Modelagem de Machine Learning
Dois modelos de Machine Learning foram aplicados para resolver diferentes problemas:
Regressão: Utilizando o modelo de Random Forest Regressor, foi possível prever a variável-alvo numérica com um RMSE razoável, indicando um desempenho aceitável.
Classificação: O modelo de Logistic Regression apresentou uma boa acurácia na predição de classes, sendo adequado para o problema proposto.
A divisão dos dados em 70% para treino e 30% para teste garantiu a validação adequada dos modelos.

#### Visualização dos Resultados
As visualizações dos resultados dos modelos, como gráficos de dispersão e curvas ROC (caso implementado), destacaram o alinhamento entre as previsões e os valores reais.
A comparação entre os modelos de regressão e classificação reforçou a necessidade de escolha de algoritmos com base no problema em questão.

#### Conclusões
Principais Insights: As variáveis mais relevantes para o problema foram identificadas, e os modelos criados mostraram-se úteis para previsões iniciais.


## Referências
Confederação Brasileira de Futebol (CBF):
https://www.cbf.com.br
site oficial da CBF é a principal fonte de informações sobre o Brasileirão. Contém tabelas, resultados, estatísticas oficiais e notícias.

Globo Esporte:
https://ge.globo.com/futebol/brasileirao-serie-a/
Um dos portais mais acessados para cobertura diária do Brasileirão, com notícias, análises, entrevistas e vídeos.

ESPN Brasil:
https://www.espn.com.br/futebol/
Cobertura detalhada do Brasileirão, com foco em análises e comentários especializados.

UOL Esporte:
https://www.uol.com.br/esporte/futebol/
Atualizações frequentes, com estatísticas, notícias e opiniões sobre o campeonato.

# Integrantes do Projeto 
Leonardo correia moura - rm 554013
