In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

In [None]:
df = pd.read_csv('futebol.csv')
df.info()

## Tarefa 1: Estatísticas Descritivas e Visualizações Básicas

### 1. Distribuição de Gols
- Crie a coluna `gols_total = gols_mandante + gols_visitante`
- Plote um histograma da distribuição de gols totais
- Calcule e apresente:
  - Média
  - Mediana
  - Moda
  - Desvio padrão
  - Intervalo interquartil (IQR)

In [None]:
df['gols_total'] = df['gols_mandante'] + df['gols_visitante']

In [None]:
plt.figure(figsize=(8,5))
bins = range(int(df['gols_total'].min()), int(df['gols_total'].max()) + 2)
sns.histplot(df['gols_total'], bins=bins, kde=True, color='skyblue')
plt.title('Histograma da Distribuição de Gols Totais')
plt.xlabel('Gols Totais')
plt.ylabel('Frequência')
plt.show()

### 2. Mando de Campo
- Crie boxplots comparando gols de mandante vs. visitante
- Identifique e interprete outliers
- Compare as medidas de tendência central entre mandante e visitante



In [None]:
# Boxplots comparando gols de mandante vs. visitante
plt.figure(figsize=(8, 5))
sns.boxplot(data=df[['gols_mandante', 'gols_visitante']], palette='Set2')
plt.title('Boxplot: Gols Mandante vs. Visitante')
plt.ylabel('Gols')
plt.xlabel('Mando de Campo')
plt.xticks([0, 1], ['Mandante', 'Visitante'])
plt.show()

In [None]:
# Identificação de outliers
mandante_outliers = df['gols_mandante'][((df['gols_mandante'] - df['gols_mandante'].median()).abs() > 1.5 * stats.iqr(df['gols_mandante'].dropna()))]
visitante_outliers = df['gols_visitante'][((df['gols_visitante'] - df['gols_visitante'].median()).abs() > 1.5 * stats.iqr(df['gols_visitante'].dropna()))]

print(f'Outliers - Mandante: {mandante_outliers.count()} jogos')
print(f'Outliers - Visitante: {visitante_outliers.count()} jogos')

In [None]:
# Medidas de tendência central
print('\nMedidas de tendência central:')
print('Mandante:')
print(f"  Média: {df['gols_mandante'].mean():.2f}")
print(f"  Mediana: {df['gols_mandante'].median():.2f}")
print(f"  Moda: {df['gols_mandante'].mode()[0]}")
print('\nVisitante:')
print(f"  Média: {df['gols_visitante'].mean():.2f}")
print(f"  Mediana: {df['gols_visitante'].median():.2f}")
print(f"  Moda: {df['gols_visitante'].mode()[0]}")

### 3. Público
- Gráfico de barras: 10 times que mais jogaram em casa
- Estatísticas descritivas do público (considerando apenas dados não nulos)

In [None]:
# Gráfico de barras: 10 times que mais jogaram em casa
plt.figure(figsize=(10,6))
top10_mandantes = df['time_mandante'].value_counts().head(10)
sns.barplot(
    x=top10_mandantes.values,
    y=top10_mandantes.index,
    hue=top10_mandantes.index,
    palette='Paired')
plt.title('Top 10 times que mais jogaram em casa')
plt.xlabel('Número de jogos em casa')
plt.ylabel('Time mandante')
plt.show()

# Estatísticas descritivas do público (apenas dados não nulos)
print('Estatísticas descritivas do público (apenas dados não nulos):')
print(df['publico'].dropna().describe())

# Tarefa 2: Teste de Hipótese

## 1. Hipóteses
- **H0:** A média de gols dos mandantes é igual à dos visitantes.  
- **H1:** A média de gols dos mandantes é maior que a dos visitantes.  

## 2. Teste t
- Usar `scipy.stats.ttest_ind()`  
- Nível de significância: α = 0,05  
- Passos: calcular o valor-p e interpretar.  

## 3. Resultados
- Diferença entre as médias (tamanho do efeito).  
- Ver se o resultado é estatisticamente significativo.  
- Comparar a importância prática da diferença.  