In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Carregar o dataset
df = pd.read_csv("scouts_2015.csv")

# 1. Amostragem Aleatória Simples (200 registros)
amostra_aleatoria_simples = df.sample(n=200, random_state=42)

# 2. Amostragem Sistemática (cada 15º registro)
amostra_sistematica = df.iloc[::15]

# 3. Amostragem Estratificada por posição (10% de cada grupo)
amostra_estratificada = df.groupby("posicao", group_keys=False).apply(
    lambda x: x.sample(frac=0.1, random_state=42)
)

# 4. Amostragem por julgamento (jogos > 2 e pontos > 5)
amostra_julgamento = df[(df["jogos_num"] > 2) & (df["pontos_num"] > 5)]

# 5. Amostragem por conveniência (primeiros 300 registros)
amostra_conveniencia = df.head(300)

# 6. Amostragem por conglomerado (2 clubes aleatórios)
clubes_sorteados = np.random.choice(df["clube"].unique(), size=2, replace=False)
amostra_conglomerado = df[df["clube"].isin(clubes_sorteados)]

# 7. Amostragem aleatória de jogadores com cartão vermelho
amostra_cv = df[df["CV"] > 0].sample(n=50, random_state=42)

# 8. Amostragem por cotas (posição e clube para Flamengo e Corinthians)
clubes_cotas = ["Flamengo", "Corinthians"]
df_cotas = df[df["clube"].isin(clubes_cotas)]
amostra_cotas = df_cotas.groupby(["clube", "posicao"], group_keys=False).apply(
    lambda x: x.sample(n=min(30, len(x)), random_state=42)
)

# 9. Goleiros com mais de 2 defesas difíceis
goleiros_defesas = df[(df["posicao"] == "gol") & (df["DD"] > 2)]

# 10. Comparação de pontos: Amostragem Aleatória vs. Estratificada
media_aleatoria = amostra_aleatoria_simples["pontos_num"].mean()
media_estratificada = amostra_estratificada["pontos_num"].mean()

# Gráfico de comparação
plt.figure(figsize=(6, 4))
sns.barplot(x=["Aleatória", "Estratificada"], y=[media_aleatoria, media_estratificada])
plt.title("Comparação de Pontuação Média por Tipo de Amostragem")
plt.ylabel("Pontuação Média")
plt.tight_layout()
plt.show()
