# Projeto - FASE 02

## Enunciado

O que você deve entregar: Um arquivo com a extensão “ipynb” contendo caixas de texto e de código intercaladas, contendo:  

1. Cálculo de probabilidades condicionais e incondicionais de pelo menos duas variáveis selecionadas pelo aluno 
2. Intervalos de confiança e sua interpretação para pelo menos duas variáveis selecionadas pelo aluno 
3. Testes de hipóteses e sua interpretação para pelo menos duas variáveis selecionadas pelo aluno. As hipóteses devem avaliar se a média populacional da referida variável pode ser considerada igual à média amostral arredondada para o inteiro. 
4. Análise de Regressão (simples ou múltipla) sobre variáveis que deverão ser escolhidas pelo autor do trabalho. O aluno deve interpretar os coeficientes OU realizar predições com os modelos selecionados, bem como indicar minimamente os diagnósticos realizados. 
5. Elaboração de três frases (manchetes) de efeito, associadas aos resultados observados. 

## Leitura dos Arquivos

Vamos ler o arquivo com a função `read_csv` da biblioteca Pandas e exibir as cinco primeiras linhas para conhecer o banco de dados

In [11]:
import pandas as pd
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.width', None)


df = pd.read_csv('Anexo_Projeto_fifa_world_national_teams_versão_oficial.csv',encoding='latin1',sep=';')
df.head()


Unnamed: 0,id,name,full_name,overall_rating,value_euro,wage_euro,nationality,national_team,club_team,age,height_cm,weight_kgs,international_reputation(1-5),weak_foot(1-5),skill_moves(1-5),club_rating,Goleiro,Zagueiro,Meio,Atacante,crossing,finishing,heading_accuracy,short_passing,dribbling,jumping,strength,long_shots,aggression,GK_reflexes
0,158023,Messi,Lionel Andrés Messi Cuccittini,94,110500000,565000,Argentina,Argentina,FC Barcelona,31,170,72,5,4,4,86,0,0,0,1,86,95,70,92,97,68,66,94,48,8
1,153079,Aguero,Sergio Leonel Agüero del Castillo,89,64500000,300000,Argentina,Argentina,Manchester City,30,173,70,4,4,4,85,0,0,0,0,70,93,77,81,89,81,73,83,65,14
2,211110,Dybala,Paulo Bruno Exequiel Dybala,89,89000000,205000,Argentina,Argentina,Juventus,25,152,75,3,3,4,85,0,0,0,1,82,84,68,87,92,75,65,88,48,8
3,201399,Icardi,Mauro Emanuel Icardi Rivero,87,64500000,130000,Argentina,Argentina,Inter,26,155,75,3,4,3,82,0,0,0,1,46,91,91,73,77,94,76,70,56,9
4,226226,Lo Celso,Giovani Lo Celso,82,30000000,83000,Argentina,Argentina,Real Betis,22,175,70,1,3,4,80,0,0,0,0,75,77,59,82,84,64,69,76,65,14


## Probabilidades

### Probabilidade Incondicional

Probabilidade incondicional é a chance de ocorrência de um determinado evento, sem levar em conta qualquer outra condição ou informação adicional.
Representa simplesmente a frequência relativa do evento dentro do total de casos possíveis.

$ P(A) = \dfrac{\text{Número de casos favoráveis a A}}{\text{Número total de casos}} $ 

#### Probabilidade de um jogador ser da posição Atacante

A probabilidade de um jogador ser atacante é calculada como o número de jogadores cuja variável 'Atacante' é igual a 1, dividido pelo total de jogadores na base de dados.

In [28]:
p_atacante = (df['Atacante'] == 1).sum() / df.shape[0]
print(f'Probabilidade de selecionar um jogador atacante: {p_atacante:.2%}')

Probabilidade de selecionar um jogador atacante: 10.03%


Ao calcular a probabilidade incondicional, estamos considerando todos os jogadores da base, sem aplicar nenhum filtro ou condição. Isso responde a perguntas como:
- “Qual a chance de, ao escolher um jogador qualquer, ele ser atacante?

### Probabilidade Condicional

Probabilidade condicional é a chance de um evento ocorrer considerando que outro evento já aconteceu.

Ela responde perguntas como:
“Qual é a probabilidade de um jogador ser goleiro, dado que ele possui mais de 1,90m de altura?”

Ou seja, restringimos nosso universo apenas aos casos em que a condição já é verdadeira (ex.: jogadores com mais de 1,90m).

$ P(A|B) = \dfrac{P(A \cap B}{P(B)} $ 

#### Probabilidade de escolher um goleiro com altura maior que 1.90m

Ao calcular a probabilidade condicional, restringimos nossa análise apenas aos casos em que a condição se verifica (ex.: jogadores com mais de 1,90m). Assim, o denominador não é mais o total de jogadores, mas sim o total de jogadores que atendem à condição.

In [49]:
altura = df['height_cm'] > 190
goleiro = df['Goleiro'] == 1

goleiros_altos = (df[altura & goleiro])
jogadores_altos = (df[altura])

p_goleiros_altos = goleiros_altos.shape[0] / jogadores_altos.shape[0]
print(f'A probabilidade de um jogador com mais de 1,90m ser goleiro é de: {p_goleiros_altos:.2%}')

A probabilidade de um jogador com mais de 1,90m ser goleiro é de: 13.93%


## Intervalo de Confiança

O Intervalo de Confiança (IC) é uma ferramenta estatística que tem como objetivo estimar, a partir de uma amostra, o valor verdadeiro de um parâmetro da população — geralmente a média.

Na prática, quando coletamos dados, normalmente não temos acesso a todos os elementos da população. Por isso, usamos amostras e, consequentemente, precisamos lidar com a incerteza associada a essa coleta.

### Por que calcular um Intervalo de Confiança?


Ao calcular a média de uma variável em uma amostra (por exemplo, altura dos jogadores de futebol), estamos fazendo uma estimativa da média verdadeira da população.

O Intervalo de Confiança permite definir uma faixa de valores onde acreditamos que essa média verdadeira esteja, com um certo nível de confiança — geralmente 95%.

Se considerarmos que o dataset com 718 jogadores representa todos os jogadores do mundo, então a média de altura calculada no dataset é a média real da população.

Não há incerteza aqui.

Porém, se considerarmos que esses 718 jogadores são uma amostra de todos os jogadores do mundo, então faz todo sentido calcular o Intervalo de Confiança.



### Fórmula


$
IC = \bar{x} \pm t_{\alpha/2} \cdot \dfrac{s}{\sqrt{n}}
$

Onde:
- $\bar x$: Média amostral
- $t_{a/2}$: Valor crítico da distribuição
- $s$: Desvio padrão da amostra
- $n$: Tamanho da amostra

### Cálculo de Intervalos de Confiança com StatsModels

In [54]:
import statsmodels.stats.api as sms

altura = df['height_cm'].dropna()
ic_altura = sms.DescrStatsW(altura).tconfint_mean()
print(f'IC 95% para Altura: {ic_altura[0]:.2f} cm a {ic_altura[1]:.2f} cm')

peso = df['weight_kgs'].dropna()
ic_peso = sms.DescrStatsW(peso).tconfint_mean()
print(f'IC 95% para Peso: {ic_peso[0]:.2f} kg a {ic_peso[1]:.2f} kg')

IC 95% para Altura: 175.97 cm a 178.07 cm
IC 95% para Peso: 77.14 kg a 78.21 kg


### Interpretando o StatsModels

**Altura:** Estamos 95% confiantes de que a média de altura da população de jogadores profissionais do mundo está entre 175,97 cm e 178,07 cm, com base nos dados da nossa amostra.

**Peso:** Estamos 95% confiantes de que a média de peso da população de jogadores profissionais do mundo está entre 77,14kg e 78,21kg, com base nos dados da nossa amostra.

## Teste de Hipótese

O Teste de Hipótese é uma ferramenta estatística que usamos para tomar decisões sobre uma população, com base em uma amostra. Ele responde perguntas como:
- “A média da altura dos jogadores pode ser considerada igual a 180 cm?”
- “A média do overall rating pode ser considerada igual a 75?”

O **Teste de Hipóteses** é uma técnica estatística utilizada para verificar se uma afirmação sobre uma população pode ser aceita ou rejeitada, com base nos dados de uma amostra. O objetivo é tomar uma decisão sobre um parâmetro populacional (geralmente a média), a partir da evidência fornecida pelos dados.

### Hipótese Nula e Alternativa

O teste é composto por duas hipóteses:

- **Hipótese Nula (H₀)** → É a afirmação de que **não existe diferença** ou que a média populacional **é igual a um valor específico**.
- **Hipótese Alternativa (H₁)** → É a afirmação contrária, de que **existe diferença**, ou seja, a média populacional **não é igual** ao valor testado.

### Como tomar a decisão?

O teste gera dois valores principais:

- **t-statistic** → Estatística do teste (quanto a média amostral difere da média hipotética, em unidades de erro padrão).
- **p-valor** → Probabilidade de obtermos um resultado tão extremo quanto o observado, assumindo que a hipótese nula é verdadeira.

Após obter o valor-p, basta usar a regra abaixo:

- Se **p-valor < 0.05** → **Rejeitamos H₀**. Há evidências de que a média é diferente do valor testado.
- Se **p-valor ≥ 0.05** → **Não rejeitamos H₀**. Não há evidências suficientes para afirmar que a média é diferente.

_Usamos 5% como valor padrão de mercado_

### Teste de Hipótese para a Altura

Vamos testar se a média populacional de altura pode ser considerada igual a 175 cm.

**Levantamento de Hipóteses**
- H0: altura = 175
- H1: altura $\neq$ 175

**Aplicar o Teste T:** Vamos aplicar o Teste T à nossa amostra e encontrar o P-Valor

**Comparar com $\alpha = 5\%$:** Vamos comparar com o valor padrão de mercado para definir se rejeitamos ou não H0

In [92]:
from scipy.stats import ttest_1samp

altura = df['height_cm'].dropna()

media_altura = round(altura.mean())

t_stat, p_value = ttest_1samp(altura, popmean=media_altura)

print(f'P-valor: {p_value*100:.4f}%')

if p_value < 0.05:
    conclusao = f'Rejeitamos H0: Há fortes evidências de que a média é diferente de {media_altura}.'
else:
    conclusao = f'Não rejeitamos H0: Não há evidências suficientes para dizer que a média é diferente de {media_altura}.'

print(conclusao)
print(f'Média real da amostra: {df['height_cm'].mean():.2f} cm')

P-valor: 96.4665%
Não rejeitamos H0: Não há evidências suficientes para dizer que a média é diferente de 177.
Média real da amostra: 177.02 cm


### Teste de Hipótese para o Peso

Vamos testar se a média de peso dos jogadores pode ser considerada maior que 80kg

**Levantamento de Hipóteses**
- H0: peso = 80
- H1: peso $\neq$ 80

**Aplicar o Teste T:** Vamos aplicar o Teste T à nossa amostra e encontrar o P-Valor

**Comparar com $\alpha = 5\%$:** Vamos comparar com o valor padrão de mercado para definir se rejeitamos ou não H0

In [89]:
from scipy.stats import ttest_1samp

peso = df['weight_kgs'].dropna()

media_peso = round(peso.mean())
print(f'Média amostral arredondada do peso: {media_peso} kg')

t_stat, p_value = ttest_1samp(peso, popmean=media_peso)

print(f'P-valor: {p_value*100:.4f}%')

if p_value < 0.05:
    conclusao = f'Rejeitamos H0: Há fortes evidências de que a média é diferente de {media_peso} kg.'
else:
    conclusao = f'Não rejeitamos H0: Não há evidências suficientes para dizer que a média é diferente de {media_peso} kg.'

print(conclusao)
print(f'Média real da amostra: {df['weight_kgs'].mean():.2f} kg')

Média amostral arredondada do peso: 78 kg
P-valor: 23.1904%
Não rejeitamos H0: Não há evidências suficientes para dizer que a média é diferente de 78 kg.
Média real da amostra: 77.67 kg
