<a href="https://colab.research.google.com/github/sebavassou/Estatistica_Inferencial/blob/main/Prova_Estatistica_Inferencial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Prova de Estatística Inferencial
MBA CDIA

Professor: Allan Quadros

Aluno: Sebastien Pierre Daniel Vassou

Conforme as instruções da prova, selecionei para resolver 5 das 15 questões, sendo 3 questões práticas e 2 teóricas, e venho por meio deste caderno colab submeter as respostas abaixo à avaliação:

## Questões Teóricas

### 1. Erros Tipo I e Tipo II


No contexto do desafio proposto podemos definir as hipóteses nula (H0) e alternativa (H1) da seguinte forma:

• H0 (Hipótese Nula): O tempo médio de espera para atendimento é igual a 15 minutos (ou µ = 15 minutos).

• H1 (Hipótese Alternativa): O tempo médio de espera para atendimento é maior que 15 minutos (ou µ > 15 minutos).

Com base nessas hipóteses, os erros Tipo I e Tipo II seriam:


**Erro Tipo I:** Ocorre quando a hipótese nula é rejeitada, embora ela seja verdadeira. No contexto do problema, isso significa concluir que o tempo de espera é maior que 15 minutos quando, na realidade, ele não é. Um exemplo prático seria implementar mudanças no processo de atendimento (contratar mais funcionários, por exemplo) com base em sua conclusão, quando na verdade essas mudanças não eram necessárias, gerando gastos desnecessários.


**Erro Tipo II:** Ocorre quando a hipótese nula não é rejeitada, embora ela seja falsa. Neste caso, significa concluir que o tempo de espera não é maior que 15 minutos, quando na realidade ele é. Um exemplo prático seria não realizar nenhuma intervenção para melhorar o atendimento, resultando na manutenção de um tempo de espera elevado e insatisfação dos cidadãos.





## 2. Teorema Central do Limite (TCL)

O Teorema Central do Limite (TCL) é um conceito fundamental na Estatística Inferencial. Ele estabelece que, se X̄ for a média de uma amostra aleatória grande de qualquer população com média µ e desvio padrão σ, então a distribuição de X̄ será aproximadamente normal, com média µX̄ = µ e desvio padrão σX̄ = σ/√n

**1. Se a população original for normalmente distribuída:**
Mesmo que a amostra seja de qualquer tamanho (n), a distribuição amostral da média (X̄) já será normal. Se a população dos tempos de deslocamento diário dos cidadãos já seguir uma distribuição normal, então a média amostral também seguirá uma distribuição normal, independentemente do número de cidadãos na amostra.

**2. Se a população original NÃO for normalmente distribuída, mas o tamanho da amostra (n) for grande o suficiente:**
Esta é a condição mais comum e poderosa do TCL. Se a distribuição real dos tempos de deslocamento na população não for normal (por exemplo, pode ser assimétrica), o TCL garante que a distribuição das médias amostrais se aproximará de uma distribuição normal desde que o tamanho da amostra seja suficientemente grande.
Geralmente, um tamanho de amostra n > 30 é considerado suficiente para a maioria das distribuições, especialmente se a distribuição original não for muito assimétrica. Quanto mais assimétrica for a população original, maior "n" precisará ser para que a aproximação normal seja válida.

Em resumo, a média amostral terá uma distribuição aproximadamente normal se (i) a população original for normal OU (ii) o tamanho da amostra for grande (n > 30). Para a prefeitura, isso significa que, se ela coletar uma amostra grande o suficiente de tempos de deslocamento, poderá usar as propriedades da distribuição normal para fazer inferências sobre o tempo médio populacional, mesmo que a distribuição dos tempos de deslocamento na cidade não seja normal. Amostras maiores, aliás, produzem estimativas mais precisas da média populacional, pois o erro padrão da média (σX̄ = σ/√n) diminui com o aumento do tamanho da amostra.

**O que acontece se essas condições não forem satisfeitas?**

Se nenhuma das condições for satisfeita, ou seja:
**Se a população original NÃO for normal, E o tamanho da amostra (n) for pequeno (tipicamente n ≤ 30):**
Nessas circunstâncias, NÃO se pode assumir que a distribuição da média amostral seja aproximadamente normal.
Isso implica que os métodos de inferência estatística que dependem da suposição de normalidade da distribuição amostral (como o uso de escores Z ou testes t aproximados) não seriam válidos ou confiáveis. Por exemplo, se a prefeitura coletasse dados de apenas 10 cidadãos e a distribuição real dos tempos de deslocamento na cidade fosse muito assimétrica, as conclusões baseadas na suposição de normalidade poderiam ser imprecisas ou errôneas.
Nesses casos, seria necessário utilizar métodos estatísticos não-paramétricos (que não dependem de suposições sobre a forma da distribuição da população) ou coletar uma amostra maior para que o TCL possa ser aplicado


## Questões Práticas

## 10. Intervalo de Confiança

Com uma amostra de 50 cidadãos, o tempo médio de espera em uma repartição pública foi de 20 minutos, com um desvio padrão amostral de 5 minutos. Para construir um intervalo de confiança de 95% para o tempo médio populacional, utilizaremos um teste t, já que o desvio padrão da população é desconhecido.

In [2]:
# Dados do problema
n = 50  # Tamanho da amostra
media_amostral = 20  # Média amostral
desvio_padrao_amostral = 5  # Desvio padrão amostral
confianca = 0.95  # Nível de confiança

# Importando bibliotecas
import numpy as np
from scipy import stats

# Cálculo do erro padrão da média
erro_padrao = desvio_padrao_amostral / np.sqrt(n)

# Cálculo do valor crítico t (para um IC de 95% e 49 graus de liberdade)
graus_liberdade = n - 1
valor_t = stats.t.ppf((1 + confianca) / 2, graus_liberdade)

# Cálculo da margem de erro
margem_de_erro = valor_t * erro_padrao

# Cálculo do intervalo de confiança
limite_inferior = media_amostral - margem_de_erro
limite_superior = media_amostral + margem_de_erro

print(f"O intervalo de confiança de 95% para o tempo médio populacional é de [{limite_inferior:.2f}, {limite_superior:.2f}] minutos.")

O intervalo de confiança de 95% para o tempo médio populacional é de [18.58, 21.42] minutos.


## 12. Teste t Simples

A afirmação do órgão público é que o tempo médio para resolver um processo administrativo é de 10 dias. Em uma amostra de 25 processos, a média foi de 12 dias e o desvio padrão amostral foi de 3 dias. Vamos realizar um teste t simples para verificar se há evidências para rejeitar a afirmação com um nível de significância de 5%.

In [3]:
# Dados do problema
media_afirmada = 10  # Média populacional afirmada
n = 25  # Tamanho da amostra
media_amostral = 12  # Média amostral
desvio_padrao_amostral = 3  # Desvio padrão amostral
significancia = 0.05

# Importando bibliotecas
from scipy import stats

# Cálculo da estatística t
estatistica_t = (media_amostral - media_afirmada) / (desvio_padrao_amostral / (n**0.5))

# Cálculo do p-valor (teste bicaudal)
p_valor = stats.t.sf(np.abs(estatistica_t), n-1) * 2

print(f"Estatística t: {estatistica_t:.2f}")
print(f"p-valor: {p_valor:.4f}")

# Conclusão do teste
if p_valor < significancia:
    print("O p-valor é menor que o nível de significância (0.05). Há evidências para rejeitar a hipótese nula.")
else:
    print("O p-valor é maior que o nível de significância (0.05). Não há evidências para rejeitar a hipótese nula.")

Estatística t: 3.33
p-valor: 0.0028
O p-valor é menor que o nível de significância (0.05). Há evidências para rejeitar a hipótese nula.


Como o p-valor é menor que 0.05, podemos rejeitar a hipótese nula. Isso significa que, com um nível de significância de 5%, há evidências suficientes para afirmar que o tempo médio para resolver um processo administrativo é diferente de 10 dias.

## 13. Teste Qui-Quadrado para Avaliação de Política Pública



O objetivo é verificar se existe associação entre a participação em um programa de inclusão digital e a empregabilidade dos cidadãos.

H0: A participação no programa de inclusão digital e a empregabilidade são independentes.

H1: A participação no programa de inclusão digital e a empregabilidade não são independentes.



In [4]:
# Dados do problema
empregados_participantes = 120
desempregados_participantes = 80
empregados_nao_participantes = 135
desempregados_nao_participantes = 165

# Importando bibliotecas
import pandas as pd
from scipy.stats import chi2_contingency

# Criação da tabela de contingência
tabela_de_contingencia = pd.DataFrame([
    [empregados_participantes, desempregados_participantes],
    [empregados_nao_participantes, desempregados_nao_participantes]
], index=['Participantes', 'Não Participantes'], columns=['Empregados', 'Desempregados'])

print("Tabela de contingência:")
print(tabela_de_contingencia)

# Realização do teste qui-quadrado
chi2, p, dof, expected = chi2_contingency(tabela_de_contingencia)

print(f"\nEstatística Qui-Quadrado: {chi2:.2f}")
print(f"p-valor: {p:.4f}")

# Interpretação do resultado
alpha = 0.05
if p < alpha:
    print("O p-valor é menor que o nível de significância (0.05). Há evidências para rejeitar a hipótese nula.")
    print("Existe uma associação estatisticamente significativa entre a participação no programa e a situação de emprego.")
else:
    print("O p-valor é maior que o nível de significância (0.05). Não há evidências para rejeitar a hipótese nula.")
    print("Não existe uma associação estatisticamente significativa entre a participação no programa e a situação de emprego.")

Tabela de contingência:
                   Empregados  Desempregados
Participantes             120             80
Não Participantes         135            165

Estatística Qui-Quadrado: 10.21
p-valor: 0.0014
O p-valor é menor que o nível de significância (0.05). Há evidências para rejeitar a hipótese nula.
Existe uma associação estatisticamente significativa entre a participação no programa e a situação de emprego.
