In [21]:
import pandas as pd
import matplotlib
from matplotlib import pyplot as plt
import matplotlib.ticker as ticker
import numpy as np
import seaborn as sns
import scipy.stats as stats
sns.set()

In [22]:
# Carrega dataset
gastos_diretos = pd.read_csv('../databases/gastosdiretos.csv', encoding='utf-8')

# Testes de Hipótese

## Teste: Gastos realizados entre diferentes categorias econômicas
Hipótese Nula (H0): As médias dos gastos realizados são iguais entre todas as categorias econômicas.

Hipótese Alternativa (H1): Pelo menos uma das médias dos gastos realizados é diferente entre as categorias econômicas.

In [23]:
gastos_por_categoria = gastos_diretos.groupby('NOME CATEGORIA ECONÔMICA')['ORÇAMENTO REALIZADO (R$)'].apply(list)

# Teste ANOVA
f_statistic, p_value = stats.f_oneway(*gastos_por_categoria)

print(f'Estatística F: {f_statistic:.4f}')
print(f'Valor p: {p_value:.4f}')

if p_value < 0.05:
    print("Rejeitamos a hipótese nula. As categorias econômicas afetam significativamente os gastos realizados.")
else:
    print("Não rejeitamos a hipótese nula. As categorias econômicas não afetam significativamente os gastos realizados.")

Estatística F: 2.7861
Valor p: 0.0250
Rejeitamos a hipótese nula. As categorias econômicas afetam significativamente os gastos realizados.


## Teste: Gastos realizados entre diferentes funções.

Hipótese Nula (H0): As médias dos gastos realizados são iguais entre todas as funções.

Hipótese Alternativa (H1): Pelo menos uma das médias dos gastos realizados é diferente entre as 

In [24]:
gastos_por_funcao = gastos_diretos.groupby('NOME FUNÇÃO')['ORÇAMENTO REALIZADO (R$)'].apply(list)

f_statistic, p_value = stats.f_oneway(*gastos_por_funcao)

print(f'Estatística F: {f_statistic:.4f}')
print(f'Valor p: {p_value:.4f}')

if p_value < 0.05:
    print("Rejeitamos a hipótese nula. As funções afetam significativamente os gastos realizados.")
else:
    print("Não rejeitamos a hipótese nula. As funções não afetam significativamente os gastos realizados.")

Estatística F: 12.3393
Valor p: 0.0000
Rejeitamos a hipótese nula. As funções afetam significativamente os gastos realizados.


## Teste: Gastos realizados entre diferentes órgãos superiores.

Hipótese Nula (H0): As médias dos gastos realizados são iguais entre todos os órgãos superiores.

Hipótese Alternativa (H1): Pelo menos uma das médias dos gastos realizados é diferente entre os órgãos superiores.

In [25]:
gastos_por_orgao_superior = gastos_diretos.groupby('NOME ÓRGÃO SUPERIOR')['ORÇAMENTO REALIZADO (R$)'].apply(list)

f_statistic, p_value = stats.f_oneway(*gastos_por_orgao_superior)

print(f'Estatística F: {f_statistic:.4f}')
print(f'Valor p: {p_value:.4f}')

if p_value < 0.05:
    print("Rejeitamos a hipótese nula. Os órgãos superiores afetam significativamente os gastos realizados.")
else:
    print("Não rejeitamos a hipótese nula. Os órgãos superiores não afetam significativamente os gastos realizados.")

Estatística F: 36.6781
Valor p: 0.0000
Rejeitamos a hipótese nula. Os órgãos superiores afetam significativamente os gastos realizados.


# Intervalos de Confiança

In [26]:
def ic(df, column):
    data = df[column]
    mean = data.mean()
    std = data.std(ddof=1)
    se = std / np.sqrt(len(data))
    return (mean - 1.96 * se, mean + 1.96 * se)

ic_categoria1 = ic(gastos_diretos[gastos_diretos['NOME CATEGORIA ECONÔMICA'] == 'DESPESAS CORRENTES'], 'ORÇAMENTO REALIZADO (R$)')
ic_categoria2 = ic(gastos_diretos[gastos_diretos['NOME CATEGORIA ECONÔMICA'] == 'DESPESAS DE CAPITAL'], 'ORÇAMENTO REALIZADO (R$)')

# Os gastos realizados estimados com 95% de confiança
print(f'Intervalo de Confiança para DESPESAS CORRENTES: {ic_categoria1}')
print(f'Intervalo de Confiança para DESPESAS DE CAPITAL: {ic_categoria2}')

Intervalo de Confiança para DESPESAS CORRENTES: (3861676771.7773914, 6611853948.729307)
Intervalo de Confiança para DESPESAS DE CAPITAL: (3811194527.0582542, 20658402745.316418)
