In [1]:
import pandas as pd

In [2]:
# dados do cartão corporativo do Governo Federal de julho de 2018
df = pd.read_csv("201807_CPGF.csv", encoding="latin1", sep=";")

In [3]:
# axis 0 se refere às linhas, axis 1 às colunas
filtered_df = df.drop(["CÓDIGO ÓRGÃO SUPERIOR", 
                       "CÓDIGO ÓRGÃO",
                       "CÓDIGO UNIDADE GESTORA",
                       "ANO EXTRATO",
                       "MÊS EXTRATO"], axis=1)

In [4]:
# Convertendo alguns tipos de dados 

# 'dayfirst=True' significa que no formato de data passado o dia vem antes do mês
# 'errors=coerce' converte valores inválidos em NaT (Not a Time)
filtered_df["DATA TRANSAÇÃO"] = pd.to_datetime(df["DATA TRANSAÇÃO"], dayfirst=True, errors="coerce")

# 'regex=False' "diz" ao pandas que a vírgula não deve ser interpretada como regex, e sim como valor literal
filtered_df["VALOR TRANSAÇÃO"] = (
    df["VALOR TRANSAÇÃO"]
    .str.replace(",", ".", regex=False)
    .astype(float)
)

filtered_df["CNPJ OU CPF FAVORECIDO"] = df["CNPJ OU CPF FAVORECIDO"].astype(str)

In [None]:
filtered_df

In [None]:
# dentro do grupo, quero apenas a coluna VALOR TRANSAÇÃO
grouped_df = filtered_df.groupby("NOME ÓRGÃO SUPERIOR")["VALOR TRANSAÇÃO"]

# desvio padrão baixo significa que os gastos foram mais regulares, em relação a média aritmética
# desvio padrão alto significa que os gastos foram menos regulares, em relação a média aritmética, possivelmente com picos para baixo ou para cima
# mediana divide o conjunto de dados em 2
stats_df = pd.DataFrame({
    "somatorio": grouped_df.sum(),
    "media": grouped_df.mean(),
    "mediana": grouped_df.median(),
    "desvio_padrao": grouped_df.std()
}).reset_index()

In [10]:
stats_df.sort_values(by="somatorio", ascending=False).set_index("NOME ÓRGÃO SUPERIOR")

Unnamed: 0_level_0,somatorio,media,mediana,desvio_padrao
NOME ÓRGÃO SUPERIOR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PRESIDENCIA DA REPUBLICA,949605.14,965.045874,351.115,2869.074852
MINISTERIO DA JUSTICA,927984.4,726.690995,1000.0,498.047952
"MINIST. DO PLANEJAMENTO, DESENVOLV. E GESTAO",535143.88,226.180845,120.0,243.826709
MINISTERIO DA EDUCACAO,459312.82,241.48939,149.52,269.410441
MINISTERIO DA DEFESA,374416.13,320.013786,200.0,414.19638
"MINIST. DA AGRICUL.,PECUARIA E ABASTECIMENTO",163804.18,214.123111,144.0,212.53494
MINISTERIO DA FAZENDA,134852.65,205.568064,106.6,274.629446
MINISTERIO DA SAUDE,114788.81,315.353874,225.0,284.829706
MINISTERIO DE MINAS E ENERGIA,79762.89,195.019291,158.31,184.245865
"MINIST.DA CIENCIA,TECNOL.,INOV.E COMUNICACOES",61405.1,226.587085,143.53,229.408598


In [13]:
import statistics as stats

lista = [5.63	,5.47	,4.97	,4.84	,4.86	,4.90	,5.36	,5.39	,5.58	,5.99	,5.95	,6.20]


# Média
media = stats.mean(lista)

# Mediana
mediana = stats.median(lista)

# Moda (se houver mais de uma, usar multimode)
moda = stats.multimode(lista)  # retorna lista com todas as modas

# Desvio padrão amostral
desvio_padrao = stats.stdev(lista)

coef_var = desvio_padrao / media * 100

print("Média:", media)
print("Mediana:", mediana)
print("Moda:", moda)
print("Desvio Padrão:", desvio_padrao)
print("CV:", coef_var)

Média: 5.428333333333334
Mediana: 5.43
Moda: [5.63, 5.47, 4.97, 4.84, 4.86, 4.9, 5.36, 5.39, 5.58, 5.99, 5.95, 6.2]
Desvio Padrão: 0.4683594837948796
CV: 8.628053124867293
