## Importamos libreria y datos a trabajar

In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np



# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

# dataframe a trabar
df = pd.read_pickle("../datos/output_data/df_limpio.pkl")


In [2]:
df.columns

Index(['COD_organo_superior', 'NOM_organo_superior', 'COD_organo',
       'NOM_organo', 'COD_unidad_gestora', 'NOM_unidad_gestora',
       'categoria_economica', 'origen_ingreso', 'especie_ingreso',
       'detalle_adicional ', 'valor_previsto_actualizado', 'valor_lanzado',
       'valor_recaudado', 'porcentaje_ejecutado', 'fecha_ejecucion',
       'anio_ejecucion'],
      dtype='object')

In [3]:
df.sample(5)

Unnamed: 0,COD_organo_superior,NOM_organo_superior,COD_organo,NOM_organo,COD_unidad_gestora,NOM_unidad_gestora,categoria_economica,origen_ingreso,especie_ingreso,detalle_adicional,valor_previsto_actualizado,valor_lanzado,valor_recaudado,porcentaje_ejecutado,fecha_ejecucion,anio_ejecucion
925022,25000,Ministério da Economia,25201,Banco Central do Brasil - Orçamento Fiscal e S...,173057,BANCO CENTRAL DO BRASIL,Receitas Correntes,Outras Receitas Correntes,Demais receitas correntes,OUTRAS RECEITAS-PRIMARIAS-DIVIDA ATIVA,0.0,0.0,58370.26,0.0,2021-06-24,2021
359568,30000,Ministério da Justiça e Segurança Pública,30108,Departamento de Polícia Federal,200336,COORDENACAO DE ORCAMENTO FINANCAS CONTABILIDA,Receitas Correntes,"Impostos, Taxas e Contribuições de Melhoria",Taxas,"TAXAS INSPEÇÃO,CONTROLE E FISCALIZAÇÃO-PRINC.",0.0,0.0,2509965.51,0.0,2017-07-19,2017
982895,26000,Ministério da Educação,26242,Universidade Federal de Pernambuco,153080,UNIVERSIDADE FEDERAL DE PERNAMBUCO,Receitas Correntes,Receita de Serviços,Serviços Administrativos e Comerciais Gerais,SERVICOS DE INFORMACAO E TECNOLOGIA-PRINCIPAL,0.0,0.0,300.0,0.0,2021-01-28,2021
234104,52000,Ministério da Defesa,52000,Ministério da Defesa - Unidades com vínculo di...,110407,"DEPARTAMENTO DE PLANEJ, ORC E FINANCAS (MD)",Receitas Correntes,Receita de Serviços,Serviços e Atividades Referentes à Saúde,SERVICOS DE ATENDIMENTO A SAUDE-PRINCIPAL,0.0,0.0,1252.01,0.0,2017-11-29,2017
32608,24000,"Ministério da Ciência, Tecnologia, Inovações",24901,Fundo Nacional de Desenvolvimento Científico e...,240901,FUNDO NAC.DE DESENV. CIENT. E TECNOLOGICO,Receitas Correntes,Contribuições,Contribuições econômicas,CONTR.S/REC.BRT EMP.PREST.SERV.TELECOM-PRINC.,0.0,0.0,5236.16,0.0,2016-02-24,2016


## Analisisis de variables numericas

In [4]:
# Evitar notación científica y establecer formato de dos decimales
pd.set_option('display.float_format', '{:,.2f}'.format)

df_descriptivos_numericos = df [['valor_previsto_actualizado', 'valor_lanzado','valor_recaudado', 'porcentaje_ejecutado']].describe().T
df_descriptivos_numericos


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
valor_previsto_actualizado,1026299.0,27611421.05,3393367175.13,-214773743.0,0.0,0.0,0.0,1603521711208.0
valor_lanzado,1026299.0,5242806.11,810883695.36,-148347267246.91,0.0,0.0,0.0,357160677863.97
valor_recaudado,1026299.0,24980422.31,1406892548.84,-156285934188.03,260.9,3022.32,40853.85,771117711060.95
porcentaje_ejecutado,1026299.0,80.31,71481.11,-114552.0,0.0,0.0,0.0,72363772.0


**Insights:** 

01. ***valor_previsto_actualizado*** seria el Monto actualizado del ingreso previsto:
    - La media de la columna se encuentra en 27.611.421,05 reales muy lejos de la mediana que es 0, lo que significa mucha dispersion entre los datos.
    - El 75% de los datos se encuentran por debajo de 0. Seria importante revisar el porque de esto. 
    - Hay un valor que representa trillones de reales. Revisar si esto es un error o a que pertenece.

02. ***valor_lanzado*** seria el Monto que fue registrado como lanzado/ejecutado:
    - La media se encuentra en los 27.980.422,31 muy por encima de la mediana de 3022,32 es decir que existen valores muy altos como podemos ver esos 771.11 mil millones de reales.
    - alto desvio estandandar por la variabilidad de los datos.

03. ***valor_recaudado*** seria el Monto que fue recaudado:
    - Podemos inducir que el estado brasileño en el periodo de estudio se encuentra con defict fiscal ya que lo recaudado se encuentra por debajo del valor previsto actualizado, si comparamos sus medias
    - Al igual que las otras categorias, las medias se encuentran muy por arriba de su mediana, esto es porque existen valores muy altos que hacen mover el promedio.
    

In [5]:
df_descriptivos_object = df.describe(include = "O").T
df_descriptivos_object

Unnamed: 0,count,unique,top,freq
NOM_organo_superior,1026299,25,Ministério da Educação,361891
NOM_organo,1026299,287,Ministério da Economia - Unidades com vínculo ...,119811
NOM_unidad_gestora,1026299,356,SETORIAL ORCAMENTARIA E FINANCEIRA / ME,108481
categoria_economica,1026299,5,Receitas Correntes,979596
origen_ingreso,1026299,15,Outras Receitas Correntes,322907
especie_ingreso,1026299,63,Serviços Administrativos e Comerciais Gerais,278157
detalle_adicional,1026299,1886,SERV.ADMINISTRAT.E COMERCIAIS GERAIS-PRINC.,159039
