# Análise Exploratória de dados utilizando o Sweetviz

In [1]:
!pip install sweetviz==2.1.4

Collecting sweetviz==2.1.4
  Downloading sweetviz-2.1.4-py3-none-any.whl (15.1 MB)
     ---------------------------------------- 15.1/15.1 MB 2.9 MB/s eta 0:00:00
Collecting importlib-resources>=1.2.0
  Using cached importlib_resources-5.12.0-py3-none-any.whl (36 kB)
Installing collected packages: importlib-resources, sweetviz
Successfully installed importlib-resources-5.12.0 sweetviz-2.1.4


In [None]:
import pandas as pd
import sweetviz as sv

In [2]:
df = pd.read_csv('https://raw.githubusercontent.com/Data-Centric-AI-Community/awesome-data-centric-ai/master/medium/data-profiling-tools/data/hcc.csv')

In [None]:
report = sv.analyze(df)
report.show_html('report.html')

In [8]:
# Additional Features
# Let's tweak the "Outcome" feature to enable the exploration of categories ("Male" and "Female") and compare the insights

df.Outcome = pd.Categorical(df.Outcome)
df['Survival'] = df.Outcome.cat.codes

In [None]:
# Create a Comparison Report
comparison_report = sv.compare_intra(df, df["Gender"] == 'Male', ["Male", "Female"], 'Survival')
comparison_report.show_notebook() 

In [9]:
df.head()

Unnamed: 0,Gender,Age,Alcohol,Hallmark,PS,Encephalopathy,Hemoglobin,HBeAg,MCV,Total_Bil,O2,Dir_Bil,Ferritin,Outcome,Survival
0,Male,67,Yes,AYes,Active,,13.7,No,106.6,2.1,999,0.5,,Alive,0
1,Female,62,No,BYes,Active,,,No,103.4,,999,,,Alive,0
2,Male,78,Yes,CYes,Ambulatory,,8.9,No,79.8,0.4,999,0.1,16.0,Alive,0
3,Male,77,Yes,DYes,Active,,13.4,No,97.1,0.4,999,0.2,,Dead,1
4,Male,76,Yes,EYes,Active,,14.3,No,95.1,0.7,999,,22.0,Alive,0


## Conectando a um banco de dados (PostgreSQL)

In [6]:
import pyodbc

# Usaremos o PostgreSQL Unicode, se fosse SQL Server, usariamos o ODBC Driver 17 for SQL Server
pyodbc.drivers()

['SQL Server',
 'MySQL ODBC 8.0 ANSI Driver',
 'MySQL ODBC 8.0 Unicode Driver',
 'SQL Server Native Client 11.0',
 'ODBC Driver 17 for SQL Server',
 'SQL Server Native Client RDA 11.0',
 'ODBC Driver 13 for SQL Server',
 'Simba Spark ODBC Driver',
 'Simba Athena ODBC Driver',
 'SQLite3 ODBC Driver',
 'SQLite ODBC Driver',
 'SQLite ODBC (UTF-8) Driver',
 'PostgreSQL ANSI(x64)',
 'PostgreSQL Unicode(x64)',
 'PostgreSQL ANSI',
 'PostgreSQL Unicode',
 'Microsoft Access Driver (*.mdb, *.accdb)',
 'Microsoft Excel Driver (*.xls, *.xlsx, *.xlsm, *.xlsb)',
 'Microsoft Access Text Driver (*.txt, *.csv)']

In [7]:
# Suppress all warnings
import warnings
warnings.filterwarnings("ignore")

# Importing the libraries
import os
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

pd.set_option('display.max_rows', 100)
pd.set_option('display.max_columns', 100)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

In [13]:
conn = pyodbc.connect(DRIVER = '{PostgreSQL Unicode}',
                      SERVER = 'localhost',
                      DATABASE = 'Financeiro',
                      UID = 'postgres',
                      PWD = 'suasenha')

cursor = conn.cursor()

In [22]:
SQL_Query = pd.read_sql_query('SELECT * FROM execucao_financeira_despesa', conn)
financeiro = pd.DataFrame(SQL_Query)

In [20]:
financeiro

Unnamed: 0,id,num_ano,cod_ne,codigo_orgao,dsc_orgao,cod_credor,dsc_nome_credor,cod_fonte,dsc_fonte,cod_funcao,dsc_funcao,cod_item,dsc_item,cod_item_elemento,dsc_item_elemento,cod_item_categoria,dsc_item_categoria,cod_item_grupo,dsc_item_grupo,dsc_modalidade_licitacao,cod_item_modalidade,dsc_item_modalidade,cod_programa,dsc_programa,cod_subfuncao,dsc_subfuncao,num_sic,cod_np,vlr_empenho,vlr_liquidado,valor_pago,vlr_resto_pagar,dth_empenho,dth_pagamento,dth_liquidacao,dth_processamento,num_ano_np
0,2020412441,2020,1,10001,ASSEMBLEIA LEGISLATIVA,147162,FABIANA CALIXTO GOMES DINIZ ME,0,RECURSOS ORDINÁRIOS,1,LEGISLATIVA,88,DIVULGAÇÃO DAS ATIVIDADES PARLAMENTARES,39,OUTROS SERVIÇOS DE TERCEIROS - PESSOA JU,3,DESPESA CORRENTE,,,APLICAÇÕES DIRETAS,90,APLICAÇÕES DIRETAS,258,DESENVOLVIMENTO DO PROCESSO LEGISLATIVO,31,AÇÃO LEGISLATIVA,,192,8000.0,,8000.0,0.0,2020-01-28,2020-02-05,,2022-10-27,2020
1,2020412442,2020,1,10101,FUNDO DE PREVIDENCIA PARLAMENTAR DA ASSEMB LEG...,193294,FUNDO DE PREVIDENCIA PARLAMENTAR DA ASSEMB LEG...,70,RECURSOS DIRETAMENTE ARRECADADOS,9,PREVIDÊNCIA SOCIAL,24,PROVENTOS DE APOSENTADORIA PARLAMENTAR,92,DESPESAS DE EXERCÍCIOS ANTERIORES,3,DESPESA CORRENTE,,,APLICAÇÕES DIRETAS,90,APLICAÇÕES DIRETAS,211,GESTÃO ADMINISTRATIVA DO CEARÁ,271,PREVIDÊNCIA BÁSICA,,3,285708.59,,285708.59,0.0,2020-01-29,2020-01-31,,2022-10-27,2020
2,2020412443,2020,1,20001,TRIBUNAL DE CONTAS DO ESTADO,4977,EC TRIBUNAL DE CONTAS DO EST DO CEARA,0,RECURSOS ORDINÁRIOS,1,LEGISLATIVA,1,VENCIMENTOS - ESTATUTÁRIOS,11,VENCIMENTOS E VANTAGENS FIXAS - PESSOAL,3,DESPESA CORRENTE,,,APLICAÇÕES DIRETAS,90,APLICAÇÕES DIRETAS,211,GESTÃO ADMINISTRATIVA DO CEARÁ,32,CONTROLE EXTERNO,,13,8876387.45,,4854314.87,0.0,2020-01-28,2020-01-30,,2022-10-27,2020
3,2020412444,2020,1,20001,TRIBUNAL DE CONTAS DO ESTADO,4977,EC TRIBUNAL DE CONTAS DO EST DO CEARA,0,RECURSOS ORDINÁRIOS,1,LEGISLATIVA,1,VENCIMENTOS - ESTATUTÁRIOS,11,VENCIMENTOS E VANTAGENS FIXAS - PESSOAL,3,DESPESA CORRENTE,,,APLICAÇÕES DIRETAS,90,APLICAÇÕES DIRETAS,211,GESTÃO ADMINISTRATIVA DO CEARÁ,32,CONTROLE EXTERNO,,14,8876387.45,,2031559.36,0.0,2020-01-28,2020-01-30,,2022-10-27,2020
4,2020412445,2020,1,20001,TRIBUNAL DE CONTAS DO ESTADO,4977,EC TRIBUNAL DE CONTAS DO EST DO CEARA,0,RECURSOS ORDINÁRIOS,1,LEGISLATIVA,1,VENCIMENTOS - ESTATUTÁRIOS,11,VENCIMENTOS E VANTAGENS FIXAS - PESSOAL,3,DESPESA CORRENTE,,,APLICAÇÕES DIRETAS,90,APLICAÇÕES DIRETAS,211,GESTÃO ADMINISTRATIVA DO CEARÁ,32,CONTROLE EXTERNO,,15,8876387.45,,75897.35,0.0,2020-01-28,2020-01-30,,2022-10-27,2020
5,2020412446,2020,1,20001,TRIBUNAL DE CONTAS DO ESTADO,4977,EC TRIBUNAL DE CONTAS DO EST DO CEARA,0,RECURSOS ORDINÁRIOS,1,LEGISLATIVA,1,VENCIMENTOS - ESTATUTÁRIOS,11,VENCIMENTOS E VANTAGENS FIXAS - PESSOAL,3,DESPESA CORRENTE,,,APLICAÇÕES DIRETAS,90,APLICAÇÕES DIRETAS,211,GESTÃO ADMINISTRATIVA DO CEARÁ,32,CONTROLE EXTERNO,,43,8876387.45,,23.54,0.0,2020-01-28,2020-02-07,,2022-10-27,2020
6,2020412447,2020,1,20001,TRIBUNAL DE CONTAS DO ESTADO,4977,EC TRIBUNAL DE CONTAS DO EST DO CEARA,0,RECURSOS ORDINÁRIOS,1,LEGISLATIVA,1,VENCIMENTOS - ESTATUTÁRIOS,11,VENCIMENTOS E VANTAGENS FIXAS - PESSOAL,3,DESPESA CORRENTE,,,APLICAÇÕES DIRETAS,90,APLICAÇÕES DIRETAS,211,GESTÃO ADMINISTRATIVA DO CEARÁ,32,CONTROLE EXTERNO,,44,8876387.45,,250.0,0.0,2020-01-28,2020-02-07,,2022-10-27,2020
7,2020412448,2020,1,20001,TRIBUNAL DE CONTAS DO ESTADO,4977,EC TRIBUNAL DE CONTAS DO EST DO CEARA,0,RECURSOS ORDINÁRIOS,1,LEGISLATIVA,1,VENCIMENTOS - ESTATUTÁRIOS,11,VENCIMENTOS E VANTAGENS FIXAS - PESSOAL,3,DESPESA CORRENTE,,,APLICAÇÕES DIRETAS,90,APLICAÇÕES DIRETAS,211,GESTÃO ADMINISTRATIVA DO CEARÁ,32,CONTROLE EXTERNO,,45,8876387.45,,24891.31,0.0,2020-01-28,2020-02-07,,2022-10-27,2020
8,2020412449,2020,1,20001,TRIBUNAL DE CONTAS DO ESTADO,4977,EC TRIBUNAL DE CONTAS DO EST DO CEARA,0,RECURSOS ORDINÁRIOS,1,LEGISLATIVA,1,VENCIMENTOS - ESTATUTÁRIOS,11,VENCIMENTOS E VANTAGENS FIXAS - PESSOAL,3,DESPESA CORRENTE,,,APLICAÇÕES DIRETAS,90,APLICAÇÕES DIRETAS,211,GESTÃO ADMINISTRATIVA DO CEARÁ,32,CONTROLE EXTERNO,,46,8876387.45,,4182.81,0.0,2020-01-28,2020-02-07,,2022-10-27,2020
9,2020412450,2020,1,20001,TRIBUNAL DE CONTAS DO ESTADO,4977,EC TRIBUNAL DE CONTAS DO EST DO CEARA,0,RECURSOS ORDINÁRIOS,1,LEGISLATIVA,1,VENCIMENTOS - ESTATUTÁRIOS,11,VENCIMENTOS E VANTAGENS FIXAS - PESSOAL,3,DESPESA CORRENTE,,,APLICAÇÕES DIRETAS,90,APLICAÇÕES DIRETAS,211,GESTÃO ADMINISTRATIVA DO CEARÁ,32,CONTROLE EXTERNO,,47,8876387.45,,1012.89,0.0,2020-01-28,2020-02-07,,2022-10-27,2020


In [None]:
report = sv.analyze(financeiro)
report.show_html('financeiro.html')


## References
- https://towardsdatascience.com/awesome-data-science-tools-to-master-in-2023-data-profiling-edition-29d29310f779