In [1]:
!pip install pysus



In [2]:
from pysus.online_data.sinasc import download
from pysus.online_data import parquets_to_dataframe
from pysus.online_data import SINAN
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
SINAN.list_diseases()

['Animais Peçonhentos',
 'Botulismo',
 'Cancer',
 'Chagas',
 'Chikungunya',
 'Colera',
 'Coqueluche',
 'Contact Communicable Disease',
 'Acidentes de Trabalho',
 'Dengue',
 'Difteria',
 'Esquistossomose',
 'Febre Amarela',
 'Febre Maculosa',
 'Febre Tifoide',
 'Hanseniase',
 'Hantavirose',
 'Hepatites Virais',
 'Intoxicação Exógena',
 'Leishmaniose Visceral',
 'Leptospirose',
 'Leishmaniose Tegumentar',
 'Malaria',
 'Meningite',
 'Peste',
 'Poliomielite',
 'Raiva Humana',
 'Sífilis Adquirida',
 'Sífilis Congênita',
 'Sífilis em Gestante',
 'Tétano Acidental',
 'Tétano Neonatal',
 'Tuberculose',
 'Violência Domestica',
 'Zika']

In [4]:
SINAN.get_available_years('Violência Domestica')

['2009',
 '2010',
 '2011',
 '2012',
 '2013',
 '2014',
 '2015',
 '2016',
 '2017',
 '2018',
 '2019',
 '2020',
 '2021',
 '2022']

In [5]:
## Extraindo dados de 2009 a 2021
df = parquets_to_dataframe(SINAN.download('Violência Domestica', SINAN.get_available_years('Violência Domestica')[0]))

for ano in SINAN.get_available_years('Violência Domestica')[1:-1]:
  SINAN.download('Violência Domestica', ano)
  df_t = parquets_to_dataframe(SINAN.download('Violência Domestica', ano))
  df = pd.concat([df, df_t], ignore_index=True)

In [6]:
df.head()

Unnamed: 0,TP_NOT,ID_AGRAVO,DT_NOTIFIC,SEM_NOT,NU_ANO,SG_UF_NOT,ID_MUNICIP,ID_UNIDADE,DT_OCOR,SEM_PRI,...,CONS_IDO,DELEG_IDOS,DIR_HUMAN,MPU,DELEG_CRIA,DELEG_MULH,DELEG,INFAN_JUV,DEFEN_PUBL,DT_ENCERRA
0,2,Y09,2009-05-12,200919,2009,41,412550,2753278,20090512,200919,...,,,,,,,,,,20090512
1,2,Y09,2009-12-01,200948,2009,29,290270,2301687,20091201,200948,...,,,,,,,,,,20091201
2,2,Y09,2009-01-22,200903,2009,52,520870,2338262,20090122,200903,...,,,,,,,,,,20090122
3,2,Y09,2009-03-01,200909,2009,13,130356,2708930,20090301,200909,...,,,,,,,,,,20090301
4,2,Y09,2009-06-30,200926,2009,26,260290,5581923,20090630,200926,...,,,,,,,,,,20090716


In [7]:
len(df)

3035965

In [8]:
df.columns.to_list()

['TP_NOT',
 'ID_AGRAVO',
 'DT_NOTIFIC',
 'SEM_NOT',
 'NU_ANO',
 'SG_UF_NOT',
 'ID_MUNICIP',
 'ID_UNIDADE',
 'DT_OCOR',
 'SEM_PRI',
 'ANO_NASC',
 'NU_IDADE_N',
 'CS_SEXO',
 'CS_GESTANT',
 'CS_RACA',
 'CS_ESCOL_N',
 'SG_UF',
 'ID_MN_RESI',
 'ID_PAIS',
 'NDUPLIC',
 'DT_INVEST',
 'ID_OCUPA_N',
 'SIT_CONJUG',
 'DEF_TRANS',
 'DEF_FISICA',
 'DEF_MENTAL',
 'DEF_VISUAL',
 'DEF_AUDITI',
 'TRAN_MENT',
 'TRAN_COMP',
 'DEF_OUT',
 'DEF_ESPEC',
 'SG_UF_OCOR',
 'ID_MN_OCOR',
 'HORA_OCOR',
 'LOCAL_OCOR',
 'LOCAL_ESPE',
 'OUT_VEZES',
 'LES_AUTOP',
 'VIOL_FISIC',
 'VIOL_PSICO',
 'VIOL_TORT',
 'VIOL_SEXU',
 'VIOL_TRAF',
 'VIOL_FINAN',
 'VIOL_NEGLI',
 'VIOL_INFAN',
 'VIOL_LEGAL',
 'VIOL_OUTR',
 'VIOL_ESPEC',
 'AG_FORCA',
 'AG_ENFOR',
 'AG_OBJETO',
 'AG_CORTE',
 'AG_QUENTE',
 'AG_ENVEN',
 'AG_FOGO',
 'AG_AMEACA',
 'AG_OUTROS',
 'AG_ESPEC',
 'SEX_ASSEDI',
 'SEX_ESTUPR',
 'SEX_PUDOR',
 'SEX_PORNO',
 'SEX_EXPLO',
 'SEX_OUTRO',
 'SEX_ESPEC',
 'PEN_ORAL',
 'PEN_ANAL',
 'PEN_VAGINA',
 'PROC_DST',
 'PROC_HIV',
 'P

In [None]:
df.to_csv('violencia_2009_2021.csv')

## Tratamentos a realizar

- Filtrar por não duplicados
- Filtrar por Mulher
- Transformar nulos em nulos
- Tranformar dados em string


In [9]:
df = df.loc[(df.CS_SEXO == 'F') & (df.NDUPLIC != "2") &(df.REL_PROPRI != "1")]

In [10]:
len(df)

1700365

In [11]:
df = df[['TP_NOT', 'DT_NOTIFIC', 'NU_ANO', 'SG_UF_NOT', 'ID_MUNICIP', 'ID_UNIDADE', 'DT_OCOR', 'NU_IDADE_N',
         'CS_SEXO', 'CS_GESTANT', 'CS_RACA', 'CS_ESCOL_N', 'SG_UF', 'ID_MN_RESI', 'ID_PAIS', 'NDUPLIC',
         'ID_OCUPA_N', 'SIT_CONJUG', 'DEF_TRANS', 'SG_UF_OCOR', 'ID_MN_OCOR', 'HORA_OCOR', 'LOCAL_OCOR',
         'OUT_VEZES', 'LES_AUTOP', 'VIOL_FISIC', 'VIOL_PSICO', 'VIOL_TORT', 'VIOL_SEXU', 'VIOL_TRAF',
         'VIOL_FINAN', 'VIOL_LEGAL', 'VIOL_NEGLI', 'VIOL_INFAN', 'AG_FORCA', 'AG_ENFOR', 'AG_OBJETO',
         'AG_CORTE', 'AG_QUENTE', 'AG_ENVEN', 'AG_FOGO', 'AG_AMEACA', 'SEX_ASSEDI', 'SEX_ESTUPR', 'SEX_PUDOR',
         'SEX_EXPLO', 'SEX_PORNO', 'LESAO_NAT', 'LESAO_ESPE', 'LESAO_CORP', 'NUM_ENVOLV', 'REL_SEXUAL',
         'REL_PAI', 'REL_PAD', 'REL_MAD', 'REL_CONJ', 'REL_EXCON', 'REL_NAMO', 'REL_EXNAM', 'REL_FILHO',
         'REL_DESCO','REL_IRMAO', 'REL_CUIDA', 'REL_CONHEC', 'REL_PATRAO', 'REL_INST', 'REL_MAE', 'REL_POL',
         'AUTOR_SEXO', 'AUTOR_ALCO', 'ENC_SAUDE', 'ENC_TUTELA', 'ENC_VARA', 'ENC_ABRIGO', 'ENC_SENTIN',
         'ENC_DEAM', 'ENC_DPCA', 'ENC_DELEG', 'ENC_MPU', 'ENC_MULHER', 'ENC_CREAS', 'ENC_IML',
         'REL_TRAB', 'CLASSI_FIN', 'EVOLUCAO',
         'DT_OBITO', 'ORIENT_SEX', 'IDENT_GEN', 'VIOL_MOTIV', 'CICL_VID', 'REDE_SAU', 'ASSIST_SOC',
         'REDE_EDUCA', 'ATEND_MULH', 'DIR_HUMAN', 'MPU', 'DELEG_MULH', 'DELEG', 'DEFEN_PUBL', 'DT_ENCERRA']]


In [12]:
for coluna in df.columns:
    print(f'{coluna}\n{df[coluna].unique()}\n\n')

TP_NOT
<StringArray>
['2']
Length: 1, dtype: string


DT_NOTIFIC
[datetime.date(2009, 5, 12) datetime.date(2009, 12, 1)
 datetime.date(2009, 1, 22) ... datetime.date(2021, 11, 25)
 datetime.date(2021, 11, 26) datetime.date(2021, 11, 27)]


NU_ANO
<StringArray>
['2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017',
 '2018', '2019',     '', '2020', '2021']
Length: 14, dtype: string


SG_UF_NOT
<StringArray>
['41', '29', '52', '13', '26', '23', '25', '42', '21', '43', '50', '27', '14',
 '22', '35', '31', '12', '33', '15', '53', '32', '24', '51', '11', '28', '17',
 '16']
Length: 27, dtype: string


ID_MUNICIP
<StringArray>
['412550', '290270', '520870', '130356', '260290', '292740', '231050',
 '291005', '250750', '230655',
 ...
 '432183', '430512', '421125', '353160', '250130', '420250', '220535',
 '280470', '350340', '250390']
Length: 5232, dtype: string


ID_UNIDADE
<StringArray>
['2753278', '2301687', '2338262', '2708930', '5581923', '0004294', '2723336',
 '2532557', '

In [13]:
df.replace('', np.nan, inplace=True)

In [None]:
pd.set_option('display.max_rows', None)
df.isna().mean()*100

TP_NOT          0.000000
DT_NOTIFIC      0.000000
NU_ANO          0.002134
SG_UF_NOT       0.000000
ID_MUNICIP      0.000000
ID_UNIDADE      0.152049
DT_OCOR         0.644377
NU_IDADE_N      0.073798
CS_SEXO         0.000000
CS_GESTANT      0.000000
CS_RACA         1.153033
CS_ESCOL_N      5.699065
SG_UF           0.014194
ID_MN_RESI      0.014194
ID_PAIS         0.343108
NDUPLIC       100.000000
ID_OCUPA_N     53.281491
SIT_CONJUG      2.478941
DEF_TRANS       1.620359
SG_UF_OCOR      2.381858
ID_MN_OCOR      3.348192
HORA_OCOR      43.437993
LOCAL_OCOR      1.208045
OUT_VEZES       1.842310
LES_AUTOP       2.209075
VIOL_FISIC      1.710902
VIOL_PSICO      3.212980
VIOL_TORT       4.006531
VIOL_SEXU       3.696170
VIOL_TRAF       4.074021
VIOL_FINAN      4.036264
VIOL_LEGAL      4.085617
AG_FORCA        3.106945
AG_ENFOR        4.779069
AG_OBJETO       4.813255
AG_CORTE        4.635880
AG_QUENTE       4.860985
AG_ENVEN        4.587732
AG_FOGO         4.835844
AG_AMEACA       4.405486
