# Analisando Dados de Cirurgias no DF

Com base no arquivo CSV disponível no site de Dados Abertos do GDF vamos analisar os dados de cirurgias eletivas e de emergência realizadas no DF em Janeiro de 2017.

Como obter os dados:
- Ir no Dados Abertos do DF, escolher saúde, escolher cirurgias

Arquivo: sih-janeiro-2017-cirurgias-eletiva-e-emergencia.csv

In [None]:
# Abrir o arquivo CSV e colocar em uma variavel para ser usado depois
arquivo = open('sih-janeiro-2017-cirurgias-eletiva-e-emergencia.csv')

# Visualizar os dados do arquivo
for linha in arquivo:
    print(linha)

In [None]:
# Agora vamos usar todo o poder das bibliotecas do python
# A biblioteca pandas é usada para análise de dados e fornece uma grande quantidade de funcionalidades
# que auxliam muito o trabalho de tratar dados vindos de diversas fontes

# Importando a biblioteca
import pandas as pd

# ATENÇÃO
# É preciso informar o delimitador e o encode correto
# cp1252 é encoding de csv salvo no Excel

# Como o arquivo CSV tem muitas colunas e não nos interessamos por todas, vamos carregar apenas as colunas que nos interessam
# 3 - Hospital, 6 - Municipio, 7 - Complexidade, 8 - Carater Atendimento, 12 - Sub Grupo Procedimento, 14 - Procedimento

# No pandas um conjunto de dados é chamado de DataFrame e, por convenção, intitulado df
# Carregando o arquivo csv para um dataframe
df = pd.read_csv('sih-janeiro-2017-cirurgias-eletiva-e-emergencia.csv', sep=';', encoding='cp1252', usecols=[3, 6, 7, 8, 12, 14])

# Mudando o nome das colunas para um nome mais intuitivo
df.columns = ['Hospital', 'Municipio', 'Complexidade', 'Carater Atendimento', 'Sub Grupo Procedimento', 'Procedimento']

# Exibindo apenas as primeiras linhas
df.head(2)

In [None]:
# O pandas consegue mostrar um resumo quantitativo dos dados contidos no dataframe
# Isso vale apenas para as colunas que contenham valores numéricos
df.describe()

In [None]:
# É possível obter informações de cada coluna separadamente
# Vamos verificar os valores únicos da coluna de hospitais
df['Hospital'].unique()

In [None]:
# Podemos referenciar os campos diretamente no DataFrame, mas somente aqueles nomeados com uma única palavra, sem espaços
# Vamos contar a qtde de cirurgias de cada hospital
df.Hospital.value_counts()

In [None]:
# Vamos olhar agora o subgrupo
df['Sub Grupo Procedimento'].value_counts()

In [None]:
# Podemos criar subconjuntos dos dados para facilitar a análise
# E esses subconjuntos podem ser novos DataFrames
# Usamos alguma condição/teste para determinar como o subconjunto será montado

# Vamos pegar apenas os hospitais que possuem 'BASE' em alguma posição do seu nome
df_hospbase = df[df.Hospital.str.contains('BASE')]

df_hospbase.head()

In [None]:
# Agora, considerando apenas as cirurgias no Hospital de Base, vamos verificar a qtde de cada procedimento
df_hospbase.Procedimento.value_counts()

In [None]:
# Como exemplo, vamos verificar apenas as cirurgias que envolveram amputação
# Como em alguns casos amputação está escrito com acento e em outros não, vamos usar um pedaço da palavra
df_hospbase[df_hospbase.Procedimento.str.contains('AMPUTA')].Hospital.count()

In [None]:
# Trabalhar com agrupamento
# Vamos voltar o DataFrame original, que chamamos de df
# Agrupar os dados pelo hospital e mostrar a primeira cirurgia de cada hospital
df.groupby('Hospital').first()

In [None]:
# Fazendo o agrupamento por um campo x eu posso visualizar os demais campos, que já estarão separados pelo agrupamento
# Vamos saber a qtde de cirurgias por carater de atendimento por hospital
df.groupby('Hospital')['Carater Atendimento'].value_counts()

In [None]:
# É possível, também, agrupar por 2 ou mais campos, e exibir os demais dados usando o agrupamento
df.groupby(['Hospital', 'Carater Atendimento'])['Sub Grupo Procedimento'].value_counts()

In [None]:
# AGORA VAMOS PIVOTAR!

# Temos que mudar as informações de display para caber na tela
pd.set_option('display.max_columns', 500)

# Pivotar!
df.pivot_table(index='Sub Grupo Procedimento', columns='Hospital', aggfunc='count', fill_value=0, margins=True)

In [None]:
# Também podemos pivotar o contrário
df.pivot_table(index='Hospital', columns='Sub Grupo Procedimento', aggfunc='count', fill_value=0, margins=True)