<a href="https://colab.research.google.com/github/leoarjo/leoarjo/blob/main/aih_municipios_abril_2023.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise dos dados das AIH dos Municípios em abril de 2023

Este notebook apresenta uma análise dos dados de Autorizações de Internação Hospitalar (AIH) dos municípios em abril de 2023. Os dados foram obtidos do portal de Informações de Saúde do DATASUS, disponível em https://datasus.saude.gov.br/informacoes-de-saude-tabnet/.

Antes de iniciar a análise neste notebook, realizei uma limpeza preliminar dos dados usando o Excel para garantir que os dados estejam no formato correto e livres de inconsistências.

Nas próximas seções, iremos importar as bibliotecas necessárias, carregar os dados e realizar a análise exploratória.

Dentro desta análise, procurei responder as seguintes perguntas:

1. Existe alguma relação entre a quantidade total e o valor total investido por Unidade da Federação?
2. Qual foi o procedimento mais frequente em abril de 2023?
3. Quais foram os procedimentos mais caros neste período?
4. Quais foram os municípios que mais gastaram com procedimentos de saúde?

Autor: Leonardo Araujo



## Importação das bibliotecas, carga e verificação dos dados

### Bibliotecas

In [None]:
import psycopg2                     # para conectar ao banco de dados
import pandas as pd                 # para limpeza e manipulação de dataframes
import plotly.express as px         # para plotar gráficos
import plotly.graph_objects as go   # para fazer o gráfico de pizza e de dispersão
import folium                       # para criar o mapa
from IPython.display import display # para mostrar o mapa no notebook
from decimal import Decimal         # para converter facilmente para decimais

### Conexão do banco de dados

In [None]:
conn = psycopg2.connect(dbname='2312120017_Leonardo', user='2312120017_Leonardo', password='2312120017_Leonardo', host='dataiesb.iesbtech.com.br', port='5432')

### Verificando a conexão e conhecendo a tabela

In [None]:
cur = conn.cursor()

sql_query = "SELECT * FROM aih_municipios_abril_2023"

df = pd.read_sql_query(sql_query, conn)

df.sample(5)

# ­


pandas only supports SQLAlchemy connectable (engine/connection) or database string URI or sqlite3 DBAPI2 connection. Other DBAPI2 objects are not tested. Please consider using SQLAlchemy.



Unnamed: 0,ano,mes,nome_municipio,codigo_municipio_dv,qtd_01_acoes_de_promocao_e_prevencao_em_saude,qtd_02_procedimentos_com_finalidade_diagnostica,qtd_03_procedimentos_clinicos,qtd_04_procedimentos_cirurgicos,qtd_05_transplantes_de_orgaos_tecidos_e_celulas,qtd_06_medicamentos,...,qtd_08_acoes_complementares_da_atencao_a_saude,qtd_total,vl_02_procedimentos_com_finalidade_diagnostica,vl_03_procedimentos_clinicos,vl_04_procedimentos_cirurgicos,vl_05_transplantes_de_orgaos_tecidos_e_celulas,vl_06_medicamentos,vl_07_orteses_proteses_e_materiais_especiais,vl_08_acoes_complementares_da_atencao_a_saude,vl_total
554,2023,4,BAIXIO,230180,,,6.0,,,,...,7.0,13,,2914.92,,,,,56.0,2970.92
2066,2023,4,PATROCINIO PAULISTA,353630,,694.0,391.0,113.0,,1.0,...,222.0,1422,866.67,26136.43,11142.84,,93.28,764.34,2074.47,41078.03
1175,2023,4,IGAPORA,291340,,6.0,36.0,5.0,,,...,82.0,129,,15610.41,3506.55,,,,848.0,19964.96
2122,2023,4,SANTANA DE PARNAIBA,354730,,3417.0,2975.0,111.0,,,...,,6503,728.05,75037.86,28504.23,,,,,104270.14
294,2023,4,PEIXE,171660,,81.0,23.0,8.0,,,...,,112,62.15,3211.71,5148.71,,,,,8422.57


In [None]:
print(df.columns)

Index(['ano', 'mes', 'nome_municipio', 'codigo_municipio_dv',
       'qtd_01_acoes_de_promocao_e_prevencao_em_saude',
       'qtd_02_procedimentos_com_finalidade_diagnostica',
       'qtd_03_procedimentos_clinicos', 'qtd_04_procedimentos_cirurgicos',
       'qtd_05_transplantes_de_orgaos_tecidos_e_celulas',
       'qtd_06_medicamentos', 'qtd_07_orteses_proteses_e_materiais_especiais',
       'qtd_08_acoes_complementares_da_atencao_a_saude', 'qtd_total',
       'vl_02_procedimentos_com_finalidade_diagnostica',
       'vl_03_procedimentos_clinicos', 'vl_04_procedimentos_cirurgicos',
       'vl_05_transplantes_de_orgaos_tecidos_e_celulas', 'vl_06_medicamentos',
       'vl_07_orteses_proteses_e_materiais_especiais',
       'vl_08_acoes_complementares_da_atencao_a_saude', 'vl_total'],
      dtype='object')


In [None]:
df.describe()

Unnamed: 0,qtd_01_acoes_de_promocao_e_prevencao_em_saude,qtd_02_procedimentos_com_finalidade_diagnostica,qtd_03_procedimentos_clinicos,qtd_04_procedimentos_cirurgicos,qtd_05_transplantes_de_orgaos_tecidos_e_celulas,qtd_06_medicamentos,qtd_07_orteses_proteses_e_materiais_especiais,qtd_08_acoes_complementares_da_atencao_a_saude,qtd_total,vl_02_procedimentos_com_finalidade_diagnostica,vl_03_procedimentos_clinicos,vl_04_procedimentos_cirurgicos,vl_05_transplantes_de_orgaos_tecidos_e_celulas,vl_06_medicamentos,vl_07_orteses_proteses_e_materiais_especiais,vl_08_acoes_complementares_da_atencao_a_saude,vl_total
count,28.0,2454.0,3039.0,2011.0,168.0,685.0,807.0,2486.0,3050.0,1659.0,3039.0,2036.0,168.0,685.0,794.0,2484.0,3050.0
mean,8.285714,7133.146,4034.53307,499.95276,220.767857,330.764964,316.743494,1529.802092,11506.13,49716.1,119882.4,253784.5,345004.2,12435.778993,145880.6,191842.2,531918.4
std,14.352331,43220.94,23658.081885,1987.851774,743.529888,1911.045616,1030.768661,7705.560808,70676.4,251844.5,585738.4,1209662.0,1069926.0,52374.801523,534288.7,1051021.0,3215913.0
min,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,44.22,11.84,135.0,0.5,13.0,8.0,44.22
25%,1.0,91.25,43.0,20.0,7.75,3.0,10.0,68.0,147.0,96.8,9700.265,7886.16,3758.288,279.84,2065.03,571.515,11899.08
50%,2.5,425.0,204.0,71.0,20.0,13.0,44.0,204.5,692.0,1104.33,23603.38,28389.79,9571.035,1237.64,10201.85,1737.14,36651.79
75%,9.75,2283.75,1173.0,259.0,68.75,73.0,175.0,691.5,3295.5,15000.61,60025.81,102746.8,107719.1,6875.0,47699.8,12553.93,134640.4
max,73.0,1611185.0,786164.0,40811.0,6846.0,31623.0,16525.0,168241.0,2661404.0,6516570.0,19006380.0,30524220.0,9546569.0,932744.2,8882322.0,32088750.0,107497600.0


### Criação de um dicionário no Python para renomear os atributos

In [None]:
tipo_procedimento_map_vl = {
    'vl_02_procedimentos_com_finalidade_diagnostica': 'Procedimentos com Finalidade Diagnóstica',
    'vl_03_procedimentos_clinicos': 'Procedimentos Clínicos',
    'vl_04_procedimentos_cirurgicos': 'Procedimentos Cirúrgicos',
    'vl_05_transplantes_de_orgaos_tecidos_e_celulas': 'Transplantes de Órgãos, Tecidos e Células',
    'vl_06_medicamentos': 'Medicamentos',
    'vl_07_orteses_proteses_e_materiais_especiais': 'Órteses, Próteses e Materiais Especiais',
    'vl_08_acoes_complementares_da_atencao_a_saude': 'Ações Complementares da Atenção à Saúde'
}

tipo_procedimento_map_qtd = {
    'qtd_01_acoes_de_promocao_e_prevencao_em_saude': 'Ações de Promoção e Prevenção em Saúde',
    'qtd_02_procedimentos_com_finalidade_diagnostica': 'Procedimentos com Finalidade Diagnóstica',
    'qtd_03_procedimentos_clinicos': 'Procedimentos Clínicos',
    'qtd_04_procedimentos_cirurgicos': 'Procedimentos Cirúrgicos',
    'qtd_05_transplantes_de_orgaos_tecidos_e_celulas': 'Transplantes de Órgãos, Tecidos e Células',
    'qtd_06_medicamentos': 'Medicamentos',
    'qtd_07_orteses_proteses_e_materiais_especiais': 'Órteses, Próteses e Materiais Especiais',
    'qtd_08_acoes_complementares_da_atencao_a_saude': 'Ações Complementares da Atenção à Saúde'
}

## Análise exploratória

### 1. Valor total x Quantidade total por Unidade da Federação


In [None]:
# Consultas SQL
consulta_valor_total = """
SELECT vl_total, m.uf
FROM aih_municipios_abril_2023 ama
JOIN municipio m ON ama.codigo_municipio_dv = CAST(m.codigo_municipio_dv AS CHAR(6))
GROUP BY ama.vl_total, m.uf;
"""

consulta_qtd_total = """
SELECT qtd_total, m.uf
FROM aih_municipios_abril_2023 ama
JOIN municipio m ON ama.codigo_municipio_dv = CAST(m.codigo_municipio_dv AS CHAR(6))
GROUP BY ama.qtd_total, m.uf;
"""

# Ler os dados do banco de dados
df_valor_total = pd.read_sql_query(consulta_valor_total, conn)
df_qtd_total = pd.read_sql_query(consulta_qtd_total, conn)

# Agrupar os dados por estado (uf) e somar os valores
df_valor_total_grouped = df_valor_total.groupby('uf')['vl_total'].sum().reset_index()
df_qtd_total_grouped = df_qtd_total.groupby('uf')['qtd_total'].sum().reset_index()

# Selecionar os top 10 estados com os maiores valores e quantidades
df_valor_total_top10 = df_valor_total_grouped.nlargest(10, 'vl_total')
df_qtd_total_top10 = df_qtd_total_grouped.nlargest(10, 'qtd_total')

# Plotar os gráficos com Plotly
fig_valor_total = px.bar(df_valor_total_top10.sort_values('vl_total', ascending=True),
                         x='uf', y='vl_total',
                         labels={'uf': 'Estado', 'vl_total': 'Valor Total'},
                         title='Top 10 Estados por Valor Total em Abril de 2023')

fig_qtd_total = px.bar(df_qtd_total_top10.sort_values('qtd_total', ascending=True),
                       x='uf', y='qtd_total',
                       labels={'uf': 'Estado', 'qtd_total': 'Quantidade Total'},
                       title='Top 10 Estados por Quantidade Total em Abril de 2023')

# Mostrar os gráficos
fig_valor_total.show()
fig_qtd_total.show()


pandas only supports SQLAlchemy connectable (engine/connection) or database string URI or sqlite3 DBAPI2 connection. Other DBAPI2 objects are not tested. Please consider using SQLAlchemy.


pandas only supports SQLAlchemy connectable (engine/connection) or database string URI or sqlite3 DBAPI2 connection. Other DBAPI2 objects are not tested. Please consider using SQLAlchemy.



### 1.1. Análise da Correlação entre Valor e Quantidade

#### Consultas SQL

In [None]:
# Consultas SQL para obter dados por município
consulta_valor_total_municipio = """
SELECT vl_total, m.nome_municipio as municipio
FROM aih_municipios_abril_2023 ama
JOIN municipio m ON ama.codigo_municipio_dv = CAST(m.codigo_municipio_dv AS CHAR(6))
GROUP BY ama.vl_total, m.nome_municipio;
"""

consulta_qtd_total_municipio = """
SELECT qtd_total, m.nome_municipio as municipio
FROM aih_municipios_abril_2023 ama
JOIN municipio m ON ama.codigo_municipio_dv = CAST(m.codigo_municipio_dv AS CHAR(6))
GROUP BY ama.qtd_total, m.nome_municipio;
"""

#### Mostrar o gráfico

In [None]:
# Ler os dados do banco de dados
df_valor_total_municipio = pd.read_sql_query(consulta_valor_total_municipio, conn)
df_qtd_total_municipio = pd.read_sql_query(consulta_qtd_total_municipio, conn)

# Agrupar os dados por município e somar os valores
df_valor_total_municipio_grouped = df_valor_total_municipio.groupby('municipio')['vl_total'].sum().reset_index()
df_qtd_total_municipio_grouped = df_qtd_total_municipio.groupby('municipio')['qtd_total'].sum().reset_index()

# Combinar os dados de quantidade total e valor total por município
df_combined_municipio = pd.merge(df_valor_total_municipio_grouped, df_qtd_total_municipio_grouped, on='municipio')

# Calcular a correlação de Pearson entre quantidade total e valor total
correlacao = df_combined_municipio['qtd_total'].corr(df_combined_municipio['vl_total'])

# Plotar o gráfico de dispersão com Plotly para mostrar a correlação
fig_correlation_municipio = px.scatter(df_combined_municipio,
                                       x='qtd_total',
                                       y='vl_total',
                                       labels={'qtd_total': 'Quantidade Total', 'vl_total': 'Valor Total (R$)', 'municipio': 'Município'},
                                       title=f'Correlação entre Quantidade Total e Valor Total Investido por Município em Abril de 2023<br>Coeficiente de Correlação: {correlacao:.2f}',
                                       hover_data=['municipio'])

# Atualizar layout para títulos dos eixos
fig_correlation_municipio.update_layout(
    xaxis_title='Quantidade Total',
    yaxis_title='Valor Total (R$)'
)

# Mostrar o gráfico
fig_correlation_municipio.show()


pandas only supports SQLAlchemy connectable (engine/connection) or database string URI or sqlite3 DBAPI2 connection. Other DBAPI2 objects are not tested. Please consider using SQLAlchemy.


pandas only supports SQLAlchemy connectable (engine/connection) or database string URI or sqlite3 DBAPI2 connection. Other DBAPI2 objects are not tested. Please consider using SQLAlchemy.



Podemos perceber que o coeficiente de correlação de Pearson é de 0,96, indicando uma correlação muito forte entre as variáveis quantidade e valor. Isso significa que, em geral, quanto maior o número de procedimentos clínicos realizados, maior é o valor total necessário para financiá-los.

### 2. Quantidade de procedimentos por tipo

In [None]:
# Calcula a quantidade total por tipo de procedimento
quantidade_total_por_tipo = {tipo_procedimento_map_qtd[coluna]: df[coluna].sum() for coluna in tipo_procedimento_map_qtd.keys()}

# Ordena os dados por quantidade
quantidade_total_por_tipo_ordenado = dict(sorted(quantidade_total_por_tipo.items(), key=lambda item: item[1]))

# Converte o dicionário ordenado em um DataFrame para facilitar a plotagem com Plotly
df_quantidade_total_por_tipo_ordenado = pd.DataFrame(list(quantidade_total_por_tipo_ordenado.items()), columns=['Tipo de Procedimento', 'Quantidade'])

# Cria o gráfico de barras horizontais com Plotly
fig = px.bar(df_quantidade_total_por_tipo_ordenado,
             x='Quantidade',
             y='Tipo de Procedimento',
             orientation='h',
             labels={'Quantidade': 'Quantidade', 'Tipo de Procedimento': 'Tipo de Procedimento'},
             title='Quantidade de Procedimentos por Tipo em Abril de 2023')

# Formata o eixo x para exibir os números corretamente
fig.update_layout(xaxis_tickformat=',.0f')

# Mostra o gráfico
fig.show()

### 3. Procedimentos mais caros

In [None]:
valores_procedimentos = df[['vl_02_procedimentos_com_finalidade_diagnostica',
                            'vl_03_procedimentos_clinicos',
                            'vl_04_procedimentos_cirurgicos',
                            'vl_05_transplantes_de_orgaos_tecidos_e_celulas',
                            'vl_06_medicamentos',
                            'vl_07_orteses_proteses_e_materiais_especiais',
                            'vl_08_acoes_complementares_da_atencao_a_saude']].sum().reset_index()

valores_procedimentos.columns = ['Tipo de Procedimento', 'Valor']

# Mapeia os nomes dos tipos de procedimento
valores_procedimentos['Tipo de Procedimento'] = valores_procedimentos['Tipo de Procedimento'].map(tipo_procedimento_map_vl)

# Ordena os valores em ordem crescente
valores_procedimentos = valores_procedimentos.sort_values(by='Valor', ascending=True)

# Cria o gráfico de barras horizontais
fig_bar = px.bar(valores_procedimentos,
                 x='Valor',
                 y='Tipo de Procedimento',
                 orientation='h',
                 labels={'Valor': 'Valor (R$)', 'Tipo de Procedimento': 'Tipo de Procedimento'},
                 title='Distribuição dos Valores dos Procedimentos')

# Formata o eixo x para exibir os números corretamente
fig_bar.update_layout(xaxis_tickformat='R$,.0f')

# Cria o gráfico de pizza
fig_pie = go.Figure(data=[go.Pie(labels=valores_procedimentos['Tipo de Procedimento'],
                                 values=valores_procedimentos['Valor'],
                                 hole=.3,
                                 textinfo='label+percent',
                                 hoverinfo='label+percent+value')])
fig_pie.update_layout(title_text='Distribuição Percentual dos Valores dos Procedimentos')

# Mostra os gráficos
fig_bar.show()
fig_pie.show()

### 4. Municípios que mais gastaram com procedimentos de saúde

In [None]:
consulta_valor_total_municipio = """
SELECT vl_total, nome_municipio as "Município"
FROM aih_municipios_abril_2023 ama
"""
df = pd.read_sql_query(consulta_valor_total_municipio, conn)

# Filtrando os top 10 municípios que mais gastaram
top_10_municipios = df.sort_values('vl_total', ascending=False).head(10)

top_10_municipios = top_10_municipios.sort_values('vl_total', ascending=True)

# Criando o gráfico de barras
fig = px.bar(top_10_municipios, x='Município', y='vl_total', title='Top 10 Municípios que Mais Gastaram')

# Mostrando o gráfico
fig.show()


pandas only supports SQLAlchemy connectable (engine/connection) or database string URI or sqlite3 DBAPI2 connection. Other DBAPI2 objects are not tested. Please consider using SQLAlchemy.



In [None]:
# Consulta SQL para obter latitude, longitude e valor total
sql_query = """
SELECT m.latitude, m.longitude, aih.vl_total
FROM aih_municipios_abril_2023 aih
JOIN municipio m ON aih.codigo_municipio_dv = CAST(m.codigo_municipio_dv AS CHAR(6))
"""

cur.execute(sql_query)
resultados = cur.fetchall()

# Criar um mapa Folium centrado no Brasil
mapa = folium.Map(location=[-15.788497, -47.879873], zoom_start=4)

# Definir cor fixa para os marcadores
cor_fixa = '#0077b6'

# Adicionar marcadores para cada município com tamanho proporcional ao valor
for resultado in resultados:
    latitude, longitude, valor = resultado
    latitude = float(latitude)
    longitude = float(longitude)
    valor = float(valor)
    folium.CircleMarker(
        location=[latitude, longitude],
        radius=max(3, min(valor / 1_000_000, 15)),  # Ajustar o tamanho do círculo com base no valor, com tamanho mínimo de 3 e máximo de 15
        popup=f"Valor: R${valor:,.2f}",
        color=cor_fixa,
        fill=True,
        fill_color=cor_fixa
    ).add_to(mapa)

# Exibir o mapa
display(mapa)