# Tarefa 2 - Visualização de Dados
## Análise Exploratória de Dados - Internações do SUS

O objetivo deste projeto é realizar uma análise exploratória dos dados de internações do SUS no Estado do Rio de Janeiro.

* **Fonte dos dados:** [Internações hospitalares do SUS - RJ](http://tabnet.datasus.gov.br/cgi/tabcgi.exe?sih/cnv/sxrj.de).

In [142]:
# To allow saving charts in png:
# import sys
# !{sys.executable} -m pip install vl-convert-python

In [1]:
import pandas as pd
import numpy as np
import altair as alt
import matplotlib.pyplot as plt  # não sei se eu vou usar

### Importando os dados

In [83]:
# Internações por especialidade médica (jan/2014 - jan/2024)
intern_espec = pd.read_csv('./data/internacoes_especialidade.csv', sep=';')
intern_espec.head()

Unnamed: 0,Ano/mês processamento,Clínica cirúrgica,Obstetrícia,Clínica médica,Cuidados prolongados (crônicos),Psiquiatria,Pneumologia sanitária (tisiologia),Pediatria,Reabilitação,Clínica cirúrgica - hospital-dia,Aids - hospital-dia,Intercorrência pós-transplante - hospital-dia,Saúde mental - hospital-dia,Saúde mental - clínico,Não discriminado,Total
0,2014,203462,137461,203816,4990,8389,442,74262,91,488,190,17,1654,395,-,635657
1,..Janeiro/2014,15667,10787,17202,438,865,41,6070,10,38,23,-,136,75,-,51352
2,..Fevereiro/2014,16388,10960,16369,441,647,33,5916,7,52,23,1,100,43,-,50980
3,..Março/2014,15143,11769,15739,489,581,28,5765,4,51,17,1,101,32,-,49720
4,..Abril/2014,15748,11623,16288,376,645,37,5952,7,47,13,6,131,41,-,50914


In [3]:
# Internações por especialidade médica por microrregião (jan/2014 - jan/2024)
intern_micro = pd.read_csv('./data/internacoes_microrregiao.csv', sep=';')
intern_micro.head()

Unnamed: 0,Microrregião,Clínica cirúrgica,Obstetrícia,Clínica médica,Cuidados prolongados (crônicos),Psiquiatria,Pneumologia sanitária (tisiologia),Pediatria,Reabilitação,Clínica cirúrgica - hospital-dia,Aids - hospital-dia,Intercorrência pós-transplante - hospital-dia,Saúde mental - hospital-dia,Saúde mental - clínico,Não discriminado,Total
0,33001 Itaperuna,63648,10764,70033,275,1446,-,15822,-,-,-,-,-,-,-,161988
1,33002 S.Antônio Pádua,11774,8631,58115,-,-,-,7060,-,-,-,-,-,22,-,85602
2,33003 Campos Goytac.,101120,72427,142176,664,4488,438,38119,-,-,-,-,-,-,-,359432
3,33004 Macaé,42805,29164,51982,-,135,-,15264,-,160,-,-,-,4,-,139514
4,33005 Três Rios,52148,16457,33044,-,473,-,4153,-,-,-,-,-,-,-,106275


In [4]:
# Mortalidade por nível de complexidade ao longo do tempo (jan/2014 - jan/2024)
mortalidade_comp = pd.read_csv('./data/mortalidade_complexidade.csv', sep=';')
mortalidade_comp.head()

Unnamed: 0,Ano/mês processamento,Média complexidade,Alta complexidade,Total
0,2014,640,428,627
1,..Janeiro/2014,660,373,642
2,..Fevereiro/2014,617,522,610
3,..Março/2014,640,480,631
4,..Abril/2014,643,450,631


In [5]:
# Mortalidade por especialidade médica ao longo do tempo (jan/2014 - jan/2024)
mortalidade_esp = pd.read_csv('./data/mortalidade_especialidade.csv', sep=';')
mortalidade_esp.head()

Unnamed: 0,Ano/mês processamento,Clínica cirúrgica,Obstetrícia,Clínica médica,Cuidados prolongados (crônicos),Psiquiatria,Pneumologia sanitária (tisiologia),Pediatria,Reabilitação,Clínica cirúrgica - hospital-dia,Aids - hospital-dia,Intercorrência pós-transplante - hospital-dia,Saúde mental - hospital-dia,Saúde mental - clínico,Não discriminado,Total
0,2014,261,2,1533,3914,105,1131,156,330,-,-,-,-,051,...,627
1,..Janeiro/2014,255,2,1507,4110,150,1220,171,-,-,-,...,-,-,...,642
2,..Fevereiro/2014,256,4,1477,3651,185,909,159,-,-,-,-,-,233,...,610
3,..Março/2014,279,1,1542,3988,138,1071,139,-,-,-,-,-,-,...,631
4,..Abril/2014,272,3,1563,3883,62,270,141,-,-,-,-,-,244,...,631


In [6]:
# Tempo médio de permanência por especialidade ao longo do tempo (jan/2014 - jan/2024)
permanencia = pd.read_csv('./data/permanencia_especialidade.csv', sep=';')
permanencia.head()

Unnamed: 0,Ano/mês processamento,Clínica cirúrgica,Obstetrícia,Clínica médica,Cuidados prolongados (crônicos),Psiquiatria,Pneumologia sanitária (tisiologia),Pediatria,Reabilitação,Clínica cirúrgica - hospital-dia,Aids - hospital-dia,Intercorrência pós-transplante - hospital-dia,Saúde mental - hospital-dia,Saúde mental - clínico,Não discriminado,Total
0,2014,60,31,91,975,1254,499,66,382,00,283,128,285,99,...,88
1,..Janeiro/2014,61,30,87,953,1145,591,61,413,-,289,...,292,79,...,90
2,..Fevereiro/2014,60,31,91,879,1239,640,67,331,-,260,220,267,65,...,87
3,..Março/2014,61,30,93,853,1668,688,65,438,04,300,150,294,95,...,92
4,..Abril/2014,63,31,91,1073,1435,632,65,440,-,280,88,275,84,...,91


In [84]:
# Tempo médio de permanência por especialidade ao longo do tempo (jan/2014 - jan/2024)
permanencia_2 = pd.read_csv('./data/permanencia_tempo.csv', sep=';')
permanencia_2.head()

Unnamed: 0,Especialidade,2014/Jan,2014/Fev,2014/Mar,2014/Abr,2014/Mai,2014/Jun,2014/Jul,2014/Ago,2014/Set,...,2023/Mai,2023/Jun,2023/Jul,2023/Ago,2023/Set,2023/Out,2023/Nov,2023/Dez,2024/Jan,Total
0,Clínica cirúrgica,61,60,61,63,62,60,61,57,56,...,46,44,45,43,44,43,45,46,48,55
1,Obstetrícia,30,31,30,31,31,30,31,31,32,...,30,31,31,31,31,30,31,32,31,30
2,Clínica médica,87,91,93,91,92,89,92,90,87,...,85,84,84,85,87,88,89,87,86,88
3,Cuidados prolongados (crônicos),953,879,853,1073,1079,924,1120,1202,865,...,548,599,528,632,593,545,646,623,359,779
4,Psiquiatria,1145,1239,1668,1435,1379,1391,1343,1043,1067,...,372,426,403,325,322,355,296,252,184,901


In [192]:
# Tempo médio de permanência por especialidade ao longo do tempo (jan/2014 - jan/2024)
mortalidade_2 = pd.read_csv('./data/mortalidade_tempo.csv', sep=';')
mortalidade_2.head()

Unnamed: 0,Especialidade,2014/Jan,2014/Fev,2014/Mar,2014/Abr,2014/Mai,2014/Jun,2014/Jul,2014/Ago,2014/Set,...,2023/Mai,2023/Jun,2023/Jul,2023/Ago,2023/Set,2023/Out,2023/Nov,2023/Dez,2024/Jan,Total
0,Clínica cirúrgica,255,256,279,272,291,271,249,244,244,...,222,200,199,172,204,213,204,225,228,271
1,Obstetrícia,2,4,1,3,1,5,2,3,1,...,001,002,2,8,1,3,4,4,2,3
2,Clínica médica,1507,1477,1542,1563,1435,1435,1602,1610,1559,...,1486,1672,1640,1597,1728,1672,1695,1577,1588,1744
3,Cuidados prolongados (crônicos),4110,3651,3988,3883,3817,3930,3639,4752,3587,...,3719,3987,4071,3300,3388,4118,3946,2768,3509,4005
4,Psiquiatria,150,185,138,62,157,120,143,73,40,...,-,-,74,63,27,31,30,27,34,60


### Tratamento dos dados

In [7]:
intern_espec = intern_espec.replace('-', np.nan)
intern_espec.head()

Unnamed: 0,Ano/mês processamento,Clínica cirúrgica,Obstetrícia,Clínica médica,Cuidados prolongados (crônicos),Psiquiatria,Pneumologia sanitária (tisiologia),Pediatria,Reabilitação,Clínica cirúrgica - hospital-dia,Aids - hospital-dia,Intercorrência pós-transplante - hospital-dia,Saúde mental - hospital-dia,Saúde mental - clínico,Não discriminado,Total
0,2014,203462,137461,203816,4990,8389,442,74262,91,488,190,17.0,1654,395,,635657
1,..Janeiro/2014,15667,10787,17202,438,865,41,6070,10,38,23,,136,75,,51352
2,..Fevereiro/2014,16388,10960,16369,441,647,33,5916,7,52,23,1.0,100,43,,50980
3,..Março/2014,15143,11769,15739,489,581,28,5765,4,51,17,1.0,101,32,,49720
4,..Abril/2014,15748,11623,16288,376,645,37,5952,7,47,13,6.0,131,41,,50914


In [8]:
intern_micro = intern_micro.replace('-', np.nan)
intern_micro.head()

Unnamed: 0,Microrregião,Clínica cirúrgica,Obstetrícia,Clínica médica,Cuidados prolongados (crônicos),Psiquiatria,Pneumologia sanitária (tisiologia),Pediatria,Reabilitação,Clínica cirúrgica - hospital-dia,Aids - hospital-dia,Intercorrência pós-transplante - hospital-dia,Saúde mental - hospital-dia,Saúde mental - clínico,Não discriminado,Total
0,33001 Itaperuna,63648,10764,70033,275.0,1446.0,,15822,,,,,,,,161988
1,33002 S.Antônio Pádua,11774,8631,58115,,,,7060,,,,,,22.0,,85602
2,33003 Campos Goytac.,101120,72427,142176,664.0,4488.0,438.0,38119,,,,,,,,359432
3,33004 Macaé,42805,29164,51982,,135.0,,15264,,160.0,,,,4.0,,139514
4,33005 Três Rios,52148,16457,33044,,473.0,,4153,,,,,,,,106275


In [9]:
for col in mortalidade_comp.columns[1:]:
    mortalidade_comp[col] = mortalidade_comp[col].apply(
        lambda x: float(x.replace(',', '.'))
    )
mortalidade_comp.head()

Unnamed: 0,Ano/mês processamento,Média complexidade,Alta complexidade,Total
0,2014,6.4,4.28,6.27
1,..Janeiro/2014,6.6,3.73,6.42
2,..Fevereiro/2014,6.17,5.22,6.1
3,..Março/2014,6.4,4.8,6.31
4,..Abril/2014,6.43,4.5,6.31


In [10]:
for col in mortalidade_esp.columns[1:]:
    mortalidade_esp[col] = mortalidade_esp[col].apply(
        lambda x: np.nan if (x == '-' or x == '...') else float(x.replace(',', '.'))
    )

mortalidade_esp.head()

Unnamed: 0,Ano/mês processamento,Clínica cirúrgica,Obstetrícia,Clínica médica,Cuidados prolongados (crônicos),Psiquiatria,Pneumologia sanitária (tisiologia),Pediatria,Reabilitação,Clínica cirúrgica - hospital-dia,Aids - hospital-dia,Intercorrência pós-transplante - hospital-dia,Saúde mental - hospital-dia,Saúde mental - clínico,Não discriminado,Total
0,2014,2.61,0.02,15.33,39.14,1.05,11.31,1.56,3.3,,,,,0.51,,6.27
1,..Janeiro/2014,2.55,0.02,15.07,41.1,1.5,12.2,1.71,,,,,,,,6.42
2,..Fevereiro/2014,2.56,0.04,14.77,36.51,1.85,9.09,1.59,,,,,,2.33,,6.1
3,..Março/2014,2.79,0.01,15.42,39.88,1.38,10.71,1.39,,,,,,,,6.31
4,..Abril/2014,2.72,0.03,15.63,38.83,0.62,2.7,1.41,,,,,,2.44,,6.31


In [11]:
for col in permanencia.columns[1:]:
    permanencia[col] = permanencia[col].apply(
        lambda x: np.nan if (x == '-' or x == '...') else float(x.replace(',', '.'))
    )

permanencia.head()

Unnamed: 0,Ano/mês processamento,Clínica cirúrgica,Obstetrícia,Clínica médica,Cuidados prolongados (crônicos),Psiquiatria,Pneumologia sanitária (tisiologia),Pediatria,Reabilitação,Clínica cirúrgica - hospital-dia,Aids - hospital-dia,Intercorrência pós-transplante - hospital-dia,Saúde mental - hospital-dia,Saúde mental - clínico,Não discriminado,Total
0,2014,6.0,3.1,9.1,97.5,125.4,49.9,6.6,38.2,0.0,28.3,12.8,28.5,9.9,,8.8
1,..Janeiro/2014,6.1,3.0,8.7,95.3,114.5,59.1,6.1,41.3,,28.9,,29.2,7.9,,9.0
2,..Fevereiro/2014,6.0,3.1,9.1,87.9,123.9,64.0,6.7,33.1,,26.0,22.0,26.7,6.5,,8.7
3,..Março/2014,6.1,3.0,9.3,85.3,166.8,68.8,6.5,43.8,0.4,30.0,15.0,29.4,9.5,,9.2
4,..Abril/2014,6.3,3.1,9.1,107.3,143.5,63.2,6.5,44.0,,28.0,8.8,27.5,8.4,,9.1


In [85]:
for col in permanencia_2.columns[1:]:
    permanencia_2[col] = permanencia_2[col].apply(
        lambda x: np.nan if (x == '-' or x == '...') else float(x.replace(',', '.'))
    )

permanencia_2.head()

Unnamed: 0,Especialidade,2014/Jan,2014/Fev,2014/Mar,2014/Abr,2014/Mai,2014/Jun,2014/Jul,2014/Ago,2014/Set,...,2023/Mai,2023/Jun,2023/Jul,2023/Ago,2023/Set,2023/Out,2023/Nov,2023/Dez,2024/Jan,Total
0,Clínica cirúrgica,6.1,6.0,6.1,6.3,6.2,6.0,6.1,5.7,5.6,...,4.6,4.4,4.5,4.3,4.4,4.3,4.5,4.6,4.8,5.5
1,Obstetrícia,3.0,3.1,3.0,3.1,3.1,3.0,3.1,3.1,3.2,...,3.0,3.1,3.1,3.1,3.1,3.0,3.1,3.2,3.1,3.0
2,Clínica médica,8.7,9.1,9.3,9.1,9.2,8.9,9.2,9.0,8.7,...,8.5,8.4,8.4,8.5,8.7,8.8,8.9,8.7,8.6,8.8
3,Cuidados prolongados (crônicos),95.3,87.9,85.3,107.3,107.9,92.4,112.0,120.2,86.5,...,54.8,59.9,52.8,63.2,59.3,54.5,64.6,62.3,35.9,77.9
4,Psiquiatria,114.5,123.9,166.8,143.5,137.9,139.1,134.3,104.3,106.7,...,37.2,42.6,40.3,32.5,32.2,35.5,29.6,25.2,18.4,90.1


In [193]:
for col in mortalidade_2.columns[1:]:
    mortalidade_2[col] = mortalidade_2[col].apply(
        lambda x: np.nan if (x == '-' or x == '...') else float(x.replace(',', '.'))
    )

mortalidade_2.head()

Unnamed: 0,Especialidade,2014/Jan,2014/Fev,2014/Mar,2014/Abr,2014/Mai,2014/Jun,2014/Jul,2014/Ago,2014/Set,...,2023/Mai,2023/Jun,2023/Jul,2023/Ago,2023/Set,2023/Out,2023/Nov,2023/Dez,2024/Jan,Total
0,Clínica cirúrgica,2.55,2.56,2.79,2.72,2.91,2.71,2.49,2.44,2.44,...,2.22,2.0,1.99,1.72,2.04,2.13,2.04,2.25,2.28,2.71
1,Obstetrícia,0.02,0.04,0.01,0.03,0.01,0.05,0.02,0.03,0.01,...,0.01,0.02,0.02,0.08,0.01,0.03,0.04,0.04,0.02,0.03
2,Clínica médica,15.07,14.77,15.42,15.63,14.35,14.35,16.02,16.1,15.59,...,14.86,16.72,16.4,15.97,17.28,16.72,16.95,15.77,15.88,17.44
3,Cuidados prolongados (crônicos),41.1,36.51,39.88,38.83,38.17,39.3,36.39,47.52,35.87,...,37.19,39.87,40.71,33.0,33.88,41.18,39.46,27.68,35.09,40.05
4,Psiquiatria,1.5,1.85,1.38,0.62,1.57,1.2,1.43,0.73,0.4,...,,,0.74,0.63,0.27,0.31,0.3,0.27,0.34,0.6


### Análise Exploratória

#### Primeira pergunta:

In [422]:
total_internacoes = intern_espec[intern_espec['Ano/mês processamento'] == 'Total'].to_numpy()[0][1:-1].astype('int')
especialidades = intern_espec.columns[1:-1].to_numpy()
df = pd.DataFrame({'especialidades':especialidades, 'total_internacoes':total_internacoes/1000})
df

Unnamed: 0,especialidades,total_internacoes
0,Clínica cirúrgica,2311.919
1,Obstetrícia,1476.458
2,Clínica médica,2438.165
3,Cuidados prolongados (crônicos),42.99
4,Psiquiatria,61.561
5,Pneumologia sanitária (tisiologia),5.267
6,Pediatria,750.509
7,Reabilitação,1.164
8,Clínica cirúrgica - hospital-dia,37.49
9,Aids - hospital-dia,2.364


In [423]:
chart = alt.Chart(df, width=500, height=300).mark_bar(color='#CE432D').encode(
    x=alt.X('total_internacoes:Q').axis(
        title="Total de internações (milhares)"
    ),
    y=alt.Y('especialidades:N').sort('-x').axis(
        title="Especialidades médicas",
        titleAngle=0,
        titleAlign="right",
        titleY=-10,
        titleX=-5,
    )
).properties(
    title = alt.Title('Total de internações por especialidade médica',subtitle=['(jan./2014 - jan./2024)',''])
)

chart.configure_title(
    fontSize=16,
    font='arial',
    subtitleFontSize=13
)
chart.save('chart_1.png')
chart

In [14]:
microrreg = []
internacoes = []
especialidades_micro = 18*list(especialidades)
for reg in intern_micro['Microrregião'][:-1].to_numpy():
    cur_list = reg.split(' ')[1:]
    cur_reg = ""
    for i in cur_list:
        cur_reg += " " + i
    microrreg += 14*[cur_reg.strip()]
    cur_intern = intern_micro[intern_micro['Microrregião'] == reg].to_numpy()[0][1:-1].astype('float')
    internacoes += list(cur_intern)

In [15]:
df_2 = pd.DataFrame({
    'microrregiao': microrreg,
    'especialidade': especialidades_micro,
    'internacoes': np.array(internacoes)
})
df_2.head()

Unnamed: 0,microrregiao,especialidade,internacoes
0,Itaperuna,Clínica cirúrgica,63648.0
1,Itaperuna,Obstetrícia,10764.0
2,Itaperuna,Clínica médica,70033.0
3,Itaperuna,Cuidados prolongados (crônicos),275.0
4,Itaperuna,Psiquiatria,1446.0


In [16]:
top5_esp = df.sort_values(['total_internacoes'], ascending=False)['especialidades'].to_numpy()[:5]
df_3 = pd.concat([df_2[df_2['especialidade'] == i] for i in top5_esp])

In [17]:
other_esp = df.sort_values(['total_internacoes'], ascending=False)['especialidades'].to_numpy()[5:]
other = pd.concat([df_2[df_2['especialidade'] == i] for i in other_esp])
other = other.groupby(['microrregiao']).sum()
other = other.reset_index()

  other = other.groupby(['microrregiao']).sum()


In [18]:
df_3

Unnamed: 0,microrregiao,especialidade,internacoes
2,Itaperuna,Clínica médica,70033.0
16,S.Antônio Pádua,Clínica médica,58115.0
30,Campos Goytac.,Clínica médica,142176.0
44,Macaé,Clínica médica,51982.0
58,Três Rios,Clínica médica,33044.0
...,...,...,...
186,Vassouras,Psiquiatria,836.0
200,Serrana,Psiquiatria,1305.0
214,Macacu-Caceribu,Psiquiatria,50.0
228,Itaguaí,Psiquiatria,55.0


In [19]:
top5_esp

array(['Clínica médica', 'Clínica cirúrgica', 'Obstetrícia', 'Pediatria',
       'Psiquiatria'], dtype=object)

In [20]:
other['especialidade'] = "Outros"
df_4 = pd.concat([df_3, other])
df_4["indice"] = df_4['especialidade'].apply(lambda x: (list(top5_esp)+["Outros"]).index(x))
df_4.head()

Unnamed: 0,microrregiao,especialidade,internacoes,indice
2,Itaperuna,Clínica médica,70033.0,0
16,S.Antônio Pádua,Clínica médica,58115.0,0
30,Campos Goytac.,Clínica médica,142176.0,0
44,Macaé,Clínica médica,51982.0,0
58,Três Rios,Clínica médica,33044.0,0


In [143]:
chart_2 = alt.Chart(
   df_4,
   title=alt.Title(
       ["Internações por especialidade em cada microrregião (jan./2014 - jan./2024)"],
       subtitle=["Especialidades com maiores percentuais de internação estão ordenadas",
                 "da esquerda para a direita."]
   ),
   width=500, height=300
).mark_bar().encode(
    y=alt.Y("microrregiao:N").sort('-x').axis(
        title=["Microrregião"],
        titleAngle=0,
        titleAlign="right",
        titleY=-10,
        titleX=-5,
    ),
    x=alt.X("internacoes:Q").stack("normalize").axis(
        title="Percentual de internações"
    ),
    color=alt.Color("especialidade:N", sort=["indice"]).legend(
        title=["Especialidade", "médica"]
    ),
    order=alt.Order(
      'internacoes',
      sort='descending'
    )
)

chart_2.configure_title(
    fontSize=16,
    font='arial',
    subtitleFontSize=13
)

chart_2.save('chart_2.png')
chart_2

#### Segunda pergunta:

In [171]:
# Separando os dados de mensais e anuais para não termos dados contados duas vezes
mortalidade_ano = mortalidade_comp[mortalidade_comp['Ano/mês processamento'].str.contains('^20', regex=True)]
mortalidade_mes = mortalidade_comp[mortalidade_comp['Ano/mês processamento'].str.len()>5]
mortalidade_ano

Unnamed: 0,Ano/mês processamento,Média complexidade,Alta complexidade,Total
0,2014,6.4,4.28,6.27
13,2015,6.73,3.99,6.56
26,2016,6.99,4.08,6.8
39,2017,6.86,3.72,6.65
52,2018,7.02,3.55,6.79
65,2019,7.05,3.41,6.8
78,2020,9.26,3.74,8.91
91,2021,10.18,3.87,9.75
104,2022,7.78,3.35,7.46
117,2023,6.8,3.23,6.53


In [172]:
mortalidade_mes.head()

Unnamed: 0,Ano/mês processamento,Média complexidade,Alta complexidade,Total
1,..Janeiro/2014,6.6,3.73,6.42
2,..Fevereiro/2014,6.17,5.22,6.1
3,..Março/2014,6.4,4.8,6.31
4,..Abril/2014,6.43,4.5,6.31
5,..Maio/2014,5.81,4.67,5.74


In [485]:
# chart_1 = alt.Chart(
#     mortalidade_comp, 
#     width=500, height=100
# ).transform_density(
#     'Média complexidade',
#     as_=['Média complexidade', 'density'],
# ).mark_area().encode(
#     x=alt.X(
#         'Média complexidade:Q',
#         axis=alt.Axis(labels=False)
#     ).title('').scale(domain=(0, 15)),
#     y=alt.Y('density:Q').title('Densidade')
# ).properties(
#     title = alt.Title('Média complexidade')
# )

# chart_1.configure_title(
#     fontSize=12,
#     font='arial',
#     subtitleFontSize=13
# )

# ###

# chart_2 = alt.Chart(
#     mortalidade_comp, 
#     width=500, height=100
# ).transform_density(
#     'Alta complexidade',
#     as_=['Alta complexidade', 'density'],
# ).mark_area().encode(
#     x=alt.X('Alta complexidade:Q').title('Taxa de mortalidade').scale(domain=(0, 15)),
#     y=alt.Y('density:Q').title('Densidade')
# ).properties(
#     title = alt.Title('')
# )

# chart_2.configure_title(
#     fontSize=13,
#     font='arial',
#     subtitleFontSize=13
# )

# alt.vconcat(chart_1, chart_2)

In [173]:
mortalidade_mes = mortalidade_mes.rename(columns={"Média complexidade": "Média",
                                                  "Alta complexidade": "Alta"})
mortalidade_mes

Unnamed: 0,Ano/mês processamento,Média,Alta,Total
1,..Janeiro/2014,6.60,3.73,6.42
2,..Fevereiro/2014,6.17,5.22,6.10
3,..Março/2014,6.40,4.80,6.31
4,..Abril/2014,6.43,4.50,6.31
5,..Maio/2014,5.81,4.67,5.74
...,...,...,...,...
126,Setembro/2023,7.24,2.71,6.86
127,Outubro/2023,6.74,2.91,6.43
128,Novembro/2023,7.17,3.32,6.85
129,Dezembro/2023,6.74,3.72,6.49


In [36]:
chart3 = alt.Chart(
    mortalidade_mes
).transform_fold(
    [
        "Alta",
        "Média",
    ],
    as_=["Measurement_type", "value"],
).transform_density(
    density="value",
    bandwidth=0.3,
    groupby=["Measurement_type"],
    extent=[0, 15],
).mark_area().encode(
    alt.X("value:Q").title("taxa de mortalidade"),
    alt.Y("density:Q").title("densidade"),
    alt.Row("Measurement_type:N").title('Complexidade')
).properties(
    width=500, height=100,
    title=alt.Title("Distribuição das taxas de mortalidade por complexidade da internação",
                    subtitle=["(jan./2014 - jan./2024)",""])
)

chart3.configure_title(
    fontSize=16,
    font='arial',
    subtitleFontSize=13
)

chart3.configure_header(
    titleFontSize=12,
    titleBaseline="top",
    labelFontSize=10,
    labelAngle=0
)

chart3.save('chart_3.png')
chart3

In [39]:
media_df = pd.DataFrame({
    "mes": mortalidade_mes["Ano/mês processamento"],
    "taxa": mortalidade_mes["Média"],
    "complexidade": 121*["média"]
})
alta_df = pd.DataFrame({
    "mes": mortalidade_mes["Ano/mês processamento"],
    "taxa": mortalidade_mes["Alta"],
    "complexidade": 121*["alta"]
})
df = pd.concat([
    media_df, alta_df
])
df

Unnamed: 0,mes,taxa,complexidade
1,..Janeiro/2014,6.60,média
2,..Fevereiro/2014,6.17,média
3,..Março/2014,6.40,média
4,..Abril/2014,6.43,média
5,..Maio/2014,5.81,média
...,...,...,...
126,Setembro/2023,2.71,alta
127,Outubro/2023,2.91,alta
128,Novembro/2023,3.32,alta
129,Dezembro/2023,3.72,alta


In [75]:
chart4 = alt.Chart(df, width=600, height=150).mark_boxplot(
    size=30,#extent="min-max", 
    color='#CE432D'
).encode(
    alt.Y("complexidade:N").title("Complexidade"),
    alt.X("taxa:Q").title("Taxa de mortalidade").scale(zero=True),
).properties(
    title=alt.Title("Taxas de mortalidade segundo a complexidade da internação",
                    subtitle=["(jan./2014 - jan./2024)",""])
)
chart4.configure_title(
    fontSize=16,
    font='arial',
    subtitleFontSize=13
)
chart4.save('chart_4.png')
chart4

#### Terceira pergunta:

In [164]:
permanencia_2.head()

Unnamed: 0,Especialidade,2014/Jan,2014/Fev,2014/Mar,2014/Abr,2014/Mai,2014/Jun,2014/Jul,2014/Ago,2014/Set,...,2023/Mai,2023/Jun,2023/Jul,2023/Ago,2023/Set,2023/Out,2023/Nov,2023/Dez,2024/Jan,Total
0,Clínica cirúrgica,6.1,6.0,6.1,6.3,6.2,6.0,6.1,5.7,5.6,...,4.6,4.4,4.5,4.3,4.4,4.3,4.5,4.6,4.8,5.5
1,Obstetrícia,3.0,3.1,3.0,3.1,3.1,3.0,3.1,3.1,3.2,...,3.0,3.1,3.1,3.1,3.1,3.0,3.1,3.2,3.1,3.0
2,Clínica médica,8.7,9.1,9.3,9.1,9.2,8.9,9.2,9.0,8.7,...,8.5,8.4,8.4,8.5,8.7,8.8,8.9,8.7,8.6,8.8
3,Cuidados prolongados (crônicos),95.3,87.9,85.3,107.3,107.9,92.4,112.0,120.2,86.5,...,54.8,59.9,52.8,63.2,59.3,54.5,64.6,62.3,35.9,77.9
4,Psiquiatria,114.5,123.9,166.8,143.5,137.9,139.1,134.3,104.3,106.7,...,37.2,42.6,40.3,32.5,32.2,35.5,29.6,25.2,18.4,90.1


In [170]:
dfs = []
especialidades = permanencia.columns[1:-1]
meses = permanencia_2.columns[1:-1]
for esp in especialidades:
    valores = permanencia_2[permanencia_2['Especialidade']==esp].values[0][1:-1]
    cur_esp = valores.shape[0] * [esp]
    cur_df = pd.DataFrame({'permanencia':valores, 'especialidade': cur_esp, 'Ano/mês processamento': meses})
    dfs.append(cur_df)
perm_df = pd.concat(dfs)
perm_df.head()

Unnamed: 0,permanencia,especialidade,Ano/mês processamento
0,6.1,Clínica cirúrgica,2014/Jan
1,6.0,Clínica cirúrgica,2014/Fev
2,6.1,Clínica cirúrgica,2014/Mar
3,6.3,Clínica cirúrgica,2014/Abr
4,6.2,Clínica cirúrgica,2014/Mai


In [166]:
chart5 = alt.Chart(perm_df, width=600, height=300).mark_boxplot(
    size=18, extent="min-max", 
    color='#CE432D'
).encode(
    alt.Y("especialidade:N").title("Especialidade").axis(
        title=["Especialidade médica"],
        titleAngle=0,
        titleAlign="right",
        titleY=-10,
        titleX=-5,
    ),
    alt.X("permanencia:Q").title("Tempo médio de permanência (dias)").scale(zero=True),
).properties(
    title=alt.Title("Tempo médio de internação por especialidade médica",
                    subtitle=["(jan./2014 - jan./2024)",""])
)
chart5.configure_title(
    fontSize=16,
    font='arial',
    subtitleFontSize=13
)
chart5.save('chart_5.png')
chart5

Uma outra pergunta que surgiu a partir dessa é se há correlação entre o tempo médio de permanência e as taxas de mortalidade, que é o que tentarei responder a seguir.

In [167]:
permanencia_ano = permanencia[permanencia['Ano/mês processamento'].str.contains('^20', regex=True)]
permanencia_mes = permanencia[permanencia['Ano/mês processamento'].str.len()>5]

In [168]:
permanencia_mes.head()

Unnamed: 0,Ano/mês processamento,Clínica cirúrgica,Obstetrícia,Clínica médica,Cuidados prolongados (crônicos),Psiquiatria,Pneumologia sanitária (tisiologia),Pediatria,Reabilitação,Clínica cirúrgica - hospital-dia,Aids - hospital-dia,Intercorrência pós-transplante - hospital-dia,Saúde mental - hospital-dia,Saúde mental - clínico,Não discriminado,Total
1,..Janeiro/2014,6.1,3.0,8.7,95.3,114.5,59.1,6.1,41.3,,28.9,,29.2,7.9,,9.0
2,..Fevereiro/2014,6.0,3.1,9.1,87.9,123.9,64.0,6.7,33.1,,26.0,22.0,26.7,6.5,,8.7
3,..Março/2014,6.1,3.0,9.3,85.3,166.8,68.8,6.5,43.8,0.4,30.0,15.0,29.4,9.5,,9.2
4,..Abril/2014,6.3,3.1,9.1,107.3,143.5,63.2,6.5,44.0,,28.0,8.8,27.5,8.4,,9.1
5,..Maio/2014,6.2,3.1,9.2,107.9,137.9,54.6,6.5,43.1,,29.7,15.0,29.7,13.2,,9.0


In [169]:
mortalidade_mes.head()

Unnamed: 0,Ano/mês processamento,Média,Alta,Total
1,..Janeiro/2014,6.6,3.73,6.42
2,..Fevereiro/2014,6.17,5.22,6.1
3,..Março/2014,6.4,4.8,6.31
4,..Abril/2014,6.43,4.5,6.31
5,..Maio/2014,5.81,4.67,5.74


In [177]:
mortalidade_mes['Permanência'] = permanencia_mes['Total']
mortalidade_mes = mortalidade_mes.rename(columns={"Total": "Mortalidade"})
mortalidade_mes

Unnamed: 0,Ano/mês processamento,Média,Alta,Mortalidade,Permanência
1,..Janeiro/2014,6.60,3.73,6.42,9.0
2,..Fevereiro/2014,6.17,5.22,6.10,8.7
3,..Março/2014,6.40,4.80,6.31,9.2
4,..Abril/2014,6.43,4.50,6.31,9.1
5,..Maio/2014,5.81,4.67,5.74,9.0
...,...,...,...,...,...
126,Setembro/2023,7.24,2.71,6.86,6.2
127,Outubro/2023,6.74,2.91,6.43,6.0
128,Novembro/2023,7.17,3.32,6.85,6.3
129,Dezembro/2023,6.74,3.72,6.49,6.3


In [204]:
chart6 = alt.Chart(mortalidade_mes, width=500, height=300).mark_circle(color='#CE432D').encode(
    alt.X("Mortalidade:Q").title("Taxa de mortalidade").scale(zero=False),
    alt.Y("Permanência:Q").title("Tempo médio de permanência (dias)").scale(zero=False),
).properties(
    title=alt.Title(["Tempo médio de internação em comparação com", "as taxas de mortalidade"], 
                    subtitle=["(jan./2014 - jan./2024)", ""])
)

chart6.configure_title(
    fontSize=16,
    font='arial',
    subtitleFontSize=13
)

chart6.save('chart_6.png')
chart6
# gráfico estranho, refazer!!!

In [195]:
mortalidade_2.head()

Unnamed: 0,Especialidade,2014/Jan,2014/Fev,2014/Mar,2014/Abr,2014/Mai,2014/Jun,2014/Jul,2014/Ago,2014/Set,...,2023/Mai,2023/Jun,2023/Jul,2023/Ago,2023/Set,2023/Out,2023/Nov,2023/Dez,2024/Jan,Total
0,Clínica cirúrgica,2.55,2.56,2.79,2.72,2.91,2.71,2.49,2.44,2.44,...,2.22,2.0,1.99,1.72,2.04,2.13,2.04,2.25,2.28,2.71
1,Obstetrícia,0.02,0.04,0.01,0.03,0.01,0.05,0.02,0.03,0.01,...,0.01,0.02,0.02,0.08,0.01,0.03,0.04,0.04,0.02,0.03
2,Clínica médica,15.07,14.77,15.42,15.63,14.35,14.35,16.02,16.1,15.59,...,14.86,16.72,16.4,15.97,17.28,16.72,16.95,15.77,15.88,17.44
3,Cuidados prolongados (crônicos),41.1,36.51,39.88,38.83,38.17,39.3,36.39,47.52,35.87,...,37.19,39.87,40.71,33.0,33.88,41.18,39.46,27.68,35.09,40.05
4,Psiquiatria,1.5,1.85,1.38,0.62,1.57,1.2,1.43,0.73,0.4,...,,,0.74,0.63,0.27,0.31,0.3,0.27,0.34,0.6


In [254]:
chart7 = alt.Chart(mortalidade_2, width=500, height=300).mark_bar(color='#CE432D').encode(
    x=alt.X('Total:Q').axis(
        title="Taxa de mortalidade"
    ),
    y=alt.Y('Especialidade:N').sort('-x').axis(
        title="Especialidades médicas",
        titleAngle=0,
        titleAlign="right",
        titleY=-10,
        titleX=-5,
    )
).properties(
    title = alt.Title('Especialidades com as maiores taxas de mortalidade',subtitle=['(jan./2014 - jan./2024)',''])
)

chart7.configure_title(
    fontSize=16,
    font='arial',
    subtitleFontSize=13
)

chart7.save('chart_7.png')
chart7

#### Quarta pergunta:

O fim da pandemia foi declarado em 2023, então vou utilizar os dados de 2020 a 2022.

In [250]:
intern_espec_ano = intern_espec[intern_espec['Ano/mês processamento'].str.contains('^20', regex=True)]
pandemia = pd.concat(
    [intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == '2020'],
     intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == '2021'],
     intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == '2022']]
)
pre_pandemia = pd.concat(
    [intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == '2014'],
     intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == '2015'],
     intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == '2016'],
     intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == '2017'],
     intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == '2018'],
     intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == '2019']]
)
pos_pandemia = pd.concat(
    [intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == '2023'],
     intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == '2024'],]
)

In [251]:
pandemia = pd.DataFrame({
    'periodo': [['Pré-pandemia', '(2014-2019)'], ["Pandemia", "(2020-2022)"], ["Pós-pandemia", "(2023-2024)"]],
    "internacoes": [pre_pandemia['Total'].mean(),pandemia['Total'].mean(),pos_pandemia['Total'].mean()],
    'indice': [0, 1, 2]
})
pandemia

Unnamed: 0,periodo,internacoes,indice
0,"[Pré-pandemia, (2014-2019)]",673424.333333,0
1,"[Pandemia, (2020-2022)]",726785.0,1
2,"[Pós-pandemia, (2023-2024)]",471466.5,2


In [253]:
chart8 = alt.Chart(pandemia, width=500, height=300).mark_bar().encode(
    y=alt.Y('internacoes:Q').axis(
        title=["Média de interna-","ções por ano"],
        titleAngle=0,
        titleAlign="right",
        titleY=-25,
        titleX=-5,
    ),
    x=alt.X('periodo:O').sort().axis(
        title="",
        labelAngle=0
    ),
    color=alt.Color("periodo:O", sort=["indice"]).legend(
        title=["Período"]
    ),
).properties(
    title = alt.Title('Média de internações antes, durante e após a pandemia',
                      subtitle=['Estado do Rio de Janeiro',''])
)

chart8.configure_title(
    fontSize=16,
    font='arial',
    subtitleFontSize=13
)

chart8.save('chart_8.png')
chart8

In [260]:
intern_espec_mes = intern_espec[intern_espec['Ano/mês processamento'].str.len()>5]
intern_espec_mes.head()

Unnamed: 0,Ano/mês processamento,Clínica cirúrgica,Obstetrícia,Clínica médica,Cuidados prolongados (crônicos),Psiquiatria,Pneumologia sanitária (tisiologia),Pediatria,Reabilitação,Clínica cirúrgica - hospital-dia,Aids - hospital-dia,Intercorrência pós-transplante - hospital-dia,Saúde mental - hospital-dia,Saúde mental - clínico,Não discriminado,Total
1,..Janeiro/2014,15667,10787,17202,438,865,41,6070,10,38,23,-,136,75,-,51352
2,..Fevereiro/2014,16388,10960,16369,441,647,33,5916,7,52,23,1,100,43,-,50980
3,..Março/2014,15143,11769,15739,489,581,28,5765,4,51,17,1,101,32,-,49720
4,..Abril/2014,15748,11623,16288,376,645,37,5952,7,47,13,6,131,41,-,50914
5,..Maio/2014,16371,12495,15976,372,699,31,6418,7,67,23,1,108,56,-,52624


In [275]:
mortalidade_ano

Unnamed: 0,Ano/mês processamento,Média complexidade,Alta complexidade,Total
0,2014,6.4,4.28,6.27
13,2015,6.73,3.99,6.56
26,2016,6.99,4.08,6.8
39,2017,6.86,3.72,6.65
52,2018,7.02,3.55,6.79
65,2019,7.05,3.41,6.8
78,2020,9.26,3.74,8.91
91,2021,10.18,3.87,9.75
104,2022,7.78,3.35,7.46
117,2023,6.8,3.23,6.53


In [316]:
chart_intern = alt.Chart(intern_espec_ano[intern_espec_ano["Ano/mês processamento"]!= '2024'], 
                         width=600, height=250).mark_line(color='#CE432D').encode(
    x=alt.X("Ano/mês processamento:T").axis(labels=False).title(""),
    y=alt.Y("Total:Q").axis(
        title='Total de internações',
        titleAngle=0,
        titleAlign="left",
        titleY=-15,
        titleX=-5,
    )
).properties(
    title=alt.Title(['Evolução do número de internações e taxa de mortalidade', 
                     'ao longo dos anos de 2014 a 2023'],
                    subtitle=['Estado do Rio de Janeiro',""])
)

chart_mort = alt.Chart(mortalidade_ano[mortalidade_ano["Ano/mês processamento"]!= '2024'], 
                         width=600, height=90).mark_bar(size=30, color='#CE432D').encode(
    x=alt.X("Ano/mês processamento:T").title('Ano'),
    y=alt.Y("Total:Q").axis(
        title='Taxa de mortalidade',
        titleAngle=0,
        titleAlign="left",
        titleY=-15,
        titleX=-5,
    )
)

chart9 = alt.vconcat(chart_intern,chart_mort)

chart9.configure_title(
    fontSize=16,
    font='arial',
    subtitleFontSize=13
)

chart9.save('chart_9.png')
chart9

In [325]:
intern_espec_ano = intern_espec_ano.replace('-', np.nan)
intern_espec_ano = intern_espec_ano.astype('float')

In [330]:
pandemia = pd.concat(
    [intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == 2020],
     intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == 2021],
     intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == 2022]]
)
pre_pandemia = pd.concat(
    [intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == 2014],
     intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == 2015],
     intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == 2016],
     intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == 2017],
     intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == 2018],
     intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == 2019]]
)
pos_pandemia = pd.concat(
    [intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == 2023],
     intern_espec_ano[intern_espec_ano["Ano/mês processamento"] == 2024],]
)

In [335]:
especialidades

Index(['Clínica cirúrgica', 'Obstetrícia', 'Clínica médica',
       'Cuidados prolongados (crônicos)', 'Psiquiatria',
       'Pneumologia sanitária (tisiologia)', 'Pediatria', 'Reabilitação',
       'Clínica cirúrgica - hospital-dia', 'Aids - hospital-dia',
       'Intercorrência pós-transplante - hospital-dia',
       'Saúde mental - hospital-dia', 'Saúde mental - clínico',
       'Não discriminado'],
      dtype='object')

In [332]:
pandemia

Unnamed: 0,Ano/mês processamento,Clínica cirúrgica,Obstetrícia,Clínica médica,Cuidados prolongados (crônicos),Psiquiatria,Pneumologia sanitária (tisiologia),Pediatria,Reabilitação,Clínica cirúrgica - hospital-dia,Aids - hospital-dia,Intercorrência pós-transplante - hospital-dia,Saúde mental - hospital-dia,Saúde mental - clínico,Não discriminado,Total
78,2020.0,183521.0,151005.0,245188.0,3559.0,4666.0,401.0,62556.0,141.0,2454.0,251.0,,794.0,2286.0,128.0,656950.0
91,2021.0,214268.0,148196.0,287878.0,3302.0,5453.0,430.0,67844.0,138.0,3504.0,252.0,3.0,1062.0,2426.0,,734756.0
104,2022.0,264255.0,142307.0,276389.0,3235.0,5315.0,608.0,85527.0,190.0,6235.0,313.0,10.0,1489.0,2776.0,,788649.0


In [373]:
pandemia_lista = []
pre_pandemia_lista = []
pos_pandemia_lista = []
for i in especialidades:
    pandemia_lista.append(pandemia[i].sum())
    pre_pandemia_lista.append(pre_pandemia[i].sum())
    pos_pandemia_lista.append(pos_pandemia[i].sum())
    
df_pandemia = pd.DataFrame(
    {
        'período': 14*['pré-pandemia']+14*['pandemia']+14*['pós-pandemia'],
        'indice': 14*[0]+14*[1]+14*[2],
        'especialidade': 3*list(especialidades),
        'internacoes': pre_pandemia_lista+pandemia_lista+pos_pandemia_lista
    }
)
df_pandemia.head()

Unnamed: 0,período,indice,especialidade,internacoes
0,pré-pandemia,0,Clínica cirúrgica,1299126.0
1,pré-pandemia,0,Obstetrícia,882065.0
2,pré-pandemia,0,Clínica médica,1311923.0
3,pré-pandemia,0,Cuidados prolongados (crônicos),28716.0
4,pré-pandemia,0,Psiquiatria,41426.0


In [421]:
chart10 = alt.Chart(df_pandemia, width=30, height=300).mark_bar(color='#CE432D').encode(
    y=alt.Y('internacoes:Q').title('Internações'),
    x=alt.X('período:O').axis(labels=False).title(''),
    column=alt.Column('especialidade:N',
                      header=alt.Header(
                          title="Especialidade", 
                          labelAngle=-45, 
                          labelAnchor='end', 
                          labelOrient='bottom'
                      )),
    color=alt.Color('período:O', sort=["indice"]),
    order=alt.Order('internações:Q',sort='ascending')
).properties(
    title = alt.Title('Total de internações por especialidade médica antes, durante e depois da pandemia',
                      subtitle=['(jan./2014 - jan./2024)',''])
)
chart10.configure_title(
    fontSize=16,
    font='arial',
    subtitleFontSize=13
)

chart10.save('chart_10.png')
chart10

In [None]:
total_internacoes = intern_espec[intern_espec['Ano/mês processamento'] == 'Total'].to_numpy()[0][1:-1].astype('int')
especialidades = intern_espec.columns[1:-1].to_numpy()
df = pd.DataFrame({'especialidades':especialidades, 'total_internacoes':total_internacoes/1000})
df

In [303]:
chart = alt.Chart(df, width=500, height=300).mark_bar(color='#CE432D').encode(
    x=alt.X('total_internacoes:Q').axis(
        title="Total de internações (milhares)"
    ),
    y=alt.Y('especialidades:N').sort('-x').axis(
        title="Especialidades médicas",
        titleAngle=0,
        titleAlign="right",
        titleY=-10,
        titleX=-5,
    )
).properties(
    title = alt.Title('Total de internações por especialidade médica',subtitle=['(jan./2014 - jan./2024)',''])
)

chart.configure_title(
    fontSize=16,
    font='arial',
    subtitleFontSize=13
)
chart.save('chart_1.png')
chart