# Projeto Programação para a Ciência de Dados
Urgências e Hospitais em Portugal

## Importar as bibliotecas necessárias

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.linear_model import LinearRegression
from sklearn import metrics
 
# mostrar gráficos no notebook
%matplotlib inline

## Exportar os datesets necessários para o projeto
Os nossos datasets foram descarregados através do Portal da Transparência do Serviço Nacional de Saúde (https://transparencia.sns.gov.pt/pages/home-page/) e estão localizados na pasta "datasets".
Começamos por ler os ficheiros csv e transformá-los em dataframes através da biblioteca Pandas para podermos manipular dados.

In [30]:
urgencias = pd.read_csv('datasets/atendimentos-por-urgencia.csv', sep=';', encoding="utf-8")
morbilidade = pd.read_csv('datasets/morbilidade.csv', sep=';', encoding="utf-8")

print("Dados de Urgências:")
urgencias.info()

print("\nDados de Morbilidade:")
morbilidade.info()

Dados de Urgências:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5841 entries, 0 to 5840
Data columns (total 10 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Período                 5841 non-null   object 
 1   Período.Format.2        5841 non-null   object 
 2   Região                  5841 non-null   object 
 3   Instituição             5841 non-null   object 
 4   Localização Geográfica  5841 non-null   object 
 5   Urgências Geral         5840 non-null   float64
 6   Urgências Pediátricas   5111 non-null   float64
 7   Urgência Obstetricia    4964 non-null   float64
 8   Urgência Psiquiátrica   440 non-null    float64
 9   Total Urgências         5840 non-null   float64
dtypes: float64(5), object(5)
memory usage: 456.5+ KB

Dados de Morbilidade:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 480554 entries, 0 to 480553
Data columns (total 11 columns):
 #   Column                                    No

In [4]:
urgencias.head()

Unnamed: 0,Período,Período.Format.2,Região,Instituição,Localização Geográfica,Urgências Geral,Urgências Pediátricas,Urgência Obstetricia,Urgência Psiquiátrica,Total Urgências
0,2024-01,2024/01/01,Região de Saúde LVT,"Unidade Local de Saúde da Arrábida, EPE","38.529351, -8.881073",5433.0,2425.0,515.0,,8373.0
1,2024-01,2024/01/01,Região de Saúde Norte,Unidade Local de Saúde da Póvoa de Varzim/Vila...,"41.383183, -8.758784",5536.0,,,,5536.0
2,2024-01,2024/01/01,Região de Saúde LVT,"Unidade Local de Saúde de Amadora/Sintra, EPE","38.7436332060551, -9.0",13917.0,3268.0,1303.0,,18488.0
3,2024-01,2024/01/01,Região de Saúde Norte,"Unidade Local de Saúde de Braga, EPE","41.562328338623, -8.3",11752.0,4087.0,998.0,,16837.0
4,2024-01,2024/01/01,Região de Saúde Norte,"Unidade Local de Saúde de Entre Douro e Vouga,...","40.9295, -8.54567",15899.0,2720.0,630.0,,19249.0


In [5]:
morbilidade.head()

Unnamed: 0,Período,Código Capítulo Diagnóstico Principal,Instituição,Regiões,Descrição Capítulo Diagnóstico Principal,Faixa Etária,Sexo,Internamentos,Dias de Internamento,Ambulatório,Óbitos
0,2019-07,1,"Unidade Local de Saúde do Oeste, E.P.E.",Região de Saúde LVT,Algumas doenças infecciosas e parasitárias,[5-15[,F,1,1,0,0
1,2019-07,1,"Unidade Local de Saúde do Tâmega e Sousa, E.P.E.",Região de Saúde do Norte,Algumas doenças infecciosas e parasitárias,[1-5[,M,3,14,0,0
2,2019-07,1,"Unidade Local de Saúde do Tâmega e Sousa, E.P.E.",Região de Saúde do Norte,Algumas doenças infecciosas e parasitárias,[45-65[,F,2,12,0,1
3,2019-07,1,"Unidade Local de Saúde do Tâmega e Sousa, E.P.E.",Região de Saúde do Norte,Algumas doenças infecciosas e parasitárias,[5-15[,F,2,7,0,0
4,2019-07,2,Hospital de Cascais Dr. José de Almeida,Região de Saúde LVT,Neoplasias,[45-65[,F,8,264,2,1


## Limpeza dos Dados
### Remover colunas desnecessárias
Começamos a etapa de modelação dos dados com a remoção de colunas que serão desnecessárias para o nosso projeto, a coluna "Período.Format.2" na dataframe das urgências apenas mostra a data num formato diferente que não é necessário para o que queremos no nosso modelo, por isso vamos removê-la.

In [31]:
urgencias = urgencias.drop(columns=['Período.Format.2'])
urgencias = urgencias.drop(columns=['Localização Geográfica'])

urgencias.head()

Unnamed: 0,Período,Região,Instituição,Urgências Geral,Urgências Pediátricas,Urgência Obstetricia,Urgência Psiquiátrica,Total Urgências
0,2024-01,Região de Saúde LVT,"Unidade Local de Saúde da Arrábida, EPE",5433.0,2425.0,515.0,,8373.0
1,2024-01,Região de Saúde Norte,Unidade Local de Saúde da Póvoa de Varzim/Vila...,5536.0,,,,5536.0
2,2024-01,Região de Saúde LVT,"Unidade Local de Saúde de Amadora/Sintra, EPE",13917.0,3268.0,1303.0,,18488.0
3,2024-01,Região de Saúde Norte,"Unidade Local de Saúde de Braga, EPE",11752.0,4087.0,998.0,,16837.0
4,2024-01,Região de Saúde Norte,"Unidade Local de Saúde de Entre Douro e Vouga,...",15899.0,2720.0,630.0,,19249.0


### Renomear colunas
De seguida, mudamos o nome das colunas para estarem todas sem acentos e em letra pequena.

In [32]:
morbilidade = morbilidade.rename(columns={
    'Período': 'periodo',
    'Regiões': 'regiao',
    'Código Capítulo Diagnóstico Principal': 'codigo_diagnostico',
    'Descrição Capítulo Diagnóstico Principal': 'diagnostico',
    'Faixa Etária': 'faixa_etaria',
    'Sexo': 'sexo',
    'Internamentos': 'internamentos',
    'Instituição': 'instituicao',
    'Dias de Internamento': 'dias_internamento',
    'Ambulatório': 'ambulatorio',
    'Óbitos': 'obitos',
})

urgencias = urgencias.rename(columns={
    'Período': 'periodo',
    'Região': 'regiao',
    'Instituição': 'instituicao',
    'Urgências Geral': 'urgencias_gerais',
    'Urgências Pediátricas': 'urgencias_pediatricas',
    'Urgência Obstetricia': 'urgencias_obstetricas',
    'Urgência Psiquiátrica': 'urgencias_psiquiatricas',
    'Total Urgências': 'total_urgencias'
})

### Trocar tipos de dados
Não é possivel trocar o tipo de dados das urgencias para int porque temos valores em falta, e como não sabemos se estes valores estão em falta porque as instituições não aceitam um tipo de urgência ou porque realmente não houve aquele tipo de urgências, por isso não tocamos nestes valores.

In [33]:
urgencias['periodo'] = pd.to_datetime(urgencias['periodo'])
morbilidade['periodo'] = pd.to_datetime(morbilidade['periodo'])

print("Tipos de dados em urgências:")
print(urgencias.dtypes)
print("\nTipos de dados em morbilidade:")
print(morbilidade.dtypes)

Tipos de dados em urgências:
periodo                    datetime64[ns]
regiao                             object
instituicao                        object
urgencias_gerais                  float64
urgencias_pediatricas             float64
urgencias_obstetricas             float64
urgencias_psiquiatricas           float64
total_urgencias                   float64
dtype: object

Tipos de dados em morbilidade:
periodo               datetime64[ns]
codigo_diagnostico             int64
instituicao                   object
regiao                        object
diagnostico                   object
faixa_etaria                  object
sexo                          object
internamentos                  int64
dias_internamento              int64
ambulatorio                    int64
obitos                         int64
dtype: object


### Remover letras e caracteres desnecessárias
Podemos reparar que a coluna da faixa etária tem parentesis retos desnecessários, então começamos por os remover. De seguida, iremos também remover a indicação do modelo de gestão de cada hospital pois não faz sentido para o nosso estudo e irá permitir uma melhor padronização dos dados mais tarde.

In [34]:
morbilidade['faixa_etaria'] = morbilidade['faixa_etaria'].str.replace('[', '')
morbilidade['faixa_etaria'] = morbilidade['faixa_etaria'].str.replace(']', '')

morbilidade['instituicao'] = morbilidade['instituicao'].str.split(',').str[0]
urgencias['instituicao'] = urgencias['instituicao'].str.split(',').str[0]

morbilidade['regiao'] = morbilidade['regiao'].str.replace(' do ', ' ', regex=False)
urgencias['regiao'] = urgencias['regiao'].str.replace(' do ', ' ', regex=False)

morbilidade

Unnamed: 0,periodo,codigo_diagnostico,instituicao,regiao,diagnostico,faixa_etaria,sexo,internamentos,dias_internamento,ambulatorio,obitos
0,2019-07-01,1,Unidade Local de Saúde do Oeste,Região de Saúde LVT,Algumas doenças infecciosas e parasitárias,5-15,F,1,1,0,0
1,2019-07-01,1,Unidade Local de Saúde do Tâmega e Sousa,Região de Saúde Norte,Algumas doenças infecciosas e parasitárias,1-5,M,3,14,0,0
2,2019-07-01,1,Unidade Local de Saúde do Tâmega e Sousa,Região de Saúde Norte,Algumas doenças infecciosas e parasitárias,45-65,F,2,12,0,1
3,2019-07-01,1,Unidade Local de Saúde do Tâmega e Sousa,Região de Saúde Norte,Algumas doenças infecciosas e parasitárias,5-15,F,2,7,0,0
4,2019-07-01,2,Hospital de Cascais Dr. José de Almeida,Região de Saúde LVT,Neoplasias,45-65,F,8,264,2,1
...,...,...,...,...,...,...,...,...,...,...,...
480549,2019-12-01,7,Unidade Local de Saúde do Alto Minho,Região de Saúde Norte,Doenças do olho e anexos,25-45,M,0,0,1,0
480550,2019-12-01,7,Unidade Local de Saúde do Baixo Alentejo,Região de Saúde Alentejo,Doenças do olho e anexos,25-45,M,1,1,0,0
480551,2019-12-01,7,Unidade Local de Saúde do Baixo Alentejo,Região de Saúde Alentejo,Doenças do olho e anexos,65-120,M,0,0,6,0
480552,2019-12-01,7,Unidade Local de Saúde do Baixo Mondego,Região de Saúde Centro,Doenças do olho e anexos,25-45,F,0,0,1,0


### Remover todos os dados antes de 2019
O dataset da morbilidade apenas tem dados para os anos a partir de 2019 então vamos apagar todos os dados até 2019 do dataset das urgencias

In [35]:
urgencias = urgencias[urgencias['periodo'] >= '2019-01-01']

urgencias.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2960 entries, 0 to 5840
Data columns (total 8 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   periodo                  2960 non-null   datetime64[ns]
 1   regiao                   2960 non-null   object        
 2   instituicao              2960 non-null   object        
 3   urgencias_gerais         2959 non-null   float64       
 4   urgencias_pediatricas    2590 non-null   float64       
 5   urgencias_obstetricas    2516 non-null   float64       
 6   urgencias_psiquiatricas  294 non-null    float64       
 7   total_urgencias          2959 non-null   float64       
dtypes: datetime64[ns](1), float64(5), object(2)
memory usage: 208.1+ KB


### Remover instituições e trabalhar apenas com a região
Como os nomes das instituições variam muito entre os dois datasets, decidimos descartar as instituições e fazer apenas o estudo baseado na região em que cada instituição se localiza.

In [36]:
morbilidade_ano_regiao = morbilidade.groupby(["periodo", "regiao"]).agg({"obitos": "sum", "internamentos": "sum", "dias_internamento": "sum", "ambulatorio": "sum"})
urgencias_ano_regiao = urgencias.groupby(["periodo", "regiao"]).agg({"total_urgencias": "sum", "urgencias_gerais": "sum", "urgencias_pediatricas": "sum", "urgencias_obstetricas": "sum", "urgencias_psiquiatricas": "sum"})

df_modelo = pd.merge(urgencias_ano_regiao, morbilidade_ano_regiao, on=["periodo", "regiao"])

In [40]:
df_modelo.head(15)

Unnamed: 0_level_0,Unnamed: 1_level_0,total_urgencias,urgencias_gerais,urgencias_pediatricas,urgencias_obstetricas,urgencias_psiquiatricas,obitos,internamentos,dias_internamento,ambulatorio
periodo,regiao,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2019-01-01,Região de Saúde Alentejo,34008.0,28888.0,4697.0,423.0,0.0,288,3080,25010,2157
2019-01-01,Região de Saúde Algarve,30132.0,21191.0,7204.0,1737.0,0.0,289,2816,27628,1724
2019-01-01,Região de Saúde Centro,102208.0,71458.0,24723.0,6027.0,0.0,1109,14547,118529,11366
2019-01-01,Região de Saúde LVT,210891.0,135017.0,60207.0,15177.0,490.0,2213,26461,224576,22601
2019-01-01,Região de Saúde Norte,188744.0,142473.0,35392.0,10879.0,0.0,1774,27201,201398,27951
2019-02-01,Região de Saúde Alentejo,64996.0,55226.0,8998.0,772.0,0.0,249,2823,22999,2093
2019-02-01,Região de Saúde Algarve,57994.0,41004.0,13735.0,3255.0,0.0,251,2617,24893,1522
2019-02-01,Região de Saúde Centro,190745.0,135277.0,44275.0,11193.0,0.0,983,13377,109520,9602
2019-02-01,Região de Saúde LVT,397192.0,254047.0,113369.0,28790.0,986.0,1728,24305,209983,20193
2019-02-01,Região de Saúde Norte,369901.0,278447.0,71148.0,20306.0,0.0,1622,24496,194412,23081


## Modelação
### Selecionar o modelo mais adequado