In [1]:
# Operating System
import os

import pandas as pd
import numpy as np

# Strings
import re


In [2]:
def create_conversion_lower_case_dict():
    
    conversion_lists = []
    
    # Conversion for character a
    conversion_lists.append(['a'] + [chr(c) for c in range(224,231)])
    
    # Conversion for character e
    conversion_lists.append(['e'] + [chr(c) for c in range(232,236)])
    
    # Conversion for character i
    conversion_lists.append(['i'] + [chr(c) for c in range(236,240)])
    
    # Conversion for character o
    conversion_lists.append(['o'] + [chr(c) for c in range(242,247)])
    
    # Conversion for character u
    conversion_lists.append(['u'] + [chr(c) for c in range(249,253)])
    
    # Conversion for character c
    conversion_lists.append(['c'] + [chr(231)])
    
    # Conversion for character n
    conversion_lists.append(['n'] + [chr(241)])
    
    
    conversion_dict = {}
    for single_letter_list in conversion_lists:
        
        single_letter_dict = str.maketrans(''.join(single_letter_list[1:]), single_letter_list[0]*len(single_letter_list[1:]))
        conversion_dict.update(single_letter_dict)
        
    return conversion_dict

In [3]:
def hospital_name_clean(string_series, conversion_dict=None):
    
    new_series = string_series.copy()
    
    # Make sure it is a string!
    new_series = new_series.astype(str)
    
    # lowercase
    new_series = new_series.str.lower()
    
    
    # Retira os acentos e cedilhas
    if conversion_dict != None:
        new_series = new_series.str.translate(conversion_dict)
        
    # remove or replace special characters
    new_series = new_series.str.replace(r'[^a-zA-Z0-9]', r' ',regex=True)
    
    
    # remover expressões mais frequentes
    remove_list = [r'\sde\s', 
                   r'\sdo\s', 
                   r'\sda\s', 
                   r'\se\s', 
                   r'hospital\s', 
                   r'h\s', 
                   r'ch\s', 
                   r'centro hospitalar\s', 
                   r'epe$', 
                   r'ppp$']
    for word in remove_list:
        new_series = new_series.str.replace(word, ' ',regex=True)
    
    
    # remove or replace special characters
    new_series = new_series.str.replace(r' +', r' ',regex=True)
        
    # Trim
    new_series = new_series.str.strip()
    
    return new_series

### df1: Doentes Saidos por cama/mês

In [4]:
file_path = os.path.join('data', '1.8.Doentes Saidos por cama_mês.xlsx')

df1 = pd.read_excel(file_path)


In [5]:
df1['indicador'] = "Número de doentes saídos por cama/mês"

In [6]:
df1['sub-indicador'] = ""

In [7]:
df1['Ficheiro'] = "1.8.Doentes Saidos por cama_mês.xlsx"

In [8]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3747 entries, 0 to 3746
Data columns (total 7 columns):
Instituição      3747 non-null object
Ano              3747 non-null int64
Mês              3747 non-null int64
Valor            3667 non-null float64
indicador        3747 non-null object
sub-indicador    3747 non-null object
Ficheiro         3747 non-null object
dtypes: float64(1), int64(2), object(4)
memory usage: 205.0+ KB


In [9]:
df1.columns = ['Hospital', 'Ano', 'Mes', 'Valor', 'Indicador', 'Sub-indicador', 'Ficheiro']

In [10]:
df1 = df1[['Hospital', 'Ano', 'Mes', 'Indicador', 'Sub-indicador', 'Valor', 'Ficheiro']]

In [11]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3747 entries, 0 to 3746
Data columns (total 7 columns):
Hospital         3747 non-null object
Ano              3747 non-null int64
Mes              3747 non-null int64
Indicador        3747 non-null object
Sub-indicador    3747 non-null object
Valor            3667 non-null float64
Ficheiro         3747 non-null object
dtypes: float64(1), int64(2), object(4)
memory usage: 205.0+ KB


### df2:

In [12]:
dir_path = os.path.join('data', '1.13_1.15_1.16_5.2_5.4.1_HOSP')

df2 = pd.DataFrame({'Hospital': [], 'Ano':[] , 'Mes':[] , 'Indicador':[] , 'Sub-indicador':[] , 'Valor':[], 'Ficheiro':[]})
df_aux = None
file_counter = 0

cols_to_keep = [3, 10, 14, 30, 32, 60, 62, 64]

for filename in os.listdir(dir_path):
    
    ano = filename[:4]
    mes = filename[5:7]
    
    df_aux = pd.read_excel(os.path.join(dir_path, filename))
    df_aux = df_aux.iloc[:,cols_to_keep]
    
    df_aux['Ano'] = ano
    df_aux['Mes'] = mes
    
    df_aux = df_aux.set_index(['Hospital', 'Ano', 'Mes'])
    df_aux.columns = (['Mediana do tempo de espera da LIC',
                       'Percentagem de utentes em LIC dentro do TMRG',
                       'Média do tempo de espera dos operados',
                       'Percentagem de doentes operados dentro dos TMRG',
                       'Taxa de disponibilidade do bloco operatório',
                       'Número de cirurgias por especialista de cirurgia',
                       'Número de cirurgias por anestesiologista'])
    
    df_aux = df_aux.stack().to_frame()
    df_aux.columns = ['Valor']
    
    df_aux.index.set_names('Indicador', level=3, inplace=True)
    
    df_aux = df_aux.reset_index()
    
    df_aux['Sub-indicador'] = ""
    
    df_aux['Ficheiro'] = filename
    
    
    
    df_aux = df_aux[['Hospital', 'Ano', 'Mes', 'Indicador', 'Sub-indicador', 'Valor', 'Ficheiro']]
    
    df2 = df2.append(df_aux)
    
    #df_aux= None
    file_counter += 1
    

df2 = df2.reset_index(drop=True)

In [13]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23546 entries, 0 to 23545
Data columns (total 7 columns):
Hospital         22982 non-null object
Ano              23546 non-null object
Mes              23546 non-null object
Indicador        23546 non-null object
Sub-indicador    23546 non-null object
Valor            23546 non-null object
Ficheiro         23546 non-null object
dtypes: object(7)
memory usage: 1.3+ MB


In [14]:
df2.sample(20)

Unnamed: 0,Hospital,Ano,Mes,Indicador,Sub-indicador,Valor,Ficheiro
11316,PPFMNS - H. Santa Maria,2017,11,Percentagem de doentes operados dentro dos TMRG,,0.115578,2017_11_HOSP.xlsx
7832,ULS Litoral Alent. - Sant. Cacém,2017,4,Mediana do tempo de espera da LIC,,3.16667,2017_04_HOSP.xlsx
6386,CH Baixo Vouga,2017,2,Mediana do tempo de espera da LIC,,2.9,2017_02_HOSP.xlsx
16404,Sª Cª M. de Benavente,2018,9,Média do tempo de espera dos operados,,1.46521,2018_09_HOSP.xlsx
19449,Sª Cª M. R. d'Ave - H. Narciso Ferreira,2019,3,Mediana do tempo de espera da LIC,,0.666667,2019_03_HOSP.xlsx
14845,Inst. Oft. Dr. Gama Pinto - Lx,2018,6,Percentagem de doentes operados dentro dos TMRG,,0.104825,2018_06_HOSP.xlsx
21261,H D. Santarém,2019,7,Número de cirurgias por anestesiologista,,97.4539,2019_07_HOSP.xlsx
10290,IPO Lisboa,2017,9,Número de cirurgias por especialista de cirurgia,,48.485,2017_09_HOSP.xlsx
13557,CH Tondela - Viseu,2018,4,Número de cirurgias por anestesiologista,,87.113,2018_04_HOSP.xlsx
8515,CH Univer. do Algarve,2017,6,Média do tempo de espera dos operados,,3.44036,2017_06_HOSP.xlsx


### df3

In [15]:
file_path = os.path.join('data', '1.2.Tempo de internamento padronizado, por especialidade;.xlsx')

df3 = pd.read_excel(file_path)

df3.index = df3.index.droplevel(0)
#df3.index = df3.index.droplevel(0)

df3 = df3.stack().to_frame()

df3.columns = ['Valor']

df3.index.set_names('Indicador', level=0, inplace=True)

df3 = df3.reset_index()

df3.columns = ['Indicador','data','Hospital','Valor']

df3['Ano'] = df3.data.dt.year
df3['Mes'] = df3.data.dt.month
df3['Sub-indicador'] = ""
df3['Indicador'] = "Índice de demora média ajustada"
df3['Ficheiro'] = "1.2.Tempo de internamento padronizado, por especialidade;.xlsx"


df3 = df3[['Hospital', 'Ano', 'Mes', 'Indicador', 'Sub-indicador', 'Valor', 'Ficheiro']]

In [16]:
df3.head(10)

Unnamed: 0,Hospital,Ano,Mes,Indicador,Sub-indicador,Valor,Ficheiro
0,"Hospital Espírito Santo de Évora, EPE",2016,1,Índice de demora média ajustada,,0.971876,"1.2.Tempo de internamento padronizado, por esp..."
1,"Unidade Local de Saúde do Baixo Alentejo, EPE",2016,1,Índice de demora média ajustada,,0.991868,"1.2.Tempo de internamento padronizado, por esp..."
2,"Unidade Local de Saúde do Litoral Alentejano, EPE",2016,1,Índice de demora média ajustada,,0.967448,"1.2.Tempo de internamento padronizado, por esp..."
3,"Unidade Local de Saúde do Norte Alentejano, EPE",2016,1,Índice de demora média ajustada,,0.928805,"1.2.Tempo de internamento padronizado, por esp..."
4,"Centro Hospitalar Universitário do Algarve, EPE",2016,1,Índice de demora média ajustada,,0.905354,"1.2.Tempo de internamento padronizado, por esp..."
5,"Centro Hospitalar de Leiria, EPE",2016,1,Índice de demora média ajustada,,0.807901,"1.2.Tempo de internamento padronizado, por esp..."
6,"Centro Hospitalar do Baixo Vouga, EPE",2016,1,Índice de demora média ajustada,,0.936693,"1.2.Tempo de internamento padronizado, por esp..."
7,"Centro Hospitalar e Universitário de Coimbra, EPE",2016,1,Índice de demora média ajustada,,0.939853,"1.2.Tempo de internamento padronizado, por esp..."
8,"Centro Hospitalar Tondela-Viseu, EPE",2016,1,Índice de demora média ajustada,,0.879996,"1.2.Tempo de internamento padronizado, por esp..."
9,"Centro Hospitalar Universitário Cova da Beira,...",2016,1,Índice de demora média ajustada,,1.156804,"1.2.Tempo de internamento padronizado, por esp..."


### df4

In [17]:
dir_path = os.path.join('data', '5.3.1_CTH_lista pedidos de consulta')

df4 = pd.DataFrame({'Hospital': [], 'Ano':[] , 'Mes':[] , 'Indicador':[] , 'Sub-indicador':[] , 'Valor':[], 'Ficheiro':[]})
df_aux = None
file_counter = 0

cols_to_keep = [1, 4]

for filename in os.listdir(dir_path):
    
    ano = filename[-13:-9]
    mes = filename[-16:-14]
    
    df_aux = pd.read_excel(os.path.join(dir_path, filename), sheet_name=0)
    df_aux = df_aux.iloc[:,cols_to_keep]
    
    df_aux['Ano'] = ano
    df_aux['Mes'] = mes
    
    df_aux = df_aux.rename(columns={'Instituição':'Hospital', 'Mediana do TE (pedidos não concluídos) (dias)': 'Valor'})
    
    df_aux['Indicador'] = "Mediana do tempo de espera da LEC"
    
    df_aux['Sub-indicador'] = ""
    
    df_aux['Ficheiro'] = filename  
    
    df_aux = df_aux[['Hospital', 'Ano', 'Mes', 'Indicador', 'Sub-indicador', 'Valor', 'Ficheiro']]
    
    df4 = df4.append(df_aux)
    
    #df_aux= None
    file_counter += 1
    

df4 = df4.reset_index(drop=True)
    

In [18]:
df4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1200 entries, 0 to 1199
Data columns (total 7 columns):
Hospital         1200 non-null object
Ano              1200 non-null object
Mes              1200 non-null object
Indicador        1200 non-null object
Sub-indicador    1200 non-null object
Valor            1200 non-null float64
Ficheiro         1200 non-null object
dtypes: float64(1), object(6)
memory usage: 65.7+ KB


In [19]:
df4.head()

Unnamed: 0,Hospital,Ano,Mes,Indicador,Sub-indicador,Valor,Ficheiro
0,HOSPITAL DR. FRANCISCO ZAGALO - OVAR,2018,1,Mediana do tempo de espera da LEC,,116.0,UGA RR 20180327 Indicadores Não Concluidos Tem...
1,HOSPITAL ARCEBISPO JOÃO CRISÓSTOMO - CANTANHEDE,2018,1,Mediana do tempo de espera da LEC,,146.0,UGA RR 20180327 Indicadores Não Concluidos Tem...
2,CENTRO MÉDICO DE REABILITAÇÃO DA REGIÃO CENTRO...,2018,1,Mediana do tempo de espera da LEC,,12.0,UGA RR 20180327 Indicadores Não Concluidos Tem...
3,INSTITUTO DE OFTALMOLOGIA DR. GAMA PINTO,2018,1,Mediana do tempo de espera da LEC,,124.0,UGA RR 20180327 Indicadores Não Concluidos Tem...
4,CENTRO HOSPITALAR PSIQUIÁTRICO DE LISBOA,2018,1,Mediana do tempo de espera da LEC,,42.0,UGA RR 20180327 Indicadores Não Concluidos Tem...


### df5

In [20]:
file_path = os.path.join('data', '1.17 %_Consultas CTH.xlsx')
sheet_name = "1.17_%Consultas CTH"

df5 = pd.read_excel(file_path, sheet_name=sheet_name)

df5 = df5[df5['Especialidades SICA'] == "Total s/ Medicina do Trabalho"]

df5 = df5.rename(columns={'Data (acumulado)':'data', 'Especialidades SICA':'Indicador'})

df5['Ano'] = df5.data.dt.year
df5['Mes'] = df5.data.dt.month

df5 = df5.drop(columns='data')

df5 = df5.set_index( ['Ano', 'Mes', 'Indicador'])

df5 = df5.stack().to_frame()

df5.columns = ['Valor']

df5 = df5.reset_index()

df5 = df5.rename(columns={'level_3':'Hospital'})

df5['Sub-indicador'] = ""
df5['Indicador'] = "Taxa de consultas realizadas via CTH"

df5['Ficheiro'] = "1.17 %_Consultas CTH.xlsx"

df5 = df5[['Hospital', 'Ano', 'Mes', 'Indicador', 'Sub-indicador', 'Valor', 'Ficheiro']]


In [21]:
df5.head()

Unnamed: 0,Hospital,Ano,Mes,Indicador,Sub-indicador,Valor,Ficheiro
0,"Hospital Espírito Santo de Évora, EPE",2016,1,Taxa de consultas realizadas via CTH,,0.348507,1.17 %_Consultas CTH.xlsx
1,"Unidade Local de Saúde do Baixo Alentejo, EPE",2016,1,Taxa de consultas realizadas via CTH,,0.2999,1.17 %_Consultas CTH.xlsx
2,"Unidade Local de Saúde do Litoral Alentejano, EPE",2016,1,Taxa de consultas realizadas via CTH,,0.301338,1.17 %_Consultas CTH.xlsx
3,"Unidade Local de Saúde do Norte Alentejano, EPE",2016,1,Taxa de consultas realizadas via CTH,,0.292039,1.17 %_Consultas CTH.xlsx
4,"Centro Hospitalar Universitário do Algarve, EPE",2016,1,Taxa de consultas realizadas via CTH,,0.379994,1.17 %_Consultas CTH.xlsx


In [22]:
df5.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2156 entries, 0 to 2155
Data columns (total 7 columns):
Hospital         2156 non-null object
Ano              2156 non-null int64
Mes              2156 non-null int64
Indicador        2156 non-null object
Sub-indicador    2156 non-null object
Valor            2156 non-null float64
Ficheiro         2156 non-null object
dtypes: float64(1), int64(2), object(4)
memory usage: 118.0+ KB


### df6

In [23]:
file_path = os.path.join('data', "1.14.RM, TAC, radioterapias, angiografias;.xlsx")

df6 = pd.read_excel(file_path, header=[0])

df6 = df6.stack().to_frame()

df6 = df6.reset_index(level=2)

df6.columns = ['Indicador', 'Valor']

df6['Indicador'] = df6['Indicador'].replace(to_replace={'Dentro da Estrutura': "MCDT's realizados dentro da estrutura", 
                                                        'Fora da Estrutura': "MCDT's realizados fora da estrutura"})

df6 = df6.reset_index()

df6 = df6.rename(columns={'level_0':'Sub-indicador', 'level_1':'data', 'level_2':'Hospital'})

df6['Ano'] = df6.data.dt.year
df6['Mes'] = df6.data.dt.month

df6['Ficheiro'] = "1.14.RM, TAC, radioterapias, angiografias;.xlsx"

df6 = df6[['Hospital', 'Ano', 'Mes', 'Indicador', 'Sub-indicador', 'Valor', 'Ficheiro']]



In [24]:
df6.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6352 entries, 0 to 6351
Data columns (total 7 columns):
Hospital         6352 non-null object
Ano              6352 non-null int64
Mes              6352 non-null int64
Indicador        6352 non-null object
Sub-indicador    6352 non-null object
Valor            6352 non-null float64
Ficheiro         6352 non-null object
dtypes: float64(1), int64(2), object(4)
memory usage: 347.5+ KB


In [25]:
df6.head()

Unnamed: 0,Hospital,Ano,Mes,Indicador,Sub-indicador,Valor,Ficheiro
0,"Centro Hospitalar e Universitário de Coimbra, EPE",2014,3,MCDT's realizados dentro da estrutura,Medicina Nuclear,3130.0,"1.14.RM, TAC, radioterapias, angiografias;.xlsx"
1,"Instituto Português Oncologia de Coimbra, EPE",2014,3,MCDT's realizados dentro da estrutura,Medicina Nuclear,676.0,"1.14.RM, TAC, radioterapias, angiografias;.xlsx"
2,"Centro Hospitalar Trás-os-Montes e Alto Douro,...",2014,3,MCDT's realizados dentro da estrutura,Medicina Nuclear,0.0,"1.14.RM, TAC, radioterapias, angiografias;.xlsx"
3,"Centro Hospitalar Universitário do Porto, EPE",2014,3,MCDT's realizados dentro da estrutura,Medicina Nuclear,1033.0,"1.14.RM, TAC, radioterapias, angiografias;.xlsx"
4,"Centro Hospitalar Universitário S. João, EPE",2014,3,MCDT's realizados dentro da estrutura,Medicina Nuclear,1731.0,"1.14.RM, TAC, radioterapias, angiografias;.xlsx"


### df7

In [26]:
file_path = os.path.join('data', "1.10.Percentagem GDH Ambulatório em procedimentos ambulatorizaveis_.xlsx")

df7 = pd.DataFrame({'Hospital': [], 'Ano':[] , 'Mes':[] , 'Indicador':[] , 'Sub-indicador':[] , 'Valor':[], 'Ficheiro':[]})

for sheet in ['2016_2017', '2018_2019']:
    
    df_aux = pd.read_excel(file_path, sheet_name=sheet)

    df_aux.columns = ['Hospital', 'Ano', 'Mes', 'Valor']
    
    df_aux ['Sub-indicador'] = ""
    df_aux ['Indicador'] = "Taxa de GDH ambulatório em procedimentos ambulatorizáveis"
    
    df_aux['Ficheiro'] = "1.10.Percentagem GDH Ambulatório em procedimentos ambulatorizaveis_.xlsx"

    df_aux = df_aux[['Hospital', 'Ano', 'Mes', 'Indicador', 'Sub-indicador', 'Valor', 'Ficheiro']]
    
    df7 = df7.append(df_aux)



In [27]:
df7.head()

Unnamed: 0,Hospital,Ano,Mes,Indicador,Sub-indicador,Valor,Ficheiro
0,"Centro Hospitalar Barreiro/Montijo, EPE",2016.0,1.0,Taxa de GDH ambulatório em procedimentos ambul...,,0.780347,1.10.Percentagem GDH Ambulatório em procedimen...
1,"Centro Hospitalar Barreiro/Montijo, EPE",2016.0,2.0,Taxa de GDH ambulatório em procedimentos ambul...,,0.770492,1.10.Percentagem GDH Ambulatório em procedimen...
2,"Centro Hospitalar Barreiro/Montijo, EPE",2016.0,3.0,Taxa de GDH ambulatório em procedimentos ambul...,,0.790698,1.10.Percentagem GDH Ambulatório em procedimen...
3,"Centro Hospitalar Barreiro/Montijo, EPE",2016.0,4.0,Taxa de GDH ambulatório em procedimentos ambul...,,0.626087,1.10.Percentagem GDH Ambulatório em procedimen...
4,"Centro Hospitalar Barreiro/Montijo, EPE",2016.0,5.0,Taxa de GDH ambulatório em procedimentos ambul...,,0.748879,1.10.Percentagem GDH Ambulatório em procedimen...


In [28]:
df7.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2520 entries, 0 to 1175
Data columns (total 7 columns):
Hospital         2520 non-null object
Ano              2520 non-null float64
Mes              2520 non-null float64
Indicador        2520 non-null object
Sub-indicador    2520 non-null object
Valor            2297 non-null float64
Ficheiro         2520 non-null object
dtypes: float64(3), object(4)
memory usage: 157.5+ KB


### df8

In [29]:
file_path = os.path.join('data', "1.18.+1.19. % Cirurgias.xlsx")
sheet_name = "Cirurgias_1.18_1.19"

df8 = pd.read_excel(file_path, sheet_name=sheet_name, header = [0,1])

df8 = df8.stack(level=0)
df8 = df8.iloc[:,[0,1,2]]

df8 = df8.reset_index()

df8.columns = ['Hospital', 
               'data', 
               'Percentagem de cirurgias urgentes', 
               'Percentagem de cirurgias programadas feitas na produção adicional',
               'Percentagem de cirurgias programadas feitas na produção base']



df8['Ano'] = df8.data.dt.year
df8['Mes'] = df8.data.dt.month

df8 = df8.drop(columns='data')

df8 = df8.set_index( ['Ano', 'Mes', 'Hospital'])

df8 = df8.stack().to_frame()

df8.columns = ['Valor']

df8 = df8.reset_index()

df8 = df8.rename(columns={'level_3':'Indicador'})

df8['Sub-indicador'] = ""

df8['Ficheiro'] = "1.18.+1.19. % Cirurgias.xlsx"

df8 = df8[['Hospital', 'Ano', 'Mes', 'Indicador', 'Sub-indicador', 'Valor', 'Ficheiro']]


In [30]:
df8.head()

Unnamed: 0,Hospital,Ano,Mes,Indicador,Sub-indicador,Valor,Ficheiro
0,"Hospital Espírito Santo de Évora, EPE",2015,1,Percentagem de cirurgias urgentes,,0.150327,1.18.+1.19. % Cirurgias.xlsx
1,"Hospital Espírito Santo de Évora, EPE",2015,1,Percentagem de cirurgias programadas feitas na...,,0.267974,1.18.+1.19. % Cirurgias.xlsx
2,"Hospital Espírito Santo de Évora, EPE",2015,1,Percentagem de cirurgias programadas feitas na...,,0.581699,1.18.+1.19. % Cirurgias.xlsx
3,"Hospital Espírito Santo de Évora, EPE",2015,2,Percentagem de cirurgias urgentes,,0.140582,1.18.+1.19. % Cirurgias.xlsx
4,"Hospital Espírito Santo de Évora, EPE",2015,2,Percentagem de cirurgias programadas feitas na...,,0.250412,1.18.+1.19. % Cirurgias.xlsx


In [31]:
df8.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7740 entries, 0 to 7739
Data columns (total 7 columns):
Hospital         7740 non-null object
Ano              7740 non-null int64
Mes              7740 non-null int64
Indicador        7740 non-null object
Sub-indicador    7740 non-null object
Valor            7740 non-null float64
Ficheiro         7740 non-null object
dtypes: float64(1), int64(2), object(4)
memory usage: 423.4+ KB


### df9

In [32]:
file_path = os.path.join('data', "1.5.Taxa_de_Cirurgias de ambulatório, por especialidade_2014_2019.xlsx")
sheet_name = "1.5.Tx_Cir.Amb_especiali_18_19"

df9 = pd.DataFrame({'Hospital': [], 'Ano':[] , 'Mes':[] , 'Indicador':[] , 'Sub-indicador':[] , 'Valor':[], 'Ficheiro':[]})
df_aux = None

for sheet in [0,1,2]:
    
    df_aux = pd.read_excel(file_path, sheet_name=sheet, header = [0,1])

    df_aux = df_aux.stack(level=0)

    df_aux = df_aux.loc[:,['Total s/ Medicina do Trabalho']]

    df_aux['Indicador'] = "Taxa de cirurgias de ambulatório"

    df_aux = df_aux.rename(columns={'Total s/ Medicina do Trabalho':'Valor'})

    df_aux = df_aux.reset_index()


    df_aux = df_aux.rename(columns={'level_0':'Hospital', 'level_1':'data'})

    df_aux['Ano'] = df_aux.data.dt.year
    df_aux['Mes'] = df_aux.data.dt.month

    df_aux = df_aux.drop(columns='data')

    df_aux['Sub-indicador'] = ""
    
    df_aux['Ficheiro'] = "1.5.Taxa_de_Cirurgias de ambulatório, por especialidade_2014_2019.xlsx"

    df_aux = df_aux[['Hospital', 'Ano', 'Mes', 'Indicador', 'Sub-indicador', 'Valor', 'Ficheiro']]
    
    df9 = df9.append(df_aux)
    df_aux = None


In [33]:
df9.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3095 entries, 0 to 1031
Data columns (total 7 columns):
Hospital         3095 non-null object
Ano              3095 non-null float64
Mes              3095 non-null float64
Indicador        3095 non-null object
Sub-indicador    3095 non-null object
Valor            3095 non-null float64
Ficheiro         3095 non-null object
dtypes: float64(3), object(4)
memory usage: 193.4+ KB


### df10

In [34]:
file_path = os.path.join('data', "1.6.Taxa de ocupação de Bloco Operatório_2014_2019.xlsx")

df10 = pd.DataFrame({'Hospital': [], 'Ano':[] , 'Mes':[] , 'Indicador':[] , 'Sub-indicador':[] , 'Valor':[], 'Ficheiro':[]})
df_aux = None

for sheet in [0,1,2]:
    
    df_aux = pd.read_excel(file_path, sheet_name=sheet, header=0)
    
    df_aux = df_aux.rename(columns={'Instituição':'Hospital', 'Mês':'Mes'})
    
    df_aux['Indicador'] = "Taxa de ocupação de bloco operatório"
    df_aux['Sub-indicador'] = ""
    
    df_aux['Ficheiro'] = "1.6.Taxa de ocupação de Bloco Operatório_2014_2019.xlsx"

    df_aux = df_aux[['Hospital', 'Ano', 'Mes', 'Indicador', 'Sub-indicador', 'Valor', 'Ficheiro']]
    
    df10 = df10.append(df_aux)
    df_aux = None


In [35]:
df10.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3843 entries, 0 to 1154
Data columns (total 7 columns):
Hospital         3843 non-null object
Ano              3843 non-null float64
Mes              3843 non-null float64
Indicador        3843 non-null object
Sub-indicador    3843 non-null object
Valor            1005 non-null float64
Ficheiro         3843 non-null object
dtypes: float64(3), object(4)
memory usage: 240.2+ KB


In [36]:
df10.head()

Unnamed: 0,Hospital,Ano,Mes,Indicador,Sub-indicador,Valor,Ficheiro
0,"Centro Hospitalar Barreiro/Montijo, EPE",2014.0,1.0,Taxa de ocupação de bloco operatório,,,1.6.Taxa de ocupação de Bloco Operatório_2014_...
1,"Centro Hospitalar Barreiro/Montijo, EPE",2014.0,2.0,Taxa de ocupação de bloco operatório,,,1.6.Taxa de ocupação de Bloco Operatório_2014_...
2,"Centro Hospitalar Barreiro/Montijo, EPE",2014.0,3.0,Taxa de ocupação de bloco operatório,,,1.6.Taxa de ocupação de Bloco Operatório_2014_...
3,"Centro Hospitalar Barreiro/Montijo, EPE",2014.0,4.0,Taxa de ocupação de bloco operatório,,,1.6.Taxa de ocupação de Bloco Operatório_2014_...
4,"Centro Hospitalar Barreiro/Montijo, EPE",2014.0,5.0,Taxa de ocupação de bloco operatório,,,1.6.Taxa de ocupação de Bloco Operatório_2014_...


### df11

In [37]:
file_path = os.path.join('data', "1.7.Taxa de Ocupação do Internamento.xlsx")
sheet_name = "Tx ocupação"

df11 = pd.read_excel(file_path, sheet_name=sheet_name)

df11 = df11.rename(columns={'Mês':'Mes'})

df11 =  df11.set_index(['Ano', 'Mes'])

df11= df11.stack().to_frame()

df11.columns = ['Valor']

df11 = df11.reset_index()

df11 = df11.rename(columns={'level_2':'Hospital'})

df11['Indicador'] = "Taxa de ocupação do internamento"
df11['Sub-indicador'] = ""

df11['Ficheiro'] = "1.7.Taxa de Ocupação do Internamento.xlsx"

df11 = df11[['Hospital', 'Ano', 'Mes', 'Indicador', 'Sub-indicador', 'Valor', 'Ficheiro']]



In [38]:
df11.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3525 entries, 0 to 3524
Data columns (total 7 columns):
Hospital         3525 non-null object
Ano              3525 non-null int64
Mes              3525 non-null object
Indicador        3525 non-null object
Sub-indicador    3525 non-null object
Valor            3525 non-null object
Ficheiro         3525 non-null object
dtypes: int64(1), object(6)
memory usage: 192.9+ KB


In [39]:
df11.head()

Unnamed: 0,Hospital,Ano,Mes,Indicador,Sub-indicador,Valor,Ficheiro
0,"Unidade Local de Saúde do Litoral Alentejano, EPE",2014,Janeiro,Taxa de ocupação do internamento,,0.948,1.7.Taxa de Ocupação do Internamento.xlsx
1,"Hospital Espírito Santo de Évora, EPE",2014,Janeiro,Taxa de ocupação do internamento,,0.731,1.7.Taxa de Ocupação do Internamento.xlsx
2,"Unidade Local de Saúde do Norte Alentejano, EPE",2014,Janeiro,Taxa de ocupação do internamento,,0.907,1.7.Taxa de Ocupação do Internamento.xlsx
3,"Unidade Local de Saúde do Baixo Alentejo, EPE",2014,Janeiro,Taxa de ocupação do internamento,,0.796,1.7.Taxa de Ocupação do Internamento.xlsx
4,"Centro Hospitalar Universitário do Algarve, EPE",2014,Janeiro,Taxa de ocupação do internamento,,0.88,1.7.Taxa de Ocupação do Internamento.xlsx


### df12

In [40]:
file_path = os.path.join('data', "1.3.2. %_Ep_acima_limiar_máximo.xlsx")

df12 = pd.DataFrame({'Hospital': [], 'Ano':[] , 'Mes':[] , 'Indicador':[] , 'Sub-indicador':[] , 'Valor':[], 'Ficheiro':[]})
df_aux = None

for sheet in [0,1,2,3,4,5]:

    df_aux = pd.read_excel(file_path, sheet_name=sheet, header=[0,1,2])

    df_aux.columns = df_aux.columns.droplevel(0)

    df_aux = df_aux.stack(level=0)

    df_aux['Valor'] = df_aux.Num/df_aux.Den

    df_aux = df_aux.drop(columns=['Den', 'Num'])

    df_aux = df_aux.reset_index()

    df_aux = df_aux.rename(columns={'level_0':'Hospital', 'level_1':'data'})

    df_aux['data'] = df_aux['data'].astype(str)

    df_aux['Ano'] = df_aux['data'].str.slice(start=0, stop=4)
    df_aux['Mes'] = df_aux['data'].str.slice(start=4)

    df_aux.columns.name = ""

    df_aux = df_aux.drop(columns="data")

    df_aux['Indicador'] = "Taxa de episódios com duração de internamento acima do limiar máximo"
    df_aux['Sub-indicador'] = ""

    df_aux['Ficheiro'] = "1.3.2. %_Ep_acima_limiar_máximo.xlsx"

    df_aux = df_aux[['Hospital', 'Ano', 'Mes', 'Indicador', 'Sub-indicador', 'Valor', 'Ficheiro']]
    
    df12 = df12.append(df_aux)
    df_aux = None



In [41]:
df12.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3632 entries, 0 to 560
Data columns (total 7 columns):
Hospital         3632 non-null object
Ano              3632 non-null object
Mes              3632 non-null object
Indicador        3632 non-null object
Sub-indicador    3632 non-null object
Valor            3317 non-null float64
Ficheiro         3632 non-null object
dtypes: float64(1), object(6)
memory usage: 227.0+ KB


In [42]:
df12.head()

Unnamed: 0,Hospital,Ano,Mes,Indicador,Sub-indicador,Valor,Ficheiro
0,"Centro Hospitalar Barreiro/Montijo, EPE",2014,1,Taxa de episódios com duração de internamento ...,,0.021795,1.3.2. %_Ep_acima_limiar_máximo.xlsx
1,"Centro Hospitalar Barreiro/Montijo, EPE",2014,2,Taxa de episódios com duração de internamento ...,,0.019079,1.3.2. %_Ep_acima_limiar_máximo.xlsx
2,"Centro Hospitalar Barreiro/Montijo, EPE",2014,3,Taxa de episódios com duração de internamento ...,,0.016522,1.3.2. %_Ep_acima_limiar_máximo.xlsx
3,"Centro Hospitalar Barreiro/Montijo, EPE",2014,4,Taxa de episódios com duração de internamento ...,,0.018311,1.3.2. %_Ep_acima_limiar_máximo.xlsx
4,"Centro Hospitalar Barreiro/Montijo, EPE",2014,5,Taxa de episódios com duração de internamento ...,,0.01981,1.3.2. %_Ep_acima_limiar_máximo.xlsx


### df13

In [43]:
file_path = os.path.join('data', "1.20.Número e % de MCDT requisitados pelo exterior;.xlsx")
sheet_name = "mcdt total"

df13 = pd.read_excel(file_path, sheet_name=sheet_name)

df13 = df13.loc[df13.D=="Total Serviços",:]

df13['Ano'] = df13.C.str.slice(start=-4)
df13['Mes'] = df13.C.str.slice(start=1, stop=3).astype(int)*3

df13 = df13.drop(columns=['B', 'C', 'D'])

df13 =  df13.set_index(['Ano', 'Mes'])

df13= df13.stack().to_frame()

df13.columns = ['Valor']

df13 = df13.reset_index()

df13 = df13.rename(columns={'level_2':'Hospital'})

df13['Indicador'] = "Número total de MCDT's (dentro da estrutura)"
df13['Sub-indicador'] = ""

df13['Ficheiro'] = "1.20.Número e % de MCDT requisitados pelo exterior;.xlsx"

df13 = df13[['Hospital', 'Ano', 'Mes', 'Indicador', 'Sub-indicador', 'Valor', 'Ficheiro']]



In [44]:
df13.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 977 entries, 0 to 976
Data columns (total 7 columns):
Hospital         977 non-null object
Ano              977 non-null object
Mes              977 non-null int64
Indicador        977 non-null object
Sub-indicador    977 non-null object
Valor            977 non-null float64
Ficheiro         977 non-null object
dtypes: float64(1), int64(1), object(5)
memory usage: 53.5+ KB


In [45]:
df13.head()

Unnamed: 0,Hospital,Ano,Mes,Indicador,Sub-indicador,Valor,Ficheiro
0,"Hospital Espírito Santo de Évora, EPE",2014,3,Número total de MCDT's (dentro da estrutura),,765091.0,1.20.Número e % de MCDT requisitados pelo exte...
1,"Unidade Local de Saúde do Baixo Alentejo, EPE",2014,3,Número total de MCDT's (dentro da estrutura),,367881.0,1.20.Número e % de MCDT requisitados pelo exte...
2,"Unidade Local de Saúde do Litoral Alentejano, EPE",2014,3,Número total de MCDT's (dentro da estrutura),,292340.0,1.20.Número e % de MCDT requisitados pelo exte...
3,"Unidade Local de Saúde do Norte Alentejano, EPE",2014,3,Número total de MCDT's (dentro da estrutura),,572916.0,1.20.Número e % de MCDT requisitados pelo exte...
4,"Centro Hospitalar Universitário do Algarve, EPE",2014,3,Número total de MCDT's (dentro da estrutura),,913324.0,1.20.Número e % de MCDT requisitados pelo exte...


### df14

In [46]:
file_path = os.path.join('data', "1.20.Número e % de MCDT requisitados pelo exterior;.xlsx")
sheet_name = "prct mcdt ext"

df14 = pd.read_excel(file_path, sheet_name=sheet_name)

df14['Ano'] = df14.D.str.slice(start=-4)
df14['Mes'] = df14.D.str.slice(start=1, stop=3).astype(int)*3

df14 = df14.drop(columns=['B', 'C', 'D'])

df14 =  df14.set_index(['Ano', 'Mes'])

df14= df14.stack().to_frame()

df14.columns = ['Valor']

df14 = df14.reset_index()

df14 = df14.rename(columns={'level_2':'Hospital'})

df14['Indicador'] = "Percentagem de MCDT's requisitados pelo exterior"
df14['Sub-indicador'] = ""

df14['Ficheiro'] = "1.20.Número e % de MCDT requisitados pelo exterior;.xlsx"

df14 = df14[['Hospital', 'Ano', 'Mes', 'Indicador', 'Sub-indicador', 'Valor', 'Ficheiro']]



In [47]:
df14.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 977 entries, 0 to 976
Data columns (total 7 columns):
Hospital         977 non-null object
Ano              977 non-null object
Mes              977 non-null int64
Indicador        977 non-null object
Sub-indicador    977 non-null object
Valor            977 non-null float64
Ficheiro         977 non-null object
dtypes: float64(1), int64(1), object(5)
memory usage: 53.5+ KB


In [48]:
df14.head()

Unnamed: 0,Hospital,Ano,Mes,Indicador,Sub-indicador,Valor,Ficheiro
0,"Hospital Espírito Santo de Évora, EPE",2014,3,Percentagem de MCDT's requisitados pelo exterior,,0.0744,1.20.Número e % de MCDT requisitados pelo exte...
1,"Unidade Local de Saúde do Baixo Alentejo, EPE",2014,3,Percentagem de MCDT's requisitados pelo exterior,,0.167288,1.20.Número e % de MCDT requisitados pelo exte...
2,"Unidade Local de Saúde do Litoral Alentejano, EPE",2014,3,Percentagem de MCDT's requisitados pelo exterior,,0.190347,1.20.Número e % de MCDT requisitados pelo exte...
3,"Unidade Local de Saúde do Norte Alentejano, EPE",2014,3,Percentagem de MCDT's requisitados pelo exterior,,0.266545,1.20.Número e % de MCDT requisitados pelo exte...
4,"Centro Hospitalar Universitário do Algarve, EPE",2014,3,Percentagem de MCDT's requisitados pelo exterior,,0.0,1.20.Número e % de MCDT requisitados pelo exte...


### df15

In [111]:
file_path = os.path.join('data', "Total Indicadores.xlsx")

df15 = pd.read_excel(file_path)

df15['Ficheiro'] = "Total Indicadores.xlsx"

df15 = df15.reset_index(drop=True)

In [113]:
df15.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54164 entries, 0 to 54163
Data columns (total 7 columns):
Hospital         54164 non-null object
Ano              54164 non-null int64
Mes              54164 non-null int64
Indicador        54164 non-null object
Sub-indicador    0 non-null float64
Valor            52605 non-null float64
Ficheiro         54164 non-null object
dtypes: float64(2), int64(2), object(3)
memory usage: 2.9+ MB


In [110]:
df15.head()

Unnamed: 0,Hospital,Ano,Mês,Indicador,Sub-indicador,Valor,Ficheiro
0,"Unidade Local de Saúde do Norte Alentejano, EPE",2014,1,Total de episódios de urgência,,8714.0,Total Indicadores.xlsx
1,"Centro Hospitalar e Universitário de Coimbra, EPE",2014,1,Total de episódios de urgência,,24072.0,Total Indicadores.xlsx
2,"Hospital Garcia de Orta, EPE",2014,1,Total de episódios de urgência,,12920.0,Total Indicadores.xlsx
3,"Centro Hospitalar Universitário do Porto, EPE",2014,1,Total de episódios de urgência,,11324.0,Total Indicadores.xlsx
4,"Centro Hospitalar Entre Douro e Vouga, EPE",2014,1,Total de episódios de urgência,,15633.0,Total Indicadores.xlsx


# Append all dataframes

In [114]:
df_list = [df1, df2, df3, df4, df5, df6, df7, df8, df9, df10, df11, df12, df13, df14, df15]

#df_list = [var for var in dir() if type(var) is str and var[:2]=='df' and var[2].isnumeric() and var != "df_aux"]

df_all = pd.DataFrame({'Hospital': [], 'Ano':[] , 'Mes':[] , 'Indicador':[] , 'Sub-indicador':[] , 'Valor':[], 'Ficheiro':[]})

for dfi in df_list:
    df_all = df_all.append(dfi)


df_all = df_all.reset_index(drop=True)

In [115]:
df_all.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119402 entries, 0 to 119401
Data columns (total 7 columns):
Hospital         118838 non-null object
Ano              119402 non-null object
Mes              119402 non-null object
Indicador        119402 non-null object
Sub-indicador    65238 non-null object
Valor            114387 non-null object
Ficheiro         119402 non-null object
dtypes: object(7)
memory usage: 6.4+ MB


In [116]:
df_all

Unnamed: 0,Hospital,Ano,Mes,Indicador,Sub-indicador,Valor,Ficheiro
0,"Centro Hospitalar Barreiro/Montijo, EPE",2014,1,Número de doentes saídos por cama/mês,,86.6154,1.8.Doentes Saidos por cama_mês.xlsx
1,"Centro Hospitalar Barreiro/Montijo, EPE",2014,2,Número de doentes saídos por cama/mês,,2.97183,1.8.Doentes Saidos por cama_mês.xlsx
2,"Centro Hospitalar Barreiro/Montijo, EPE",2014,3,Número de doentes saídos por cama/mês,,3.12958,1.8.Doentes Saidos por cama_mês.xlsx
3,"Centro Hospitalar Barreiro/Montijo, EPE",2014,4,Número de doentes saídos por cama/mês,,2.90936,1.8.Doentes Saidos por cama_mês.xlsx
4,"Centro Hospitalar Barreiro/Montijo, EPE",2014,5,Número de doentes saídos por cama/mês,,3.12573,1.8.Doentes Saidos por cama_mês.xlsx
5,"Centro Hospitalar Barreiro/Montijo, EPE",2014,6,Número de doentes saídos por cama/mês,,3.03509,1.8.Doentes Saidos por cama_mês.xlsx
6,"Centro Hospitalar Barreiro/Montijo, EPE",2014,7,Número de doentes saídos por cama/mês,,2.95322,1.8.Doentes Saidos por cama_mês.xlsx
7,"Centro Hospitalar Barreiro/Montijo, EPE",2014,8,Número de doentes saídos por cama/mês,,2.87135,1.8.Doentes Saidos por cama_mês.xlsx
8,"Centro Hospitalar Barreiro/Montijo, EPE",2014,9,Número de doentes saídos por cama/mês,,2.76023,1.8.Doentes Saidos por cama_mês.xlsx
9,"Centro Hospitalar Barreiro/Montijo, EPE",2014,10,Número de doentes saídos por cama/mês,,3.22515,1.8.Doentes Saidos por cama_mês.xlsx


# Clean Values

In [117]:
df_clean = df_all.copy()

In [118]:
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119402 entries, 0 to 119401
Data columns (total 7 columns):
Hospital         118838 non-null object
Ano              119402 non-null object
Mes              119402 non-null object
Indicador        119402 non-null object
Sub-indicador    65238 non-null object
Valor            114387 non-null object
Ficheiro         119402 non-null object
dtypes: object(7)
memory usage: 6.4+ MB


#### Converte 'Ano' para numérico

In [119]:
df_clean['Ano'] = pd.to_numeric(df_clean['Ano'], errors='raise', downcast='integer')

#### Converte 'Mes' para numérico

In [120]:
map_dict = ({'Janeiro': 1, 
             'Fevereiro': 2,
             'Março': 3,
             'Abril': 4,
             'Maio': 5,
             'Junho': 6,
             'Julho': 7,
             'Agosto': 8,
             'Setembro': 9,
             'Outubro': 10,
             'Novembro': 11,
             'Dezembro':12})

df_clean['Mes'] = df_clean['Mes'].replace(to_replace=map_dict)

df_clean['Mes'] = pd.to_numeric(df_clean['Mes'], errors='raise', downcast='integer')

#### Elimina linhas sem descrição do Hospital

In [121]:
df_clean['Hospital'].isna().sum()

564

In [123]:
df_clean = df_clean.dropna(axis=0, subset=['Hospital'])

#### Elimina caracteres não numéricos da coluna 'Valor'

In [124]:
df_clean['Valor'].isna().sum()

5015

In [126]:
df_clean = df_clean.dropna(axis=0, subset=['Valor'])

In [127]:
df_clean['Valor'] = df_clean['Valor'].astype(str).str.replace(r'%', r'',regex=True)

In [128]:
df_clean['Valor'] = df_clean['Valor'].astype(str).str.replace(r',', r'.',regex=True)

In [129]:
df_clean['Valor'] = pd.to_numeric(df_clean['Valor'], errors='raise')

In [133]:
#df_clean.to_excel("Dados consolidados.xlsx", index=False)

# Indicadores calculados

In [131]:
df_aux = df_clean.copy()

In [134]:
df_aux.Indicador.unique()

array(['Número de doentes saídos por cama/mês',
       'Mediana do tempo de espera da LIC',
       'Percentagem de utentes em LIC dentro do TMRG',
       'Média do tempo de espera dos operados',
       'Percentagem de doentes operados dentro dos TMRG',
       'Taxa de disponibilidade do bloco operatório',
       'Número de cirurgias por especialista de cirurgia',
       'Número de cirurgias por anestesiologista',
       'Índice de demora média ajustada',
       'Mediana do tempo de espera da LEC',
       'Taxa de consultas realizadas via CTH',
       "MCDT's realizados dentro da estrutura",
       "MCDT's realizados fora da estrutura",
       'Taxa de GDH ambulatório em procedimentos ambulatorizáveis',
       'Percentagem de cirurgias urgentes',
       'Percentagem de cirurgias programadas feitas na produção adicional',
       'Percentagem de cirurgias programadas feitas na produção base',
       'Taxa de cirurgias de ambulatório',
       'Taxa de ocupação de bloco operatório',
       

In [136]:
df_ocupacao = df_aux[df_aux.Indicador == "Taxa de ocupação de bloco operatório"]
df_ocupacao

Unnamed: 0,Hospital,Ano,Mes,Indicador,Sub-indicador,Valor,Ficheiro
52289,"Centro Hospitalar Barreiro/Montijo, EPE",2014,6,Taxa de ocupação de bloco operatório,,0.527273,1.6.Taxa de ocupação de Bloco Operatório_2014_...
52292,"Centro Hospitalar Barreiro/Montijo, EPE",2014,9,Taxa de ocupação de bloco operatório,,0.433333,1.6.Taxa de ocupação de Bloco Operatório_2014_...
52295,"Centro Hospitalar Barreiro/Montijo, EPE",2014,12,Taxa de ocupação de bloco operatório,,0.540606,1.6.Taxa de ocupação de Bloco Operatório_2014_...
52298,"Centro Hospitalar Barreiro/Montijo, EPE",2015,3,Taxa de ocupação de bloco operatório,,0.548788,1.6.Taxa de ocupação de Bloco Operatório_2014_...
52301,"Centro Hospitalar Barreiro/Montijo, EPE",2015,6,Taxa de ocupação de bloco operatório,,0.530909,1.6.Taxa de ocupação de Bloco Operatório_2014_...
52304,"Centro Hospitalar Barreiro/Montijo, EPE",2015,9,Taxa de ocupação de bloco operatório,,0.476364,1.6.Taxa de ocupação de Bloco Operatório_2014_...
52307,"Centro Hospitalar Barreiro/Montijo, EPE",2015,12,Taxa de ocupação de bloco operatório,,0.435424,1.6.Taxa de ocupação de Bloco Operatório_2014_...
52313,"Centro Hospitalar de Leiria, EPE",2014,6,Taxa de ocupação de bloco operatório,,0.430652,1.6.Taxa de ocupação de Bloco Operatório_2014_...
52316,"Centro Hospitalar de Leiria, EPE",2014,9,Taxa de ocupação de bloco operatório,,0.446682,1.6.Taxa de ocupação de Bloco Operatório_2014_...
52319,"Centro Hospitalar de Leiria, EPE",2014,12,Taxa de ocupação de bloco operatório,,0.446970,1.6.Taxa de ocupação de Bloco Operatório_2014_...


In [173]:
def hospital_name_clean(string_series, conversion_dict=None):
    
    new_series = string_series.copy()
    
    # Make sure it is a string!
    new_series = new_series.astype(str)
    
    # lowercase
    new_series = new_series.str.lower()
    
    
    # Retira os acentos e cedilhas
    if conversion_dict != None:
        new_series = new_series.str.translate(conversion_dict)
        
    # remove or replace special characters
    new_series = new_series.str.replace(r'[^a-zA-Z0-9]', r' ',regex=True)
    
    
    # remover expressões mais frequentes
    remove_list = [r'\sde\s', 
                   r'\sdo\s', 
                   r'\sda\s', 
                   r'\se\s', 
                   r'hospital\s', 
                   r'^h\s',
                   r'\sh\s',
                   r'ch\s', 
                   r'^c\s',
                   r'\sc\s',
                   r'centro hospitalar',
                   r'unidade local saude',
                   r'distrital',
                   r'uls\s',
                   r'epe\s',
                   r'epe$']
    for word in remove_list:
        new_series = new_series.str.replace(word, ' ',regex=True)
    
    
    # remove or replace special characters
    new_series = new_series.str.replace(r' +', r' ',regex=True)
        
    # Trim
    new_series = new_series.str.strip()
    
    return new_series

In [172]:
hospital_name_clean(nomes_hosp.nome_original, conversion_dict=create_conversion_lower_case_dict())

0                                 medio ave
1                                     oeste
2                   povoa varzim vila conde
3                              figueira foz
4                         santa maria maior
5                               baixo vouga
6                                cova beira
7                                    leiria
8                                   setubal
9                          barreiro montijo
10                               medio tejo
11                        entre douro vouga
12                             tamega sousa
13               senhora oliveira guimaraes
14                                 santarem
15                tras os montes alto douro
16                   vila nova gaia espinho
17                                  algarve
18                            tondela viseu
19                                    braga
20                           espirito santo
21                              garcia orta
22        professor doutor ferna

In [153]:
df_all.Hospital.unique().size

252

In [156]:
series_hospital_name = hospital_name_clean(df_all.Hospital, conversion_dict=create_conversion_lower_case_dict())

In [157]:
series_hospital_name.unique().size

188

In [158]:
series_hospital_name.value_counts(dropna=False)

espirito santo evora                                     2364
tondela viseu                                            2359
castelo branco                                           2356
lisboa ocidental                                         2352
barreiro montijo                                         2351
matosinhos                                               2346
tamega sousa                                             2320
baixo vouga                                              2302
setubal                                                  2295
guarda                                                   2287
oeste                                                    2267
leiria                                                   2223
tras os montes alto douro                                2032
universitario coimbra                                    2028
garcia orta                                              2020
distrital santarem                                       2010
vila nov

In [160]:
series_hospital_name.value_counts(dropna=False).to_excel("nomes_hospitais.xlsx")

In [165]:
nomes_hosp = pd.read_excel("hospitais.xlsx", sheet_name="nome original", header=[0])

In [174]:
hospital_name_clean(nomes_hosp.nome_original, conversion_dict=create_conversion_lower_case_dict()).to_excel("hospitais.xlsx", sheet_name="nome simplificado")

In [170]:
hospital_name_clean(nomes_hosp.nome_original, conversion_dict=create_conversion_lower_case_dict())

0                                 medio ave
1                                     oeste
2                   povoa varzim vila conde
3                    distrital figueira foz
4                         santa maria maior
5                               baixo vouga
6                                cova beira
7                                    leiria
8                                   setubal
9                          barreiro montijo
10                               medio tejo
11                        entre douro vouga
12                             tamega sousa
13               senhora oliveira guimaraes
14                       distrital santarem
15                tras os montes alto douro
16                   vila nova gaia espinho
17                                  algarve
18                            tondela viseu
19                                    braga
20                           espirito santo
21                              garcia orta
22        professor doutor ferna

In [None]:
df_clean[df_clean['Valor'].astype(str).str.contains(r'%', regex=True)]

In [None]:
df_clean['Valor'].astype(str).str.contains(r'[^0-9.,]', regex=True).sum()

In [None]:
df_clean['Valor'] = df_clean['Valor'].astype(str).str.replace(r'[^0-9.,]', r'',regex=True)

In [None]:
df_clean[df_clean['Valor'].astype(str).str.contains(r'[^0-9.,]', regex=True)]

In [None]:
df_clean['Valor'].head()

In [None]:
df_clean['Valor'].astype(str).str.replace(r'[^0-9.,]', r'',regex=True)

In [None]:
df_clean['Valor'].astype(str).str.contains("%").sum()

In [None]:
df_clean['Valor'].str.replace(r'\%', r' ',regex=True)

In [None]:
pd.to_numeric(df_clean['Valor'].str.replace('%', ' ',regex=True), errors='raise')

In [None]:
57686-564

In [None]:
df_clean[df_clean['Valor'].isna()]

In [None]:
df_all.shape

In [None]:
df_all.Hospital.isna().sum()

In [None]:
df_all[df_all.Hospital.isna()]

In [None]:
hospital_name_clean(df_all.Hospital, conversion_dict=create_conversion_lower_case_dict()).isna().sum()

In [None]:
hospital_name_clean(df_all.Hospital, conversion_dict=create_conversion_lower_case_dict()).shape

In [None]:
#df_final.astype({'Ano':int, 'Mes':int})

#df_final.to_excel("Dados consolidados.xlsx", index=False)

In [None]:
print("\u0394")

In [None]:
int("01705", 16)

In [None]:
chr(5893)

In [None]:
print("\u25F0")

In [None]:
print("\u0394")

In [None]:
"andá".encode('ascii', errors="ignore")

In [None]:
str(u'\u2167')

In [None]:
"À".casefold()

In [None]:
"À".lower()

In [None]:
translationTable = str.maketrans("éàèùâêîôûç", "eaeuaeiouc")

In [None]:
chr(int(unicodedata.decomposition("à").split()[0]))

In [None]:
a_chars_list = [chr(c) for c in range(224,231)]
e_chars_list = [chr(c) for c in range(232,236)]
i_chars_list = [chr(c) for c in range(236,240)]
o_chars_list = [chr(c) for c in range(242,247)]
u_chars_list = [chr(c) for c in range(242,247)]

In [None]:
a_chars_list = ['a'] + [chr(c) for c in range(224,231)]
a_chars_list

In [None]:
conversion_dict

In [None]:
a_list = ['a', 'à', 'á', 'â', 'ã', 'ä', 'å', 'æ']

In [None]:
len(''.join(a_list[1:]))

In [None]:
len(a_list[0]*len(a_list[1:]))

In [None]:
a_list = ['a', 'à', 'á', 'â', 'ã', 'ä', 'å', 'æ']
str.maketrans(''.join(a_list[1:]), a_list[0]*len(a_list[1:]))

In [None]:
create_conversion_lower_case_dict()

In [None]:
ord('ñ')

In [None]:
list(map(chr, range(256)))