In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('dados_pacientes.csv')

In [3]:
df.head()

Unnamed: 0,Sexo,Idade,Diagnóstico,Data de Admissão,Tempo de Internação (dias),Custo do Tratamento,Mês de Admissão,Data da Alta
0,Masculino,48,COVID-19,2024-07-01,12,1281.68,7,2024-07-13
1,Masculino,29,Pneumonia,2024-11-01,10,1189.73,11,2024-11-11
2,Feminino,68,Infecção Urinária,2024-08-02,1,2609.73,8,2024-08-03
3,Feminino,53,Fratura,2024-08-14,6,2634.81,8,2024-08-20
4,Feminino,22,Infecção Urinária,2024-06-07,15,4740.54,6,2024-06-22


## 1. Qual é o custo médio de tratamento por diagnóstico?

In [4]:
custo_medio_dig = df.groupby('Diagnóstico')["Custo do Tratamento"].mean()
custo_medio_dig

Diagnóstico
COVID-19                    3106.010812
Diabetes                    3048.242749
Doenças Cardiovasculares    2834.947865
Fratura                     2889.029277
Infecção Urinária           3065.481620
Pneumonia                   3000.763219
Name: Custo do Tratamento, dtype: float64

## 2. Quais são os principais fatores que determinam o tempo de internação dos pacientes?

In [5]:
perfil_maior_int = df.groupby('Diagnóstico')['Tempo de Internação (dias)'].mean().sort_values(ascending = False)
perfil_maior_sexo = df.groupby('Sexo')['Tempo de Internação (dias)'].mean().sort_values(ascending = False)
perfil_maior_idade = df.groupby('Idade')['Tempo de Internação (dias)'].mean().sort_values(ascending = False)

In [6]:
# Principais fatores por tempo de internação
perfil_maior_int

Diagnóstico
Pneumonia                   8.404110
Infecção Urinária           8.357542
Doenças Cardiovasculares    7.949438
Diabetes                    7.929825
COVID-19                    7.868750
Fratura                     7.819277
Name: Tempo de Internação (dias), dtype: float64

In [7]:
# Principal perfil com maior tempo de internação
perfil_maior_sexo

Sexo
Feminino     8.166998
Masculino    7.933602
Name: Tempo de Internação (dias), dtype: float64

In [8]:
# Principais idades com maiores tempo de internação
perfil_maior_idade

Idade
27    10.363636
50    10.055556
80    10.000000
23    10.000000
29     9.812500
        ...    
70     6.529412
82     6.500000
68     6.470588
24     5.200000
41     4.300000
Name: Tempo de Internação (dias), Length: 68, dtype: float64

## 3. Existe uma correlação entre o custo do tratamento e a idade dos pacientes? Pacientes mais velhos têm tratamentos mais caros?

In [9]:
# Correlação entre o custo do treinamento e a idade dos pacientes
custo_por_paciente = df.groupby('Idade')['Custo do Tratamento'].mean().sort_values(ascending = False)
custo_por_paciente

Idade
77    3707.965333
42    3684.703000
81    3664.150000
18    3626.145000
43    3385.077500
         ...     
22    2500.370000
20    2469.723636
54    2408.563571
27    2324.573636
31    2193.545000
Name: Custo do Tratamento, Length: 68, dtype: float64

## 4. Quais diagnósticos estão associados a uma maior taxa de internação prolongada (mais de 7 dias)?

In [10]:
# Diagnósticos com maiores taxas de internação (mais de 7 dias)
internacoes_longas = df[df['Tempo de Internação (dias)'] > 7]
diagnostico_longas_internacoes = internacoes_longas['Diagnóstico'].value_counts()
print(diagnostico_longas_internacoes)

Diagnóstico
Infecção Urinária           99
Doenças Cardiovasculares    96
Diabetes                    94
Fratura                     90
Pneumonia                   83
COVID-19                    82
Name: count, dtype: int64


## 5. Qual a distribuição de diagnósticos entre pacientes masculinos e femininos?

In [11]:
# Primeira forma de responder
distribuicao_pacientes = df.groupby('Sexo')['Diagnóstico'].value_counts()
distribuicao_pacientes

Sexo       Diagnóstico             
Feminino   Infecção Urinária           96
           Doenças Cardiovasculares    89
           Fratura                     89
           Diabetes                    78
           COVID-19                    77
           Pneumonia                   74
Masculino  Diabetes                    93
           Doenças Cardiovasculares    89
           COVID-19                    83
           Infecção Urinária           83
           Fratura                     77
           Pneumonia                   72
Name: count, dtype: int64

In [12]:
# Segunda forma de responder
distribuicao_sexo_diagnostico = df.groupby(['Sexo', 'Diagnóstico']).size().unstack()
print(distribuicao_sexo_diagnostico)

Diagnóstico  COVID-19  Diabetes  Doenças Cardiovasculares  Fratura  \
Sexo                                                                 
Feminino           77        78                        89       89   
Masculino          83        93                        89       77   

Diagnóstico  Infecção Urinária  Pneumonia  
Sexo                                       
Feminino                    96         74  
Masculino                   83         72  


## 6. Quais meses do ano têm mais admissões hospitalares? Existem períodos de pico?

In [13]:
# Meses do ano com mais admissões hospitalares
df['Mês de Admissão'] = pd.to_datetime(df['Data de Admissão']).dt.month
admissões_por_mes = df.groupby('Mês de Admissão').size()
print(admissões_por_mes)

Mês de Admissão
1      73
2      68
3      86
4      72
5     101
6      79
7      86
8      88
9      85
10     75
11     91
12     96
dtype: int64


In [14]:
# Imprimir
df.head()

Unnamed: 0,Sexo,Idade,Diagnóstico,Data de Admissão,Tempo de Internação (dias),Custo do Tratamento,Mês de Admissão,Data da Alta
0,Masculino,48,COVID-19,2024-07-01,12,1281.68,7,2024-07-13
1,Masculino,29,Pneumonia,2024-11-01,10,1189.73,11,2024-11-11
2,Feminino,68,Infecção Urinária,2024-08-02,1,2609.73,8,2024-08-03
3,Feminino,53,Fratura,2024-08-14,6,2634.81,8,2024-08-20
4,Feminino,22,Infecção Urinária,2024-06-07,15,4740.54,6,2024-06-22


## 7. Existe uma diferença significativa no custo do tratamento entre os sexos?

In [15]:
# Soma do custo de tratamento por sexo
custo_sexo = df.groupby('Sexo')['Custo do Tratamento'].sum()
custo_sexo

Sexo
Feminino     1494217.34
Masculino    1495026.12
Name: Custo do Tratamento, dtype: float64

In [16]:
# Média do custo de tratamento por sexo
custo_medio_por_sexo = df.groupby('Sexo')['Custo do Tratamento'].mean()
print(custo_medio_por_sexo)

Sexo
Feminino     2970.611014
Masculino    3008.100845
Name: Custo do Tratamento, dtype: float64


## 8. Qual é o custo médio de tratamento e o tempo médio de internação para pacientes com mais de 70 anos?

In [17]:
# Custo médio de tratamento e tempo médio de internação
pacientes_maior_70 = df[df['Idade'] > 70]
custo_medio_70 = pacientes_maior_70['Custo do Tratamento'].mean()
tempo_medio_70 = pacientes_maior_70['Tempo de Internação (dias)'].mean()
print(f'Custo médio de tratamento: R${custo_medio_70:.2f}')
print(f'Tempo médio de internação: {tempo_medio_70:.2f} dias')

Custo médio de tratamento: R$2989.86
Tempo médio de internação: 8.12 dias


## 9. Quais características dos pacientes estão associadas a uma alta probabilidade de internação longa?

In [18]:
# Distribuição Estatística
internos_prolongados = df[df['Tempo de Internação (dias)'] > 7]
caracteristicas = internos_prolongados[['Sexo', 'Idade', 'Diagnóstico', 'Custo do Tratamento']]
print(caracteristicas.describe())

            Idade  Custo do Tratamento
count  544.000000           544.000000
mean    53.231618          3010.970184
std     19.201597          1151.947883
min     18.000000          1000.790000
25%     37.000000          2033.835000
50%     53.000000          3006.615000
75%     71.000000          4011.175000
max     85.000000          4992.920000


## 10. Quais diagnósticos têm maior tempo de internação e custo? Como podemos otimizar esses tratamentos?

In [19]:
# Dianósticos com maior tempo de internação e custo
diagnostico_maior_custo = df.groupby('Diagnóstico')['Tempo de Internação (dias)'].sum().sort_values(ascending = False)
diagnostico_maior_custo

Diagnóstico
Infecção Urinária           1496
Doenças Cardiovasculares    1415
Diabetes                    1356
Fratura                     1298
COVID-19                    1259
Pneumonia                   1227
Name: Tempo de Internação (dias), dtype: int64

In [20]:
# Garantir que a coluna 'Data de Admissão' seja do tipo datetime
df['Data de Admissão'] = pd.to_datetime(df['Data de Admissão'])

# Criar a nova coluna 'Data da Alta' somando o 'Tempo de Internação (dias)' à 'Data de Admissão'
df['Data da Alta'] = df['Data de Admissão'] + pd.to_timedelta(df['Tempo de Internação (dias)'], unit='D')

# Imprimir
df.head()

Unnamed: 0,Sexo,Idade,Diagnóstico,Data de Admissão,Tempo de Internação (dias),Custo do Tratamento,Mês de Admissão,Data da Alta
0,Masculino,48,COVID-19,2024-07-01,12,1281.68,7,2024-07-13
1,Masculino,29,Pneumonia,2024-11-01,10,1189.73,11,2024-11-11
2,Feminino,68,Infecção Urinária,2024-08-02,1,2609.73,8,2024-08-03
3,Feminino,53,Fratura,2024-08-14,6,2634.81,8,2024-08-20
4,Feminino,22,Infecção Urinária,2024-06-07,15,4740.54,6,2024-06-22


In [21]:
# "pd.to_timedelta()" é uma função do Pandas que converte uma sequência de números ou valores (como o Tempo de Internação (dias))
# para um delta de tempo, ou seja, uma diferença de tempo (um intervalo).

# unit='D' especifica que o valor a ser transformado em delta de tempo é dado em dias. 

In [22]:
# Salvar o dataset
df.to_csv('dados_pacientes.csv', index = False)