In [192]:
# importando bibliotecas

# numericas
import numpy as np

# manipulacao de dados
import pandas as pd

# graficas
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# utilidades
# from google.colab import drive

import warnings
warnings.filterwarnings('ignore')

from collections import Counter

In [193]:
# Carregando Dados
df = pd.read_csv('https://raw.githubusercontent.com/ImagineDogs/TranstornosMentais/main/dados/df_cid10.csv')

In [194]:
# Filtra as colunas de datas no DataFrame e as converte para o formato de data
datas = df.filter(regex=('data')).columns
for data in datas:
  df[data] = pd.to_datetime(df[data]
                              .astype(str)
                              .apply(lambda x: x.split()[0]),
                              format='%Y-%m-%d')

In [195]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8755 entries, 0 to 8754
Data columns (total 84 columns):
 #   Column                            Non-Null Count  Dtype         
---  ------                            --------------  -----         
 0   data_internacao_real              8755 non-null   datetime64[ns]
 1   data_cadastro                     8653 non-null   datetime64[ns]
 2   sexo                              8755 non-null   object        
 3   data_nascimento                   8422 non-null   datetime64[ns]
 4   uf                                8755 non-null   object        
 5   municipio                         8755 non-null   object        
 6   profissao_ocupacao                8754 non-null   object        
 7   cod_paciente                      8755 non-null   int64         
 8   unidade_cadastro                  8755 non-null   int64         
 9   estado_civil                      8755 non-null   object        
 10  etnia                             8755 non-null 

In [196]:
pacientes_repetidos = list((df['cod_paciente'].value_counts()>1).loc[lambda x : x == True].index)

In [197]:
print(pacientes_repetidos)

[1068, 230, 1426, 1157, 108, 1466, 242, 1389, 81, 1501, 1224, 1331, 103, 70, 6727, 1590, 3247, 188, 3883, 6574, 1755, 1412, 1352, 1672, 1266, 1461, 1613, 677, 4972, 1793, 1623, 2710, 1577, 1555, 298, 5240, 4619, 2441, 1875, 2325, 1004, 1146, 889, 126, 640, 4526, 117, 3046, 4710, 40, 1640, 1264, 362, 224, 4693, 3656, 245, 5227, 2302, 815, 811, 3620, 621, 3174, 296, 6603, 4900, 394, 908, 4976, 152, 2682, 5093, 5868, 2534, 5271, 3704, 1629, 1608, 1556, 1532, 1319, 3860, 3976, 1991, 1226, 5843, 915, 2123, 916, 1405, 3144, 3324, 402, 1612, 4890, 1601, 4783, 324, 1306, 1300, 1429, 1420, 256, 231, 1510, 243, 1480, 1446, 3272, 1522, 1748, 1699, 1202, 6678, 4660, 2203, 928, 2073, 6987, 1956, 784, 2365, 2386, 2396, 1884, 700, 693, 2454, 2463, 1843, 1826, 6914, 1176, 5773, 1194, 1196, 2679, 2163, 213, 3932, 1386, 86, 4542, 97, 3501, 120, 3539, 172, 3566, 2540, 9110, 74, 2631, 2610, 6097, 2513, 1624, 5075, 3556, 2587, 6082, 3553, 2586, 2579, 1643, 1652, 591, 6397, 162, 448, 3063, 4572, 4831, 361, 

In [198]:
# Divide o DataFrame de internações em pacientes repetidos e pacientes únicos
df_repetidos = df[df['cod_paciente'].isin(pacientes_repetidos)]
df_unicos = df[~df['cod_paciente'].isin(pacientes_repetidos)]

# Conta o número de pacientes únicos e repetidos
num_pacientes_repetidos = len(df_repetidos['cod_paciente'].unique())
num_pacientes_unicos = len(df_unicos['cod_paciente'].unique())

# Imprime o número de pacientes únicos e repetidos
print(f"Número de pacientes repetidos: {num_pacientes_repetidos}")
print(f"Número de pacientes únicos: {num_pacientes_unicos}")

Número de pacientes repetidos: 1790
Número de pacientes únicos: 3183


In [201]:
# ~ Observando as internações de um paciente repetido qualquer ~

# Seleciona as colunas de interesse para o paciente 1068
colunas_selecionadas = [
    'idade',
    'data_internacao_real',
    'data_alta',
    'qtd_internacoes',
    'tempo_internado',
    'tempo_internacao',
    'descricao_diagnostico',
    'descricao_seg_diagnostico',
    'descricao_diagnostico_alta',
    'descricao_seg_diagnostico_alta',
    'cid10_faixa',
    'cid10_seg_faixa',
    'cid10_faixa_alta',
    'cid10_seg_faixa_alta'
]

# Filtra o DataFrame para os dados do paciente com código 1068
dados_paciente_1068 = df[df['cod_paciente'] == 1068][colunas_selecionadas]

# Exibe os dados do paciente 1068
dados_paciente_1068


Unnamed: 0,idade,data_internacao_real,data_alta,qtd_internacoes,tempo_internado,tempo_internacao,descricao_diagnostico,descricao_seg_diagnostico,descricao_diagnostico_alta,descricao_seg_diagnostico_alta,cid10_faixa,cid10_seg_faixa,cid10_faixa_alta,cid10_seg_faixa_alta
1297,31.0,2012-10-15,2012-10-19,20,4.0,95.85,Episódios depressivos,Transtornos mentais e comportamentais devidos ...,Transtornos mentais e comportamentais devidos ...,,F30-F39,F10-F19,F10-F19,
1298,31.0,2012-11-26,2013-01-11,20,46.0,1096.883333,Transtornos mentais e comportamentais devidos ...,Episódios depressivos,Transtornos mentais e comportamentais devidos ...,Episódios depressivos,F10-F19,F30-F39,F10-F19,F30-F39
1299,32.0,2013-02-05,2013-05-20,20,104.0,2493.283333,Transtornos mentais e comportamentais devidos ...,Transtornos específicos da personalidade,Transtornos mentais e comportamentais devidos ...,,F10-F19,F60-F69,F10-F19,
1300,32.0,2013-08-20,2013-08-28,20,8.0,189.5,Transtorno depressivo recorrente,Transtornos mentais e comportamentais devidos ...,Transtornos mentais e comportamentais devidos ...,,F30-F39,F10-F19,F10-F19,
1301,32.0,2013-10-03,2013-10-14,20,11.0,258.916667,Transtornos mentais e comportamentais devidos ...,Transtornos mentais e comportamentais devidos ...,Transtornos mentais e comportamentais devidos ...,,F10-F19,F10-F19,F10-F19,
1302,32.0,2013-11-27,2013-12-03,20,6.0,138.166667,Transtornos mentais e comportamentais devidos ...,Esquizofrenia,Transtornos mentais e comportamentais devidos ...,,F10-F19,F20-F29,F10-F19,
1303,33.0,2014-02-01,2014-02-03,20,2.0,45.916667,Transtornos mentais e comportamentais devidos ...,,Transtornos mentais e comportamentais devidos ...,Transtornos específicos da personalidade,F10-F19,,F10-F19,F60-F69
1304,33.0,2014-03-28,2014-04-09,20,12.0,290.566667,Transtornos mentais e comportamentais devidos ...,Transtornos específicos da personalidade,Transtornos mentais e comportamentais devidos ...,,F10-F19,F60-F69,F10-F19,
1305,34.0,2015-11-07,2015-11-11,20,4.0,94.179444,Episódios depressivos,,Transtorno depressivo recorrente,Transtornos mentais e comportamentais devidos ...,F30-F39,,F30-F39,F10-F19
1306,34.0,2015-11-11,2015-11-26,20,15.0,366.035556,Episódios depressivos,Transtornos mentais e comportamentais devidos ...,Episódios depressivos,Transtornos mentais e comportamentais devidos ...,F30-F39,F10-F19,F30-F39,F10-F19


In [200]:
# Calcula informações das internações por 'cod_paciente'
df['data_primeira_internacao'] = df.groupby('cod_paciente')['data_internacao_real'].transform('min')
df['data_ultima_internacao'] = df.groupby('cod_paciente')['data_internacao_real'].transform('max')
df['duracao_total_internacoes'] = df.groupby('cod_paciente')['tempo_internado'].transform('sum')

# Cria um DataFrame de PACIENTES com apenas 1 registro para cada paciente
# Incorpora tanto os pacientes repetidos quanto os paciente únicos
pacientes_df = df.drop_duplicates(subset='cod_paciente').reset_index(drop=True)

# Seleciona as colunas relevantes
pacientes_df = pacientes_df[['cod_paciente', 'sexo', 'data_nascimento', 'uf', 'municipio', 'profissao_ocupacao', 'estado_civil', 'etnia', 'arranjo_domiciliar', 'qtd_internacoes', 'data_primeira_internacao',
'data_ultima_internacao',
'duracao_total_internacoes']]

# Exibe as primeiras linhas do DataFrame de pacientes
pacientes_df.head()


Unnamed: 0,cod_paciente,sexo,data_nascimento,uf,municipio,profissao_ocupacao,estado_civil,etnia,arranjo_domiciliar,qtd_internacoes,data_primeira_internacao,data_ultima_internacao,duracao_total_internacoes
0,39,F,1957-07-30,SP,RIBEIRAO PRETO,DONA DE CASA,SOLTEIRO,BRANCO,NAO INFORMADO,1,2012-07-12,2012-07-12,81.0
1,40,F,1971-02-10,SP,RIBEIRAO PRETO,DESEMPREGADA,SOLTEIRO,BRANCO,NAO INFORMADO,8,2012-06-25,2017-12-20,678.0
2,41,F,1990-11-29,SP,SANTA ROSA DE VITERBO,NAO INFORMADO,CASADO,BRANCO,SOZINHO,1,2012-06-26,2012-06-26,48.0
3,42,F,1982-02-05,SP,SANTA RITA DO PASSA QUATRO,NAO INFORMADO,SOLTEIRO,BRANCO,NAO INFORMADO,1,2012-07-23,2012-07-23,18.0
4,43,F,1970-01-14,SP,FRANCA,NAO INFORMADO,SOLTEIRO,BRANCO,NAO INFORMADO,4,2012-07-17,2016-10-07,559.0
