## Analisando dados de Notificações de Síndrome Gripal no estado do Ceará no ano de 2022  

## Parte 1 - Tratamento dos dados.

Devido à pandemia do Covid-19 o Ministério da Saúde, por meio da Vigilância em Saúde e Ambiente, implementou um sistema para registrar notificações de casos leves e moderados de suspeita de Covid-19.


### Sobre os dados

Os dados são oriundos do sistema e-SUS Notifica, e contém como variáveis dados referentes ao estado, município de residência do paciente, resultados de exames laboratoriais, dados demográficos, além de outras informações originadas de análises clínicas.

No entanto, existem estados e municípios que utilizam sistemas e métodos próprios para registro de notificações de suspeita de covid-19, e ainda estão em processo de integração com o e-SUS, por essa razão ainda pode haver alguma discrepância até a finalização do processo de integração.

Os dados utilizados são referentes ao ano de 2022

Para mais informações consulte: https://dados.gov.br/dados/conjuntos-dados/notificacoes-de-sindrome-gripal-leve-2022 [NÃO FUNCIONA ] 

DADOS DE 2023:

29/01/2024: https://opendatasus.saude.gov.br/dataset/notificacoes-de-sindrome-gripal-leve-2023

* 24/01/2024: Por alguma razão o dataset está indisponível para download na plataforma dados.gov.br. O dataset utilizado nessa análise será disponibilizado em breve em outro local.
* 29/01/2024: Adicionado um novo link contendo os datasets de 2023

## Objetivo 

O objetivo desse trabalho é realizar uma análise exploratória dos dados, tendo como foco o estado do Ceará, e depois algumas regiões e municípios. Nessa primeira etapa será realizada o tratamento dos dados, por se tratar de um dataset grande, é preciso ter atenção quanto ao consumo de memória, analisar os tipos de dados pode dar a chance de efetuar operações para convertê-los em formatos que ocupem menos espaço na memória, também servindo para deixar o conjunto de dados mais eficiente para outras operações. Outro motivo é o fato que o dataset contém dados vindos de múltiplas fontes, algumas inconsistências podem existir, e isso será comentado em outra parte. 


### Mãos à obra!

In [1]:
# Bibliotecas recomendadas

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from IPython.display import display

In [2]:


df1 = pd.read_csv('datasets/sus2022_CE.c000.csv', sep=';', low_memory = False)
df2 = pd.read_csv('datasets/sus2022_CE.c001.csv', sep=';', low_memory = False)
df3 = pd.read_csv('datasets/sus2022_CE.c002.csv', sep=';', low_memory = False)
df4 = pd.read_csv('datasets/sus2022_CE.c003.csv', sep=';', low_memory = False)


### Primeira vista dos dados:

In [3]:
display(df1.head(), df2.head(), df3.head(), df4.head())

Unnamed: 0,sintomas,profissionalSaude,racaCor,outrosSintomas,outrasCondicoes,profissionalSeguranca,cbo,condicoes,sexo,estado,...,codigoResultadoTeste3,codigoEstadoTeste4,codigoTipoTeste4,codigoFabricanteTeste4,codigoResultadoTeste4,dataColetaTeste1,dataColetaTeste2,dataColetaTeste3,dataColetaTeste4,idade
0,"Febre, Coriza",Não,Parda,,,Não,,,Feminino,Ceará,...,,,,,,,,,,
1,"Coriza, Distúrbios Olfativos, Distúrbios Gusta...",Sim,Parda,MIALGIA,,Não,2235 - Enfermeiros e afins,,Feminino,Ceará,...,,,,,,2022-01-24,,,,31.0
2,"Tosse, Febre, Dispneia",Não,Parda,,,Não,,,Feminino,Ceará,...,,,,,,2022-08-16,,,,25.0
3,"Tosse, Dor de Cabeça",Não,Parda,,,Não,,,Feminino,Ceará,...,,,,,,2022-01-31,,,,23.0
4,"Coriza, Dor de Cabeça",Não,Parda,,,Não,,,Masculino,Ceará,...,,,,,,2022-07-06,,,,


Unnamed: 0,sintomas,profissionalSaude,racaCor,outrosSintomas,outrasCondicoes,profissionalSeguranca,cbo,condicoes,sexo,estado,...,codigoResultadoTeste3,codigoEstadoTeste4,codigoTipoTeste4,codigoFabricanteTeste4,codigoResultadoTeste4,dataColetaTeste1,dataColetaTeste2,dataColetaTeste3,dataColetaTeste4,idade
0,Assintomático,Não,Parda,,,Não,,Gestante,Feminino,Ceará,...,,,,,,,,,,35.0
1,"Tosse, Febre, Dor de Garganta",Não,Parda,,,Não,,,Feminino,Ceará,...,,,,,,2022-07-04,,,,36.0
2,Dor de Garganta,Não,Branca,,,Não,5199 - Outros trabalhadores dos serviços,,Feminino,Ceará,...,,,,,,2022-01-22,,,,
3,Assintomático,Não,Ignorado,,,Não,,,Masculino,Ceará,...,,,,,,2022-02-07,,,,19.0
4,"Febre, Dor de Garganta, Coriza",Não,Parda,,,Não,,,Feminino,Ceará,...,,,,,,2022-02-18,,,,38.0


Unnamed: 0,sintomas,profissionalSaude,racaCor,outrosSintomas,outrasCondicoes,profissionalSeguranca,cbo,condicoes,sexo,estado,...,codigoResultadoTeste3,codigoEstadoTeste4,codigoTipoTeste4,codigoFabricanteTeste4,codigoResultadoTeste4,dataColetaTeste1,dataColetaTeste2,dataColetaTeste3,dataColetaTeste4,idade
0,Dor de Garganta,Não,Ignorado,,,Não,2234 - Farmacêuticos,,Masculino,Ceará,...,,,,,,2022-01-22,,,,42.0
1,"Dor de Cabeça, Tosse, Dispneia, Dor de Gargant...",Não,Parda,,,Não,,,Feminino,Ceará,...,,,,,,2022-01-10,,,,
2,"Coriza, Febre, Dispneia, Dor de Garganta, Dist...",Não,Amarela,,,Não,,,Feminino,Ceará,...,,,,,,2022-02-04,,,,20.0
3,Assintomático,Não,Parda,,,Não,,,Feminino,Ceará,...,,,,,,2022-01-12,,,,14.0
4,"Febre, Dor de Garganta, Tosse",Não,Parda,,,Não,,,Masculino,Ceará,...,,,,,,2022-03-18,,,,12.0


Unnamed: 0,sintomas,profissionalSaude,racaCor,outrosSintomas,outrasCondicoes,profissionalSeguranca,cbo,condicoes,sexo,estado,...,codigoResultadoTeste3,codigoEstadoTeste4,codigoTipoTeste4,codigoFabricanteTeste4,codigoResultadoTeste4,dataColetaTeste1,dataColetaTeste2,dataColetaTeste3,dataColetaTeste4,idade
0,"Tosse, Febre, Dor de Garganta, Coriza",Não,Branca,,,Não,,,Feminino,Ceará,...,,,,,,2022-07-08,2022-07-04,,,21.0
1,"Coriza, Febre, Dor de Garganta",Não,Parda,,,Não,,,Masculino,Ceará,...,,,,,,2022-01-19,,,,
2,"Coriza, Dor de Cabeça, Tosse, Febre",Não,Parda,,,Não,,,Feminino,Ceará,...,,,,,,2022-01-11,2022-01-11,,,
3,"Tosse, Febre, Coriza",Não,Parda,,,Não,,,Masculino,Ceará,...,,,,,,2022-07-19,,,,39.0
4,"Coriza, Distúrbios Olfativos, Distúrbios Gusta...",Não,Parda,,,Não,,,Feminino,Ceará,...,,,,,,2022-02-06,,,,28.0


Observando o número de variáveis (colunas) em cada dataset, nada impede que os quatro conjuntos de dados possam ser concatenados. Ciente de que a concatenação dos dados na forma como estão irá gerar um único arquivo, o qual será maior e consumirá mais memória ainda no estado atual em que se encontram. Por essa razão, deixarei a etapa de criação de um único arquivo para quando os dados estiverem otimizados.

### Verificando o consumo de memória

In [4]:
# Verifica o consumo de memória de cada dataset

df1.info(memory_usage = 'deep')
df2.info(memory_usage = 'deep')
df3.info(memory_usage = 'deep')
df4.info(memory_usage = 'deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 545305 entries, 0 to 545304
Data columns (total 64 columns):
 #   Column                             Non-Null Count   Dtype  
---  ------                             --------------   -----  
 0   sintomas                           545303 non-null  object 
 1   profissionalSaude                  545303 non-null  object 
 2   racaCor                            545208 non-null  object 
 3   outrosSintomas                     75288 non-null   object 
 4   outrasCondicoes                    15084 non-null   object 
 5   profissionalSeguranca              544777 non-null  object 
 6   cbo                                25663 non-null   object 
 7   condicoes                          52509 non-null   object 
 8   sexo                               545305 non-null  object 
 9   estado                             545305 non-null  object 
 10  estadoIBGE                         537454 non-null  object 
 11  municipio                          5453

Observa-se que os tipos de dados (dtype) predominantes são __float64__, e __object__:  

Mas antes é preciso verificar de fato quais dados estão inseridos nesses formatos. Uma forma de realizar essa tarefa é capturando todas as colunas do dataset que contém dados armazenados em __float64__ e __object__, e mostrar quais os valores mínimo e máximo armazenados. 

In [5]:

# Captura todas as colunas onde o tipo de dado predominante for float64

df1_float64_columns = [col for col in df1 if df1[col].dtype == 'float64' ]
df2_float64_columns = [col for col in df2 if df2[col].dtype == 'float64' ]
df3_float64_columns = [col for col in df3 if df3[col].dtype == 'float64' ]
df4_float64_columns = [col for col in df4 if df4[col].dtype == 'float64' ]

# Exibe os valores máximos e mínimo de cada coluna float64: 
for column in df1_float64_columns:
    print('df1', column, df1[column].min(), df1[column].max())

for column in df2_float64_columns:
    print('df2', column, df2[column].min(), df2[column].max())

for column in df3_float64_columns:
    print('df3', column, df3[column].min(), df3[column].max())

for column in df4_float64_columns:
    print('df4', column, df4[column].min(), df4[column].max())

df1 municipioNotificacaoIBGE 1400282.0 4201901.0
df1 codigoEstrategiaCovid 1.0 3.0
df1 codigoBuscaAtivaAssintomatico 1.0 4.0
df1 codigoTriagemPopulacaoEspecifica 1.0 5.0
df1 codigoLocalRealizacaoTestagem 1.0 7.0
df1 codigoEstadoTeste1 1.0 4.0
df1 codigoTipoTeste1 1.0 9.0
df1 codigoFabricanteTeste1 1.0 1363.0
df1 codigoResultadoTeste1 1.0 3.0
df1 codigoEstadoTeste2 1.0 4.0
df1 codigoTipoTeste2 1.0 9.0
df1 codigoFabricanteTeste2 1.0 1363.0
df1 codigoResultadoTeste2 1.0 3.0
df1 codigoEstadoTeste3 1.0 4.0
df1 codigoTipoTeste3 1.0 9.0
df1 codigoFabricanteTeste3 1.0 1363.0
df1 codigoResultadoTeste3 1.0 3.0
df1 codigoEstadoTeste4 1.0 4.0
df1 codigoTipoTeste4 1.0 8.0
df1 codigoFabricanteTeste4 1.0 915.0
df1 codigoResultadoTeste4 1.0 3.0
df1 idade 0.0 182.0
df2 municipioNotificacaoIBGE 1400282.0 4201901.0
df2 codigoEstrategiaCovid 1.0 3.0
df2 codigoBuscaAtivaAssintomatico 1.0 4.0
df2 codigoTriagemPopulacaoEspecifica 1.0 5.0
df2 codigoLocalRealizacaoTestagem 1.0 7.0
df2 codigoRecebeuVacina 1.0 3

In [6]:
# Colunas com dados em float64 em todos os datasets

# Aproveitando que são as mesmas variáveis salvei uma lista com elas.

colunas_float64 = list(df1.select_dtypes(include=['float64']).columns)
print(colunas_float64)

colunas = ['municipioNotificacaoIBGE', 'codigoEstrategiaCovid', 'codigoBuscaAtivaAssintomatico',
           'codigoTriagemPopulacaoEspecifica', 'codigoLocalRealizacaoTestagem', 'codigoEstadoTeste1', 
           'codigoTipoTeste1', 'codigoFabricanteTeste1', 'codigoResultadoTeste1', 'codigoEstadoTeste2', 
           'codigoTipoTeste2', 'codigoFabricanteTeste2', 'codigoResultadoTeste2', 'codigoEstadoTeste3', 
           'codigoTipoTeste3', 'codigoFabricanteTeste3', 'codigoResultadoTeste3', 'codigoEstadoTeste4', 
           'codigoTipoTeste4', 'codigoFabricanteTeste4', 'codigoResultadoTeste4', 'idade']



['municipioNotificacaoIBGE', 'codigoEstrategiaCovid', 'codigoBuscaAtivaAssintomatico', 'codigoTriagemPopulacaoEspecifica', 'codigoLocalRealizacaoTestagem', 'codigoEstadoTeste1', 'codigoTipoTeste1', 'codigoFabricanteTeste1', 'codigoResultadoTeste1', 'codigoEstadoTeste2', 'codigoTipoTeste2', 'codigoFabricanteTeste2', 'codigoResultadoTeste2', 'codigoEstadoTeste3', 'codigoTipoTeste3', 'codigoFabricanteTeste3', 'codigoResultadoTeste3', 'codigoEstadoTeste4', 'codigoTipoTeste4', 'codigoFabricanteTeste4', 'codigoResultadoTeste4', 'idade']


Analisando as colunas com dados em __float64__ vemos que aparentemente os dados salvos podem ser convertidos em algum formato do tipo __int__ (inteiro). Mas antes de prosseguir iremos confirmar se não existe nenhum valor com casa decimal diferente de 0. A célula com o código abaixo pode ser usada para testar todos os dataframes, já que os mesmos compartilham as mesmas colunas. 

In [7]:
# Função para verificar se um número tem casas decimais diferentes de zero

def verifica_decimais(numero):
    parte_decimal = str(numero).split(".")[1] if "." in str(numero) else ""
    return any(digito != "0" for digito in parte_decimal)

# Função para contar a quantidade de valores com casas decimais diferentes de zero
def contar_casas_decimais_diferentes_de_zero(coluna):
    return coluna.apply(verifica_decimais).sum()

# Lista de colunas às quais a função será aplicada
colunas_a_verificar = colunas

# Use map para aplicar a função a cada elemento do DataFrame
df1_casas_decimais = df1[colunas_a_verificar].map(verifica_decimais)
df2_casas_decimais = df2[colunas_a_verificar].map(verifica_decimais)
df3_casas_decimais = df3[colunas_a_verificar].map(verifica_decimais)
df4_casas_decimais = df4[colunas_a_verificar].map(verifica_decimais)

# Use a função contar_casas_decimais_diferentes_de_zero para contar a quantidade em cada coluna
df1_quantidade_casas_decimais = df1[colunas_a_verificar].apply(contar_casas_decimais_diferentes_de_zero)
df2_quantidade_casas_decimais = df2[colunas_a_verificar].apply(contar_casas_decimais_diferentes_de_zero)
df3_quantidade_casas_decimais = df3[colunas_a_verificar].apply(contar_casas_decimais_diferentes_de_zero)
df4_quantidade_casas_decimais = df4[colunas_a_verificar].apply(contar_casas_decimais_diferentes_de_zero)

# Exiba o resultado
print(f" Dataframe 1 \n {df1_quantidade_casas_decimais}")
print(f" Dataframe 2 \n {df2_quantidade_casas_decimais}")
print(f" Dataframe 3 \n {df3_quantidade_casas_decimais}")
print(f" Dataframe 4 \n {df4_quantidade_casas_decimais}")

# Essa célula pode ser utilizada para testar os demais datasets

 Dataframe 1 
 municipioNotificacaoIBGE            0
codigoEstrategiaCovid               0
codigoBuscaAtivaAssintomatico       0
codigoTriagemPopulacaoEspecifica    0
codigoLocalRealizacaoTestagem       0
codigoEstadoTeste1                  0
codigoTipoTeste1                    0
codigoFabricanteTeste1              0
codigoResultadoTeste1               0
codigoEstadoTeste2                  0
codigoTipoTeste2                    0
codigoFabricanteTeste2              0
codigoResultadoTeste2               0
codigoEstadoTeste3                  0
codigoTipoTeste3                    0
codigoFabricanteTeste3              0
codigoResultadoTeste3               0
codigoEstadoTeste4                  0
codigoTipoTeste4                    0
codigoFabricanteTeste4              0
codigoResultadoTeste4               0
idade                               0
dtype: int64
 Dataframe 2 
 municipioNotificacaoIBGE            0
codigoEstrategiaCovid               0
codigoBuscaAtivaAssintomatico       0
codigoT

### Sobre os valores NaN

Valores __NaN__ (Not a Number) podem indicar a ausência de dados, revelando que determinadas informações não foram registradas. Na nossa análise, optamos por manter esses valores __NaN__, pois representam um tipo de informação que pode ser significativa e não foi preenchida. Antes de prosseguirmos com qualquer análise adicional, realizaremos a contagem desses valores __NaN__ para compreender sua extensão e considerar as estratégias apropriadas de manipulação.

In [8]:
# Verificando quantos NaN existem em cada dataset

for column in df1_float64_columns:
    print('df1', column, df1[column].isna().sum())

for column in df2_float64_columns:
    print('df2', column, df2[column].isna().sum())

for column in df3_float64_columns:
    print('df3', column, df3[column].isna().sum())

for column in df4_float64_columns:
    print('df4', column, df4[column].isna().sum())


df1 municipioNotificacaoIBGE 22265
df1 codigoEstrategiaCovid 16742
df1 codigoBuscaAtivaAssintomatico 515660
df1 codigoTriagemPopulacaoEspecifica 536554
df1 codigoLocalRealizacaoTestagem 16750
df1 codigoEstadoTeste1 61229
df1 codigoTipoTeste1 61229
df1 codigoFabricanteTeste1 215095
df1 codigoResultadoTeste1 138875
df1 codigoEstadoTeste2 503846
df1 codigoTipoTeste2 503846
df1 codigoFabricanteTeste2 531041
df1 codigoResultadoTeste2 514495
df1 codigoEstadoTeste3 539542
df1 codigoTipoTeste3 539542
df1 codigoFabricanteTeste3 543338
df1 codigoResultadoTeste3 540840
df1 codigoEstadoTeste4 543954
df1 codigoTipoTeste4 543954
df1 codigoFabricanteTeste4 544743
df1 codigoResultadoTeste4 544095
df1 idade 127102
df2 municipioNotificacaoIBGE 13940
df2 codigoEstrategiaCovid 10278
df2 codigoBuscaAtivaAssintomatico 286284
df2 codigoTriagemPopulacaoEspecifica 299624
df2 codigoLocalRealizacaoTestagem 10289
df2 codigoRecebeuVacina 28749
df2 codigoContemComunidadeTradicional 3829
df2 codigoEstadoTeste1 29531

### Downcasting

Verificado e confirmado que não há necessidade de manter os dados no formato __float64__, será realizado o __downcasting__; ou seja, iremos converter os dados para um formato que ocupa menos espaço na memória. De acordo com a análise feita, converter para __unsigned_int__ é mais vantajoso.

In [9]:
# Downcasting (float64 to unint)

colunas_float64_list = ['municipioNotificacaoIBGE', 'codigoEstrategiaCovid', 
                        'codigoBuscaAtivaAssintomatico', 'codigoTriagemPopulacaoEspecifica', 
                        'codigoLocalRealizacaoTestagem', 'codigoEstadoTeste1', 'codigoTipoTeste1', 
                        'codigoFabricanteTeste1', 'codigoResultadoTeste1', 'codigoEstadoTeste2', 
                        'codigoTipoTeste2', 'codigoFabricanteTeste2', 'codigoResultadoTeste2', 
                        'codigoEstadoTeste3', 'codigoTipoTeste3', 'codigoFabricanteTeste3', 'codigoResultadoTeste3', 
                        'codigoEstadoTeste4', 'codigoTipoTeste4', 'codigoFabricanteTeste4', 'codigoResultadoTeste4', 
                        'idade']

df1[colunas_float64_list] = df1[colunas_float64_list].apply(pd.to_numeric, downcast='unsigned', errors='coerce').astype('Int64')
df2[colunas_float64_list] = df2[colunas_float64_list].apply(pd.to_numeric, downcast='unsigned', errors='coerce').astype('Int64')
df3[colunas_float64_list] = df3[colunas_float64_list].apply(pd.to_numeric, downcast='unsigned', errors='coerce').astype('Int64')
df4[colunas_float64_list] = df4[colunas_float64_list].apply(pd.to_numeric, downcast='unsigned', errors='coerce').astype('Int64')



Provando que os dados realmente foram convertidos.

In [10]:
# Checando o dtype

df1.info(memory_usage  = 'deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 545305 entries, 0 to 545304
Data columns (total 64 columns):
 #   Column                             Non-Null Count   Dtype 
---  ------                             --------------   ----- 
 0   sintomas                           545303 non-null  object
 1   profissionalSaude                  545303 non-null  object
 2   racaCor                            545208 non-null  object
 3   outrosSintomas                     75288 non-null   object
 4   outrasCondicoes                    15084 non-null   object
 5   profissionalSeguranca              544777 non-null  object
 6   cbo                                25663 non-null   object
 7   condicoes                          52509 non-null   object
 8   sexo                               545305 non-null  object
 9   estado                             545305 non-null  object
 10  estadoIBGE                         537454 non-null  object
 11  municipio                          545304 non-null  

Exibindo os valores de mínimo e máximo novamente para simples conferência: 

# Usando como exemplo o Dataset 1:
# Exibindo os valores de máximo e mínimo novamente para simples conferência: 
for column in df1[colunas_float64_list]:
   print(column, df1[column].min(), df1[column].max())



Mesmo após o __downcast__, não foi obtida uma redução significativa do uso de memória. Nos datasets nota-se a predominância do tipo de dado __object__, que nesse caso está sendo utilizado para armazenar strings. Nos próximos passos será feita a análise das colunas onde estão contidos os dados do tipo __object__ e analisada a possibilidade de serem convertidos para __category__.

### Conversão de object para categorycal

Explicando um pouco sobre o que é pretendido alcançar nessa etapa. Nos datasets temos variáveis que são preenchidas apenas por strings e estão registradas como tipo __object__. Em python o tipo __object__ é um tipo especial de dado que faz referências a outros tipos, como no arquivo .CSV não existe informações sobre os tipos de dados que ele carrega, então o pandas carrega tudo como tipo __object__ já que não consegue prever qual o tipo de dado.  
Nos datasets existem vários dados __object__ que são strings, e essas strings se repetem muitas vezes, poder resumir elas a somente um tipo de informação é melhor que repetir a mesma informação sempre. Por exemplo, imagine um conjunto de dados onde eu tenho uma variável que serve para armazenar um dos três tipos de respostas disponíveis para uma pergunta feita em uma pesquisa: 1 - Sim, 2 - Não, 3 - Prefiro não opinar. Agora, suponha que esses dados foram salvos em um arquivo .CSV e possuem mais de 10.000 linhas respondidas. Quando carregados no Pandas, cada espaço contendo uma das três strings possíveis irá ocupar uma quantidade de memória referente ao tamanho de cada string. Agora quando forem convertidas para __category__ ao invés de gastar espaço repetindo a mesma string, o pandas irá armazenar o valor como categórico, fazendo somente uma referência ao endereço onde está armazenado o valor daquela variável, ao invés de repetir-la. 

Sabendo disso vamos procurar em quais colunas predominam os dados do tipo object e mostrar a quantidade de valores únicos que cada uma dessas colunas possuem. 

In [13]:
# Analisando as colunas do tipo object

# Capturando as colunas com dtype == object em cada dataframe. 
df1_object_columns = [col for col in df1.columns if df1[col].dtype == 'object']
df2_object_columns = [col for col in df2.columns if df2[col].dtype == 'object']
df3_object_columns = [col for col in df3.columns if df3[col].dtype == 'object']
df4_object_columns = [col for col in df4.columns if df4[col].dtype == 'object']

# Imprime a quantidade de valores únicos de cada coluna

for column in df1_object_columns:
    print('df1', column, df1[column].nunique())

for column in df2_object_columns:
    print('df2', column, df2[column].nunique())

for column in df3_object_columns:
    print('df3', column, df3[column].nunique())

for column in df4_object_columns:
    print('df4', column, df4[column].nunique())

df1 sintomas 3046
df1 profissionalSaude 2
df1 racaCor 6
df1 outrosSintomas 19125
df1 outrasCondicoes 3935
df1 profissionalSeguranca 3
df1 cbo 394
df1 condicoes 297
df1 sexo 5
df1 estado 29
df1 estadoIBGE 29
df1 municipio 1194
df1 municipioIBGE 1220
df1 origem 5
df1 estadoNotificacao 3
df1 municipioNotificacao 184
df1 evolucaoCaso 8
df1 classificacaoFinal 7
df1 outroBuscaAtivaAssintomatico 1562
df1 outroTriagemPopulacaoEspecifica 662
df1 outroLocalRealizacaoTestagem 1323
df1 codigoRecebeuVacina 5
df1 codigoLaboratorioPrimeiraDose 36
df1 codigoLaboratorioSegundaDose 32
df1 lotePrimeiraDose 977
df1 loteSegundaDose 961
df1 codigoContemComunidadeTradicional 4
df1 source_id 545304
df1 excluido 2
df1 validado 3
df1 codigoDosesVacina 23
df1 estadoNotificacaoIBGE 3
df1 totalTestesRealizados 14
df1 dataNotificacao 1137
df1 dataInicioSintomas 1131
df1 dataEncerramento 1278
df1 dataPrimeiraDose 637
df1 dataSegundaDose 652
df1 dataColetaTeste1 1297
df1 dataColetaTeste2 1072
df1 dataColetaTeste3 810

Informações como estado, município, e alguns códigos se repetem bastante. 

In [15]:
# Converte de object para category

for column in df1_object_columns:
    df1[column] = df1[column].astype('category')# Anlaysing the memory usage of the dataframe after converting object to category

for column in df2_object_columns:
    df2[column] = df2[column].astype('category')# Anlaysing the memory usage of the dataframe after converting object to category

for column in df3_object_columns:
    df3[column] = df3[column].astype('category')# Anlaysing the memory usage of the dataframe after converting object to category

for column in df4_object_columns:
    df4[column] = df4[column].astype('category')# Anlaysing the memory usage of the dataframe after converting object to category

# Checa o uso da memória

df1.info(memory_usage='deep')
df2.info(memory_usage='deep')
df3.info(memory_usage='deep')
df4.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 545305 entries, 0 to 545304
Data columns (total 64 columns):
 #   Column                             Non-Null Count   Dtype   
---  ------                             --------------   -----   
 0   sintomas                           545303 non-null  category
 1   profissionalSaude                  545303 non-null  category
 2   racaCor                            545208 non-null  category
 3   outrosSintomas                     75288 non-null   category
 4   outrasCondicoes                    15084 non-null   category
 5   profissionalSeguranca              544777 non-null  category
 6   cbo                                25663 non-null   category
 7   condicoes                          52509 non-null   category
 8   sexo                               545305 non-null  category
 9   estado                             545305 non-null  category
 10  estadoIBGE                         537454 non-null  category
 11  municipio                 

Comparado com o que foi visto no início houve uma redução drástica no consumo de memória. Agora os dataframes consomem menor espaço de memória, o que os tornam mais eficientes. Antes de encerrerar irei discutir uma outra alternativa envolvendo um outro formato de arquivo, o __.parquet__.

### Outra alternativa

Uma outra alternativa para lidar com grandes conjuntos de dados grande seria concatenar os arquivos em __.csv__ e em seguida convertê-los para __.parquet__, esse formato valoriza a compactação e eficiência de armazenamento, diferente do __.csv__ que armazena os dados como texto simples, o __.parquet__ usa compressão de coluna para reduzir significativamente o tamanho dos arquivos. Um exemplo próximo tópico. 


### Unindo os datasets

Primeiro os datasets serão unidos no formato __.csv__.

In [21]:
# Bibliotecas que serão usadas para converter de .csv para .parquet

import pyarrow as pa
import pyarrow.parquet as pq


Concatenando os dataframes. 

In [22]:
datasets = [df1, df2, df3, df4]

df_final = pd.concat(datasets)  # reúne os datasets df1, df2, df3, df4 em um só arquivo

# Salvando em um novo arquivo .csv

df_final.to_csv('notificacoes_sindrome_gripal_CE_2022.csv', sep = ',', index = False, encoding = 'utf-8')


### Convertendo para .parquet

In [28]:
# Carregando o arquivo .csv em um novo dataframe

df_csv_to_parquet = pd.read_csv('notificacoes_sindrome_gripal_CE_2022.csv', sep=',', low_memory = False)

# Converte para uma tabela do PyArrow

tabela = pa.Table.from_pandas(df_csv_to_parquet)

# Salva no formato .parquet 

pq.write_table(tabela, 'notificacoes_sindrome_gripal_CE_2022.parquet')

O resultado foi um arquivo de aproximadamente 46MB comparados com os quase 422MB do arquivo __.csv__. Vamos dar uma breve conferida no novo arquivo. 

In [29]:
# Abrindo um arquivo .parquet no Pandas

df_parquet = pd.read_parquet('notificacoes_sindrome_gripal_CE_2022.parquet')


In [31]:
# Verficando o shape

df_parquet.shape

(1309879, 64)

In [32]:
# Verificando as primeiras 50 linhas 

df_parquet.head(50)

Unnamed: 0,sintomas,profissionalSaude,racaCor,outrosSintomas,outrasCondicoes,profissionalSeguranca,cbo,condicoes,sexo,estado,...,codigoResultadoTeste3,codigoEstadoTeste4,codigoTipoTeste4,codigoFabricanteTeste4,codigoResultadoTeste4,dataColetaTeste1,dataColetaTeste2,dataColetaTeste3,dataColetaTeste4,idade
0,"Febre, Coriza",Não,Parda,,,Não,,,Feminino,Ceará,...,,,,,,,,,,
1,"Coriza, Distúrbios Olfativos, Distúrbios Gusta...",Sim,Parda,MIALGIA,,Não,2235 - Enfermeiros e afins,,Feminino,Ceará,...,,,,,,2022-01-24,,,,31.0
2,"Tosse, Febre, Dispneia",Não,Parda,,,Não,,,Feminino,Ceará,...,,,,,,2022-08-16,,,,25.0
3,"Tosse, Dor de Cabeça",Não,Parda,,,Não,,,Feminino,Ceará,...,,,,,,2022-01-31,,,,23.0
4,"Coriza, Dor de Cabeça",Não,Parda,,,Não,,,Masculino,Ceará,...,,,,,,2022-07-06,,,,
5,"Coriza, Febre, Tosse",Sim,Ignorado,,HAS,Não,3222 - Técnicos e auxiliares de enfermagem,Outros,Feminino,Ceará,...,,,,,,2022-11-22,,,,
6,"Coriza, Tosse",Não,Parda,,,Não,,,Feminino,Ceará,...,,,,,,2022-06-27,,,,
7,"Coriza, Dor de Cabeça, Tosse, Febre, Dor de Ga...",Não,Parda,DIARREIA,DOENÇA CELÍACA,Não,,Outros,Feminino,Ceará,...,,,,,,,,,,38.0
8,"Coriza, Tosse, Febre, Dor de Garganta",Não,Parda,,,Não,,,Masculino,Ceará,...,,,,,,,,,,22.0
9,"Tosse, Febre, Dor de Garganta",Não,Parda,,,Não,,Doenças respiratórias crônicas descompensadas,Masculino,Ceará,...,,,,,,2022-01-26,,,,20.0


### Conclusão

Nessa primeira parte vimos algumas técnicas para lidar com conjunto de dados que ocupam muito espaço na memória, o que é comum de acontecer quando trabalhamos com dados armazenados em __.csv__, mesmo assim, arquivos grandes podem ser manipulados para que o consumo de memória pela biblioteca pandas seja reduzido, tornando a análise mais eficiente por economizar memória. A outra opção foi converter os arquivos em __.csv__ para __.parquet__. Em situações que envolvem um grande volume de dados trabalhar com o formato __.csv__ pode ser nada eficiente, para isso temos outras alternativas, como o formato __.parquet__, existe muita história por trás desse formato, nesse momento convém entender que ele possui uma forma muito melhor de comprimir as informações usando uma abordagem orientada as colunas. 