# Preprocessing Data

Lembrando que precisa fazer as seguintes demandas:

* Explore e analise cada um dos campos disponíveis entendendo o tipo de preenchimento que possuem.
* Dado o contexto de ingestão e criação da informação, traga características que chamam atenção e aponte problemas contidos no dataset. A ideia aqui é avaliar a sua capacidade analítica, fique a vontade para escrever inferências sobre como o problema pode ter sido criado, questionamentos que poderíamos levar aos fornecedores ou outras análises que podem ser feitas.

Vamos utilizar as descrições e fazer uma análise por alto de cada campo, para entender o que precisa ser feito


In [1]:
import pandas as pd
import seaborn as sns
import numpy as np

In [2]:
pd.set_option('display.max_columns', None)

In [3]:
df_original = pd.read_csv('../data/raw/dados_ficha_a_desafio.csv', encoding='UTF-8')
df_info = pd.read_excel('../data/raw/descricao_de_campos.xlsx', skiprows=2)

In [4]:
df = df_original.copy()

Definido os campos, suas descrições, vou fazer uma análise para preencher as informações em um Json para depois colocar em um resultado final mais adequado, pelo Streamlit. Para cada coluna eu executo as próximas 3 colunas para preencher os dados das análises no json.

In [5]:
# df_info

In [6]:
# df.columns

In [7]:
# col = 'col_name'
# print(df[col].info())
# print(df[col].value_counts())
# print(df[col].describe())

## Análise dos campos:

```json
{
    "id_paciente": {
        "Descrição": "Identificador de paciente",
        "Análise": " No formato de String, formatação de identificação com 36 caracteres, 99000 identificações diferentes com algumas repetições. Vale a pena analisar para verificar se há de fato duplicação de registro."
    },
    "sexo": {
        "Descrição": "Sexo.",
        "Análise": "Formatação de String, separando entre 'Male e Female', maior quantidade de registros mulheres que homens."
    },
    "obito": {
        "Descrição": "Indicação de óbito.",
        "Análise": "Formatação de String, de forma equivocada os valores parecem ser inconsistentes no tipo de dado, variando entre booleano e inteiro. Não mantendo o padrão. Seria adequado fazer alguma padronização nessa coluna."
    },
    "bairro": {
        "Descrição": "Nome do bairro.",
        "Análise": "Formatação de String com nomes dos bairros, nenhum problema encontrado."
    },
    "raca_cor": {
        "Descrição": "Descrição de raça/cor.",
        "Análise": "Formatação de String, coluna totalmente preenchida, por mais que um dos valores seja identificado como 'Não', não fica claro se o caso se enquadra como o usuário não quis responder, o usuário não declarou sua raça/cor ou pode ser um erro de digitação. A última opção é mais improvável, mas sendo casos mais isolados e inconsistente, substituir por nulo (NaN) é a melhor opção."
    },
    "ocupacao": {
        "Descrição": "Ocupação exercida.",
        "Análise": "Formatação como String, todos não nulos, dados bem definidos. Nesse caso a maior parte está como 'Não se aplica', mas ainda sim é interessante para manter o valor do dado categórico."
    },
    "religiao": {
        "Descrição": "Religião exercida.",
        "Análise": "Formatação de String, todos não nulos, porém com casos discrepantes. Tem valores que assumem informações não relacionadas com a coluna em si, como 'ORQUIDEA', ou 'ESB ALMIRANTE'. Esses casos podemos tornar os valores nulos. Existe uma redundância conceitual nos valores 'Sem religião' e 'Não', o que podemos juntar em uma coisa só, além do valor único 'Sim', que não agrega como informação. E o valor 'Outra' não agrega para a informação em si, mas como não tem muitas informações além do dataset, é mais adequado manter como está."
    },
    "luz_eletrica": {
        "Descrição": "Indicação se possui luz elétrica.",
        "Análise": "Formatação de String, de forma equivocada os valores parecem ser inconsistentes no tipo de dado, variando entre booleano e inteiro. Não mantendo o padrão. Seria adequado fazer alguma padronização nessa coluna. Caso parecido com a coluna obito."
    },
    "data_cadastro": {
        "Descrição": "Data de cadastro do paciente.",
        "Análise": "Formatação de String, claramente uma coluna de data, que não parece ter uma formatação bem definida, é valido fazer um tratamente para ter uma padronização."
    },
    "escolaridade": {
        "Descrição": "Nível de escolaridade.",
        "Análise": "Formatação em String, com categorias bem definidas, uma coluna que aparenta não ter grandes problemas, com dados válidos e concisos."
    },
    "nacionalidade": {
        "Descrição": "Nacionalidade.",
        "Análise": "Formatação em String, nenhum problema a princípio visto na composição da coluna."
    },
    "renda_familiar": {
        "Descrição": "Renda familiar.",
        "Análise": "Formatação em String, grande parte dos valores seguem o padrão de unidade de salário mínimo, porém há dos valores discrepantes que não está de acordo com o domínio da coluna: 'manhã' e 'internet'."
    },
    "data_nascimento": {
        "Descrição": "Data de nascimento.",
        "Análise": "Formatação de String, claramente uma coluna de data, é valido fazer um tratamente para ter uma padronização com a tipagem correta."
    },
    "em_situacao_de_rua": {
        "Descrição": "Indicação se em situação de rua.",
        "Análise": "Formatação de String, de forma equivocada os valores parecem ser inconsistentes no tipo de dado, variando entre booleano e inteiro. Não mantendo o padrão. Seria adequado fazer alguma padronização nessa coluna. Caso parecido com a coluna obito."
    },
    "frequenta_escola": {
        "Descrição": "Indicação se frequenta escola.",
        "Análise": "Formatação em inteiro, caso booleano, bem definido, porém pela análise única da coluna os valores estão padronizados e fazem sentido, porém depois é necessário fazer uma análise comparando a escolaridade e se frequenta a escola, para ver se estão de acordo."
    },
    "meios_transporte": {
        "Descrição": "Meios de transporte utilizados.",
        "Análise": "Formatação em String, caso de coluna multivalorada, seja como lista de dados ou só separados por vírgula, essa coluna sozinha não agrega tanto para a análise no formato atual, o adequado a se fazer é separação de cada valor único, com o devido tratamento necessário, e criar uma coluna para cada valor único e definir um valor booleano associado."
    },
    "doencas_condicoes": {
        "Descrição": "Doenças ou condições de saúde.",
        "Análise": "Formatação em String, caso de coluna multivalorada, parecido com o caso da coluna meios_transporte. Inclusive o tratamento."
    },
    "identidade_genero": {
        "Descrição": "Identidade de gênero.",
        "Análise": "Formatação em String, coluna com todos valores preenchidos, porém alguns detalhes que é necessário pensar sobre seus valores. O que o 'Não' significa para esse caso? Ele significa que o dado não foi levantado? Ou usuário não quis responder sobre? Isso deixa a pensar se vale a pena manter o 'Não' ou se vale substituir para valor nulo, vou partir do princípio que é a ausência da informação para alterar para valor nulo também. Além disso, alguns dos dados não estão associados com a identidade de gênero, e sim a orientação sexual do usuário ('Heterossexual', 'Homossexual', 'Bissexual'), nesses casos, acredito que o mais adequado para lidar com eles é torná-los nulos, pois não podemos assumir que é 'Outro' ou qualquer outro valor. A informação de 'Sim' também não agrega para o dado, podendo ser muito bem classificado como valor nulo."
    },
    "meios_comunicacao": {
        "Descrição": "Meios de comunicação utilizados.",
        "Análise": "Formatação em String, caso de coluna multivalorada, parecido com o caso da coluna meios_transporte. Inclusive o tratamento. Após fazer o tratamento, foi possível verificar que alguns valores não tinham relação com domínio em si, como 'Mais de 4 Salários Mínimos', esses casos não se enquadra como meio de comunicação, deve ser válido tornar nulo seu valor."
    },
    "orientacao_sexual": {
        "Descrição": "Orientação sexual.",
        "Análise": "Formatação em String, dados bem definidos e de acordo com o domínio esperado de valores."
    },
    "possui_plano_saude": {
        "Descrição": "Indicação se possui plano de saúde.",
        "Análise": "Formatação de String, de forma equivocada os valores parecem ser inconsistentes no tipo de dado, variando entre booleano e inteiro. Não mantendo o padrão. Seria adequado fazer alguma padronização nessa coluna. Caso parecido com a coluna obito."
    },
    "em_caso_doenca_procura": {
        "Descrição": "Indicação sobre a quem procura em caso de doença.",
        "Análise": "Formatação em String, caso de coluna multivalorada, parecido com o caso da coluna meios_transporte. Inclusive o tratamento."
    },
    "situacao_profissional": {
        "Descrição": "Situação profissional.",
        "Análise": "Formatação de String, maior parte dos dados estão concisos, mas há alguns pontos para serem levantados. Dois casos que estão sendo outliers são 'Médico Urologista', que se enquadraria melhor como 'Emprego Formal', e 'SMS CAPS DIRCINHA E LINDA BATISTA AP 33', que é mais adequado ser um valor nulo, uma vez que não se enquadra no domínio esperado de valores. Além disso, existe duas especificações de Autônomo que envolve ter ou não previdência social, porém como tem o autônomo sem essa especificação, deve ser mais adequado manter somente autônomo, pois não temos como separar os casos de Autônomo em com ou sem previdência social, é mais adequado generalizar. Também é possível questionar quão próximo o 'Não trabalha' está entre 'Desempregado' e 'Pensionista / Aposentado', pois temos 3 classes que poderiam ser só duas, e 'Não trabalha' não fica tão claro o porquê, não dá contexto para a classificação. Porém por causa da falta de informação, pode ser mais adequado manter da forma atual."
    },
    "vulnerabilidade_social": {
        "Descrição": "Vulnerabilidades sociais.",
        "Análise": "Formatação de String, de forma equivocada os valores parecem ser inconsistentes no tipo de dado, variando entre booleano e inteiro. Não mantendo o padrão. Seria adequado fazer alguma padronização nessa coluna. Caso parecido com a coluna obito."
    },
    "data_atualizacao_cadastro": {
        "Descrição": "Data da última atualização cadastral do paciente.",
        "Análise": "Formatação de String, claramente uma coluna de data, que não parece ter uma formatação bem definida, é valido fazer um tratamente para ter uma padronização."
    },
    "familia_beneficiaria_auxilio_brasil": {
        "Descrição": "Indicação se a família do paciente é beneficiária do Auxílio Brasil.",
        "Análise": "Formatação de String, de forma equivocada os valores parecem ser inconsistentes no tipo de dado, variando entre booleano e inteiro. Não mantendo o padrão. Seria adequado fazer alguma padronização nessa coluna. Caso parecido com a coluna obito."
    },
    "crianca_matriculada_creche_pre_escola": {
        "Descrição": "Indicação se a criança está matriculada em creche ou pré-escola.",
        "Análise": "Formatação de String, de forma equivocada os valores parecem ser inconsistentes no tipo de dado, variando entre booleano e inteiro. Não mantendo o padrão. Seria adequado fazer alguma padronização nessa coluna. Caso parecido com a coluna obito."
    },
    "altura": {
        "Descrição": "Altura medida.",
        "Análise": "Formatação em Float, somente 25 valores nulos, coluna de forma geral bem definida, só achei que ficou faltando a unidade explicitada para evitar confusão, apesar de estar claro que é em centímetros (cm)."
    },
    "peso": {
        "Descrição": "Peso medido.",
        "Análise": "Formatação em Float, mais de 100 valores nulos, coluna de forma geral bem definida, só achei que ficou faltando a unidade explicitada para evitar confusão, apesar de estar claro que é em quilos (Kg)."
    },
    "pressao_sistolica": {
        "Descrição": "Pressão sistólica medida.",
        "Análise": "Formatação em Float, com 40 valores nulos. Casos extremos valores chegam a ir a 0 até 900, casos que provavelmente tiveram erro de medida. Vale a pena verificar quais são os outliers, e dependendo da finalidade do dataset, pode ser mais válido substituir para nulos ou simplemente tirar os registros ou fazer algum tipo de marcação. Unidade de medida: mmHg."
    },
    "pressao_diastolica": {
        "Descrição": "Pressão diastólica medida.",
        "Análise": "Formatação em Float, com 17 valores nulos. Casos extremos valores chegam a ir a 0 até 900, casos que provavelmente tiveram erro de medida. Vale a pena verificar quais são os outliers, e dependendo da finalidade do dataset, pode ser mais válido substituir para nulos ou simplemente tirar os registros ou fazer algum tipo de marcação. Unidade de medida: mmHg."
    },
    "n_atendimentos_atencao_primaria": {
        "Descrição": "Quantidade de atendimentos na atenção primária no último ano.",
        "Análise": "Formatação em Inteiros, nenhum valor nulo. Aparenta estar com todos os dados dentro de um padrão estabelecido."
    },
    "n_atendimentos_hospital": {
        "Descrição": "Quantidade de atendimentos no hospital no último ano.",
        "Análise": "Formatação em Inteiros, nenhum valor nulo. Aparenta estar com todos os dados dentro de um padrão estabelecido."
    },
    "updated_at": {
        "Descrição": "Data e hora da última atualização dos dados.",
        "Análise": "Formatação de String, claramente uma coluna de data, que não parece ter uma formatação bem definida, é valido fazer um tratamente para ter uma padronização."
    },
    "tipo": {
        "Descrição": "Identifica se o dado veio de fluxo rotineiro ou outro tipo de fonte.",
        "Análise": "Formatação em String, sem valores nulos. Aparenta estar bem definido os valores e sem discrepâncias."
    }
}


```

Definida a análise geral podemos partir para as transformações, deixando bem claro o **plano**:
* Dados Booleanos: Deixar padronizados;
* Dados Categóricos/Monovalorados: Refazer algumas categorias que não se enquadram no contexto do atributo, e trazer um pouco mais de ideia  generalizada para ficar aberto para mais análises.
* Dados Categóricos/Multivalorados: Refazer a coluna para criar uma nova coluna para cada valor único definido, e essas novas colunas serão Booleanos.
* Dados de data/hora: Padronizar para facilitar entendimento e análise.

Cada um deles terá uma explicação do porquê está sendo alterado com mais detalhes.

---
## Tratamento de Colunas
### Tratamento de formatação 

Má prática de deixar 'hardcoded', porém como sendo uma coisa única, estou listando as colunas de cada situação referenciada anteriormente. A boa prática seria uma forma de generalizar para futuras situações, tentando estabelecer algum regex ou pelo nome da coluna para facilitar futuras demandas, porém como não é caso, estou indo mais direto.

**Dados Categóricos**:

In [8]:
# Hardcoded:

cols_dados_categoricos = [
    'luz_eletrica',
    'obito',
    'em_situacao_de_rua',
    'possui_plano_saude',
    'vulnerabilidade_social',
    'familia_beneficiaria_auxilio_brasil',
    'crianca_matriculada_creche_pre_escola',
]

def change_to_bool(val: str) -> int:
    return 1 if val == "True" or val == "1" else 0

for col in cols_dados_categoricos:
    df[col] = df[col].map(change_to_bool)

**Datas**

Alguns casos de datas não estão padronizados, por isso será necessário colocar "mixed" como parâmetro na formatação.

In [9]:
cols_dados_data = [
    'data_cadastro',
    'data_nascimento',
    'data_atualizacao_cadastro',
    'updated_at',
]

for col in cols_dados_data:
    df[col] = pd.to_datetime(df[col], format='mixed')

**Dados multivalorados**

Para uma maior explicação, dado que é um tratamento um pouco mais complexo, primeiro padronizamos cada registro para ser um lista, no mesmo encoding, respeitando quantidade de caracteres de cada caso, mantendo os valores bem definidos.

Depois disso, para cada coluna dessa, a gente faz o processo de explosão (`df.explode('col_name')`), que transformará cada registro em múltiplos registros variando para cada elemento da lista que está na coluna definida, de forma que começará a ter uma redundância de dados, porém naquela coluna teremos agora separado cada valor único.

Por fim, fazemos o `pd.get_dummies(df_explodido, columns=['col_name'])` que converte a coluna 'col_name' em variáveis dummies (one-hot encoding), e se torna uma coluna binária (1 se o valor da coluna está presente naquela linha e 0 caso contrário). Também fazemos um `.groupby(level=0).max()` pois reconstrói os dados agregando por índice original e pegando o maior valor para cada coluna gerada pelo get_dummies. Isso garante que, se na coluna definida apareceu em pelo menos uma linha daquele grupo, a coluna correspondente terá 1

In [10]:
cols_dados_multivalorados = [
    'meios_transporte',
    'doencas_condicoes',
    'meios_comunicacao',
    'em_caso_doenca_procura',
]

def trata_registro(row):
    if pd.isna(row) or row == '[]':
        return None
    return [
        elem.strip(' "\'').encode('ISO-8859-1').decode('unicode_escape')
        for elem in row[1:-1].split(',')
    ] if row[0] == '[' else row.split(', ')

# Aplicação da função corrigida ao DataFrame
for col in cols_dados_multivalorados:
    df[col] = df[col].apply(lambda x:trata_registro(x))
    df_explodido = df.explode(col)
    df = pd.get_dummies(df_explodido, columns=[col]).groupby(level=0).max()

### Tratamento de Inconsistências

Essa é uma parte mais delicada, pois estamos tratando as inconsistências dos dados originais, informações que não estavam de acordo com o esperado, e por ser uma informação errada, é válido retirar esses dados para evitar mais problemas em futuras análises ou predições.

**raca_cor**

O Valor 'Não' pode ser uma informação que não temos, ou o usuário não quis responder, e como consiste em só poucos casos, tornar nulo não é tão problemático.

In [11]:
# df['raca_cor'].value_counts()

In [12]:
df['raca_cor'] = df['raca_cor'].replace('Não', np.nan)

**religião**

Tem dois pontos que precisam ser levantados, que são a separação de 'Sem religião' e 'Não' que podemos tratar como o mesmo caso. E valores discrepantes de como "ESB ALMIRANTE", "10 EAP 01", "ORQUIDEA", "Acomp. Cresc. e Desenv. da Criança" e "Sim", que não agregam para como dado para a coluna, pois se tratam sobre outro tema, ou no caso do 'Sim', não é possível inferir qual é a religião do usuário.

In [13]:
# df['religiao'].value_counts()

In [14]:
valores_invalidos = [
    "ESB ALMIRANTE", "10 EAP 01", "ORQUIDEA", "Acomp. Cresc. e Desenv. da Criança", "Sim",
]
df["religiao"] = df["religiao"].replace(valores_invalidos, np.nan)
df["religiao"] = df["religiao"].replace("Não", "Sem religião")

**renda_familiar**

Somente tratando dois valores únicos que não se enquadram como dado da coluna.

In [15]:
# df['renda_familiar'].value_counts()

In [16]:
valores_invalidos = [
    "Manhã", "Internet",
]
df["renda_familiar"] = df["renda_familiar"].replace(valores_invalidos, np.nan)

**identidade_genero**

Tirando valores que não são adequados para a coluna ou não agregam valor, como 'Sim' ou 'Não'.

In [17]:
valores_invalidos = [
    "Não", "Sim", "Homossexual (gay / lésbica)", "Heterossexual", "Bissexual", 
]
df["identidade_genero"] = df["identidade_genero"].replace(valores_invalidos, np.nan)

**situacao_profissional**

Tomando a decisão de transformar "Autônomo sem previdência social", "Autônomo com previdência social" em "Autônomo" pois já existe o "Autônomo" e talvez não seja possível induzir qual especialização ele mais se adeque, e por isso, é preferível generalizar. Além disso, generalizando um caso de 'Médico Urologista' e tirando um caso que aparenta sair do contexto da coluna.

In [18]:
valores_invalidos = [
    "Autônomo sem previdência social", "Autônomo com previdência social", 
]
df["situacao_profissional"] = df["situacao_profissional"].replace(valores_invalidos, "Autônomo")
df["situacao_profissional"] = df["situacao_profissional"].replace("Médico Urologista", "Emprego Formal")
df["situacao_profissional"] = df["situacao_profissional"].replace("SMS CAPS DIRCINHA E LINDA BATISTA AP 33", np.nan)

**pressao_sistolica e diastolica**

Nesse caso é válido tirar os outliers que não se adequam como valores normais de medida de pressão, provavelmente causado por erro de digitação ou em alguma parte do processo. Irei tirar ou outliers baseado no método de Tukey, que consiste em definir os limites inferior e superior a partir do interquartil (IQR) e dos primeiros (Q1) e terceiros (Q3) quartis.

In [19]:
q1, q3 = df['pressao_sistolica'].quantile([0.25, 0.75])
intervalo_interquartil = (q3 - q1)
PAS_limite_inf = q1 - 1.5*intervalo_interquartil
PAS_limite_sup = q3 + 1.5*intervalo_interquartil

Considerando a tabela II do [III Consenso Brasileiro de Hipertensão Arterial](https://bvsms.saude.gov.br/bvs/publicacoes/III_consenso_bras_hip_arterial.pdf), temos a seguinte tabela:

| **PAD (mmHg)** | **PAS (mmHg)** | **Classificação**                          |
|---------------|---------------|------------------------------------------|
| < 85         | < 130         | Normal                                   |
| 85-89        | 130-139       | Normal limítrofe                        |
| 90-99        | 140-159       | Hipertensão leve (estágio 1)            |
| 100-109      | 160-179       | Hipertensão moderada (estágio 2)        |
| > 110        | > 180         | Hipertensão grave (estágio 3)           |
| < 90         | > 140         | Hipertensão sistólica isolada           |

Isso mostra que para o intervalo que estamos definindo, abrangemos maior parte dos casos, e conseguimos inferir em qual categoria cada registro se encontra, podendo até criar uma nova categoria com essa classificação. O interessante agora é pensar o que podemos fazer com os outliers, pois são dados que estão muito no extremo.

Com os limites entre 90, e 170 mmHg, estamos lidando com aproximadamente 90% dos valores da coluna.

In [20]:
q1, q3 = df['pressao_diastolica'].quantile([0.25, 0.75])
intervalo_interquartil = (q3 - q1)
PAD_limite_inf = q1 - 1.5*intervalo_interquartil
PAD_limite_sup = q3 + 1.5*intervalo_interquartil

---
Verificando a parte um caso de comparar a pressão com a data de nascimento, pois aí poderíamos comparar a idade do paciente com a pressão, pois cheguei a comentar com um médico sobre a relação entre idade e diferença das pressões sistólica e diastólica, e em tese quanto mais velho, maior pode subir os valores, porém não parece ter essa relação bem definida (Basta executar a célular a baixo para verificar isso). Por precaução, vou seguir os limites definido pelo método de Tukey para definir que os dados que estiverem fora dos limites, são outliers, e esses são dados que necessitam de uma maior verificação para poderem serem utilizados. Por isso tornarei criarei uma coluna extra para notificar quais registros aparentam ter dados muitos discrepantes, para maiores observações depois.

In [21]:
# df[['data_nascimento', 'pressao_sistolica', 'pressao_diastolica']][df['pressao_sistolica'] > 200]

Com os limites envolvidos estaríamos envolvendo cerca de 98% dos dados da coluna, só tratando próximo de 2% dos casos.

In [23]:
# Código para remover dados acima dos limites. REFAZER PARA CRIAR TERCEIRA COLUNA PARA DEFINIR CASOS QUE PRECISAM SER VERIFICADOS.

def verif_pressao(row: float | int, lim_inf: float, lim_sup: float):
    return False if lim_inf < row < lim_sup else True

# Verificando as pressões e criando a coluna de verificação para cada uma
df['verificacao_pressao_sistolica'] = df.apply(lambda x: verif_pressao(x['pressao_sistolica'], PAS_limite_inf, PAS_limite_sup), axis=1)
df['verificacao_pressao_diastolica'] = df.apply(lambda x: verif_pressao(x['pressao_diastolica'], PAD_limite_inf, PAD_limite_sup), axis=1)

# Criando a terceira coluna para casos que precisam ser verificados
df['verificacao_pressao'] = df['verificacao_pressao_sistolica'] | df['verificacao_pressao_diastolica']
df.drop(['verificacao_pressao_sistolica', 'verificacao_pressao_diastolica'], axis=1, inplace=True)

**Colunas criadas pelo tratamento de colunas que não se enquadram**

Pelo tratamento feito para lidar com as colunas que os dados não se enquadram, como os exemplos a seguir: 'meios_comunicacao_3 Salários Mínimos', 'meios_comunicacao_4 Salários Mínimos', 'meios_comunicacao_Mais de 4 Salários Mínimos', 'em_caso_doenca_procura_1 Salário Mínimo'.

Provavelmente esses dados foram adicionados de forma errada, e não agregam para análises e levantamento de dados. Por isso, essas colunas serão excluídas.

In [24]:
# Tratamendo de colunas extras.
df.drop(['meios_comunicacao_3 Salários Mínimos', 
        'meios_comunicacao_4 Salários Mínimos', 
        'meios_comunicacao_Mais de 4 Salários Mínimos', 
        'em_caso_doenca_procura_1 Salário Mínimo'], axis=1,
       inplace=True)

In [25]:
# df.columns

Por fim, esses dados vão ser guardados em um arquivo csv para maior análises em outro notebook para não ficar refazendo esse processo sempre, farei uma padronização de nome de coluna para facilitar identificação e para colocar em um banco de dados de forma adequada. Esses tratamento provavelmente serão base para fazer o processo do código modularizado e legível para o modelo dbt.

In [26]:
import re
from unidecode import unidecode

# Função para padronizar nomes das colunas
def padronizar_nome_coluna(nome):
    nome = unidecode(nome)  # Remove acentos
    nome = nome.lower()  # Converte para minúsculas
    nome = re.sub(r'[^a-z0-9_]', '_', nome)  # Substitui caracteres especiais por "_"
    nome = re.sub(r'_+', '_', nome).strip('_')  # Remove múltiplos "_" seguidos
    return nome
    
# Aplicando a padronização nas colunas do DataFrame existente
df.columns = [padronizar_nome_coluna(col) for col in df.columns]

In [27]:
df.to_csv('../data/processed/dados_ficha_a_desafio_processed.csv', index=False)