## Modulo 2: Limpeza e preparacao dos dados

No mundo real, os dados raramente vêm prontos para análise. Eles podem ter valores ausentes, tipos de dados incorretos ou formatos que dificultam o trabalho.

# Vamos cobrir:

1. Identificar e lidar com valores ausentes.
2. Converter tipos de dados de colunas
3. Renomear colunas para nomes mais intuitivos


# Pass 1: Carregando o arquivo

In [40]:
import pandas as pd
import numpy as np

df_paciente = pd.read_csv('002.csv', decimal = ',') 
print("Verificando se o df foi carregado corretamente")
print(df_paciente.head())

Verificando se o df foi carregado corretamente
   ID_Paciente             Nome         Idade Sexo Tratamento    Valor  \
0            1       João Silva            25    M    Limpeza   150.00   
1            2      Maria Souza            30    F        NaN   800.00   
2            3     Pedro Santos            45    M      Canal  1200.50   
3            4        Ana Costa  Vinte e dois    F   Extração   350.00   
4            5  Carlos Ferreira            55    M   Implante      NaN   

   Data_Exame  
0  2025-08-01  
1  2025-08-05  
2  2025-08-08  
3  2025-08-10  
4  2025-08-12  


# Passo 2: Lidando com dados ausentes

Valores ausentes (representados por NaN no Pandas) podem atrapalhar nossos cálculos e análises. 

In [42]:
# Substituindo strings vazias por NaN
#df_paciente.replace('', np.nan, inplace=True)

# Contando a quantidade de valores nulos em cada coluna
print("Contagem de NaN em cada coluna")
print(df_paciente.isnull().sum())

# Removendo a linha com valores ausentes na coluna tratamento
df_paciente.dropna(subset=['Tratamento'], inplace=True)
print("DF apos remover as linhas com valores nuls na coluna 'Tratament'")
print(df_paciente)

# Preenchendo o valor ausente na coluna 'Valor' com a média dos valores existentes.
# Primeiro, precisamos corrigir a coluna 'Valor' antes de calcular a média.
df_paciente['Valor'] = df_paciente['Valor'].astype(float)
media_valor = df_paciente['Valor'].mean()
df_paciente['Valor'].fillna(media_valor, inplace=True)
print("\nDataFrame após preencher nulos com a média:")
print(df_paciente)
print("\nVerificando a nova contagem de valores nulos:")
print(df_paciente.isnull().sum())


Contagem de NaN em cada coluna
ID_Paciente    0
Nome           0
Idade          0
Sexo           0
Tratamento     0
Valor          1
Data_Exame     0
dtype: int64
DF apos remover as linhas com valores nuls na coluna 'Tratament'
   ID_Paciente              Nome         Idade Sexo   Tratamento    Valor  \
0            1        João Silva            25    M      Limpeza   150.00   
2            3      Pedro Santos            45    M        Canal  1200.50   
3            4         Ana Costa  Vinte e dois    F     Extração   350.00   
4            5   Carlos Ferreira            55    M     Implante      NaN   
5            6     Fernanda Lima            33    F      Limpeza   150.00   
6            7  Gustavo Oliveira            29    M  Clareamento   800.00   
7            8   Sofia Rodrigues            40    F        Canal  1200.50   
8            9     Bruno Almeida            28    M     Extração   350.00   
9           10    Julia Carvalho            60    F     Implante  5000.00   

 

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_paciente['Valor'].fillna(media_valor, inplace=True)
