In [3]:
import pandas as pd

df = pd.read_excel('dados_ausentes.xlsx')

In [4]:
# Corrigindo erros de formatação
df['Cidade'] = df['Cidade'].str.title()
print(df)

       Nome  Idade          Cidade  Salário
0       Ana   28.0       São Paulo   3500.0
1    Carlos    NaN  Rio De Janeiro   5000.0
2  Fernanda   22.0             NaN      NaN
3      João   41.0    Porto Alegre   4500.0
4   Mariana    NaN        Curitiba   4000.0
5       Ana   28.0       São Paulo   3500.0
6       Ana   28.0       São Paulo   3500.0
7  Fernanda   22.0       São Paulo      NaN


In [7]:
# Substituindo valores categóricos
df['Cidade'].str.lower().replace({'São Paulo': 'SP', 'rio de janeiro': 'RJ', 'rj': 'RJ'})
print(df)

       Nome  Idade          Cidade  Salário
0       Ana   28.0       São Paulo   3500.0
1    Carlos    NaN  Rio De Janeiro   5000.0
2  Fernanda   22.0             NaN      NaN
3      João   41.0    Porto Alegre   4500.0
4   Mariana    NaN        Curitiba   4000.0
5       Ana   28.0       São Paulo   3500.0
6       Ana   28.0       São Paulo   3500.0
7  Fernanda   22.0       São Paulo      NaN


In [8]:
# Identificando os tipos de dados das colunas
coluna_string = df.select_dtypes(include=['string', 'object']).columns.to_list()
print(coluna_string)

['Nome', 'Cidade']


In [9]:
coluna_float = df.select_dtypes(include=['float']).columns.to_list()
print(coluna_float)

['Idade', 'Salário']


In [10]:
# Substituição de dados ausentes para média
df['Idade'].fillna(df['Idade'].mean(), inplace=True)
print(df)

       Nome      Idade          Cidade  Salário
0       Ana  28.000000       São Paulo   3500.0
1    Carlos  28.166667  Rio De Janeiro   5000.0
2  Fernanda  22.000000             NaN      NaN
3      João  41.000000    Porto Alegre   4500.0
4   Mariana  28.166667        Curitiba   4000.0
5       Ana  28.000000       São Paulo   3500.0
6       Ana  28.000000       São Paulo   3500.0
7  Fernanda  22.000000       São Paulo      NaN


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Idade'].fillna(df['Idade'].mean(), inplace=True)


In [13]:
# Converção de dados
df['Idade'] = df['Idade'].astype(int)
print(df)

       Nome  Idade          Cidade  Salário
0       Ana     28       São Paulo   3500.0
1    Carlos     28  Rio De Janeiro   5000.0
2  Fernanda     22             NaN      NaN
3      João     41    Porto Alegre   4500.0
4   Mariana     28        Curitiba   4000.0
5       Ana     28       São Paulo   3500.0
6       Ana     28       São Paulo   3500.0
7  Fernanda     22       São Paulo      NaN


In [16]:
# Valor de cima
df['Idade'] = df['Idade'].ffill()

# Valor de baixo
df['Idade'] = df['Idade'].bfill()

In [17]:
# Criando uma nova coluna
df['Faixa Etária'] = pd.cut(df['Idade'], bins=[0, 18, 30, 50, 100], labels=['Jovem', 'Adulto', 'Meia-Idade', 'Idoso'])
print(df)

       Nome  Idade          Cidade  Salário Faixa Etária
0       Ana     28       São Paulo   3500.0       Adulto
1    Carlos     28  Rio De Janeiro   5000.0       Adulto
2  Fernanda     22             NaN      NaN       Adulto
3      João     41    Porto Alegre   4500.0   Meia-Idade
4   Mariana     28        Curitiba   4000.0       Adulto
5       Ana     28       São Paulo   3500.0       Adulto
6       Ana     28       São Paulo   3500.0       Adulto
7  Fernanda     22       São Paulo      NaN       Adulto


In [18]:
# Remover duplicatas
df = df.drop_duplicates(subset='Nome')
print(df)

       Nome  Idade          Cidade  Salário Faixa Etária
0       Ana     28       São Paulo   3500.0       Adulto
1    Carlos     28  Rio De Janeiro   5000.0       Adulto
2  Fernanda     22             NaN      NaN       Adulto
3      João     41    Porto Alegre   4500.0   Meia-Idade
4   Mariana     28        Curitiba   4000.0       Adulto
