In [1]:
import pandas as pd

df = pd.read_excel("dados_ausentes.xlsx")
print(df)

        Nome  Idade          Cidade  Salário
0      Paula   19.0       São Paulo   3500.0
1   Kimberly    NaN  Rio de Janeiro   4500.0
2        Ana   19.0             NaN      NaN
3     Carlos   20.0        Salvador   5000.0
4  Guilherme    NaN    Porto Alegre   4800.0
5       Caio   20.0       são paulo   3400.0
6      lucas   15.0        Salvador   1000.0


In [2]:
# Corrigir erros de formatação (maiuscula, minuscula)

df["Nome"] = df["Nome"].str.capitalize()    
df["Cidade"] = df["Cidade"].str.title()
print(df)

        Nome  Idade          Cidade  Salário
0      Paula   19.0       São Paulo   3500.0
1   Kimberly    NaN  Rio De Janeiro   4500.0
2        Ana   19.0             NaN      NaN
3     Carlos   20.0        Salvador   5000.0
4  Guilherme    NaN    Porto Alegre   4800.0
5       Caio   20.0       São Paulo   3400.0
6      Lucas   15.0        Salvador   1000.0


In [3]:
# Substituição de valores categoricos: sao paulo, sp, rj

df["Cidade"] = df["Cidade"].str.lower().replace({"são paulo": "SP", "rio de janeiro": "RJ", "rj": "RJ"})
print(df)

        Nome  Idade        Cidade  Salário
0      Paula   19.0            SP   3500.0
1   Kimberly    NaN            RJ   4500.0
2        Ana   19.0           NaN      NaN
3     Carlos   20.0      salvador   5000.0
4  Guilherme    NaN  porto alegre   4800.0
5       Caio   20.0            SP   3400.0
6      Lucas   15.0      salvador   1000.0


In [4]:
# Identificar os tipos de dados das colunas de texto

coluna_string = df.select_dtypes(include = ["string", "object"]).columns.to_list()
print(coluna_string)

['Nome', 'Cidade']


In [5]:
# Identificar os tipos de dados das colunas de float

coluna_float = df.select_dtypes(include = ["float"]).columns.to_list()
print(coluna_float)

['Idade', 'Salário']


In [6]:
# Substituir idades ausentes pela média

df["Idade"].fillna(df["Idade"].mean(), inplace = True)
print(df)

        Nome  Idade        Cidade  Salário
0      Paula   19.0            SP   3500.0
1   Kimberly   18.6            RJ   4500.0
2        Ana   19.0           NaN      NaN
3     Carlos   20.0      salvador   5000.0
4  Guilherme   18.6  porto alegre   4800.0
5       Caio   20.0            SP   3400.0
6      Lucas   15.0      salvador   1000.0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["Idade"].fillna(df["Idade"].mean(), inplace = True)


In [7]:
# Converter os dados para int

df["Idade"] = df["Idade"].astype(int)
print(df)

        Nome  Idade        Cidade  Salário
0      Paula     19            SP   3500.0
1   Kimberly     18            RJ   4500.0
2        Ana     19           NaN      NaN
3     Carlos     20      salvador   5000.0
4  Guilherme     18  porto alegre   4800.0
5       Caio     20            SP   3400.0
6      Lucas     15      salvador   1000.0


In [8]:
# Pega o valor de cima

df["Idade"] = df["Idade"].ffill()

# Pega o valor debaixo 

df["Idade"] = df["Idade"].bfill()

In [9]:
# Criar uma nova coluna: Faixa Etária

df["Faixa Etária"] = pd.cut(df["Idade"], bins = [0, 18, 30, 50, 100], labels = ["Jovem", "Adulto", "Meia-Idade", "Idoso"])
print(df)

        Nome  Idade        Cidade  Salário Faixa Etária
0      Paula     19            SP   3500.0       Adulto
1   Kimberly     18            RJ   4500.0        Jovem
2        Ana     19           NaN      NaN       Adulto
3     Carlos     20      salvador   5000.0       Adulto
4  Guilherme     18  porto alegre   4800.0        Jovem
5       Caio     20            SP   3400.0       Adulto
6      Lucas     15      salvador   1000.0        Jovem


In [10]:
# Remover duplicadas

df = df.drop_duplicates(subset = ["Nome"])
print(df)

        Nome  Idade        Cidade  Salário Faixa Etária
0      Paula     19            SP   3500.0       Adulto
1   Kimberly     18            RJ   4500.0        Jovem
2        Ana     19           NaN      NaN       Adulto
3     Carlos     20      salvador   5000.0       Adulto
4  Guilherme     18  porto alegre   4800.0        Jovem
5       Caio     20            SP   3400.0       Adulto
6      Lucas     15      salvador   1000.0        Jovem
