In [1]:
import numpy as np 
import pandas as pd 

In [2]:
np.random.seed(10)
# quantidade de observações
n = 100

escolaridade = ['Ensino Fundamental', 'Ensino Médio', 'Ensino Superior']

cidades = ['São Paulo', 'Recife', 'Salvador', 'Salvador', 'Rio de Janeiro']

sexo = ['Masculino', 'Feminino']


# dicionário com dados
data = {
    'Id': np.arange(1, n+1),
    'Idade': np.random.randint(18, 70, size = n),
    'Renda': np.random.randint(1_500, 10_000, size = n),
    'Sexo': np.random.choice(sexo, size = n),
    'Escolaridade': np.random.choice(escolaridade, size = n),
    'Cidade': np.random.choice(cidades, size = n)
}

df = pd.DataFrame(data)

In [3]:
df.sample(5) #amostra aleatoria

Unnamed: 0,Id,Idade,Renda,Sexo,Escolaridade,Cidade
13,14,18,4625,Masculino,Ensino Superior,Recife
45,46,45,4929,Feminino,Ensino Fundamental,Rio de Janeiro
59,60,34,6633,Masculino,Ensino Fundamental,Salvador
87,88,39,5936,Feminino,Ensino Fundamental,São Paulo
98,99,58,2375,Feminino,Ensino Superior,Rio de Janeiro


In [4]:
df.dtypes

Id               int64
Idade            int64
Renda            int64
Sexo            object
Escolaridade    object
Cidade          object
dtype: object

In [5]:
df.select_dtypes(object) #seleciona somente coluna do tipo objeto (util para separar categorica de numerica)

Unnamed: 0,Sexo,Escolaridade,Cidade
0,Masculino,Ensino Médio,São Paulo
1,Feminino,Ensino Superior,Recife
2,Feminino,Ensino Fundamental,Salvador
3,Feminino,Ensino Fundamental,Salvador
4,Feminino,Ensino Fundamental,Recife
...,...,...,...
95,Masculino,Ensino Médio,Recife
96,Masculino,Ensino Superior,Recife
97,Masculino,Ensino Médio,Salvador
98,Feminino,Ensino Superior,Rio de Janeiro


In [8]:
df.select_dtypes(object).columns

Index(['Sexo', 'Escolaridade', 'Cidade'], dtype='object')

In [7]:
pd.get_dummies(df.select_dtypes(object))

Unnamed: 0,Sexo_Feminino,Sexo_Masculino,Escolaridade_Ensino Fundamental,Escolaridade_Ensino Médio,Escolaridade_Ensino Superior,Cidade_Recife,Cidade_Rio de Janeiro,Cidade_Salvador,Cidade_São Paulo
0,0,1,0,1,0,0,0,0,1
1,1,0,0,0,1,1,0,0,0
2,1,0,1,0,0,0,0,1,0
3,1,0,1,0,0,0,0,1,0
4,1,0,1,0,0,1,0,0,0
...,...,...,...,...,...,...,...,...,...
95,0,1,0,1,0,1,0,0,0
96,0,1,0,0,1,1,0,0,0
97,0,1,0,1,0,0,0,1,0
98,1,0,0,0,1,0,1,0,0


In [10]:
df.Sexo = df.Sexo.astype('category')

In [11]:
df.dtypes

Id                 int64
Idade              int64
Renda              int64
Sexo            category
Escolaridade      object
Cidade            object
dtype: object

In [12]:
df.add_prefix('col_').head()

Unnamed: 0,col_Id,col_Idade,col_Renda,col_Sexo,col_Escolaridade,col_Cidade
0,1,27,4297,Masculino,Ensino Médio,São Paulo
1,2,54,7957,Feminino,Ensino Superior,Recife
2,3,33,6343,Feminino,Ensino Fundamental,Salvador
3,4,18,4366,Feminino,Ensino Fundamental,Salvador
4,5,67,4105,Feminino,Ensino Fundamental,Recife


In [18]:
df.notna()

Unnamed: 0,Id,Idade,Renda,Sexo,Escolaridade,Cidade
0,True,True,True,True,True,True
1,True,True,True,True,True,True
2,True,True,True,True,True,True
3,True,True,True,True,True,True
4,True,True,True,True,True,True
...,...,...,...,...,...,...
95,True,True,True,True,True,True
96,True,True,True,True,True,True
97,True,True,True,True,True,True
98,True,True,True,True,True,True


In [19]:
df.isna()

Unnamed: 0,Id,Idade,Renda,Sexo,Escolaridade,Cidade
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
...,...,...,...,...,...,...
95,False,False,False,False,False,False
96,False,False,False,False,False,False
97,False,False,False,False,False,False
98,False,False,False,False,False,False


In [20]:
df.isna().sum()

Id              0
Idade           0
Renda           0
Sexo            0
Escolaridade    0
Cidade          0
dtype: int64

In [21]:
df.duplicated() #se tem linha duplicada

0     False
1     False
2     False
3     False
4     False
      ...  
95    False
96    False
97    False
98    False
99    False
Length: 100, dtype: bool

In [22]:
df.duplicated().sum()

0

In [23]:
pd.get_dummies(df.Sexo)

Unnamed: 0,Feminino,Masculino
0,0,1
1,1,0
2,1,0
3,1,0
4,1,0
...,...,...
95,0,1
96,0,1
97,0,1
98,1,0


In [26]:
pd.get_dummies(df.Sexo, drop_first=True, prefix='eh_sexo')

Unnamed: 0,eh_sexo_Masculino
0,1
1,0
2,0
3,0
4,0
...,...
95,1
96,1
97,1
98,0


In [28]:
df.Sexo.str.replace('Feminino', 'Mulher')

0     Masculino
1        Mulher
2        Mulher
3        Mulher
4        Mulher
        ...    
95    Masculino
96    Masculino
97    Masculino
98       Mulher
99    Masculino
Name: Sexo, Length: 100, dtype: object

In [29]:
df.Sexo.drop_duplicates(keep='first')

0    Masculino
1     Feminino
Name: Sexo, dtype: category
Categories (2, object): ['Feminino', 'Masculino']