# Análise de Missings

# 1. Carregue suas ferramentas

In [1]:
# Importar biblioteca Pandas
import pandas as pd

In [2]:
# Importar o dataset
#dataset = pd.read_csv('nome_tabela.csv', sep=',', skiprows=None)

dataset = pd.read_excel('tabela.xlsx')
dataset

# pd.DataFrame(): cria um DataFrame a partir de uma lista de listas ou uma matriz.
# pd.read_excel(): importa um arquivo Excel para um DataFrame.

#  O (sep=',') é colocado para indicar qual o separador de dados
# neste caso, o csv já esta separando os dados por ',', portanto o (sep=',') não era necessário. Foi colocado para fins didáticos.

Unnamed: 0,esta tabela foi desenvolvida para fins educativos,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6
0,nome,sobrenome,idade,sexo,altura,salario_mensal,profissão
1,João,Silva,30,M,"1,64m",7000,Engenheiro
2,Lara,bembo,29,F,"1,64m",3500,Músico
3,Pedro,bembo,35,M,"1,67m",,Advogado
4,Monica,Santos,28,F,"1,66m",3500,Músico
5,Larissa,Ferreira,31,F,"1,8m",3500,Professor
6,Lara,bembo,30,F,"1,62m",7000,Engenheiro
7,Pedro,Lima,35,M,"1,65m",7000,Engenheiro
8,Marcos,Lima,45,M,"1,64m",4500,Engenheiro
9,Ana,Souza,27,F,"1,75m",6000,Professor


In [3]:
# Define configuracões padrões do Pandas
# max_colwidth=40: Limita a largura das colunas a 40 caracteres.

pd.set_option('max_colwidth', 40)
pd.get_option('max_colwidth')

40

# 3. Limpeza dos dados

Precisamos definir as colunas, definir os data types, eliminar valores nulos e duplicadas, linhas de cabecalho e footer.

## 3.1 Eliminando Header e Footer


In [4]:
#eliminamos a primeira linha com o comando skiprows, ao carregar.
#tambem poderia ser usado o drop: dataset.drop(dataset.index[1], inplace=True)
## O inplace modifica o datadrame original, sendo possível trabalhar
#com o mesmo dataframe modificado nos comandos posteriores e não apenas nesse

dataset = pd.read_excel('tabela.xlsx', skiprows= 1)
dataset

Unnamed: 0,nome,sobrenome,idade,sexo,altura,salario_mensal,profissão
0,João,Silva,30,M,"1,64m",7000.0,Engenheiro
1,Lara,bembo,29,F,"1,64m",3500.0,Músico
2,Pedro,bembo,35,M,"1,67m",,Advogado
3,Monica,Santos,28,F,"1,66m",3500.0,Músico
4,Larissa,Ferreira,31,F,"1,8m",3500.0,Professor
5,Lara,bembo,30,F,"1,62m",7000.0,Engenheiro
6,Pedro,Lima,35,M,"1,65m",7000.0,Engenheiro
7,Marcos,Lima,45,M,"1,64m",4500.0,Engenheiro
8,Ana,Souza,27,F,"1,75m",6000.0,Professor
9,José,bembo,35,M,"1,9m",3500.0,Editor


**Skipirown:** O parâmetro skiprows na função pd.read_csv do Pandas serve para ignorar um determinado número de linhas ao importar um arquivo CSV. Ele permite que você exclua linhas indesejadas, como cabeçalhos não informativos, linhas em branco ou comentários, antes de converter o arquivo em um DataFrame.

Há diversas maneiras de utilizar o skiprows:

**Inteiro:** Passando um inteiro como valor, você indica a quantidade de linhas a serem ignoradas a partir do início do arquivo. Por exemplo, skiprows=2 ignoraria as duas primeiras linhas.

**Lista de inteiros:** Você pode fornecer uma lista de números de linhas específicos a serem ignoradas. Por exemplo, skiprows=[1,3] ignoraria a segunda e a quarta linha.

**Função:** Você pode passar uma função que recebe um index como argumento e retorna True para as linhas que devem ser ignoradas. Isso permite filtrar as linhas com base em critérios mais complexos.

**None (valor padrão)**: Se não for especificado, o Pandas assume que a primeira linha do arquivo é o cabeçalho e a lê como índices das colunas.
No seu exemplo específico, skiprows=None significa que nenhuma linha será ignorada e o Pandas lerá todas as linhas do arquivo.

Aqui estão alguns motivos para usar o skiprows:

**Limpar o cabeçalho:** Se o arquivo possui um cabeçalho não informativo ou incorreto, você pode ignorá-lo para evitar erros de parsing.
Remover linhas vazias ou comentários: Linhas vazias ou comentários podem atrapalhar a análise de dados.

**Ignorar introduções ou footers:**  Alguns arquivos possuem introduções ou footers com informações não relevantes para a análise.
Espero que isso esclareça o significado e o uso do parâmetro skiprows do Pandas. Se você tiver mais dúvidas, não hesite em perguntar!

In [5]:
#eliminamos a última linha
dataset.drop(dataset.index[-1], inplace=True)
dataset.tail()

Unnamed: 0,nome,sobrenome,idade,sexo,altura,salario_mensal,profissão
30,Augusto,Mezenga,27,M,"1,62m",4500.0,Engenheiro
31,Pedro,Berdinatz,29,M,"1,72m",3500.0,Editor
32,Lara,Santos,28,Feminino,"1,7m",5000.0,Engenheiro
33,Pedro,Souza,35,M,"1,72m",5000.0,Engenheiro
34,Pedro,Souza,35,M,"1,72m",5000.0,Engenheiro


## 3.2 Alterando nome de coluna

In [6]:
## Vamos alterar a coluna profissão para profissao
dataset.rename(columns={'profissão': 'profissao'}, inplace=True)

In [7]:
dataset.head()

Unnamed: 0,nome,sobrenome,idade,sexo,altura,salario_mensal,profissao
0,João,Silva,30,M,"1,64m",7000.0,Engenheiro
1,Lara,bembo,29,F,"1,64m",3500.0,Músico
2,Pedro,bembo,35,M,"1,67m",,Advogado
3,Monica,Santos,28,F,"1,66m",3500.0,Músico
4,Larissa,Ferreira,31,F,"1,8m",3500.0,Professor


## 3.3 Missing e Alterações/ Criações de campos

In [8]:
dataset.isna()

Unnamed: 0,nome,sobrenome,idade,sexo,altura,salario_mensal,profissao
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
5,False,False,False,False,False,False,False
6,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False
9,False,False,False,False,False,False,False


In [9]:
# contagem de missing por coluna
dataset.isna().sum()

nome              0
sobrenome         0
idade             1
sexo              1
altura            1
salario_mensal    3
profissao         0
dtype: int64

In [10]:
# contagem de nao-missing por coluna
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   nome            35 non-null     object 
 1   sobrenome       35 non-null     object 
 2   idade           34 non-null     object 
 3   sexo            34 non-null     object 
 4   altura          34 non-null     object 
 5   salario_mensal  32 non-null     float64
 6   profissao       35 non-null     object 
dtypes: float64(1), object(6)
memory usage: 2.0+ KB


In [11]:
dataset[pd.isna(dataset['salario_mensal'])] # filtrar linhas em que salario_mensal é missing

Unnamed: 0,nome,sobrenome,idade,sexo,altura,salario_mensal,profissao
2,Pedro,bembo,35,M,"1,67m",,Advogado
10,Monica,Ferreira,30,F,"1,62m",,Editor
18,Pedro,Souza,29,M,"1,64m",,Editor


### Popular missing com valores corretos

In [12]:
# vamos preencher com o valor correto
dataset.loc[dataset.index == 23, 'sexo'] = 'M'
dataset.loc[dataset.index == 32, 'sexo'] = 'F'

dataset

Unnamed: 0,nome,sobrenome,idade,sexo,altura,salario_mensal,profissao
0,João,Silva,30,M,"1,64m",7000.0,Engenheiro
1,Lara,bembo,29,F,"1,64m",3500.0,Músico
2,Pedro,bembo,35,M,"1,67m",,Advogado
3,Monica,Santos,28,F,"1,66m",3500.0,Músico
4,Larissa,Ferreira,31,F,"1,8m",3500.0,Professor
5,Lara,bembo,30,F,"1,62m",7000.0,Engenheiro
6,Pedro,Lima,35,M,"1,65m",7000.0,Engenheiro
7,Marcos,Lima,45,M,"1,64m",4500.0,Engenheiro
8,Ana,Souza,27,F,"1,75m",6000.0,Professor
9,José,bembo,35,M,"1,9m",3500.0,Editor


In [13]:
# vamos preencher com o valor correto
dataset.loc[dataset.index == 2, 'salario_mensal'] = 5000
dataset.loc[dataset.index == 10, 'salario_mensal'] = 3500
dataset.loc[dataset.index == 18, 'salario_mensal'] = 3500

dataset.head(19)

Unnamed: 0,nome,sobrenome,idade,sexo,altura,salario_mensal,profissao
0,João,Silva,30,M,"1,64m",7000.0,Engenheiro
1,Lara,bembo,29,F,"1,64m",3500.0,Músico
2,Pedro,bembo,35,M,"1,67m",5000.0,Advogado
3,Monica,Santos,28,F,"1,66m",3500.0,Músico
4,Larissa,Ferreira,31,F,"1,8m",3500.0,Professor
5,Lara,bembo,30,F,"1,62m",7000.0,Engenheiro
6,Pedro,Lima,35,M,"1,65m",7000.0,Engenheiro
7,Marcos,Lima,45,M,"1,64m",4500.0,Engenheiro
8,Ana,Souza,27,F,"1,75m",6000.0,Professor
9,José,bembo,35,M,"1,9m",3500.0,Editor


### Retirar texto a mais

In [14]:
dataset['idade'] # vamos preencher o missing com a média geral e retirar a palavra anos.
#depois transformar o data type em int.

0          30
1          29
2          35
3          28
4          31
5          30
6          35
7          45
8          27
9          35
10         30
11         27
12         32
13         34
14         31
15         35
16         45
17         30
18         29
19         40
20         40
21         35
22         29
23        NaN
24         45
25         29
26         32
27    34 anos
28         31
29         27
30         27
31         29
32         28
33         35
34         35
Name: idade, dtype: object

In [15]:
dataset['idade'] = dataset['idade'].replace(' anos', '', regex=True)
dataset['idade']

0      30
1      29
2      35
3      28
4      31
5      30
6      35
7      45
8      27
9      35
10     30
11     27
12     32
13     34
14     31
15     35
16     45
17     30
18     29
19     40
20     40
21     35
22     29
23    NaN
24     45
25     29
26     32
27     34
28     31
29     27
30     27
31     29
32     28
33     35
34     35
Name: idade, dtype: object

In [16]:
#fazer para altura tbm
dataset.head()

Unnamed: 0,nome,sobrenome,idade,sexo,altura,salario_mensal,profissao
0,João,Silva,30,M,"1,64m",7000.0,Engenheiro
1,Lara,bembo,29,F,"1,64m",3500.0,Músico
2,Pedro,bembo,35,M,"1,67m",5000.0,Advogado
3,Monica,Santos,28,F,"1,66m",3500.0,Músico
4,Larissa,Ferreira,31,F,"1,8m",3500.0,Professor


In [17]:
dataset['altura'] = dataset['altura'].replace('m', '', regex = True)
dataset['altura'] = dataset['altura'].replace(',', '.', regex = True)
dataset.head()

Unnamed: 0,nome,sobrenome,idade,sexo,altura,salario_mensal,profissao
0,João,Silva,30,M,1.64,7000.0,Engenheiro
1,Lara,bembo,29,F,1.64,3500.0,Músico
2,Pedro,bembo,35,M,1.67,5000.0,Advogado
3,Monica,Santos,28,F,1.66,3500.0,Músico
4,Larissa,Ferreira,31,F,1.8,3500.0,Professor


## 3.4 Preencher missing com média

In [18]:
#verificar se o campo idade está numerico
dataset['idade'].info() #esta como objeto



<class 'pandas.core.series.Series'>
RangeIndex: 35 entries, 0 to 34
Series name: idade
Non-Null Count  Dtype 
--------------  ----- 
34 non-null     object
dtypes: object(1)
memory usage: 408.0+ bytes


In [19]:
#alterar objeto para int
#dataset['idade'] = dataset['idade'].astype(int)
# o erro acontece pois existe um campo nulo

In [20]:
#converter valor nulo para 0
dataset['idade'] = dataset['idade'].fillna(0)
dataset.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   nome            35 non-null     object 
 1   sobrenome       35 non-null     object 
 2   idade           35 non-null     object 
 3   sexo            35 non-null     object 
 4   altura          34 non-null     object 
 5   salario_mensal  35 non-null     float64
 6   profissao       35 non-null     object 
dtypes: float64(1), object(6)
memory usage: 2.0+ KB


In [21]:
#converter objeto para int em 'idade'
dataset['idade'] = dataset['idade'].astype(int)
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   nome            35 non-null     object 
 1   sobrenome       35 non-null     object 
 2   idade           35 non-null     int64  
 3   sexo            35 non-null     object 
 4   altura          34 non-null     object 
 5   salario_mensal  35 non-null     float64
 6   profissao       35 non-null     object 
dtypes: float64(1), int64(1), object(5)
memory usage: 2.0+ KB


In [22]:
dataset['idade'] == 0 # descobre onde está o registro

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23     True
24    False
25    False
26    False
27    False
28    False
29    False
30    False
31    False
32    False
33    False
34    False
Name: idade, dtype: bool

In [23]:
# localiza e altera o registro 23 para a média
dataset.loc[23, 'idade'] = int(dataset['idade'].mean())
dataset['idade']

0     30
1     29
2     35
3     28
4     31
5     30
6     35
7     45
8     27
9     35
10    30
11    27
12    32
13    34
14    31
15    35
16    45
17    30
18    29
19    40
20    40
21    35
22    29
23    31
24    45
25    29
26    32
27    34
28    31
29    27
30    27
31    29
32    28
33    35
34    35
Name: idade, dtype: int64

## 3.5 Eliminando nulos com DROP

In [24]:
# calcula o número total de valores ausentes em todas as colunas
dataset.isna().sum()

nome              0
sobrenome         0
idade             0
sexo              0
altura            1
salario_mensal    0
profissao         0
dtype: int64

In [25]:
# retorna falso quando contem valores e verdadeiro valores nulos
dataset.isna()

Unnamed: 0,nome,sobrenome,idade,sexo,altura,salario_mensal,profissao
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
5,False,False,False,False,False,False,False
6,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False
9,False,False,False,False,False,False,False


In [26]:
#elimina as linhas com valores ausentes, o 23 deve sair
dataset.dropna(inplace=True)
dataset

Unnamed: 0,nome,sobrenome,idade,sexo,altura,salario_mensal,profissao
0,João,Silva,30,M,1.64,7000.0,Engenheiro
1,Lara,bembo,29,F,1.64,3500.0,Músico
2,Pedro,bembo,35,M,1.67,5000.0,Advogado
3,Monica,Santos,28,F,1.66,3500.0,Músico
4,Larissa,Ferreira,31,F,1.8,3500.0,Professor
5,Lara,bembo,30,F,1.62,7000.0,Engenheiro
6,Pedro,Lima,35,M,1.65,7000.0,Engenheiro
7,Marcos,Lima,45,M,1.64,4500.0,Engenheiro
8,Ana,Souza,27,F,1.75,6000.0,Professor
9,José,bembo,35,M,1.9,3500.0,Editor


## 3.4 Linhas duplicadas

In [27]:
# Retorna as linhas duplicadas
dataset.duplicated()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
24    False
25    False
26    False
27    False
28    False
29    False
30    False
31    False
32    False
33    False
34     True
dtype: bool

In [28]:
# Soma o número de linhas duplicadas
dataset.duplicated().sum()

1

In [29]:
#exclui a linha duplicada
dataset.drop_duplicates(inplace = True) # o True precisa estar em maiúsculo para funcionar
dataset.tail()

Unnamed: 0,nome,sobrenome,idade,sexo,altura,salario_mensal,profissao
29,Flávio,bembo,27,M,1.66,3500.0,Professor
30,Augusto,Mezenga,27,M,1.62,4500.0,Engenheiro
31,Pedro,Berdinatz,29,M,1.72,3500.0,Editor
32,Lara,Santos,28,F,1.7,5000.0,Engenheiro
33,Pedro,Souza,35,M,1.72,5000.0,Engenheiro


In [30]:
dataset.duplicated().sum()

0

## Alterar tipo de dado na coluna

In [31]:
dataset.info() # vamos alterar a altura, de objeto para float

<class 'pandas.core.frame.DataFrame'>
Int64Index: 33 entries, 0 to 33
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   nome            33 non-null     object 
 1   sobrenome       33 non-null     object 
 2   idade           33 non-null     int64  
 3   sexo            33 non-null     object 
 4   altura          33 non-null     object 
 5   salario_mensal  33 non-null     float64
 6   profissao       33 non-null     object 
dtypes: float64(1), int64(1), object(5)
memory usage: 2.1+ KB


In [32]:
dataset['altura'] = dataset['altura'].astype(float)
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 33 entries, 0 to 33
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   nome            33 non-null     object 
 1   sobrenome       33 non-null     object 
 2   idade           33 non-null     int64  
 3   sexo            33 non-null     object 
 4   altura          33 non-null     float64
 5   salario_mensal  33 non-null     float64
 6   profissao       33 non-null     object 
dtypes: float64(2), int64(1), object(4)
memory usage: 2.1+ KB


# 2. Informações sobre o Dataset

In [33]:
dataset.shape
# Indica que temos 33 linhas e 7 colunas

(33, 7)

In [34]:
dataset.shape[0]
# mostra apenas o número de linhas

33

In [35]:
dataset.shape[1]
# mostra apenas o número de colunas

7

In [36]:
dataset.columns

Index(['nome', 'sobrenome', 'idade', 'sexo', 'altura', 'salario_mensal',
       'profissao'],
      dtype='object')

In [37]:
# mostra a quantidade de linhas
len(dataset)

33

In [38]:
#  retorna o número de valores únicos em uma coluna ou DataFrame
dataset.nunique()

nome              13
sobrenome          9
idade             10
sexo               2
altura            11
salario_mensal     5
profissao          5
dtype: int64

In [39]:
dataset['salario_mensal'].value_counts()

3500.0    11
7000.0     7
5000.0     6
4500.0     5
6000.0     4
Name: salario_mensal, dtype: int64

In [40]:
dataset['profissao'].dtype

dtype('O')

In [41]:
## Visualizar as primeiras linhas. O espaco (), em branco indica as primeiras 5 linhas.
## Com número indica as primeiras linhas, no caso abaixo até 8
dataset.head()

Unnamed: 0,nome,sobrenome,idade,sexo,altura,salario_mensal,profissao
0,João,Silva,30,M,1.64,7000.0,Engenheiro
1,Lara,bembo,29,F,1.64,3500.0,Músico
2,Pedro,bembo,35,M,1.67,5000.0,Advogado
3,Monica,Santos,28,F,1.66,3500.0,Músico
4,Larissa,Ferreira,31,F,1.8,3500.0,Professor


In [42]:
dataset.head(8)

Unnamed: 0,nome,sobrenome,idade,sexo,altura,salario_mensal,profissao
0,João,Silva,30,M,1.64,7000.0,Engenheiro
1,Lara,bembo,29,F,1.64,3500.0,Músico
2,Pedro,bembo,35,M,1.67,5000.0,Advogado
3,Monica,Santos,28,F,1.66,3500.0,Músico
4,Larissa,Ferreira,31,F,1.8,3500.0,Professor
5,Lara,bembo,30,F,1.62,7000.0,Engenheiro
6,Pedro,Lima,35,M,1.65,7000.0,Engenheiro
7,Marcos,Lima,45,M,1.64,4500.0,Engenheiro


In [43]:
# Para ver as ultimas 5 linhas no final do arquivo
dataset.tail()

Unnamed: 0,nome,sobrenome,idade,sexo,altura,salario_mensal,profissao
29,Flávio,bembo,27,M,1.66,3500.0,Professor
30,Augusto,Mezenga,27,M,1.62,4500.0,Engenheiro
31,Pedro,Berdinatz,29,M,1.72,3500.0,Editor
32,Lara,Santos,28,F,1.7,5000.0,Engenheiro
33,Pedro,Souza,35,M,1.72,5000.0,Engenheiro


In [44]:
#use o display para visualizar os dois juntos
display(dataset.head())
display(dataset.tail())

Unnamed: 0,nome,sobrenome,idade,sexo,altura,salario_mensal,profissao
0,João,Silva,30,M,1.64,7000.0,Engenheiro
1,Lara,bembo,29,F,1.64,3500.0,Músico
2,Pedro,bembo,35,M,1.67,5000.0,Advogado
3,Monica,Santos,28,F,1.66,3500.0,Músico
4,Larissa,Ferreira,31,F,1.8,3500.0,Professor


Unnamed: 0,nome,sobrenome,idade,sexo,altura,salario_mensal,profissao
29,Flávio,bembo,27,M,1.66,3500.0,Professor
30,Augusto,Mezenga,27,M,1.62,4500.0,Engenheiro
31,Pedro,Berdinatz,29,M,1.72,3500.0,Editor
32,Lara,Santos,28,F,1.7,5000.0,Engenheiro
33,Pedro,Souza,35,M,1.72,5000.0,Engenheiro
