<h2>Tratamento e Limpeza de Dados</h2>

<h3>Redundância</h3>

- Valores duplicados
- Fundo de imagens (por exemplo as imagens de cebolinha na primeira aula)
- Sons de fundo que não possuem nenhuma informação relevante (áudio em branco)

Método duplicated()

- Retorna True quando há uma repetição
- Caso nenhum parâmetro seja especificado, retorna os valores cuja linha toda é repetida

- Parâmetro keep:
    - False -> Faz com que sejam apresentadas todas as ocorrências repetidas
        - Ou seja, irá mostrar também a ocorrência original
    
    - first (default) -> Mantém a primeira ocorrência e remove as demais

    - last -> Mantém a última ocorrência e remove as demais

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

data = pd.read_csv("./dados/people_prof_relig.csv")
data.dtypes

Name                object
Sex                 object
Year of Birth        int64
Country of Birth    object
Religion            object
City                object
Profession          object
Age                  int64
Experience           int64
Salary               int64
dtype: object

In [3]:
data.duplicated()

0     False
1     False
2     False
3     False
4     False
      ...  
95    False
96    False
97    False
98    False
99    False
Length: 100, dtype: bool

In [4]:
# mostra apenas as cópias
data[data.duplicated()]

Unnamed: 0,Name,Sex,Year of Birth,Country of Birth,Religion,City,Profession,Age,Experience,Salary
33,Apolonia Abler,F,1967,Canada,Christian,Vancouver,Nurse,54,35,7141
51,Carlos Cobre,M,1983,Brazil,Christian,São Paulo,Nurse,38,15,6300
61,Apolonia Abler,F,1967,Canada,Christian,Vancouver,Nurse,54,35,7141
68,Ricardo Rima,M,1977,Peru,Christian,Arequipa,Nurse,44,16,6677


In [6]:
# são apresentadas as cópias e o original
data[data.duplicated(keep=False)]

Unnamed: 0,Name,Sex,Year of Birth,Country of Birth,Religion,City,Profession,Age,Experience,Salary
13,Carlos Cobre,M,1983,Brazil,Christian,São Paulo,Nurse,38,15,6300
18,Ricardo Rima,M,1977,Peru,Christian,Arequipa,Nurse,44,16,6677
19,Apolonia Abler,F,1967,Canada,Christian,Vancouver,Nurse,54,35,7141
33,Apolonia Abler,F,1967,Canada,Christian,Vancouver,Nurse,54,35,7141
51,Carlos Cobre,M,1983,Brazil,Christian,São Paulo,Nurse,38,15,6300
61,Apolonia Abler,F,1967,Canada,Christian,Vancouver,Nurse,54,35,7141
68,Ricardo Rima,M,1977,Peru,Christian,Arequipa,Nurse,44,16,6677


In [7]:
# aqui, percebe-se que é idêntico ao uso de data.duplicated() apenas
data[data.duplicated(keep='first')]

Unnamed: 0,Name,Sex,Year of Birth,Country of Birth,Religion,City,Profession,Age,Experience,Salary
33,Apolonia Abler,F,1967,Canada,Christian,Vancouver,Nurse,54,35,7141
51,Carlos Cobre,M,1983,Brazil,Christian,São Paulo,Nurse,38,15,6300
61,Apolonia Abler,F,1967,Canada,Christian,Vancouver,Nurse,54,35,7141
68,Ricardo Rima,M,1977,Peru,Christian,Arequipa,Nurse,44,16,6677


In [9]:
# vê-se que é mantido apenas o último registro
data[data.duplicated(keep='last')]

Unnamed: 0,Name,Sex,Year of Birth,Country of Birth,Religion,City,Profession,Age,Experience,Salary
13,Carlos Cobre,M,1983,Brazil,Christian,São Paulo,Nurse,38,15,6300
18,Ricardo Rima,M,1977,Peru,Christian,Arequipa,Nurse,44,16,6677
19,Apolonia Abler,F,1967,Canada,Christian,Vancouver,Nurse,54,35,7141
33,Apolonia Abler,F,1967,Canada,Christian,Vancouver,Nurse,54,35,7141


<h4>Remoção de duplicados</h4>

Basta utilizar o método drop_duplicates(keep = parâmetro)

In [10]:
d_ndup = data.drop_duplicates(keep='first')

d_ndup[d_ndup.duplicated()]

Unnamed: 0,Name,Sex,Year of Birth,Country of Birth,Religion,City,Profession,Age,Experience,Salary


<h4>Duplicidade em Atributos</h4>

Podemos também verificar a duplicidade de forma direcionada aos atributos em específico

Sintaxe: data.duplicated(\['atributo desejado'\], keep = ...)

In [16]:
nomes_duplciados = d_ndup.duplicated(['Name'], keep=False)

In [17]:
d_ndup[nomes_duplciados]

Unnamed: 0,Name,Sex,Year of Birth,Country of Birth,Religion,City,Profession,Age,Experience,Salary
19,Apolonia Abler,F,1967,Canada,Christian,Vancouver,Nurse,54,35,7141
93,Apolonia Abler,F,1967,Australia,Christian,Brisbane,Nurse,54,23,5496


<h4>Atributos Constantes</h4>

Para facilitar esse trabalho, podemos utilizar 'unique', retornando os valores únicos e 'nunique' para verificar a contagem de valores únicos na coluna

In [18]:
d_ndup['Name'].nunique()

95

In [20]:
# aqui, iremos montar um array com as colunas que apresentam atributos constantes, sendo eles religião e profissão
att_const = np.array(d_ndup.columns[d_ndup.nunique() <= 1])

print(att_const)

['Religion' 'Profession']


Remoção dos atributos constantes, para favorecer a leitura dos dados:

data.drop(atributos_constantes, axis=1) -> aqui, devemos especificar que trata-se de colunas a serem removidas, caso contrário, será executado nas linhas

In [21]:
data_not_const = d_ndup.drop(att_const, axis=1)

In [27]:
# o método sample seleciona dados aleatórios
data_not_const.sample(5)

Unnamed: 0,Name,Sex,Year of Birth,Country of Birth,City,Age,Experience,Salary
97,Margaret Keith,F,1970,USA,New Orleans,51,18,2917
64,Jeannette Lowe,F,1972,Spain,Valencia,49,18,2296
20,Willene Wolfgram,F,1997,USA,New Orleans,24,1,5196
92,Norah Carey,F,1961,Scotland,Edinburgh,60,38,1785
45,Michele Fletcher,F,1965,Scotland,Edinburgh,56,24,7599


<h4>Atributos Correlacionados</h4>

Alguns atributos podem estar fortemente correlacionados a outros, ou seja, os 'explicam' de modo importante. Desse modo, é importante para a análise e o tratamento desses dados que sejam identificadas as corretas correlações. Para tal, podemos utilizar o método **corr()**, que apresenta o grau de correlação entre os pares de atributos de um dataframe

Analisando a correlação:

-1: inversamente correlacionado

0: totalmente sem correlação

1: diretamente correlacionado 

In [29]:
matriz_correlacionamento = data_not_const.corr()

print(matriz_correlacionamento)

               Year of Birth       Age  Experience    Salary
Year of Birth       1.000000 -1.000000   -0.908208 -0.362197
Age                -1.000000  1.000000    0.908208  0.362197
Experience         -0.908208  0.908208    1.000000  0.432904
Salary             -0.362197  0.362197    0.432904  1.000000


Entendendo a matriz de correlação:

- Diagonal principal igual a 1 (pois correlaciona um atributo a ele mesmo / Aii = 1)
- Simétrica (Aij = Aji)

Desse modo, podemos utilizar o seguinte, para favorecer a análise:

- Utilizar o módulo dos valores (para não utilizar valores negativos)
- Utilizar apenas a matriz triangular superior, exclusa a diagonal principal (Aij | j>i)

In [31]:
matriz_correlacionamento = np.abs(matriz_correlacionamento)

print(matriz_correlacionamento)

               Year of Birth       Age  Experience    Salary
Year of Birth       1.000000  1.000000    0.908208  0.362197
Age                 1.000000  1.000000    0.908208  0.362197
Experience          0.908208  0.908208    1.000000  0.432904
Salary              0.362197  0.362197    0.432904  1.000000


In [32]:
# o parâmetro k=1 deixa a diagonal principal exclusa da matriz triangular formada
mask_tri = np.triu(np.ones(matriz_correlacionamento.shape), k=1).astype(np.bool)
print(mask_tri)

[[False  True  True  True]
 [False False  True  True]
 [False False False  True]
 [False False False False]]
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  mask_tri = np.triu(np.ones(matriz_correlacionamento.shape), k=1).astype(np.bool)


In [36]:
triangular_superior = matriz_correlacionamento.where(mask_tri)

print(triangular_superior)

               Year of Birth  Age  Experience    Salary
Year of Birth            NaN  1.0    0.908208  0.362197
Age                      NaN  NaN    0.908208  0.362197
Experience               NaN  NaN         NaN  0.432904
Salary                   NaN  NaN         NaN       NaN


Atributos com alta correlação apresentam ao menos corr >= 0.95

In [37]:
atributos_alta_corr = [col for col in triangular_superior.columns if any(triangular_superior[col] >= 0.95)]

print(atributos_alta_corr)

['Age']


Agora, podemos limpar os atributos com alta correlação, afinal, se pararmos para pensar, em um grande volume de dados, possuir idade e o ano de nascimento são apenas bytes consumidos e que não agregam quaisquer valor à análise de dados

In [38]:
data_clean = data_not_const.drop(data_not_const[atributos_alta_corr], axis=1)

In [40]:
data_clean.sample(5)

Unnamed: 0,Name,Sex,Year of Birth,Country of Birth,City,Experience,Salary
81,Izaiah Duarte,M,1997,Brazil,São Paulo,4,3833
31,Albert Keller,M,1979,USA,New Orleans,19,1297
59,Virgil Griffin,M,1966,Canada,Vancouver,26,4152
46,Brad Ferguson,M,1985,USA,New Orleans,2,2197
38,Archie Hogan,M,1976,Scotland,Edinburgh,12,404


In [54]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Name              100 non-null    object
 1   Sex               100 non-null    object
 2   Year of Birth     100 non-null    int64 
 3   Country of Birth  100 non-null    object
 4   Religion          100 non-null    object
 5   City              100 non-null    object
 6   Profession        100 non-null    object
 7   Age               100 non-null    int64 
 8   Experience        100 non-null    int64 
 9   Salary            100 non-null    int64 
dtypes: int64(4), object(6)
memory usage: 7.9+ KB


In [47]:
data_clean.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 96 entries, 0 to 99
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Name              96 non-null     object
 1   Sex               96 non-null     object
 2   Year of Birth     96 non-null     int64 
 3   Country of Birth  96 non-null     object
 4   City              96 non-null     object
 5   Experience        96 non-null     int64 
 6   Salary            96 non-null     int64 
dtypes: int64(3), object(4)
memory usage: 8.1+ KB
