# **Data Science Experience**
*Prof. Orlando Junior*

---

**Conteúdo**

1. Tratamento de dados ausentes
2. Conversão de dados
3. Transformação de dados
4. Mesclagem e combinação de dados
5. Agregação de dados
6. Exercícios

---

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Tratamento de dados ausentes

**Dados ausentes**: Dados faltantes, *missing values*, Null, NA (*not available*), NaN (*not a number*), são referências à ausência de valor de um atributo em uma ocorrência.

In [None]:
discos = pd.Series([None, 'A Hard Day''s Night', 'Help!', 'Yellow Submarine', 'Abbey Road', 'Let It Be', np.nan])
discos

In [None]:
discos[discos.isnull()]

In [None]:
# Identifica valores ausentes
discos.isnull()

In [None]:
# Filtra valores ausentes
discos[discos.notnull()]

In [None]:
anos = pd.Series([None, 1964, 1965, 1969, 1969, 1970, np.nan], dtype='Int64')
discos_anos = pd.concat([discos, anos], axis=1)
discos_anos

In [None]:
# Filtra valores ausentes em DataFrames
discos_anos.dropna(inplace=True)

In [None]:
discos_anos

In [None]:
# Substitui valores ausentes
# Valores ausentes na coluna 0 -> 'VAZIO'
# Valores ausentes na coluna 1 -> -1
discos_anos.fillna({0:'VAZIO', 1:-1})

**Valores duplicados**

In [None]:
dados = pd.DataFrame({'a': ['um', 'dois'] * 3,
                      'b': np.linspace(1, 2, 6, dtype=int)})
dados

In [None]:
# Indentifica valores duplicados
dados.duplicated()

In [None]:
# Elimina os valores duplicados
dados.drop_duplicates(inplace=True)

In [None]:
dados

In [None]:
dados['a'].drop_duplicates(inplace=True)

In [None]:
dados

**Substituição de valores**

In [None]:
atributo = pd.Series(['?', '?', '?', 1, 2, 3, 4, 5])
atributo

In [None]:
atributo.replace('?', np.nan)

**Inclusão de atributos (variáveis)**

In [None]:
pessoas = pd.DataFrame({'Nome' : ['João', 'Maria', 'Carlos'],
                        'Idade': [25, 31, 43]})
pessoas

In [None]:
pessoas['Salário'] = [2400.00, 1800.00, 3600.00]

In [None]:
pessoas

## Conversão de dados

**Número inteiro para decimal**

In [None]:
dados = pd.Series([0, 1, 2, 3, 4, 5])
dados

In [None]:
dados.dtype

In [None]:
# Conversão para float (ponto flutuante)
dados = dados.astype(float)
dados

In [None]:
dados.dtype

**Número inteiro para valor booleano**

In [None]:
numeros = pd.Series([0, 1, 1, 0, 1, 0, 1])
numeros

In [None]:
numeros = numeros.astype('bool')
numeros

**Texto para número inteiro**

In [None]:
matriculas = pd.Series(['938203', '948294', '829484', '839583'])
matriculas

In [None]:
matriculas = matriculas.astype(int)
matriculas

**Conversão para dado categórico**: uma variável categórica é uma variável que pode assumir apenas um número limitado de valores possíveis.

In [None]:
estado_civil = pd.Series(['solteiro', 'casado', 'separado', 'divorciado', 'viúvo'])
estado_civil

In [None]:
estado_civil.astype('category')

In [None]:
estado_civil = estado_civil.astype('category')

In [None]:
estado_civil

## Transformação de dados

**Discretização (*binning*)**: visa criar `bins` agrupandos conjuntos de pontos de dados, permitindo transformar variáveis contínuas em um conjunto de valores discretos.

In [None]:
# Cria 20 valores de preços entre R$ 100 e R$ 500
precos = np.linspace(100, 500, 20).round(2)
precos

In [None]:
# Armazena os valores de preços em intervalos discretos
# 0 -> barato
# 1 -> caro
# 2 -> muito caro
categorias = pd.cut(precos, bins=3, labels=['barato', 'caro', 'muito caro'])
categorias

In [None]:
precos_categorias = pd.DataFrame({'preco'    : precos,
                                  'categoria': categorias})
precos_categorias.head(8)

In [None]:
precos_categorias

In [None]:
# Quantidade de preços em cada categoria
precos_categorias['categoria'].value_counts()

In [None]:
# Boxplot dos preços conforme as categorias
sns.boxplot(x='categoria', y='preco', data=precos_categorias)
plt.show()

**Detecção de *outliers***

In [None]:
# Gera 1000 valores em 4 atributos conforme a distribuição normal
dados = pd.DataFrame(np.random.randn(1000, 4))

In [None]:
dados.head(10)

In [None]:
# Observa as estatísticas dos dados
dados.describe()

In [None]:
np.abs(-1)

In [None]:
# Hipótese: queremos valores maiores que 3 na distribuição em um dos atributos
atributo = dados[3]
atributo[np.abs(atributo) > 3]

In [None]:
# Selecionar todas as linhas que tenham valores que excedam +3 ou -3
dados[(np.abs(dados) > 3).any(1)]

In [None]:
np.sign(921021)

In [None]:
# Eliminar os valores discrepantes limitando o valor a +3 ou -3
# np.sign: devolve (-1 ou +1) indicando o sinal
dados[np.abs(dados) > 3] = np.sign(dados) * 3

In [None]:
dados.describe()

**Cálculo de variáveis *dummy***: consiste em converter uma variável categórica em uma matriz `dummy`.

In [None]:
df = pd.DataFrame({'Nome': ['Daniel', 'Adriana', 'Henrique', 'Cecília'],
                   'Idade': [23, 35, 15, 22],
                   'Sexo': ['M', 'F', 'M', 'F']})
df

In [None]:
sexo_dummies = pd.get_dummies(df.Sexo, prefix='Sexo', drop_first=True)
sexo_dummies

In [None]:
df_new = pd.concat([df, sexo_dummies], axis=1)
df_new

In [None]:
# Alternativa (mais utilizada)
sexo_dummies = pd.get_dummies(df.Sexo, prefix='Sexo', drop_first=True)
sexo_dummies

In [None]:
df_new = pd.concat([df, sexo_dummies], axis=1)
df_new

In [None]:
# estado_civil = pd.Series(['solteiro', 'casado', 'separado', 'divorciado', 'viúvo'])
df_new['Estado_Civil'] = ['solteiro', 'casado', 'separado', 'solteiro']
df_new

In [None]:
df_new.Estado_Civil = df_new.Estado_Civil.astype('category')
df_new

In [None]:
estado_civil_dummies = pd.get_dummies(df_new.Estado_Civil, prefix='Estado_Civil')
df_new = pd.concat([df_new, estado_civil_dummies], axis=1)
df_new

## Mesclagem e combinação de dados

**Mesclagem (*merge*)**: conecta linhas em *DataFrames* com base em uma ou mais chaves.

![picture](https://files.realpython.com/media/join_diagram.93e6ef63afbe.png)

In [None]:
df_alunos = pd.DataFrame({
    'matricula': [3241, 9282, 8482, 2426, None, 1193],
    'nome': ['João', 'Maria', 'Carlos', 'Beatriz', 'Mário', 'Renata']
    })
df_alunos

In [None]:
df_notas = pd.DataFrame({
    'matricula': [3241, 9282, 8482, 2426, 8193, 8194, 7424, 8199],
    'nota': [9.75, 5.5, 7.25, 4.0, 9.0, 4.5, 3.5, 2.75]
    })
df_notas

In [None]:
# Mescla os dois DataFrames com base na matrícula apenas onde a chave existir
df_alunos_notas = pd.merge(df_alunos, df_notas, on='matricula', how='inner')
df_alunos_notas

In [None]:
# Mescla os dois DataFrames com base na matrícula se a chave existir pelo menos em alunos
pd.merge(df_alunos, df_notas, on='matricula', how='left')

In [None]:
# Mescla os dois DataFrames com base na matrícula se a chave existir pelo menos em notas
pd.merge(df_alunos, df_notas, on='matricula', how='right')

In [None]:
# Mescla todas as combinações com base na matrícula
pd.merge(df_alunos, df_notas, on='matricula', how='outer')

In [None]:
# Alternativa usando a função interna "join"
df_alunos.join(df_notas, how='inner', lsuffix='_alunos', rsuffix='_notas')

In [None]:
df_notas.join(df_alunos, how='inner', rsuffix='_alunos', lsuffix='_notas')

**Combinação**: utilizada quando dois conjuntos de dados possuem índices sobrepostos de forma total ou parcial.

In [None]:
serie1 = pd.Series([None, 2, 3, 4, 5, None], index=['f', 'e', 'd', 'c', 'b', 'a'])
serie1

In [None]:
serie2 = pd.Series([100, None, 300, None, None, 600], index=['a', 'b', 'c', 'd', 'e', 'f'])
serie2

In [None]:
# Combina as duas séries em um numpy array
# Escolhe uma ou outra série
np.where(pd.isnull(serie1), serie2, serie1)

In [None]:
# Combina duas séries em uma terceira série
serie1.combine_first(serie2)

## Agregação de dados

![picture](https://unlhcc.github.io/r-novice-gapminder/fig/12-plyr-fig1.png)

**Função *GroupBy***

In [None]:
locais = pd.DataFrame({
    'uf': ['SP', 'SP', 'SP', 'SC', 'SC', 'MG'],
    'cidade': ['Santo André', 'São Caetano', 'São Bernardo', 'Florianópolis', 'Balneário Camboriú', 'Uberlândia'],
    'populacao': [700000, 160000, 800000, 700000, 150000, 700000]
    })
locais

In [None]:
locais_grupo = locais.groupby('uf')
locais_grupo

In [None]:
for key, group in locais_grupo:
  print(key)
  print('-' * 5)
  print(group)
  print('=' * 40)

**Funções de grupo**

In [None]:
# Contagem
locais_grupo.count()['cidade']

In [None]:
# Soma
locais_grupo['populacao'].sum()

In [None]:
# Média
locais_grupo['populacao'].mean()

**Função agregadora**

In [None]:
def amplitude(valor):
  return valor.max() - valor.min()

In [None]:
locais_grupo['populacao'].agg(amplitude)

In [None]:
locais_grupo['populacao'].agg(['min', 'max', amplitude])

## Exercícios

**1 #** Considere o conjunto de dados apresentado abaixo e substitua os valores numéricos ausentes por zero.

In [None]:
produtos = pd.Series(['P1', 'P2', 'P3', 'P4', 'P5', 'P6', 'P7', 'P8', 'P9', 'P10'])
precos = pd.Series([1.99, 1.79, 1.89, None, None, 2.99, 4.99, 1.19, 1.49, 2.79])
produtos_precos = pd.DataFrame({'produto': produtos,
                                'preco': precos})
produtos_precos

Unnamed: 0,produto,preco
0,P1,1.99
1,P2,1.79
2,P3,1.89
3,P4,
4,P5,
5,P6,2.99
6,P7,4.99
7,P8,1.19
8,P9,1.49
9,P10,2.79


**2 #** Identifique e remova os valores duplicados do conjunto de dados.

In [None]:
estados = pd.Series(['SP', 'SP', 'SP', 'SP', 'RJ', 'RJ', 'RJ', 'ES', 'ES', 'MG'])
estados

**3 #** Crie 2 categorias (baixo e alto) para o volume de vendas e inclua os rótulos no conjunto de dados original, conforme apresentado na saída.

In [None]:
k = 1000000
clientes = pd.DataFrame({
    'nome': ['Azul', 'Gol', 'Latam', 'Avianca'],
    'vendas': [ 1.85*k, 1.57*k,  1.34*k, 0.89*k]
})
clientes

Unnamed: 0,nome,vendas
0,Azul,1850000.0
1,Gol,1570000.0
2,Latam,1340000.0
3,Avianca,890000.0


Unnamed: 0,nome,vendas,categoria
0,Azul,1850000.0,alto
1,Gol,1570000.0,alto
2,Latam,1340000.0,baixo
3,Avianca,890000.0,baixo


**4 #** Crie variáveis *dummy* para todas as variáveis categóricas do conjunto de dados.

In [None]:
df = pd.DataFrame({'nome': ['João', 'Ana', 'Carlos', None],
                  'idade': [10, 9, 8, 9],
                  'turma': ['A', 'A', 'B', 'B'],
                  'disciplina': ['Português', 'Matemática', 'Matemática', 'Português'],
                  'nota': [9.5, 8.5, 9.0, 8.0]})
df

Unnamed: 0,nome,idade,turma,disciplina,nota
0,João,10,A,Português,9.5
1,Ana,9,A,Matemática,8.5
2,Carlos,8,B,Matemática,9.0
3,,9,B,Português,8.0


Unnamed: 0,nome,idade,turma,disciplina,nota,turma_A,turma_B,disciplina_Matemática,disciplina_Português
0,João,10,A,Português,9.5,1,0,0,1
1,Ana,9,A,Matemática,8.5,1,0,1,0
2,Carlos,8,B,Matemática,9.0,0,1,1,0
3,,9,B,Português,8.0,0,1,0,1


**5 #** Mescle os 3 conjuntos de dados apresentados, conforme o resultado apresentado na saída.

In [37]:
dados1 = pd.DataFrame({'id_aluno': [1, 2, 3, 4, 5],
                       'nome': ['João', 'Ana', 'Carlos', 'Renata', 'Pedro']})

dados2 = pd.DataFrame({'id_turma': [1, 2],
                       'turma': ['A', 'B']})

dados3 = pd.DataFrame({'id_aluno': [1, 2, 3, 4, 5],
                       'id_turma': [1, 1, 1, 2, 2]})

In [38]:
final = pd.merge(dados1, dados3, on='id_aluno', how='inner')
final



Unnamed: 0,id_aluno,nome,id_turma
0,1,João,1
1,2,Ana,1
2,3,Carlos,1
3,4,Renata,2
4,5,Pedro,2


In [39]:
final_ = pd.merge(final, dados2, on='id_turma', how='inner')
final_

Unnamed: 0,id_aluno,nome,id_turma,turma
0,1,João,1,A
1,2,Ana,1,A
2,3,Carlos,1,A
3,4,Renata,2,B
4,5,Pedro,2,B


In [41]:
final_ = final_.drop(columns=['id_aluno'])
final_ = final_.drop(columns=['id_turma'])
final_

final_.iloc[:,['nome', ]]

Unnamed: 0,nome,turma
0,João,A
1,Ana,A
2,Carlos,A
3,Renata,B
4,Pedro,B
