# Semana 4: Descoberta e preparação de dados

**Video-aula:**
<a href="https://www.youtube.com/watch?v=pNT304aI4uU" target="_blank">KDD e análise de dados</a> | 
<a href="https://www.youtube.com/watch?v=pbksL5cpeSk" target="_blank">Preparação e pré-processamento de dados -Parte I</a> | 
<a href="https://www.youtube.com/watch?v=8VwLb7M-5-g" target="_blank">Preparação e pré-processamento de dados - Parte II</a>

KDD e AED são processos fundamentais para que o cientista de dados seja capaz de compreender o conjunto de dados que estão disponíveis e, principalmente, ser capaz de determinar os tipos de análises que são possíveis.<br>
É por meio da Análise Exploratória que se compreende o caminho para responder às questões de um projeto de DS.

Refers: CARVALHO, André Carlos Ponce de Leon Ferreira et al. Inteligência Artificial - Uma Abordagem de Aprendizado de Máquina. Disponível em: Minha Biblioteca, (2nd edição). Grupo GEN, 2021

## KDD (Knowledge Discovery in Databases)
__KDD ou "Processo de Descoberta de Conhecimento"__, segundo Fayyad, Piatetsky-Shapiro e Smyth, __é um processo de várias etapas, não trivial, interativo e iterativo__, __para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis__ a 
partir de conjuntos de dados;

Refers: https://numpy.org/doc/stable/reference/

- __“não trivial”__ diz respeito à __complexidade__ existente na __execução e manutenção__ dos processos de KDD;
- __“interativo”__ representa a relevância de possuir um elemento que __controle__ o processo;
- __“iterativo”__ indica a __possibilidade de repetições em qualquer uma das etapas__ do processo;
- __“conhecimento útil”__ aponta para a __indicação__ de que o __objetivo foi alcançado__.

### Fases:

- Geralmente é __dividido em 5 fases__:
  - __Seleção:__ consiste em __selecionar um conjunto ou subconjunto de dados__ que farão parte da análise. As __fontes de dados__ podem ser __variadas__ (planilhas, bancos de dados, data warehouses) e possuir __dados com formatos diferentes__ (estruturados, semiestruturados e não-estruturados);
  - __Pré-Processamento:__ consiste em fazer a __verificação da qualidade dos dados__. Exceções e ruídos são removidos. Limpeza, correção, remoção de dados inconsistentes, identificação de dados ausentes, incompletos ou não íntegros são parte do processo;
  - __Transformação:__ consiste em aplicar __técnicas__ de transformação __como: normalização, agregação, criação de novos atributos, redução e sintetização dos dados__. Busca-se identificar atributos úteis nos dados para alcançar os objetivos pretendidos;
  - __Mineração de Dados:__ consiste na __aplicação de algoritmos__ e técnicas para __identificar padrões nos dados e verificar hipóteses__. Geralmente as descobertas podem ser descritivas ou preditivas, _com os seguintes objetivos: regressão (uma função que faça o mapeamento dos dados), clusterização (identificar um conjunto finito de categorias ou clusters), sumarização (buscar descrição compacta para subconjunto dos dados), dependências ou associações (identificar dependências significativas entre as variáveis) e divergências (identificar alterações significativas a partir dos valores medidos)_;
  - __Interpretação:__ consiste em __avaliar o desempenho do modelo__, ocorrendo a __consolidação do conhecimento descoberto__. A validação pode ser feita baseada em análise de profissionais ou mesmo em comparação com dados coletados anteriormente

### Demonstração

In [5]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns



FileNotFoundError: Could not find module 'C:\Users\vinicius.barbosa\Anaconda3\lib\site-packages\scipy\.libs\libbanded5x.UGR6EUQPIWHQH7SL62IWIXB5545VDNQZ.gfortran-win_amd64.dll' (or one of its dependencies). Try using the full path with constructor syntax.

#### Gerar dados aleatórios e plotar um histograma (Distribuição)
Gerar 30 valores (1 por dia) com minutos até 60

In [None]:
minutospordia=np.random.randint(0,60,30)
minutospordia

In [None]:
ax=sns.histplot(minutospordia,)
ax.set(xlabel='Minutos Por Dia', ylabel='Qtde Vezes')
plt.show()

## AED (Análise Exploratória de Dados)
Tem como finalidade principal __examinar os dados previamente à aplicação de qualquer técnica estatística__. Desta forma o analista consegue um __entendimento básico de seus dados e das relações existentes entre as variáveis analisadas__.


- Na AED é muito __comum a análise descritiva__, que de forma detalhada permite ao cientista de dados __familiarizar-se com os dados, organizá-los e sintetizá-los__ de forma a __obter as informações__ necessárias do conjunto de dados __para responder as questões que o problema__ de DS está tentando resolver;
- A AED pode ser __comparada com as três primeiras fases do KDD__, e pode ser entendida como a __primeira e importantíssima observação sobre os dados__;
- Para realizar a análise exploratória __é determinante conhecer__ tecnicamente o que __seus dados__ representam e __como eles são classificados__.

### Conceitos básicos

#### Quantidade de variáveis:
- __Dados unidimensionais (univariados)__ são dados nos quais você __tem apenas uma coleção de números__, por exemplo a temperatura de pessoas de uma ala (como na tabela do slide anterior), a quantidade de gols que seu time fez por jogo no campeonato ou a média de minutos diários que você usa olhando seu instagram;
  - _Um primeiro passo inevitável é computar alguma estatística, saber o dia que gastou mais minutos no instagram, que gastou menos, a média de minutos, a soma deles_.
- __Dados multidimensionais (multivariados)__ são dados ques possam __ter mais de uma dimensão__, por exemplo o sexo, a idade, o peso (como na tabela já vista), os gols feitos e os gols sofridos pelo seu time, ou então a quantidade de minutos no instagram e também a quantidade de posts realizados.
  - _Em muitos casos é importante conhecer cada dimensão individualmente, mas também é necessário dispersar os dados e entender a relação entre eles, se elas existirem_.

  
**_Obs: Às vezes vai escutar que um dado é escalar (dado único, unidimensional), que representa um dado que não é um array (vetor ou matriz) ou objeto (dict)._**

#### Tipo de variáveis:
- **Dados qualitativos:** Dados que representam qualidades, é chamado de qualitativo, simbólico ou categórico. Os valores podem ser associados às categorias. Podem ter seus valores ordenados, mas nunca podem receber operações aritméticas.
  - As __variáveis qualitativas__ podem ser __nominais ou ordinais__.
    - _Variáveis nominais_: os valores _são nomes diferentes_, _carregando a menor quantidade de informação possível. Não existe relação de ordem entre seus valores_.
      - _CPF, RG, cor dos olhos, sexo_
    - _Variáveis ordinais_: os valores refletem uma _ordem das categorias representadas_, desta forma _operadores de comparação (maior, menor) podem ser utilizados_.
      - _escolaridade, patente militar, classificação no campeonato_
- **Dados quantitativos:** Dados que representam quantidades, sendo então chamado de quantitativo ou numérico. São valores numéricos, que podem ser ordenados e usados em operações aritméticas.
  - As __variáveis quantitativas__ podem ser __contínuas ou discretas__.
    - _Variáveis discretas_: normalmente são representadas por valores que contêm um _número finito ou infinito contável de valores_. Casos de atributos contáveis.
      - _valores (0/1), idade, número de peças com defeito_
    - _Variáveis contínuas_: normalmente são representadas por valores que podem assumir um _número infinito de valores_. Geralmente _resultados de medidas (por instrumento)_;
      - _peso, tamanho, distância_
    - _Variáveis intervalares_: valores dentro de um intervalo, sem zero absoluto.
      - _temperatura, datas de um calendário_
    - _Variáveis racionais_: com zero absoluto. 
      - _quantidade de vezes que uma pessoa foi ao hospital (o zero é parâmetro)_

#### Exploração:
- Uma grande quantidade de informações úteis pode ser extraída a partir do conhecimento sobre tipos de dados e, principalmente, sobre a exploração de um conjunto de dados;
- A estatística descritiva resume de forma quantitativa as principais características de um conjunto de dados;
- Geralmente, partir de um tipo de análise quando se tem o conhecimento sobre o tipo de dado é algo muito interessante para se identificar características dos dados;
- Na tabela a seguir apresentamos uma sugestão de possíveis representações para cada tipo de dados.
<table>
    <th>Escala</th>
    <th>Representação</th>
    <th>Medida de Tendência Central</th>
    <tr>
        <td>Nominal</td>
        <td>Barras, linhas e pizza</td>
        <td>Moda</td>
    </tr>
    <tr>
        <td>Ordinal</td>
        <td>Boxplot</td>
        <td>Mediana</td>
    </tr>
    <tr>
        <td>Intervalar</td>
        <td>Histograma e polígonos de frequência</td>
        <td>Média</td>
    </tr>
    <tr>
        <td>Racional</td>
        <td></td>
        <td>Média Geométrica</td>
    </tr>

### Demonstração

#### Instação das bibliotecas

!pip install sweetviz
import sweetviz

#### Carregando a base de dados

In [None]:
arquivo='https://raw.githubusercontent.com/JeffSackmann/tennis_atp/master/atp_matches_2021.csv'
dados=pd.read_csv(arquivo)
dados

#### Gerando uma Análise Exploratória dos Dados com SWEETVIZ

In [None]:
eda=sweetviz.analyze(dados)
eda.show_html()

#### Gerando uma Matriz de Correlação (de Pearson) de variáveis

Lembrando que valor 1 é correlação direta perfeita, -1 é correlação negativa perfeita e valores próximos de zero indicam a falta de existência ou dificuldade de estabelecer correlação

In [None]:
mask = np.triu(np.ones_like(dados.corr(), dtype=np.bool))

In [None]:
plt.figure(figsize=(20,20))
sns.heatmap(dados.corr(), mask=mask, square = True, annot=True, vmin=-1, vmax=1)
plt.show()

## Preparação e pré-processamento de dados
Técnicas de pré-processamentos tem como __principal objetivo melhorar a qualidade dos dados__ e também procurar __eliminar__ elementos que podem criar um __falso resultado__ no processamento dos dados.
Às vezes a fase de pré-processamento tem como __objetivo ajustar os dados__ para um uso mais adequado, __modelando-o para que possa ser processado__.<br>
_Não têm regras, não têm sequência, não têm receita de bolo, é o olhar do cientista de dados, e sua experiência, que determinam o que precisa ser feito._

### Conteúdo básico

#### Pré-Processamento

- __Normalmente vem antes da análise exploratória__, entretanto, isso __pode ser um ciclo que se renova a cada nova fonte de dados__ que aparece, a __cada nova pergunta que se deseja responder__, a __cada novo atributo que se deseja experimentar__ no conjunto de dados.
- Alguns chamam essa fase de processamento, muitos de pré-processamento, porque consideram que o processamento é a fase onde modelos de machine learning são testados.
- O pré-processamento é uma fase que __antecede__ ao uso dos __modelos de machine learning__, entretanto para que ele possa ser executado com clareza e também com assertividade é de fundamental importância que se conheça o processo completo de um 
projeto de DS. __Não há como fazer__ pré-processamento __se não se sabe onde se quer chegar__, se não se conhece os modelos computacionais a 
serem testados e a que tipo de respostas se quer chegar com o projeto.
- Importante que se __entenda o que é possível fazer de modo global__, entretanto, é fato dizer que __somente a experiência de fazer e refazer 
projetos__ é que vai tornar a fase de __pré-processamento assertiva e eficaz__.
- Conjuntos de dados podem apresentar diferentes características, dimensões ou formatos.
- Como vimos, __dados estruturados__ podem ser qualitativos (nominais ou ordinais) ou quantitativos (intercalar ou racional), ou ainda podemos pensar nos __dados não estruturados__ que podem ter origem nos e-mails, áudios, vídeos entre outra fontes!
- Os __dados podem conter ruídos, imperfeições, valores incorretos ou inconsistentes, podem ser duplicados ou ausentes__;
- Os __atributos podem ser independentes ou correlacionados__;
- os __conjuntos de dados__ podem apresentar __poucos ou muitos objetos__, que podem ter uma pequena ou grande quantidade de atributos.
- Por isso é tão __IMPORTANTE conhecer os tipos de dados, as grandezas__, para que seja possível __identificar as necessidades de ajustes_ aos quais os dados precisam ser submetidos.
- Um __conjunto de técnicas podem ser aplicadas__ e elas __não têm regras, não têm sequência, não têm receita de bolo__, é o olhar do cientista de dados, e sua experiência, que determinam o que precisa ser feito.

#### Integração

- Dados podem ser __oriundos de diversas fontes__, de diversos conjuntos de dados e em determinada situação __precisam ser integrados__;
- __Imagine__ que __dados__ podem ser oriundos __de uma API__, com informações sobre investimento em marketing e seja preciso integrar com dados de vendas feitas em uma outra plataforma digital. Aspectos como:
  - _atributos correspondentes, com nomes diferentes em bases distintas; informações correspondentes em bases numéricas diferentes ou moedas (ou idiomas) diferentes_.
- Em muitos casos, na integração é necessário __compreender quais são os atributos necessários de cada objeto__. Lembrando sempre que __elevado número de atributos pode comprometer o desempenho dos algoritmos de machine learning__.

#### Eliminação Manual de atributos

- Muitas vezes, ao __observar um conjunto de dados__, fica claro que __alguns atributos podem ser eliminados manualmente__;
- Retirar os atributos pode estar __relacionado__, por exemplo, a __anonimização de uma base__ (nome não é necessário);
- Em __análises preditivas__, quando __um atributo não contribui__ para a estimativa de um valor, ele __é irrelevante__ para a análise e __deve ser eliminado__.
- __Atributos__ que contém o __mesmo valor para todos os objetos__ também devem ser __eliminados__, por exemplo, o campo cidade em uma base que analisa dados de uma determinada cidade.

#### Amostragem de dados

- __Muitos algoritmos de ML tem dificuldade em lidar com números grandes de objetos, levando à saturação de memória e necessidade de ampliar a escala horizontal da estrutura física__.
- Quanto __mais dados__ são utilizados, __maior__ tende a ser __a acurácia__ do modelo e __menor__ a __eficiência__ computacional.
- Apesar de toda evolução computacional, haverá caso em que será __necessário trabalhar com uma amostra dos dados__, de forma que ela seja __representativa o suficiente para representar o todo__ é menor que o conjunto de dados originais para evitar desempenhos ruins no processo.
- Um exemplo de __amostra é a progressiva__, que começa com uma amostra pequena e __aumenta progressivamente__ enquanto a __acurácia continuar a melhorar__, até atingir um ponto que não há mais evolução.

#### Dados desbalancedados

- É comum que dados de um __subconjunto de uma determinada classe apareçam com frequência maior que das demais classes__.
  - _Exemplo: ingressos vendidos para um show são 80% de uma área e os outros estão distribuídos entre as demais áreas_.
- Esse __desbalanceamento afeta muito o desempenho de alguns algoritmos de machine learning__, de forma que os algoritmos __favoreçam__ a classificação de novos dados na __classe majoritária__.
- __Redefinir o tamanho__ do conjunto de dados, utilizar diferentes custos de classificação e __induzir um modelo para uma classe__ são técnicas que podem ser utilizadas.
- Algumas situações __incluem as técnicas de classificação com apenas uma classe__, ou os __dados são treinados separadamente por classe__.

#### Limpeza dos dados

- A __qualidade do modelo__ (e dos resultados) é __diretamente impactada pela qualidade dos dados__.
  - __Dados ruidosos__ (que possuem erros ou valores que são diferentes do esperado);
  - __Dados inconsistentes__ (que não combinam ou contradizem valores de outros do mesmo objeto);
  - __Dados redundantes__ (atributos com valores repetidos no mesmo objeto);
  - __Dados incompletos__ (com ausência de valores para parte dos dados);
  - _são motivos que impactam negativamente os resultados de uma análise_.
- Essas deficiências podem ser causadas por problemas nos equipamentos que coletam os dados, na transmissão ou armazenamento, no preenchimento manual ou até em processos de integração.

##### Dados Incompletos

- A ausência de valores em alguns atributos pode ter diferentes
causas.
- __Algumas técnicas__ que podem ser utilizadas:
  - _eliminar objetos com valores ausentes_; essa alternativa normalmente é descartada quando poucos atributos do objeto têm valores ausentes.
  - definir e _preencher manualmente_ valores para atributos com valores ausentes;
  - _usar algum método ou heurística para automaticamente definir valores_ para atributos com valores ausentes.
    - nesse caso é importante definir um valor onde saiba-se que era um valor ausente anteriormente;
    - utilizar média, moda ou mediana dos valores conhecidos (cuidado com isso).
    - definir um indutor baseado em outros atributos.

##### Dados Inconsistentes

- São dados que possuem __valores conflitantes__ em seus atributos;
- __Inconsistências__ também podem ser __reconhecidas__ quando __relações entre atributos são claramente conhecidas__ (valores correlacionados direta ou indiretamente).
- Algoritmos simples podem verificar existência de inconsistências, em caso de conjuntos de dados não muito grandes, dados inconsistentes podem ser removidos manualmente.

##### Dados redundantes

- Um objeto redundante é um objeto que é muito __semelhante a outro no mesmo conjunto de dados__.
- Também é considerado um atributo redundante quando ele __pode ser deduzido a partir do valor__ de um ou mais atributos. Dois ou mais atributos estão correlacionados quando apresentam um perfil de variação semelhante para os diferentes objetos.
- Dados redundantes podem __criar a falsa sensação__ de que esse perfil de __objeto é mais importante que os demais__, induzindo o modelo de análise.
- É importante __identificar e eliminar as redundâncias__, que podem ser feitas pela eliminação dos objetos semelhantes ou pela combinação dos valores dos atributos dos objetos semelhantes.

##### Dados com ruídos

- Dados com ruídos são __dados que contêm objetos que, aparentemente, não pertencem à distribuição__ que gerou os dados analisados.
- Ruído pode ser __uma variância ou erro aleatório__ no valor gerado de um atributo.
- __Um indicador__ de presença de ruído é a __existência de outliers__, que são valores que estão além dos limites aceitáveis ou são muito diferentes dos demais valores observados para o mesmo atributo, representando, por exemplo, exceções raramente vistas.
- Existem diversas __técnicas__ de pré-processamento que podem ser aplicadas para __detecção e remoção de ruídos__:
  - Técnicas de __encestamento__, que suavizam o valor de um atributo. Primeiro os __valores são ordenados__, depois são
__divididos em faixas__, e esses valores são __substituídos por uma média ou mediana__.
  - Técnicas de __agrupamento__, em que valores que __não formarem grupos__ são considerados __ruidosos ou outliers__.
  - Técnicas de __regressão ou classificação__, que procuram determinar um valor verdadeiro para um outlier.

#### Transformação de dados

- Várias __técnicas de machine learning estão limitadas à manipulação de valores__ em determinados __tipos__, alguns algoritmos estão restritos a valores __numéricos__, outros a valores __qualitativos__.
- Em várias situações, dependendo do modelo de machine learning a ser utilizado, será __necessário converter dados qualitativos a numéricos ou vice-versa__.
- Também há de se pensar que valores __qualitativos nominais ou ordinais podem ser tratados de forma diferente__.
  - _Redes Neurais Artificiais e Support Vector Machines lidam apenas com valores numéricos, portanto, quando um conjunto de dados a ser utilizado por essas técnicas apresenta atributos qualitativos, os valores precisam ser convertidos para numéricos_.
- Há __situações__ em que é necessária a __transformação__ de valor __numérico em outro__ valor __numérico__.
  - _Isso acontece quando os limites inferior e superior de valores dos atributos são muito diferentes, o que leva a uma grande variação de valores, ou ainda quando vários atributos estão em escalas diferentes_.
  - Essa transformação é realizada para __evitar que um atributo predomine sobre outro__.
    - Normalização por amplitude (redefinindo uma nova escala de valores com limites máximo e mínimo) e,
    - por padronização (com definição de valor central e um valor de espelhamento para todos os atributos),
    - também são utilizadas para normalizar dados numéricos.

#### Redução da dimensão

- __Dimensionalidade é o tamanho horizontal (dimensão) do seu objeto__, ou seja, a quantidade de atributos que um determinado objeto tem.
  - Em análise de imagens, por exemplo, cada pixel representa um atributo (imagine uma imagem 1024x1024), nos estudos de genética os dados dos genes apresentam milhares de atributos também.
- Em muitos algoritmos, __grandes quantidades de atributos inviabilizam o processo__. A __redução__ de atributos __melhora o desempenho__, reduz seu custo operacional e torna os resultados mais compreensíveis.
- __Duas técnicas__ bastante utilizadas para __redução de atributos são: agregação e seleção de atributos__.

##### Técnicas de redução de atributos

- Destaca-se novamente que mesmo com a evolução computacional e toda tecnologia que amplia o processamento, usando distribuição de processos e aumentando a escala horizontal de forma a ampliar o desempenho de algoritmos, __manter atributos desnecessários__ em um conjunto de dados pode
__levar seu modelo__ a um custo de desempenho que seja __impossível de prosseguir com a análise__.

###### Agregação

- As técnicas de __agregação substituem atributos originais por novos__ atributos formados pela __combinação de grupos__.
  - _Reduz as dimensões por combinação dos atributos_.
- Uma das técnicas mais conhecidas é a de Análise de Componentes Principais (PCA). Há algoritmos de ML que reproduzem o PCA, entretanto, os grandes mestres do ML sempre dizem que essa não deveria ser uma técnica para reduzir a dimensionalidade.
- O PCA descorrelaciona estatisticamente os exemplos, reduzindo a dimensionalidade do conjunto de dados original pela eliminação de redundâncias.
- Algumas áreas (biologia, finanças, medicina, entre outros) evitam agregar atributos, pois consideram os dados originais importantes para o processo de interpretação dos resultados.

###### Seleção de atributos

- As técnicas de __seleção mantêm uma parte dos atributos originais e descartam os demais__ atributos.
  - _Reduz a dimensão eliminando atributos_.
- __Não é simples identificar__ atributos que podem ser __eliminados__, principalmente quando há uma grande quantidade de valores. Relações complexas entre atributos torna tudo mais difícil.
- Algumas técnicas automáticas têm sido estudadas para avaliar a qualidade ou desempenho de um subconjunto de atributos, entre elas: a abordagem embutida, a abordagem baseada em filtro e a wrapper.

### Demonstração

#### Importar bibliotecas

In [None]:
import pandas as pd

#### Carregar base de dados

In [None]:
dados=pd.read_csv('https://raw.githubusercontent.com/JeffSackmann/tennis_atp/master/atp_matches_2021.csv')
dados.head(5)

In [None]:
dados.info()

In [None]:
dados.describe(include='all')

#### Verificar dados nulos

In [None]:
dados.isnull()

In [None]:
dados.isnull().sum()

##### Verificar coluna "winner_entry", que tem muitos valores nulos e indica como o vencedor entrou no torneio

In [None]:
dados['winner_entry'].describe()

In [None]:
dados['winner_entry'].unique()

##### Apagar todas as linhas que o atributo "loser_rank" é nulo, porque são poucas ocasioes e isso pode implicar erros nos resultados

In [None]:
dados.dropna(subset=['loser_rank'], inplace=True)

##### Apagar colunas que todos os valores são nulos

In [None]:
dados.dropna(axis=1, how= 'all')

##### Alterar valor dos dados nulos em uma coluna

In [None]:
dados['loser_entry'].unique()

In [None]:
dados['loser_entry'].fillna(value='X',inplace=True)

In [None]:
dados['loser_entry'].unique()

#### Alterar mais de um atributo, com condições diferentes

In [None]:
dados['w_ace'].unique()

In [None]:
dados['loser_ht'].unique()

In [None]:
dados.fillna(value={'w_ace':0,'loser_ht':dados['loser_ht'].mean()},inplace=True)

In [None]:
dados['w_ace'].unique()

In [None]:
dados['loser_ht'].unique()

#### Usar o método ffill para projetar um dado para o registro seguinte

In [None]:
dados['minutes'][1975:1990]

In [None]:
dados['minutes'].fillna(method='ffill',inplace=True)

In [None]:
dados['minutes'][1975:1990]

#### Identificar duplicados

In [None]:
dados.duplicated()

In [None]:
dados.duplicated().sum()

##### Eliminar duplicados de uma coluna (nem sempre se quer realmente fazer isso, cuidado)

In [None]:
dados.drop_duplicates(subset=['tourney_name'],inplace=True)

In [None]:
dados['tourney_name'].head(10)

In [None]:
dados.describe()

#### Vamos ver como fazer um deslocamento
Vamos importar os dados das ações da Apple
https://finance.yahoo.com/quote/AAPL/history/

In [None]:
AAPL = 'https://finance.yahoo.com/quote/AAPL/history/AAPL.csv'
dados2=pd.read_csv("AAPL.csv")

In [None]:
dados2

In [None]:
dados2['close_ontem']=dados2['Close'].shift(1)

In [None]:
dados2

##### Nova coluna com a porcentagem de alteração de um dia para o outro


In [None]:
dados2['alteracao %']=((dados2['Close']/dados2['close_ontem'])-1)*100

In [None]:
dados2.head(20)

In [None]:
dados2.dropna(subset=['alteracao %'], inplace=True)

In [None]:
dados2

In [None]:
dados2.describe(include= 'all')

#### Transformar dados categóricos (qualitativos) em dados numéricos

In [None]:
dados=pd.read_csv('https://raw.githubusercontent.com/JeffSackmann/tennis_atp/master/atp_matches_2021.csv')

In [None]:
dados['winner_ioc']

In [None]:
dados['winner_ioc'].unique()

##### Veja a documentação do scikit-learn sobre preprocessing!!!!

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
paises=dados['winner_ioc']

In [None]:
paises

In [None]:
lencoder = LabelEncoder()
paises_numeros = lencoder.fit_transform(paises)
paises_numeros

In [None]:
paises.head(10)

In [None]:
dados['paises_numeros']=paises_numeros

In [None]:
dados

## Quiz

1. Qual é a última (e quinta) fase do KDD, quando é atingido o nível do conhecimento? 

- Seleção.
- **Correta:** Interpretação.
- Pré-Processamento.
- Transformação.
- Data Mining. 

**Comentário da resposta:** Você acertou! Essa é a alternativa correta. A interpretação é a quinta e última fase do KDD. 



2. Quando há um conjunto de dados que tem atributos com valores ausentes, categorizamos esses dados como: 
- inconsistentes.
- **Correta:** incompletos. 
- redundantes.
- desbalanceados.
- ruidosos.

**Comentário da resposta:** Você acertou! Essa é a alternativa correta. Os dados incompletos são os que têm atributos com valores ausentes.

3. Qual o método pode ser utilizado na função fillna do Pandas, para projetar dados para o próximo registro quando esse estiver com valor nulo? 
- unique.
- **Correta:** ffill. 
- describe.
- drop.
- dropna.

**Comentário da resposta:** Você acertou! Essa é a alternativa correta. O método ffill é usado para projetar dados. 