<img src='letscodebr_cover.jpeg' align='left' width=100%/>

## Introdução

A transformaçao de dados (Data wrangling) é o processo de limpeza e unificação de conjuntos de dados confusos e complexos para facilitar seu acesso, exploração, análise ou modelagem subsequentes. 

As tarefas envolvidas são
* Limpeza de dados
* Exclusão de registros duplicados
* Transformação de dados
* Discretização de variáveis
* Detecção e filtro de outliers
* Construção de variáveis `dummy`

O processo de transformação e mapeamento de dados de um formato de dados "brutos" (raw) para outro formato com a intenção de torná-los mais apropriados e valiosos para uma variedade de propósitos posteriores, como análises. O objetivo da transformação de dados é garantir dados úteis e de qualidade. O Pandas fornece métodos para realizar essas tarefas e, neste laboratório, abordaremos alguns desses métodos.

## Dataset

Usaremos um `dataset` com informações do filme que disponibiliza os dados do [MovieLens](https://movielens.org/). Liste de [Datasets da MovieLens](https://grouplens.org/datasets/movielens/)

Este [conjunto de dados](http://files.grouplens.org/datasets/movielens/ml-latest-small.zip) é composto por vários arquivos:

* `movies.csv`: `movieId`, `title`, `genres`, Em cada registro contém os dados de um filme.

* `ratings.csv`: `userId`, `movieId`, `rating`, `timestamp`; Em cada registro tem a classificação dada por um usuário a um filme.

* **tags**: `userId`, `movieId`, `tag`, `timestamp`; Em  cada registro possui a tag que um usuário atribuiu a um filme.

## Imports

In [1]:
import pandas as pd
import numpy as np

## Exercício 1 - Importar dados

Vamos ler os dados de filmes, classificações e tags dos arquivos

-  '../Data/movies.csv'
-  '../Data/ratings.csv'
-  '../Data/tags.csv'

Com as variáveis:

- dados_movies
- data_ratings
- data_tags

Vamos ver quantos registros existem em cada `DataFrame` e quais tipos de dados existem em cada coluna. Vejamos os primeiros registros de cada `DataFrame` para verificar se os dados foram importados corretamente.

## Exercício 2  - Registros duplicados

Estude a aplicação dos métodos [.duplicated()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.duplicated.html) e [.drop_duplicates()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html).


**2.a** Vamos ver se há registros duplicados no `DataFrame` `data_tags` considerando apenas as colunas `['movieId']`, `['tag']`, marcando a primeira ocorrência de um valor como não duplicado.

**2.b** Vamos usar o método `drop_duplicates` para obter outro `DataFrame` sem os casos duplicados considerando apenas as colunas `['movieId']`, `['tag']`. Vamos usar o método `duplicado` para verificar se o novo `DataFrame` realmente não possui valores duplicados.

## Exercício 3 - Transformação de dados

Vamos construir um dicionário que associe uma pontuação a um rótulo.

As tags são:

- Ruim: $notas < 3$;

- Regular: $3 >= notas < 4$; 

- Bom: para $notas >= 4$.

Vamos usar o método `map` para criar uma nova coluna em data (`rating_label`) que possui os rótulos associados ao valor do campo `rating` para cada registro

Nota: esto ya sabíamos resolverlo usando máscaras booleanas

## Exercício 4 - Substituir valores

Estude a aplicação do método [.replace()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html).

O método `replace` oferece várias maneiras de realizar substituições em uma série de `Pandas`:

- Um valor antigo por um novo valor.
    
- Uma lista de valores antigos para um novo valor.
    
- Uma lista de valores antigos por uma lista de novos valores.
    
- Um dicionário que mapeia valores novos e antigos.

**4.a – Uma lista de valores antigos para um novo valor**

Vamos ver quais tags são atribuídas a um único filme.

Vamos substituir esse valor por `tag_that_doesn't_work` e eliminar registros duplicados considerando os campos `['userId']`, `['movieId']`, `['tag']`

Dica: `value_counts`.

**4.b – Uma lista de valores antigos por uma lista de novos valores**

Vamos substituir cada valor da `tag` pela primeira palavra que a compõe. Para isso, criamos uma série com valores únicos com o valor do campo `tag`.
Construímos outra instância de Series em que cada elemento é a primeira palavra do objeto `Series` anterior. 

Dica: listar compreensões e `.split()`. Usamos `.replace()` para alterar o valor de cada tag para sua primeira palavra.

**4.c – Um dicionário que mapeia valores novos e antigos**

Vamos substituir os valores da `tag`:

- "Al Pacino" para "Pacino"
- "Leonardo DiCaprio" por "DiCaprio"
- "Tom Hanks" para "Hanks"
- "Martin Scorsese" por "Scorsese"

Vamos contar quantas vezes aparecem cada um dos valores a serem substituídos e quantos valores de substituição. 

Dica: Use `value_counts`.

Vamos construir um dicionário com este mapeamento e usar o método `replace`.

Vamos contar novamente quantas vezes aparece cada um dos valores a serem substituídos e quantos valores de substituição.

## Exercício 5 - Discretizar variáveis

Vamos retornar ao exercício 3 novamente usando o método [.cut()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html).

Definimos os valores de corte:

- Ruim: $notas < 3$;

- Regular: $3 >= notas < 4$; 

- Bom: para $notas >= 4$.

## Exercício 6 - Detectar e filtrar outliers

Não existe um critério válido em todos os casos para identificar `outliers`. O critérios de 

- Maior que o terceiro quartil mais $1,5$ vezes o intervalo interquartil ou 
- Menor que o primeiro quartil menos $1,5$ vezes o intervalo interquartil (Q3 - Q1) 

decorrem da distribuição normal. Nesta distribuição, $99,7\%$ da população está na faixa definida pela média (população) mais menos $3$ vezes o desvio padrão (população).

**Queremos ver quais filmes são discrepantes em termos de classificações.**

**6.a** Utilizando `data_ratings` eliminamos duplicatas considerando as colunas `['userId']`, `['movieId']` . Fazemos isso para contar os votos de um usuário em um filme apenas uma vez.

**6.b** No `DataFrame` obtido na etapa anterior, contamos agrupados por filme. Isso resulta em uma instância de `Series` que atribuímos à variável `movie_votes_count`.

**6.c** Vamos calcular os quartis dos valores de `movie_votes_count` e os valores que usaremos como limite para determinar valores discrepantes.

Dica: Utilize o método [.quantile()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.quantile.html)
    
**6.d** Vamos filtrar os dados de `movie_votes_count` excluindo os valores discrepantes.

**6.e** Vamos comparar movie_votes_count antes e depois do filtro com:
- O método `.describe()`,
- boxplots da biblioteca [seaborn](https://seaborn.pydata.org/).

**6.f** Adicional: vejamos os títulos dos cinco filmes mais votados que são discrepantes em termos de número de avaliações

## Exercício 7 - Variáveis ​​categóricas e dummies

**7.a** Usando o método [.get_dummies()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html) com `drop_first = True` vamos adicionar ao `DataFrame` variáveis ​​fictícias `data_ratings` que representam as categorias `rating_label`.

**7.b** Vamos comparar as `dummies` geradas no ponto anterior com aquelas geradas usando `drop_first = False`. Qual é a diferença? Eles representam o mesmo conjunto de valores possíveis?

**7.c** Adicional: Altere as categorias exibidas como resultado de `get_dummies` com `drop_first = True`. 

Dica: Acesse [CategoricalDtype](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html#categoricaldtype) para mais informações sobre variáveis categóricas.

Nesta segunda solução (**7.b**), temos uma coluna para cada categoria dos valores originais.

Os valores representados são exatamente iguais aos da coluna original (como na solução **7.a**), mas uma das colunas é redundante porque seu valor pode ser determinado com base nos valores das outras duas.

As duas soluções representam todas as categorias possíveis da variável original.

Observemos que os valores $(0, 0, 0), (0, 1, 1), (1, 1, 0), (1, 0, 1), (1, 1)$ não representam uma categoria em a variável original.