# CD: Manipulação

# Introdução {.unumbered}

<!--Motivação da aula-->

<!--TOC dos temas da aula (pra ajudar os alunos a se acharem na aula)-->

<!--Texto (enxuto, objetivo) com os objetivos de aprendizagem principais (o que, principalmente, os alunos tem que sair dessa aula sabendo)-->

<!--Ao longo da aula: adicionar mais referências, especialmente sobre onde expandir os conhecimentos sobre cada tema-->

<!-- comentar sobre como agora, vamos aplicar o modo de pensar da aula passada, de saber os "tipos de operações existentes", e desenvolver a habilidade de olhar pra um dataset, e saber quais operações aplicar -->

Esta aula marca uma divisão no curso de trainee. Até agora, vocês estavam aprendendo várias ferramentas úteis, mas sem um objetivo específico além de simplesmente aprender a programar em Python. Nesta aula, vamos apresentar o objetivo, vocês irão aprender a realizar "projetos de Ciência de Dados".

## Ciência de Dados

### A Ciência de Dados

A Ciência de Dados é um campo gigante, que nasceu via uma demanda de expandir a estatística para vias de "learn from data", "more emphasis on data preparation and presentation rather than statistical modeling", e "emphasis on prediction rather than inference". Atualmente, o termo não é super bem definido, e o campo tem muita intersecção com outras disciplinas.

De acordo com a Wikipedia:

> Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from data.

Fontes: ["50 Years of Data Science" (2017)](https://www.tandfonline.com/doi/full/10.1080/10618600.2017.1384734) e [Wikipedia](https://en.wikipedia.org/wiki/Data_science).

### As etapas de um projeto

Mais interessante que ficar tentando definir a disciplina, vamos entendê-la na prática. Como a aula é minha, e eu faço o que eu quiser, vou utilizar a explicação do livro ["R for Data Science"](https://r4ds.had.co.nz/index.html).

Um projeto comum, no geral, se parece como abaixo. Veja uma breve explicação de cada tópico.

<img src="https://d33wubrfki0l68.cloudfront.net/571b056757d68e6df81a3e3853f54d3c76ad6efc/32d37/diagrams/data-science.png" height="200">

#### Importing

A primeira etapa é a importação. Alguns comentários:

- Os dados podem vir de várias fontes, como arquivos locais, bancos de dados, APIs (application programming interface), ou de sites (via web scrapping).
- Os dados podem estar em vários formatos como CSV, Excel, JSON, entre outros. É interessante ter um conhecimento básico de como cada um funciona.
- Cada tipo de fonte tem uma maneira diferente de se interagir, e cada formato exige sua própria função. Para os casos mais simples, o pandas (e qualquer outra biblioteca de dataframes), tem funções para I/O.

Não vamos entrar em detalhes nesse tema. Não é algo super extenso nem complexo, e existem muitas referências online. Uma das mais completas que achei foi [esse tutorial da RealPython](https://realpython.com/pandas-read-write-files/).

#### Tidy

A próxima etapa é arrumar, _tidy_, os dados. Vamos falar sobre isso com mais detalhe, mas existe uma noção bem específica do que são dados arrumados, _tidy data_.

As três próximas etapas existem dentro de um ciclo.

#### Transform

Mesmo com dados já arrumados, ainda temos o interesse de transformá-los, para conseguir obter insights novos da mesma base de dados. Na aula de hoje, vamos dar alguns exemplos de interesses, e este tema ficará mais claro.

Visualizar e modelar os dados trará novos insights e novas demandas, de modo que estamos constantemente transformando os dados para criar novas visualizações e modelagens.

_Tidy_ e _transform_ juntos são chamados de _data wrangling_.

#### Visualize

Aqui, serei preguiçoso, o texto do Hadley Wickham é muito bom:

> Visualisation is a fundamentally human activity. A good visualisation will show you things that you did not expect, or raise new questions about the data. A good visualisation might also hint that you’re asking the wrong question, or you need to collect different data. Visualisations can surprise you, but don’t scale particularly well because they require a human to interpret them.

#### Model

Um modelo é, em termos simplificados e a depender do contexto, um conjunto de hipóteses sobre o mundo -- sobre o processo gerador dos dados --, acrescido com um método matemático e computacional de estimar esse processo.

> Models are a fundamentally mathematical or computational tool, so they generally scale well. (...) But every model makes assumptions, and by its very nature a model cannot question its own assumptions. That means a model cannot fundamentally surprise you.

#### Comunication

O último passo é comunicação. As linguagens de programação provém ferramentas para expor seus resultados. O próprio Jupyter Notebook onde esta aula foi escrita é um exemplo disso. Mas existem muitas outras ferramentas mais avançadas para criar reports, livros, páginas na web, aplicativos, etc. No curso de trainee, não iremos cobrir essa etapa com detalhe.

Por fim, dos últimos comentários. Primeiro, e a programação?

> Surrounding all these tools is programming. Programming is a cross-cutting tool that you use in every part of the project. You don’t need to be an expert programmer to be a data scientist, but learning more about programming pays off because becoming a better programmer allows you to automate common tasks, and solve new problems with greater ease.

E o que falta?

No curso do trainee iremos explicar todas as etapas (fora comunicação), mas é só isso que você precisará? Não, cada projeto exige seu conhecimento específico, em cada tema, cada disciplina, existem conceitos próprios que entrarão em alguma das etapas aqui descritas. Mas tudo bem, o importante é vocês saberem a base, e conseguirão ir atrás do adicional por conta própria.

O caminho é o seguinte:

- Na aula de hoje, aprenderemos as etapas de tidy e transform.
- Na aula 5, aprenderemos a etapa visualize.
- Na aula 6, aprenderemos a etapa model.
- Por fim, na aula 7, juntaremos tudo, aprendendo como fazer um projeto completo. Adicionalmente, aprenderemos como organizar um script para tal.

### Data Wrangle e Tidy Data

### Tidy

#### Tidy data

Dados podem ser representados de várias maneiras, veja os exemplos abaixo. Nenhuma delas é necessariamente melhor que as outras, são organizações diferentes.

<img src="https://imgur.com/XA7JWwS.png" height="400">

<img src="https://imgur.com/nN0ouP9.png" height="400">

Para ciência de dados, será útil utilizar uma organização específica, chamada de "tidy dataset". Três regras a definem:

- Cada variável deve ter sua própria coluna.
- Cada observação deve ter sua própria linha.
- Cada valor deve ter sua própria célula.

<img src="https://d33wubrfki0l68.cloudfront.net/6f1ddb544fc5c69a2478e444ab8112fb0eea23f8/91adc/images/tidy-1.png" height="200">

Quais são os benefícios de organizar dados assim?

- A consistência de utilizar uma mesma organização, independente de qual, é muito útil, especialmente porque facilita entender as ferramentas que trabalharão com ela.
- A arrumação tidy é intuitiva, e é utilizada de maneira muito natural nas ferramentas, muitaz vezes vetorizadas, de visualização e modelagem.

#### Arrumando datasets

Agora que já entendemos o que é tidy data, podemos adquirir a habilidade de olhar para um dataset e, sabendo onde queremos chegar, elencar quais são as alterações a serem feitas -- "remover esta linha", "dividir essa coluna no meio".

Após elencar quais alterações devem ser feitas, é simples fazer a ponte de quais _manipulações de dados você quer fazer_ -- "subset linhas" e "separar colunas".

Por fim, só falta relembrar como é o código que aplica essa manipulação. Essa é a parte mais simples! É só voltar na aula passada, pesquisar na internet, _ver no chat_, ou perguntar para o seu amigo preferido!

Tendo as duas primeiras habilidades, você tem tudo o que precisa para pesquisar, e não há problema nenhum em ter que pesquisar, o problema é ter que pesquisar , e não saber como!. Agora, se você só sabe a terceira, você não precisa pesquisar, mas _não sabe o que você não precisa pesquisar_, o que não é especialmente útil.

Se você quiser ficar insano no pandas, rever a aula passada três vezes por dia, deitado numa banheira congelada, será ótimo, você ficará eficiênte muito rápidamente. Mas não precisa, essa eficiência vem com o tempo, e o mais importante é saber a lógica de  "o que precisa alterar" e "quais são as manipulações que existem".

Ok, sem mais delongas, vamos aprender a elencar alterações, vamos ver uns exemplos [vide o PPT](assets\materials\manipulacao.pptx).

Qual foi a receitinha de bolo que aprendemos? (hmm bolo 😋). Recebemos um dataset, e:

- Arrumar os dados para o formato data frame.
    - Todas as colunas são homogêneas?
        - Remover linhas "ruins", converter valores.
    - Todas as colunas são do mesmo tamanho?
        - Remover linhas "ruins".
- Arrumar os dados para o formato tidy.
    - Toda coluna é uma variável?
        - Remover colunas "ruins".
        - Separar/unir colunas colunas.
    - Toda linha é uma observação?
        - Quais são as variáveis que definem uma observação?
        - Pivot e melt.
    - Toda célula é um valor?
        - Transformar dados "ruins" em NA.
        - Lidar com dados NA.
- Tenho mais de um dataset? Deixá-los tidy e então realizaram algum merge.

### Transform

Após arrumarmos um dataset, ainda aplicaremos transformações com base nas demandas da fase de visualização e modelagem.

- Manipular linhas.
    - Sorting.
    - Sampling.
    - Filtrar observações.
- Transformar/criar colunas:
    - Alterar a unidade de uma variável.
    - Normalizar variáveis.
    - Agrupar as categorias de uma variável categórica.
    - Corrigir/formatar texto de variáveis string.
    - Manipular datas.
    - Criar novas colunas a partir de operações com múltiplas outras Exemplos: salário semanal * semanas trabalhadas; idade ao quadrado.
    - Criar uma coluna para ajudar em um plot.

Todas essas operações são factíveis de serem feitas com base na aula passada de pandas. Vocês verão muitos exemplos dessa etapa na aula 6.

<!--Escolha uma frase remetendo pausa e tire print de alguma arte dela em https://patorjk.com/software/taag/. Exemplo:-->

<hr>

![😎](assets/pause/georgia11.png)

<hr>

## Data Wrangle com Pandas

<!-- Adicionar uns exemplos de data wrangle, especialmente usando as operações que não foram ensinadas na aula passada (reshape, separate/unite, e combine) -->

<div class="double-hrule"></div>

## Recapitulando {.unnumbered}

<!--Adicionar texto de recapitulando. Em parágrafos, primeiro sobre os principais objetivos de aprendizagem, depois sobre os conceitos teóricos aprendidos, e por fim, dos conceitos "decoreba" aprendidos-->

## Extras

<!--tem que ver o que vem pra ca. talvez mais exemplos?-->