# Aula 01 - Processamento de Dados

**SCC0252 - Visualização Computacional (2022/2)**

Monitor:    Breno Lívio Silva de Almeida, brenoslivio@usp.br

Docente:    Maria Cristina Ferreira de Oliveira, cristina@icmc.usp.br

Material base de Eric Macedo Cabral.

---

## Sumário

1. [Motivação](#motivacao)

2. [Usando o Jupyter](#jupyter)

  2.1 [Plataforma Jupyter](#plataforma)

  2.2 [Setup](#setup)

3. [Coleta de dados](#coleta)

  3.1 [Bibliotecas](#bibliotecas)

  3.2 [Arquivos locais/remotos](#arquivos)

4. [Gerenciamento e manipulação](#gerenciamento)

  4.1 [Pandas DataFrame](#pandas)

  4.2 [Seleção de dados](#selecao)

  4.3 [Agrupamento](#agrupamento)

  4.4 [Funções](#funcoes)

5. [Processamento e transformações](#processamento)

  5.1 [Sumarização](#sumarizacao)

  5.2 [Dados ausentes](#ausentes)

  5.3 [Escalonamento](#escalonamento)

  5.4 [Detecção de outliers](#outliers)

  5.5 [Redução de dimensionalidade](#reducao)

---

## 1. Motivação <a name="motivacao"></a>

- Uso de linguagens como Python e R para visualização de dados:

    - Disponibilidade de uma gama de bibliotecas de visualização para se utilizar;

    - Reprodutibilidade;

    - Ferramentas *open-source*;

    - Também contam com integração para ferramentas de *Business Intelligence*.

- Com o fenômeno do *Big Data* se torna cada vez mais imprescindível o uso de técnicas de visualização para gerar *insights* em relação aos dados;

- O processamento adequado dos dados antes da visualização se dá por motivos como:
Ruídos nos dados (valores nulos, discrepantes e etc.);

    - Variáveis em escalas diferentes;
    
    - Grande número de variáveis (alta dimensionalidade).

---

## 2. Usando o Jupyter <a name="jupyter"></a> 

![](https://jupyter.org/assets/logos/rectanglelogo-greytext-orangebody-greymoons.svg)

### 2.1 Plataforma Jupyter <a name="plataforma"></a> 

- Sobretudo, a plataforma Jupyter funciona como uma aplicação web;

- Suas principais componentes são:

    - Documento no formato Jupyter Notebook (*.ipynb);

    - Protocolo de computação interativa;

    - O Kernel.

- Além do Jupyter Notebook padrão, temos o JupyterLab, um ambiente mais pensado para a manipulação de vários Notebooks e outros arquivos ao mesmo tempo.

### 2.2 Setup <a name="setup"></a> 

- Para usar o Jupyter com diversas bibliotecas do Python, podemos ter a opção **On-line** de usar:

    - [Google Colab](http://colab.research.google.com);

    - [Binder](http://mybinder.org), com alguns exemplos para começar em [Try Jupyter](http://jupyter.org/try).

- O Colab, por exemplo, já conta com diversas bibliotecas que iremos usar na disciplina.

- Para uso **local** do Jupyter:

    - Package Installer for Python (pip)

    - Conda;

    - [Imagem](https://hub.docker.com/r/jupyter/datascience-notebook) do Docker;
    
    - Visual Studio Code com extensão para o Jupyter.

- Usar [ambientes virtuais](https://janakiev.com/blog/jupyter-virtual-envs/) para isolar ambientes de trabalho com o pip e conda;

- Instalar com **pip**: pip install biblioteca;
- Instalar com **conda**: conda install -c CANAL biblioteca.

---

## 3. Coleta de dados <a name="coleta"></a> 

### 3.1 Bibliotecas <a name="bibliotecas"></a> 

- Em algumas bibliotecas já existem conjuntos de dados prontos, geralmente usados para demonstrações:

[Seaborn](https://github.com/mwaskom/seaborn-data):

```python
    import seaborn as sns
    sns.load_dataset(dataset)
```

[Scikit-learn](https://scikit-learn.org/stable/datasets/toy_dataset.html):

```python
    from sklearn.datasets import dataset
```

[Plotly](https://plotly.com/python-api-reference/generated/plotly.express.data.html):

```python
    import plotly.express as px
    df = px.data.iris()
```

Carregando o dataset [tips](https://rdrr.io/cran/reshape2/man/tips.html) do Seaborn:

In [1]:
import seaborn as sns

tips = sns.load_dataset("tips")
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB


### 3.2 Arquivos locais/remotos <a name="arquivos"></a> 

- Pandas é uma das ferramentas mais conhecidas para manipulação e análise de dados em Python.

Documentação do Pandas: https://pandas.pydata.org/docs/index.html

Documentação sobre Input/Output: https://pandas.pydata.org/docs/reference/io.html

```python
    import pandas as pd
    
    pd.read_csv('data/arquivo.csv', sep = ',')
    pd.read_sql('test_data', 'postgres:///db_name')
    pd.read_html('https://en.wikipedia.org/wolo/Minnesota')
```

Podemos ler um arquivo CSV diretamente pela página que ele estiver hospedado:

In [12]:
import pandas as pd

pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv')

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


Carregando as tabelas encontradas na página do Wikipédia:

In [11]:
table_MN = pd.read_html('https://en.wikipedia.org/wiki/Minnesota')

table_MN[2] # Terceira tabela encontrada

Unnamed: 0,Location,July (°F),July (°C),January (°F),January (°C)
0,Minneapolis,83/64,28/18,23/7,−4/−13
1,Saint Paul,83/63,28/17,23/6,−5/−14
2,Rochester,82/63,28/17,23/3,−5/−16
3,Duluth,76/55,24/13,19/1,−7/−17
4,St. Cloud,81/58,27/14,18/−1,−7/−18
5,Mankato,86/62,30/16,23/3,−5/−16
6,International Falls,77/52,25/11,15/−6,−9/−21


## 4. Gerenciamento e manipulação <a name="gerenciamento"></a> 

### 4.1 Pandas DataFrame <a name="pandas"></a> 

### 4.2 Seleção de dados <a name="selecao"></a> 

### 4.3 Agrupamento <a name="agrupamento"></a> 

### 4.4 Funções <a name="funcoes"></a> 

## 5. Gerenciamento e manipulação <a name="gerenciamento"></a> 

### 5.1 Sumarização <a name="sumarizacao"></a> 

### 5.2 Dados ausentes <a name="ausentes"></a> 

### 5.3 Escalonamento <a name="escalonamento"></a> 

### 5.4 Detecção de outliers <a name="outliers"></a> 

### 5.5 Redução de dimensionalidade <a name="reducao"></a> 