# Aula 01 - Processamento de Dados

**SCC0252 - Visualização Computacional (2022/2)**

Monitor:    Breno Lívio Silva de Almeida, brenoslivio@usp.br

Docente:    Maria Cristina Ferreira de Oliveira, cristina@icmc.usp.br

Material base de Eric Macedo Cabral.

---

## Sumário

1. [Motivação](#motivacao)

2. [Usando o Jupyter](#jupyter)

  2.1 [Plataforma Jupyter](#plataforma)

  2.2 [Setup](#setup)

3. [Coleta de dados](#coleta)

  3.1 [Bibliotecas](#bibliotecas)

  3.2 [Arquivos locais/remotos](#arquivos)

4. [Gerenciamento e manipulação](#gerenciamento)

  4.1 [Pandas DataFrame](#pandas)

  4.2 [Seleção de dados](#selecao)

  4.3 [Agrupamento](#agrupamento)

  4.4 [Funções](#funcoes)

5. [Processamento e transformações](#processamento)

  5.1 [Sumarização](#sumarizacao)

  5.2 [Dados ausentes](#ausentes)

  5.3 [Escalonamento](#escalonamento)

  5.4 [Detecção de outliers](#outliers)

  5.5 [Redução de dimensionalidade](#reducao)

---

## 1. Motivação <a name="motivacao"></a>

- Uso de linguagens como Python e R para visualização de dados:

    - Disponibilidade de uma gama de bibliotecas de visualização para se utilizar;

    - Reprodutibilidade;

    - Ferramentas *open-source*;

    - Também contam com integração para ferramentas de *Business Intelligence*.

- Com o fenômeno do *Big Data* se torna cada vez mais imprescindível o uso de técnicas de visualização para gerar *insights* em relação aos dados;

- O processamento adequado dos dados antes da visualização se dá por motivos como:
Ruídos nos dados (valores nulos, discrepantes e etc.);

    - Variáveis em escalas diferentes;
    
    - Grande número de variáveis (alta dimensionalidade).

---

## 2. Usando o Jupyter <a name="jupyter"></a> 

![](https://jupyter.org/assets/logos/rectanglelogo-greytext-orangebody-greymoons.svg)

### 2.1 Plataforma Jupyter <a name="plataforma"></a> 

- Sobretudo, a plataforma Jupyter funciona como uma aplicação web;

- Suas principais componentes são:

    - Documento no formato Jupyter Notebook (*.ipynb);

    - Protocolo de computação interativa;

    - O Kernel.

- Além do Jupyter Notebook padrão, temos o JupyterLab, um ambiente mais pensado para a manipulação de vários Notebooks e outros arquivos ao mesmo tempo.

### 2.2 Setup <a name="setup"></a> 

- Para usar o Jupyter com diversas bibliotecas do Python, podemos ter a opção **On-line** de usar:

    - [Google Colab](http://colab.research.google.com);

    - [Binder](http://mybinder.org), com alguns exemplos para começar em [Try Jupyter](http://jupyter.org/try).

- O Colab, por exemplo, já conta com diversas bibliotecas que iremos usar na disciplina.

- Para uso **local** do Jupyter:

    - Package Installer for Python (pip)

    - Conda;

    - [Imagem](https://hub.docker.com/r/jupyter/datascience-notebook) do Docker;
    
    - Visual Studio Code com extensão para o Jupyter.

- Usar [ambientes virtuais](https://janakiev.com/blog/jupyter-virtual-envs/) para isolar ambientes de trabalho com o pip e conda;

- Instalar com **pip**: pip install biblioteca;
- Instalar com **conda**: conda install -c CANAL biblioteca.

---

## 3. Coleta de dados <a name="coleta"></a> 

### 3.1 Bibliotecas <a name="bibliotecas"></a> 

- Em algumas bibliotecas já existem conjuntos de dados prontos, geralmente usados para demonstrações:

[Seaborn](https://github.com/mwaskom/seaborn-data):

```python
    import seaborn as sns
    sns.load_dataset(dataset)
```

[Scikit-learn](https://scikit-learn.org/stable/datasets/toy_dataset.html):

```python
    from sklearn.datasets import dataset
```

[Plotly](https://plotly.com/python-api-reference/generated/plotly.express.data.html):

```python
    import plotly.express as px
    df = px.data.iris()
```

Carregando o dataset [tips](https://rdrr.io/cran/reshape2/man/tips.html) do Seaborn:

In [4]:
import seaborn as sns

tips = sns.load_dataset("tips")
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB


### 3.2 Arquivos locais/remotos <a name="arquivos"></a> 

- Pandas é uma das ferramentas mais conhecidas para manipulação e análise de dados em Python.

Documentação do Pandas: https://pandas.pydata.org/docs/index.html

Documentação sobre Input/Output: https://pandas.pydata.org/docs/reference/io.html

```python
    import pandas as pd
    
    pd.read_csv('data/arquivo.csv', sep = ',')
    pd.read_sql('test_data', 'postgres:///db_name')
    pd.read_html('https://en.wikipedia.org/wolo/Minnesota')
```

Podemos ler um arquivo CSV diretamente pela página que ele estiver hospedado:

In [12]:
import pandas as pd

pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv')

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


Carregando as tabelas encontradas na página do Wikipédia:

In [11]:
table_MN = pd.read_html('https://en.wikipedia.org/wiki/Minnesota')

table_MN[2] # Terceira tabela encontrada

Unnamed: 0,Location,July (°F),July (°C),January (°F),January (°C)
0,Minneapolis,83/64,28/18,23/7,−4/−13
1,Saint Paul,83/63,28/17,23/6,−5/−14
2,Rochester,82/63,28/17,23/3,−5/−16
3,Duluth,76/55,24/13,19/1,−7/−17
4,St. Cloud,81/58,27/14,18/−1,−7/−18
5,Mankato,86/62,30/16,23/3,−5/−16
6,International Falls,77/52,25/11,15/−6,−9/−21


---

## 4. Gerenciamento e manipulação <a name="gerenciamento"></a> 

### 4.1 Pandas DataFrame <a name="pandas"></a> 

- Matriz bidimensional de dados rotulados por linhas e colunas

- Suporta dados heterogêneos

- Pode ser vista como um dicionário de `pd.Series`
 
    - A estrutura de dados sequencial base do Pandas

In [2]:
import pandas as pd
import numpy as np

df = pd.DataFrame(data = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]]), columns = ['a', 'b', 'c'])

df

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


- `pd.DataFrame.shape`: a dimensionalidade do Dataframe

- `pd.DataFrame.head(n)`: n primeiras instâncias

- `pd.DataFrame.tail(n)`: n últimas instâncias

- `pd.DataFrame.sample(n)`: n amostras aleatórias

- `pd.DataFrame.values(n)`: representação np.ndarray do Dataframe

- `pd.DataFrame.describe()`: Estatísticas descritivas sobre o dataset

Com o dataset `tips` carregado anteriormente temos, por exemplo:

In [5]:
tips.shape

(244, 7)

In [10]:
tips.sample(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
142,41.19,5.0,Male,No,Thur,Lunch,5
78,22.76,3.0,Male,No,Thur,Lunch,2
144,16.43,2.3,Female,No,Thur,Lunch,2
148,9.78,1.73,Male,No,Thur,Lunch,2
208,24.27,2.03,Male,Yes,Sat,Dinner,2


In [11]:
tips.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


### 4.2 Seleção de dados <a name="selecao"></a> 

- Seleção simples de colunas:

```python
pd.DataFrame['col_label']
```

- Seleção de múltiplas colunas:

```python
pd.DataFrame[['col_label_1', 'col_label_2']]
```

- Seleção por correspondência de índice (*hashing*):

```python
pd.DataFrame.loc[['row_labels'], ['column_labels']]
```

- Seleção por posição sequencial (lista ordenada):

```python
pd.DataFrame.iloc[['row_indexes'], ['col_indexes']]
```

- Análogo ao `loc`, mas lida apenas com único valor por vez:

```python
pd.DataFrame.at['row_label', 'col_label']
```

- Análogo ao `iloc`, mas lida apenas com único valor por vez:

```python
pd.DataFrame.iat['row_index', 'col_index']
```

Obs.: A implementação do `at` e `iat`é mais eficiente do que a com os correspondentes `loc` e `iloc`.

In [19]:
tips[['total_bill', 'tip']].head()

Unnamed: 0,total_bill,tip
0,16.99,1.01
1,10.34,1.66
2,21.01,3.5
3,23.68,3.31
4,24.59,3.61


In [41]:
tips.loc[:, ["smoker"]].head()

Unnamed: 0,smoker
0,No
1,No
2,No
3,No
4,No


In [39]:
tips.iloc[::2, [3]].head()

Unnamed: 0,smoker
0,No
2,No
4,No
6,No
8,No


In [35]:
tips.at[0, 'smoker']

'No'

In [33]:
tips.iat[2, 2]

'Male'

- Operadores condicionais:

    - Negação: **~**

    - E lógico: **&**

    - OU lógico: **|**

- Seleção por condicional simples: 

```python
pd.DataFrame[condicional]
```

- Seleção por múltiplas condicionais: 

```python
pd.DataFrame[(condicional_1) | (condicional_2)]
```

In [69]:
tips[tips["smoker"] == "No"].sample(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
133,12.26,2.0,Female,No,Thur,Lunch,2
142,41.19,5.0,Male,No,Thur,Lunch,5
132,11.17,1.5,Female,No,Thur,Lunch,2
64,17.59,2.64,Male,No,Sat,Dinner,3
10,10.27,1.71,Male,No,Sun,Dinner,2


In [47]:
tips[(tips["smoker"] == "No") & (tips["sex"] == "Female")].sample(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
16,10.33,1.67,Female,No,Sun,Dinner,3
124,12.48,2.52,Female,No,Thur,Lunch,2
71,17.07,3.0,Female,No,Sat,Dinner,3
29,19.65,3.0,Female,No,Sat,Dinner,2
157,25.0,3.75,Female,No,Sun,Dinner,4


### 4.3 Agrupamento <a name="agrupamento"></a> 

- Agrupar dados por coluna:

```python
pd.DataFrame.groupby(['column_label'])
```

In [54]:
tips.groupby(['time', 'sex']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,tip,size
time,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Lunch,Male,18.048485,2.882121,2.363636
Lunch,Female,16.339143,2.582857,2.457143
Dinner,Male,21.461452,3.144839,2.701613
Dinner,Female,19.213077,3.002115,2.461538


### 4.4 Funções <a name="funcoes"></a> 

- Funções agregadas:

```python
pd.DataFrame.agg([func])
```

In [57]:
tips.agg([np.mean, np.std])

Unnamed: 0,total_bill,tip,size
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511


- *Broadcasting*:

```python
pd.DataFrame.apply([func])
```

pd.DataFrame['numeric_col'] * 2

In [66]:
tips['total_bill'].apply(lambda x : x * 2).head()

0    33.98
1    20.68
2    42.02
3    47.36
4    49.18
Name: total_bill, dtype: float64

In [67]:
(tips['total_bill'] * 2).head()

0    33.98
1    20.68
2    42.02
3    47.36
4    49.18
Name: total_bill, dtype: float64

---

## 5. Processamento e transformações <a name="processamento"></a> 

### 5.1 Sumarização <a name="sumarizacao"></a> 

### 5.2 Dados ausentes <a name="ausentes"></a> 

### 5.3 Escalonamento <a name="escalonamento"></a> 

### 5.4 Detecção de outliers <a name="outliers"></a> 

### 5.5 Redução de dimensionalidade <a name="reducao"></a> 