[![Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/storopoli/ciencia-de-dados/master?filepath=notebooks%2FAula_7_pandas.ipynb)
<br>
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/storopoli/ciencia-de-dados/blob/master/notebooks/Aula_7_pandas.ipynb)

# `pandas`

**Objetivos**: Apresentar a biblioteca pandas, importação de dados, DataFrame e funções aritméticas.

## Dados Tabulares

* Primeira linha: Cabeçalho (*Header*)
* Cada coluna: uma variável
* Cada linha: uma observação
* Cada Tabela/arquivo: um nível de observação

![dados-tabulares](https://miro.medium.com/max/3840/1*7jjzhy4KknPz9hJVnC_w7w.png)

## Documentação do `pandas`

https://pandas.pydata.org/pandas-docs/stable/

In [None]:
import pandas as pd

## Elementos do `pandas`

* *DataFrame*: Tabela Retangular de Dados
    - Conjunto de *Series*
    - Todas compartilhando o mesmo índice (*index*)
* *Series*: Coluna do *DataFrame*
    - *arrays* em 1-D
    - Composta por:
        - Sequência de Valores
            - *numeric*
            - *string*
            - *bool*
        - Sequencia de *index*

| Pandas dtype    | Python type    | NumPy type                                | Uso                                                   |
|-----------------|----------------|-------------------------------------------|-------------------------------------------------------|
| `object`        | `str` ou misto | *string_*, *unicode_*, misto              | Texto ou misto de valores `numeric` and `non-numeric` |
| `int64`         | `int`          | *int_*, `int8`, `int16`, `int32`, `int64` | Número Inteiros                                       |
| `float64`       | `float`        | *float_*, `float16`, `float32`, `float64` | Número Reais                                          |
| `bool`          | `bool`         | `bool`                                    | Verdadeiro ou Falso                                   |
| `datetime64`    | NA             | `datetime64[ns]`                          | Data e Hora                                           |
| `timedelta[ns]` | NA             | NA                                        | Diferença entre duas `datetimes`                      |
| `category`      | NA             | NA                                        | Lista Finita de Valores em Texto                      |

## Importando Dados no `pandas`

| Formato   | Input                 | Output            | Observação                     |
| --------- | --------------------- | ----------------- | ------------------------------ |
| CSV       | `pd.read_csv()`       | `.to_csv()`       | arquivo Texto                  |
| XLS/XLSX  | `pd.read_excel()`     | `.to_excel()`     | Planilha                       |
| HDF       | `pd.read_hdf`()       | `.to_hdf()`       | HDF5 database                  |
| SQL       | `pd.read_sql()`       | `.to_sql()`       | SQL table                      |
| JSON      | `pd.read_json()`      | `.to_json()`      | JavaScript Object Notation     |
| MSGPACK   | `pd.read_msgpack()`   | `.to_msgpack()`   | Portable binary format         |
| HTML      | `pd.read_html()`      | `.to_html()`      | código HTML                    |
| GBQ       | `pd.read_gbq()`       | `.to_gbq()`       | Google Big Query format        |
| DTA       | `pd.read_stata()`     | `.to_stata()`     | Stata                          |
| Qualquer  | `pd.read_clipboard()` | `.to_clipboard()` | Ex., de pág HTML               |
| Qualquer  | `pd.read_pickle()`    | `.to_pickle()`    | (Structured) Python object     |

## Importando `CSV`

Se atentar com os seguintes argumentos de [`pd.read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html):

* Caminho (`path`)
* `sep`: `','`, para europeu/brasileiro use `';'`
* `decimal`: `'.'`, para europeu/brasileiro use `','`
* `header`: `pandas` tenta adivinhar
* `index_col`: `None`, mas pode ser uma coluna do arquivo (ex: 2ª coluna use `index_col=2`)
* `names`: `None`, mas pode ser uma lista dos nomes das variáveis (colunas)
* `skip_rows`: `None` (pular linhas)
* `na_values`: `None`, mas pode ser qualquer string (ex: `'NA'`)
* `thousands`: `None` mas pode ser `','` ou `'.'`
* `encoding`
    - `'utf8'`: padrão
    - `'latin1'`: ç à é î ã

## Importando Planilhas `Excel`

Se atentar com os seguintes argumentos de [`pd.read_excel()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html):
* Caminho (`path`)
* `sheet_name`: `0`, mas pode ser qualquer `string` ou `int`
    - `sheet_name=0`: Primeira aba da planilha
    - `sheet_name=2`: Terceira aba da planilha
    - `sheet_name='Plan1'`: Primeira aba da planilha
    - `sheet_name='nome_que_usuário_colocou'`

## Exportando dados

* `CSV`: [`.to_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html)
* `Excel`: [`.to_excel()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html)

## Corona Vírus

A [Kaggle](https://www.kaggle.com) possui um dataset de Coronavirus. 

Clique [aqui](https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset#covid_19_data.csv) para saber mais.

Vamos usar a versão de **28 de Agosto de 2020**.

In [None]:
corona = pd.read_csv('data/covid_19_data.csv', index_col=0)

## Inspecionando o *DataFrame*

In [None]:
type(corona)

In [None]:
corona.info()

In [None]:
corona.shape

In [None]:
corona.columns

In [None]:
corona.head()
#corona.head(3)

In [None]:
corona.tail()
#corona.tail(3)

## Removendo Entradas

Usando o [`pd.drop()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html), se atentar com os argumentos:
* `axis`: `0` para linhas `1` para colunas
* `inplace`: `True` altera o *DataFrame* atual

Vamos fazer uma análise global então removeremos as províncias/estados (coluna `Province/State`)

In [None]:
corona.drop(['Province/State'], axis=1, inplace=True)  # True ele altera o DF
corona.head()
#corona = pd.read_csv('data/covid_19_data.csv', index_col=0)

## Lidando com dados faltantes (*missing values* `NA`)

| Method         | Description                                                  |
| -------------- | ------------------------------------------------------------ |
| `df.dropna()`  | Filtra `NA`, selecionar linhas (`axis = 0`) ou selecionar colunas (`axis=1`) |
| `df.fillna()`  | Preencher os `NA` com algum valor  |
| `df.isnull()`  | Retorna os valores booleanos indicando quais valores são `NA` |

In [None]:
corona.dropna(axis=0).head()

In [None]:
corona.isnull()

In [None]:
corona.fillna(0, inplace=True)
corona.head()

## Selecionando e Filtrando

* `DataFrame['Coluna']` = retorna uma *Series*
* `DataFrame[['Coluna']]` = retorna um *DataFrame*
* `DataFrame[['Coluna_1, 'Coluna_2']]` = multíplas Colunas
* `DataFrame.query()`

Tanto para *DataFrame* quanto para *Series*

* `.loc[]`
* `.iloc[]`
* `.where()`

In [None]:
# retornando uma Series
corona['Country/Region']

In [None]:
# retornando um DataFrame
corona[['Country/Region']]

In [None]:
corona[['Country/Region', 'Confirmed']]
# corona['Country/Region', 'Confirmed']  # Gera um erro 

In [None]:
# retornando uma linha (observação) com base em um índice
corona.loc[10694] #index
#corona.index

In [None]:
# retornando uma linha (observação) com base em um índice
corona.iloc[10694] #localização

In [None]:
# Filtrando e Retornando um DataFrame
corona[corona['Confirmed'] >8e4]  # 8e4 é 8 com 4 zeros = 80,000

In [None]:
# Filtrando variáveis qualitativas
corona[corona['Country/Region'] == 'Brazil']

In [None]:
# Filtrando e Retornando um DataFrame
corona[(corona['Confirmed'] > 8e4) & (corona['Recovered'] > 1000)]

In [None]:
# Filtrando e Retornando um DataFrame com .loc
corona.loc[(corona['Confirmed'].between(8e4, 10e4, inclusive=False)) &
           (corona['Recovered'].between(12e3, 20e3, inclusive=True))]

In [None]:
# Filtrando e Retornando um DataFrame com df.where()
corona.where(corona['Confirmed'] > 10e2)
# Obs: se atente com os NaN

In [None]:
# Filtrando e Retornando um DataFrame com df.query()
corona.query('Confirmed > 8e4')

In [None]:
# Filtrando e Retornando um DataFrame com df.query()
corona.query('Confirmed > 8e4 & 10e3 < Recovered < 12e3')

## Fatiando

* `DataFrame['Coluna']` = retorna uma *Series*
* `DataFrame[['Coluna']]` = retorna um *DataFrame*
* `DataFrame[['Coluna_1, 'Coluna_2']]` = multíplas Colunas

Tanto para *DataFrame* quanto para *Series*

* `.loc[]`
* `.iloc[]`

In [None]:
# Fatiando com loc[]
corona.loc[100:200]

In [None]:
# Fatiando com loc[]
corona.loc[100:200, 'Country/Region':'Confirmed']

In [None]:
# Fatiando com iloc[]
corona.iloc[100:200, :3]

In [None]:
# Criando um subset com algumas variáveis (lista)
variaveis = ['Country/Region', 'Confirmed', 'Deaths']
corona[variaveis] 

## Criando Novas Variáveis

In [None]:
corona['Confirmed + Deaths'] = corona['Confirmed'] + corona['Deaths']
corona.head(3)

In [None]:
corona['Death by Cases'] = corona['Deaths'] / corona['Confirmed']
corona.head(3)

## `pandas` `pd.cut()` e `pd.qcut()`

* `pd.cut()`: ordena valores em *bins* (faixas de valores)
    - `bins=x`: quantidade de faixas de valores desejada 
* `pd.qcut()`: mesma coisa que `pd.cut()` mas usa *quantis*
    - `q=x`: quantidade de quantis
        * 3: tercis
        * 4: quantis
        * 5: quintis
        * 10: decis

In [None]:
# 4 faixas (Quantis)
pd.cut(corona['Confirmed'],bins=4)

In [None]:
# 3 (Tercis)
pd.cut(corona['Confirmed'], 3)

## Convertendo Valores

* `.to_numeric()`
* `.to_datetime()`
* `.astype()`
    - `'bool'`
    - `'int64'`
    - `'float64'`
    - `'str'`
    - `'category'`
* `.replace()`

In [None]:
corona['Country/Region'].replace('Mainland China', 'China', inplace=True)

In [None]:
corona.head(3)

In [None]:
corona.info()

In [None]:
corona['Last Update'] = pd.to_datetime(corona['Last Update'])

In [None]:
corona.info()

## Removendo duplicados

* `.unique()`: retorna valores únicos
* `.duplicated()`: retorna `bool` para linhas duplicadas
* `drop_duplicates()`: retorna *DataFrame* com linhas duplicadas removidas

In [None]:
# Quantos países?
len(corona['Country/Region'].unique())

In [None]:
# Quantos Duplicados?
sum(corona.duplicated(subset=['Country/Region']))

In [None]:
corona.drop_duplicates(subset=['Country/Region'], keep='last', inplace=True)
corona.head(3)
#Obs: se atente ao index

In [None]:
corona.info()

## Ordenando e Rankeando

* `.sort_index()`
* `.sort_values()`: ordena de acordo com uma coluna
* `.rank()`: computa ranks numéricos ($1$ à $n$)

In [None]:
corona.sort_values(by=['Recovered'], ascending=False).head(5)

## Países

A [Kaggle](https://www.kaggle.com) possui um dataset de Países.

Clique [aqui](https://www.kaggle.com/fernandol/countries-of-the-world) para saber mais.

In [None]:
paises = pd.read_csv('data/countries of the world.csv')
paises.head()

## Alguma coisa errada

`Dtype` das colunas numéricas aparece como `object` quando deveria ser `float`

In [None]:
paises.info()

In [None]:
paises = pd.read_csv('data/countries of the world.csv', decimal=',')
paises.head()

In [None]:
paises.info()

## Variáveis Qualitativas

* `.astype('category')`
* `pd.get_dummies()`

In [None]:
paises['Region'] = paises['Region'].astype('category')
paises.info()

In [None]:
pd.get_dummies(paises['Region'], prefix='REGION')

In [None]:
paises_dummies = pd.concat([paises, pd.get_dummies(paises['Region'], prefix='REGION')],
                           axis=1).drop(['Region'],axis=1)
paises_dummies.head()

## Outra coisa errada

`Country` Estados Unidos aparece como `United States` e o nosso dataset `corona` aparece como `US`. Corrigir com o `pd.replace`

In [None]:
paises.loc[paises['Country'] == 'United States']

In [None]:
paises['Country'].replace('United States', 'US', inplace=True)

## `pandas` - `join()`

| Opção    | Comportamento                                                                       |
| -------- | ----------------------------------------------------------------------------------- |
| `inner`  | Usa somente as combinações de chaves (*keys*) observadas em ambos *DataFrames*      |
| `left`   | Usa todas as combinações de chaves (*keys*) encontradas no *DataFrames* da esquerda |
| `right`  | Usa todas as combinações de chaves (*keys*) encontradas no *DataFrames* da direita  |
| `output` | Usa todas as combinações de chaves (*keys*) observadas em ambos *DataFrames* juntos |

![pandas-join](http://www.datasciencemadesimple.com/wp-content/uploads/2017/09/join-or-merge-in-python-pandas-1.png)

In [None]:
corona = corona.merge(paises, how='left', left_on='Country/Region', right_on='Country')

In [None]:
corona.tail()

In [None]:
corona.info()

## Salvar o dataset limpo

Para usar no futuro

In [None]:
corona.to_csv('data/corona_limpo.csv', index=None)

![mapa-conceitual](https://github.com/storopoli/ciencia-de-dados/raw/master/Mapas%20Conceituais/7%20-%20Python%20-%20pandas.png)

# Atividade

Importar o arquivo `data/mtcars.csv`. É uma base de dados extraída da revista americana sobre carros *Motor Trend US* de 1974. Possui 32 carros(linhas) e 11 características (colunas)

## Características
* `mpg`: Milhas por Galão (consumo)
* `cyl`: Número de cilíndros
* `disp`: Cilindada (em polegada cúbica)
* `hp`: Cavalos de Potência (HP)
* `drat`: Relação do eixo traseiro
* `wt`:	Peso em (1,000 libras)
* `qsec`: Tempo que atinge 400m (1/4 de milha)
* `vs`: Motor (0 = Forma em V, 1 = Reto)
* `am`: Transmissão (0 = Automático, 1 = Manual)
* `gear`: Número de marchas
* `carb`: Número de carburadores

## Importar os dados

Use o `pd.read_csv()` para importar os dados, use o argumento `index_col=0` para que a primmeira coluna (modelo) seja os índices do *DataFrame*

In [None]:
import pandas as pd

mtcars = pd.read_csv()

Inspeciona o *DataFrame* com `.info()` e veja se todas as variáveis possuem os valores apropriados. Também verifique se você possui dados faltantes (missing, `NA`, `NaN`).

## Ordenando

Use o `.sort_values()` para ordenar o dataset descrescente em cavalos de potência (`hp`). Se atente ao **descrescente**

Qual o carro com mais HP? Ele está muito mais a frente do segundo colocado?

In [None]:
mtcars.sort_values().head()

## Filtrando

1. Crie um *DataFrame* somente com os carros automáticos e use o `.shape` e veja quantos carros são dentre os 32
2. Crie um *DataFrame* somente com os carros que possuem motor em forma de V e use o `.shape` e veja quantos carros são dentre os 32

In [None]:
# am - Transmissão (0 = Automático, 1 = Manual)



In [None]:
# vs - Motor (0 = Forma em V, 1 = Reto)



## Selecionando aleatoriamente uma amostra do `mtcars`

1. Leia a documentação do [`pd.sample()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html)
2. Use o `.sample()` para selecionar aleatoriamente uma amostra de 10 carros. Se atente ao argumento `replace`.