# Introdução à Pandas

In [None]:
import numpy as np
import pandas as pd

## O que é Pandas?

A biblioteca Pandas apresenta uma série de evoluções na utilização de `arrays` para a representação de tabelas de dados.

* [Documentação](https://pandas.pydata.org/docs/reference/index.html#api)
* [GitHub](https://github.com/pandas-dev/pandas/blob/master/pandas/core/base.py)

Vamos trabalhar com **três** objetos principais, os quais **precisamos** entender:
1. Pandas Series
2. Pandas DataFrame
3. Index

## Pandas Series

**O tijolo inicial da biblioteca Pandas**. A `Series` é uma classe semelhante aos **vetores** (um `array` **1-D**) - ela é um `array` indexado (misturando elementos de um `array` e um `dict`).

In [None]:
type(pd.Series)

In [None]:
pd.Series

### Criando uma `Series`

Podemos inicializar uma `Series` da mesma forma que inicializamos um `array`: através de um iterável.

In [None]:
# From a list
values = [99, 22, 3, 4]
series1 = pd.Series(data = values)
print(series1)

A série criada tem 3 elementos fundamentais:

* O `Index` - [0, 1, 2, 3] que aparece à esquerda acima;
* Os **valores** da série [1, 2, 3, 4], inicializados a partir de nossa lista;
* O `dtype` - assim como os `arrays` as `Series` só podem conter objetos de um tipo por vez.

Toda vez que criamos uma série, a Pandas criará automaticamente um índice numérico (como um `array` ou uma `list`). No entanto, assim com em um dicionário, podemos criar um índice diretamente.

In [None]:
nome_linhas = ['I', 'II', 'III', 'IV']

series2 = pd.Series(data = values, 
                    index = nome_linhas)

print(series2)

Enquanto os **valores** da série contém apenas um tipo de objeto, o índice pode conter mútiplos tipos: no exemplo abaixo vamos criar uma série que mistura os índices de `str` e `list`:

In [None]:
nome_linhas = [['I', 'II'], 'II', 'III', 'IV']
series3 = pd.Series(data = values, 
                    index = nome_linhas)
print(series3)

O único requisito para os **índices** é que eles tenham o mesmo comprimento que os **valores**.

In [None]:
print(values)
print(len(values))

In [None]:
nome_linhas = ['I', 'II', 'III', 'IV', 'V']
series4 = pd.Series(data = values, 
                    index = nome_linhas)
print(series4)

Devemos tomar cuidado ao inicializar séries desta forma: as séries não precisam ter índices únicos, o que pode levar a comportamentos estranhos:

In [None]:
values = [1,1,1,1]
nome_linhas = ['I', 'II', 'II', 'II']
series5 = pd.Series(data = values, 
                    index = nome_linhas)
print(series5)

In [None]:
np.array([1,1,1,1])

In [None]:
aa = {'I' : 1, 'II' : 2, 'III' : 3}

Assim como `arrays`, `Series` podem conter apenas um tipo de objeto. Se criarmos uma `Series` a partir de um iterável com valores mistos (por exemplo, `ints` e `lists`), a Pandas irá converter todos os objetos para um tipo genérico, chamado `object`.

In [None]:
pd.Series([1,2,3,'4'])

Além de criar `Series` a partir de uma lista de valores e outra de índices, podemos especificar os dois elementos juntos através de um `dict`. Neste caso, as **chaves** do `dict` serão usadas como o índice, enquanto os **valores** serão utilizados como os valores da `Series`.

In [None]:
# From a dict

dict_notas = dict({'Titanic' : 7.8,
                  'Dune' : 8.2,
                  'Dune (David Lynch)' : 6.4,
                  'House of Gucci' : 7.0,
                  'Joker' : 8.4,
                  'Alien' : 8.4})
notas_imdb = pd.Series(dict_notas)
print(notas_imdb)

In [None]:
pd.Series(data = [7.8, 8.2, 6.4, 7.0, 8.4, 8.4],
          index = ['Titanic', 'Dune', 'Dune (DL)', 'House of Gucci', 'Joker', 'Alien'])

Podemos utilizar a estrutura descrita acima para criar diferentes tipos de séries: **numéricas**, como a `notas_imdb`, de **strings** ou mesmo de listas.

Vamos ver como fazer isso expandindo nossos `dicts` sobre filmes:

In [None]:
dict_cast = dict({'Titanic' : ['Kate Winslet', 'Leonardo DiCaprio'],
                  'Dune' : ['Timothée Chalamet', 'Zendaya'],
                  'Dune (David Lynch)' : ['Sting'],
                  'House of Gucci' : ['Lady Gaga', 'Adam Driver', 'Al Pacino'],
                  'Joker' : ['Joaquin Phoenix'],
                  'Alien' : ['Sigourney Weaver', 'Ian Holm'],
                  'Aliens' : ['Sigourney Weaver', 'Paul Reiser']})

elenco = pd.Series(dict_cast, name = 'elenco')
print(elenco)

In [None]:
dict_diretor = dict({'Titanic' : 'James Cameron',
                     'Dune' : 'Denis Villeneuve',
                     'Dune (David Lynch)' : 'David Lynch',
                     'House of Gucci' : 'Ridley Scott',
                     'Joker' : 'Todd Phillips',
                     'Alien' : 'Ridley Scott',
                     'Aliens' : 'James Cameron'})
diretor = pd.Series(dict_diretor, name = 'diretor')
print(diretor)

### Some methods and attributes
* Check Type
* Check Size
* `.describe()`
* `.values`
* `.index`

In [None]:
notas_imdb

In [None]:
print(type(notas_imdb))

In [None]:
print(notas_imdb.dtype)

In [None]:
print(elenco.dtype)

Então, o `type` da `notas_imdb` é `pandas.Series` e o tipo dos dados dentro desta `pandas.Series` é `float64`. Quando o `dtype` de uma `Series` for `object` *em geral* o que temos é uma séries de strings.

Assim como listas e arrays, séries são iteráveis: isso significa que podemos utilizar a função `len` para descobrir o comprimento de uma série.

In [None]:
print(len(notas_imdb))

O método `.describe()` nos permite fazer uma investigação preliminar sobre o conteúdo de uma série utilizando indicadores da estatística descritiva.

In [None]:
print(notas_imdb.describe())

In [None]:
np.median(notas_imdb)

O comportamento deste método depende do `dtype` da `Series`: para um `dtype` numérico teremos indicadores de localização (média, mediana, quartis, etc) e dispersão (desvio padrão), já para outros tipos teremos uma descrição mais simples:

In [None]:
elenco.describe()

In [None]:
elenco

In [None]:
diretor

Podemos utilizar o **atributo** `.values` para acessar os elementos de uma `Series` como um `np.array`:

In [None]:
print(notas_imdb.values)

In [None]:
type(notas_imdb.values)

Por fim, podemos acessar os índices de uma `Series` através do atributo `.index`.

In [None]:
print(notas_imdb.index)

### Indexação
Assim como `lists` e `np.arrays`, `Series` podem ser indexadas. Vamos ver as principais maneiras de fazê-lo: primeiro relembrando a indexação de `np.arrays`, depois vendo como podemos utilizar o próprio índice da série.

#### Emprestando de `np.array`!
Podemos indexar uma `Series` como um `np.array`:

Primeiro por `ints`...

In [None]:
notas_imdb

In [None]:
a = [1,2,3]

In [None]:
a[0]

In [None]:
a[1:]

In [None]:
notas_imdb[0]

... depois por `slices` ...

In [None]:
notas_imdb[0:3]

In [None]:
notas_imdb[1:]

... e, o mais útil de todos, por máscaras (através dos iteráveis de booleanos)!

Para isso precisamos lembrar como um `np.array` (e, por extensão, uma `Series`) se comportam frente aos operadores booleanos `<`, `>`, `==`, etc...

In [None]:
notas_imdb == 8.4

O resultado é uma nova série, com o resultado da comparação booleana aplicada elemento à elemento. 

Agora podemos utilizar essa nova série para indexar a série original!

In [None]:
mascara = notas_imdb > 8
print(mascara)

In [None]:
mascara_idiota = [False, True, False,False, True, False]
notas_imdb[mascara_idiota]

Também podemos fazer a comparação dentro do próprio índice:

In [None]:
notas_imdb > 8

In [None]:
notas_imdb[notas_imdb > 8]

#### Lembrando `dicts`!
Podemos utilizar o índice que definimos na criação de uma série para acessar os valores associados à uma certa chave. Esse comportamento é semelhante à forma como indexamos dicionários.

In [None]:
notas_imdb['Dune']

# 2. The Pandas DataFrame
Um `DataFrame` da Pandas será o principal tipo que utilizaremos no restante do Bootcamp para representar tabelas de dados. Ao longo das próximas semanas iremos nos familiarizar com os métodos e atributos deste objeto, que nos permitem carregar dados, limpa-los e iniciar o processo de análise.

Podemos pensar em um DataFrame de diferentes formas:
* Uma coleção de `Series`;
* Uma `np.array` onde as linhas e as colunas tem *nomes*;
* Uma tabela, semelhante à uma planilha.

In [None]:
pd.DataFrame

In [None]:
type(pd.DataFrame)

## Criando um DataFrame

Vamos começar construindo nossos DataFrames dentro do Python, a partir de `Series`, `arrays` ou `lists` e `dicts`. Ao longo das próximas semanas aprenderemos a ler arquivos (.csv, .txt, .xlsx), acessar DBs (SQL) e mesmo extrair dados de APIs.

Por enquanto, vamos construir uma tabela com os dados de filmes das nossas séries: notas do IMDB, elenco e diretor.

In [None]:
notas_imdb

In [None]:
elenco

In [None]:
diretor

---
### `dict` de `Series`

A forma mais simples de converter um conjunto de séries em um DataFrame (onde cada `Series` será uma coluna) é através de um dicionário. Vamos construir um `dict` onde as chaves serão os nomes das colunas da tabela e os valores serão as `Series` que criamos.

In [None]:
dict_series = {'notas' : notas_imdb,
               'elenco' : elenco,
               'diretor' : diretor}
print(dict_series.keys())
print(dict_series['notas'])

Agora vamos utilizar o objeto `DataFrame` para inicializar nosso DataFrame.

In [None]:
pd.DataFrame(dict_series)

Como podemos ver, o nosso `DataFrame` contém toda informação de nossas `Series`. A ordem dos elementos nas `Series` originais não importa neste caso: ao criar um DataFrame estamos *alinhando* as diferentes `Series` através de seu índice que neste caso é o nome do filme. 

**DEVEMOS TOMAR CUIDADO COM ESTE COMPORTAMENTO: PODEMOS TER ÍNDICES REPETIDOS, OU MESMO NÃO ÍNDICES RELEVANTES**, e, neste caso, o cruzamento entre séries **DEPENDERÁ DA ORDEM DOS ELEMENTOS**.

Como não temos uma nota para o filme **Aliens** (Alien II), o `DataFrame` *criou* uma entrada NaN indicando que esta informação não estava disponível.

---

### `dict` de `dicts`
Podemos *pular* a etapa onde transformamos os `dicts` em `Series` e construir nosso `DataFrame` a partir de um `dict` de `dicts`!

In [None]:
print(dict_notas)

In [None]:
dict_dicts = {'notas' : dict_notas,
              'elenco' : dict_cast,
              'diretor' : dict_diretor}
print(dict_dicts)

In [None]:
pd.DataFrame(dict_dicts)

Novamente, podemos ver que o `DataFrame` criado utilizou os as chaves do dicionário para cruzar as informações de maneira correta: o filme **Aliens** foi criado com uma nota `NaN`, indicando que o Python interpretou corretamente que este filme não está presente no `dict_notas`.

---

### `dict` de `lists`

A terceira forma que veremos hoje para criar um `DataFrame` é a partir de um `dict` de `lists`. Temos que tomar cuidado sempre que utilizarmos essa forma (e sempre que nossas séries não estejam indexadas por nomes, ids, etc...): **a ordem dos elementos em cada lista determinará o emparelhamento entre as colunas do `DataFrame`!**

In [None]:
list(dict_diretor.values())

In [None]:
lista_notas = list(dict_notas.values())
lista_elenco = list(dict_cast.values())
lista_diretor = list(dict_diretor.values())

In [None]:
lista_diretor

Como vimos ao longo da criação dos outros `DataFrames`, a lista de notas tem menos valores que as outras listas (ela não tem o filme **Aliens**). O que acontecerá se tentarmos criar o `DataFrame` mesmo assim? Primeiro vamos guardar nossas listas em um dicionário:

In [None]:
dict_listas = {'notas' : lista_notas,
               'elenco' : lista_elenco,
               'diretor' : lista_diretor}
pd.DataFrame(dict_listas)

In [None]:
lista_notas

In [None]:
lista_elenco

O `ValueError` nos explica que para criar um `DataFrame` a partir de listas estas precisam ter o mesmo número de elementos. Vamos usar um slice para igualar o tamanho das listas e criar nosso DataFrame e compara-lo ao criado utilizando o `dict` de séries:

In [None]:
dict_listas = {'notas' : lista_notas,
               'elenco' : lista_elenco[1:],
               'diretor' : lista_diretor[1:]}
pd.DataFrame(dict_listas)

In [None]:
pd.DataFrame(dict_series)

Como a construção do `DataFrame` não tem mais o índice das `Series` ou `dicts` não conseguimos mais cruzar as informações corretamente: ao utilizar a ordem das informações como índice (indexação inteira), não temos a estrutura original - as notas estão todas deslocadas!

## Métodos e atributos
Nesta seção veremos alguns métodos e atributos utéis dos `DataFrames`:

* `.describe()`
* `.info()`
* `.shape`
* `.columns`

Primeiro, vamos guardar o nosso `DataFrame` correto (criado a partir do `dict` de `Series` ou de `dicts`).

In [None]:
tb_filmes = pd.DataFrame(dict_series)
tb_filmes

In [None]:
type(tb_filmes)

O método `.describe()` é semelhante ao método `.describe()` das `Series`: agora, no entanto, ele retorna as estatisticas descritivas de todas as colunas numéricas de nosso `DataFrame`

In [None]:
tb_filmes

In [None]:
tb_filmes.describe()

O método `.info()` nos retorna uma série de informações úteis sobre o nosso `DataFrame`:

* Nome das Colunas;
* Número de Linhas;
* Qtd. de valores nulos;
* Tipos das colunas.

In [None]:
tb_filmes.info()

O atributo `.columns` nos permite ver os nomes das colunas de um `DataFrame` através de um iterável:

In [None]:
tb_filmes.columns

Por fim o atributo `.index` nos permite acessar os índices das linhas de um `DataFrame`:

In [None]:
tb_filmes.index

In [None]:
a = print

In [None]:
a()

In [None]:
lucas = dict()
lucas['nome'] = 'Lucas'
lucas['prof'] = 'Eng.'

In [None]:
alunos['Lucas'] = lucas

## Indexando `DataFrames`

`DataFrames` são muito parecidas com `np.arrays` de 2D: temos dois índices, um para as linhas outro para as colunas. Vamos começar vendo como acessar um (ou mais) colunas de um `DataFrame` primeiro.

### Selecionado Colunas
Para acessar uma coluna de um `DataFrame` podemos utilizar a indexação simples `['nome_da_coluna']` para extrair uma coluna só ou utilizar um iterável com os nomes das colunas para extrair mais que uma coluna. Vamos ver isso na prática:

In [None]:
type(tb_filmes['notas'])

Podemos criar uma `list` (um iterável) com nomes de colunas e utiliza-la para indexar o `DataFrame`. O resultado será outro `DataFrame` com todas as colunas nomeadas na lista:

In [None]:
lista_colunas = ['notas', 'diretor']
tb_filmes[lista_colunas]

Muitas vezes vemos esse filtro feito de forma implicita:

In [None]:
tb_filmes[['notas', 'diretor']]

Os colchetes duplos surgem pois estamos:

1. Indexado (par externo de colchetes)
1. Criando uma lista (par interno de colchetes)

Temos que nos atentar aos tipos retornados por cada um dos filtros:

In [None]:
type(tb_filmes['notas'])

In [None]:
type(tb_filmes[['notas', 'diretor']])

Se queremos criar um `DataFrame` com apenas uma coluna podemos fazê-lo:

In [None]:
tb_filmes[['notas']]

In [None]:
type(tb_filmes[['notas']])

Isso será necessário mais a frente no curso quando utilizarmos as bibliotecas de Machine Learning.

----------------------------------------------------------------

### Selecionando Linhas (e Colunas!)

Se quisermos fazer um filtro sobre as linhas devemos utilizar os atributos `.loc` e `.iloc` (ou o método `.sample()`). Esses atributos nos permitem indexar os `DataFrame` como indexamos `np.arrays` 2D - através da especificação da linha e coluna que desejamos. Vamos começar com o atributo `.iloc`.

#### Utilizando `.iloc`

O atributo `.iloc` nos permite indexar um `DataFrame` utilizando a mesma notação das `np.arrays`:


``` python
tb_filmes.iloc[row_number, column_number]
```

In [None]:
tb_filmes

In [None]:
tb_filmes.iloc[1,1]

Além de inteiros, também podemos utilizar slices.

Primeiro, vamos todas as colunas para a primeira linha:

In [None]:
tb_filmes.iloc[0,:]

Agora vamos buscar todas as linhas da primeira coluna:

In [None]:
tb_filmes.iloc[:,0]

#### Utilizando `.loc`

O atributo `.loc` nos permite indexar um `DataFrame` utilizando a mesma notação das `np.arrays`, mas ao invés de `ints` e `slices` podemos utilizar usar os próprios índices do `DataFrame`: **nomes das linhas e nomes das colunas**.


``` python
tb_filmes.loc[row_name, column_name]
```

In [None]:
tb_filmes

In [None]:
tb_filmes.loc['Alien', 'aleato']

Além de utilizar os nomes diretamente, também podemos utilizar slices (de nomes):

In [None]:
tb_filmes.loc['Alien', 'notas':'diretor']

Outra forma útil de indexação através do `.loc` é utilizando listas:

In [None]:
tb_filmes.loc[['Alien', 'Aliens'], :]

In [None]:
tb_filmes.loc[:, ['notas', 'elenco']]

In [None]:
tb_filmes.loc['Alien':'Dune', 'notas':'elenco']

In [None]:
tb_filmes.iloc[[-1,0, 3], :]

### Utilizando `.sample()`
O método `.sample()` é utilizado para gerar uma amostra aleatória das linhas de um `DataFrame`

In [None]:
tb_filmes.sample(n=2)

## Máscaras e Filtros

Filtros são o Be-A-Bá de dados, englobando operações como: selecionar todas as vendas em MG, ou então todos os ataques de tubarão que aconteceram no hemisfério Sul, ou mesmo todos os clientes que fizeram mais de um pedido no mês de Janeiro.

A idéia fundamental por trás dos Filtros na biblioteca Pandas é o **conceito de Máscara**: um vetor de valores booleanos com um número de elementos igual ao número de linhas do nosso `DataFrame`. Já vimos hoje como construir máscaras através dos operadores booleanos: agora utilizaremos estas para filtrar nossos `DataFrames`!

### Máscaras Simples (uma condição)

In [None]:
tb_filmes['notas'] > 8

In [None]:
filmes_bons = tb_filmes['notas'] > 8

In [None]:
filmes_bons

A variável `filmes_bons` é nossa máscara: vamos utiliza-la para filtrar nosso `DataFrame`

In [None]:
tb_filmes[filmes_bons]

Simples! Podemos utilizar a mesma máscara de forma implicita:

In [None]:
tb_filmes[tb_filmes['notas'] > 8]

### Máscaras Complexas

A máscara `filmes_bons` contém apenas uma condição - muitas vezes precisamos concatenar condições para obter o resultado necessário. Vamos entender como podemos construir essas máscaras utilizando os operadores `&` (BITWISE AND) e `|` (BITWISE OR)

In [None]:
filmes_bons = tb_filmes['notas'] > 8
print(filmes_bons)

In [None]:
filmes_rs = tb_filmes['diretor'] == 'Ridley Scott'
print(filmes_rs)

In [None]:
tb_filmes[filmes_bons]

Se quisermos filtrar os filmes que são simultaneamente bons e do Ridley Scott precisamos utilizar o operador `&` (**E**):

In [None]:
filmes_rs_bons = filmes_rs & filmes_bons
print(filmes_rs_bons)

In [None]:
tb_filmes[filmes_rs_bons]

Se quisermos encontrar todos os filmes que são bons + todos os filmes do Ridley Scott podemos utilizar o operador `|` (OU)

In [None]:
filmes_rs_ou_bons = filmes_rs | filmes_bons
tb_filmes[filmes_rs_ou_bons]

Podemos fazer todas as etapas acima de forma implicita (tomando cuidado com os `()` ao redor de cada condição)!

In [None]:
tb_filmes[(tb_filmes['notas'] > 9.5) & (tb_filmes['diretor'] == 'Ridley Scott')]

In [None]:
tb_filmes[(tb_filmes['notas'] > 8) | (tb_filmes['diretor'] == 'Ridley Scott')]

### Combinando Máscaras, Filtros e `.loc`s

Podemos utilizar as nossas máscaras dentro de indexações feitas utilizando o `.loc` (ou `.iloc`):

In [None]:
tb_filmes.loc[filmes_rs_bons, 'elenco']

In [None]:
tb_filmes.loc[filmes_rs_ou_bons, ['elenco', 'diretor']]

A última forma nos permite filtrar linhas ao mesmo tempo que selecionamos colunas específicas. Por fim, podemos utilizar o próprio índice de um `DataFrame` como origem de uma máscara:

In [None]:
tb_filmes.index

In [None]:
tb_filmes.loc[tb_filmes.index == 'Aliens']