# Introdução à Análise de Dados com Pandas

Material baseado no tutorial "Seus primeiros passos como Data Scientist: Introdução ao Pandas!", que pode ser encontrado [aqui](https://medium.com/data-hackers/uma-introdu%C3%A7%C3%A3o-simples-ao-pandas-1e15eea37fa1)

**Pandas** é uma biblioteca Python que fornece ferramentas de análise de dados e estruturas de dados de alta performance e *fáceis de usar*. Por ser a principal e mais completa biblioteca para estes objetivos, **pandas** é fundamental para análise de dados com Python.

Objetivo do minicurso é fornecer de forma enxuta e simplificada, uma apresentação básica às principais ferramentas fornecidas pelo **pandas**, cobrindo:

- Manipulação; 
- Leitura; e,
- Visualização de dados

### Importando as bibliotecas:

In [0]:
## Importando as bibliotecas

Existem dois tipos principais de estruturas de dados no pandas:
 1. **Series** 
 1. **DataFrame**

## Series

Uma Series é como um array unidimensional, uma lista de valores. Toda Series possui um índice, o `index`, que dá rótulos a cada elemento da lista. Abaixo criamos uma Series `notas`, o `index` desta Series é a coluna à esquerda, que vai de 0 a 4 neste caso, que o pandas criou automaticamente, já que não especificamos uma lista de rótulos.

In [0]:
## Criando uma series

Já podemos aqui verificar os atributos da nossa Series, comecemos pelos valores e o índice, os dois atributos *fundamentais* nesta estrutura:

In [0]:
# values

In [0]:
# index

Como ao criar a Series não demos um índice específico o pandas usou os inteiros positivos crescentes como padrão. Pode ser conveniente atribuirmos um índice diferente do padrão, supondo que essas sejam notas de uma turma, poderíamos atribuir nomes ao index:

In [0]:
## Criando uma series com índices definidos

O index nos ajuda para referenciar um determinado valor, ele nos permite acessar os valores pelo seu rótulo:

In [0]:
## Acessando valores

Outra facilidade proporcionada pela estrutura são seus métodos que fornecem informações estatísticas sobre os valores, como **média** `.mean()` e **desvio padrão** `.std()`.

In [0]:
## Verificando média e desvio padrão

Geralmente para resumir brevemente as estatísticas dos dados se usa o `.describe()`

In [0]:
## Utilizar a função describe()

A estrutura é flexível o suficiente pra aplicarmos algumas expressões matemáticas e funções matemáticas do numpy diretamente:

In [0]:
## Multiplicação e log (np.log())

## DataFrame
Já um DataFrame é uma estrutura bidimensional de dados, como uma planilha. 

In [0]:
## Criando um DataFrame

Verificando os tipos de dados que compõe as colunas.

In [0]:
## Tipo dos dados

É possível acessar a lista de colunas de forma bem intuitiva:

In [0]:
## Colunas do DataFrame

Os nomes das colunas podem ser usadas pra acessar seus valores:

In [0]:
## Acessando valores

Para DataFrames, `.describe()` também é uma boa forma de verificar resumidamente a disposição estatística dos dados numéricos:

In [0]:
## Utilizar a função describe()

Outra tarefa comum aplicada em DataFrames é ordená-los por determinada coluna:

In [0]:
## Ordenando pelas notas do seminário

Note que simplesmente usar o método `sort_values` não modifica o nosso DataFrame original:

In [0]:
## Visualizando DataFrame

Muitas vezes é necessário selecionarmos valores específicos de um DataFrame, seja uma linha ou uma célula específica, e isso pode ser feito de diversas formas. 

Para selecionar pelo index ou rótulo usamos o atributo `.loc`:

In [0]:
## Acessando index pelo .loc[]

Para selecionar de acordo com critérios condicionais, se usa o que se chama de **Boolean Indexing**.

Suponha que queiramos selecionar apenas as linhas em que o valor da coluna *Seminário* seja acima de 8.0:

In [0]:
## Boolean Indexing

Este tipo de indexação também possibilita checar condições de múltiplas colunas. Diferentemente do que estamos habituados em Python, aqui se usam operadores bitwise, ou seja, `&`, `|`, `~` ao invés de `and`, `or`, `not`, respectivamente. Suponha que além de `df["Seminário"] > 8.0` queiramos que o valor da coluna `Prova` não seja menor que 3:

In [0]:
## Boolean Indexing e condições

## Leitura de *datasets*

O pandas nos fornece uma série de funcionalidades de leitura de dados, pros mais diversos formatos estruturais de dados, experimente a auto-completação de `pd.read_<TAB>`, entre eles estão:
 1. `pd.read_csv`, para ler arquivos .csv, formato comum de armazenar dados de tabelas
 1. `pd.read_excel`, para ler arquivos Excel .xlsx, é necessário instalar uma biblioteca adicional pra esta funcionalidade.
 
Usaremos para analisar dados externos nesta introdução o `.read_csv`, pois é neste formato que se encontram nossos dados. 

Estes dados que usaremos como exemplo são dados que contêm informações de 802 pokemons de todas as sete gerações. O arquivo pode ser encontrado [aqui](https://www.kaggle.com/rounakbanik/pokemon)

In [0]:
## Lendo um dataset

Como esperado, o DataFrame tem muitas linhas de dados, pra visualizar sucintamente as primeiras linhas de um DataFrame existe o método `.head()`

In [0]:
## Shape

In [0]:
## Visualizando o dataset

Por padrão `.head()` exibe as 5 primeiras linhas, mas isso pode ser alterado:

In [0]:
## Definir quantidade de linhas

Similarmente existe o `.tail()`, que exibe por padrão as últimas 5 linhas do DataFrame:

In [0]:
## Visualizando o dataset

In [0]:
## Colunas

In [0]:
## Excluir colunas que não vão ser utilizadas

In [0]:
## Ou deixar apenas aquelas que vou utilizar

Quantas gerações de pokemons existem em nosso dataset? Você pode verificar a informação usando um método que lista os valores únicos numa coluna:

In [0]:
## Listando os valores únicos

Também parece interessante verificarmos a hegemoneidade da nossa amostra em relação as gerações. Pra tarefas de contar valores podemos sempre aproveitar de outro método disponível, o `.value_counts()`.

In [0]:
## Quantidade de valores para cada geração

Os valores contados também podem ser normalizados para expressar porcentagens:

In [0]:
## Quantidade de valores para cada geração (normalizado)

Agrupar os dados se baseando em certos critérios é outro processo que o pandas facilita bastante com o `.groupby()`.

Abaixo agrupamos o nosso DataFrame pelos valores da coluna `"generation"`, e em seguida aplicamos o `.mean()` ou `.agg('mean')` para termos um objeto GroupBy com informação das médias agrupadas pelos valores da coluna geração. 

In [0]:
## Agrupando pelas gerações

É comum queremos aplicar uma função qualquer aos dados, ou à parte deles, neste caso o pandas fornece o método `.apply`. Por exemplo, para deixar os nomes dos pokemons como apenas as suas três primeiras letras:

In [0]:
## Aplicação do método apply 

Ou de um jeito mais prático, usando uma função lambda:

In [0]:
## Aplicação do método apply

Uma das tarefas na qual o pandas é reconhecidamente poderoso é a habilidade de tratar dados incompletos.
Por muitos motivos pode haver incompletude no dataset, o `np.nan` é um valor especial definido no Numpy, sigla para Not a Number, o pandas preenche células sem valores em um DataFrame lido com `np.nan`.

Vamos criar um novo dataframe usando as 5 primeiras linhas do nosso original, usando o já visto `.head()`. Abaixo é usado o `.replace` para substituir um valor específico por um `NaN`. 

In [0]:
## Utilizando o replace()

O pandas simplifica a remoção de quaiquer linhas ou colunas que possuem um `np.nan`, por padrão o `.dropna()` retorna as linhas que não contém um NaN:

In [0]:
## Excluindo linhas com nan

Preencher todos os valores NaN por um outro específico também é bastante simples:

In [0]:
## Subistindo valores nan

## Visualização de dados com Pandas

Partiremos agora para visualização de dados com o pandas. Os métodos de visualização do pandas são construídos com base no matplotlib para exploração rápida dos dados.

Comecemos verificando que tanto Series como DataFrame possuem um método `.plot()` que também é um atributo e pode ser encadeado para gerar visualização de diversos tipos, como histograma, área, pizza e dispersão, com respectivamente  `.hist()`, `.area()`, `.pie()` e  `.scatter()`, além de vários outros.

Vamos verificar a distribuição das velocidades usando o encadeamento `.plot.hist()`:

In [0]:
## Histograma

Por padrão esse método usa 10 bins, ou seja, divide os dados em 10 partes, mas é claro que podemos especificar um valor para a plotagem. Abaixo, além de especificar a quantidade de bins, também especifiquei a cor das bordas como preta, que por padrão é transparente.

In [0]:
## Histograma

Podemos usar os valores de contagem de cada geração como exemplo de dado para um plot tanto de barras verticais quando de barras horizontais, para verificar visualmente esses dados:

In [0]:
## Gráfico de barras verticais

In [0]:
## Gráfico de barras horizontais

Um gráfico de dispersão usando um DataFrame pode ser usado especificando-se quais colunas usar como dados no eixo x e y:

In [0]:
## Gráfico de dispersão

A coluna `is_legendary` diz se o pokémon é legendário ou não, também se pode ver a contagem e distribuição usando outros métodos de plotagem oferecidos pelo pandas:

In [0]:
## Gráfico de pizza

## Salvando DataFrame 

Finalmente, a tarefa de salvar seu DataFrame externamente para um formato específico é feita com a mesma simplicidade que a leitura de dados é feita no pandas, pode-se usar, por exemplo, o método `to_csv`, e o arquivo será criado com os dados do DataFrame:

In [0]:
## Salvando um novo DataFrame no computador