<center>
    <img src="../imagens/logo_APL.png" width="300" alt="APL logo"  />
</center>

# Uma Introdução à Biblioteca `Pandas` 

**Bem vindo!** Neste notebook será abordada a biblioteca `Pandas`. Ao final, espera-se que você seja capaz de você usar as ferramentas de análise de dados, estruturas de dados de alta performance e *fáceis de usar*. 

<h2>Conteúdo:</h2>
<div class="alert alert-block alert-info" style="margin-top: 20px">
<ul>
    <li> Introdução </li>
    <li> Objetos do Pandas   
        <ul>
            <li> Series </li>
            <li> Dataframes </li>
        </ul>
    </li> 
    <li> Variável Dummy</li>   
    <li> Salvando em Arquivo .csv </li>   
</ul>
</div>

<hr>

<h2>Introdução</h2>

Esta introdução tem por objetivo fornecer de forma enxuta e simplificada uma apresentação básica às principais ferramentas fornecidas pela biblioteca `Pandas`: i) leitura; ii) manipulação; e iii) operações com arquivos de dados. `Pandas` é fundamental para análise de dados com `Python`.

<center>
    <img src="../imagens/pandas_logo.png" width="800" />
</center>

Vamos começar com as importações, usaremos além do `Pandas`, o `numpy`, biblioteca para computação científica. Entretanto, como veremos em outro notebook, o próprio `Pandas` nos fornece facilidades em relação à visualização de dados, com métodos construídos com base no `matplotlib`, facilitar a exibição dos gráficos.

In [None]:
import pandas as pd
import numpy as np

<hr>

## Objetos do `Pandas`

Existem dois tipos principais de estruturas de dados:
 1. **Series** 
 1. **DataFrame**

## Series
Um objeto *Series* é como um array unidimensional ou uma lista de valores. Toda *Series* possui um índice, o `index`, que referencia os valores de cada elemento da lista. 

Abaixo criamos uma *Series* `notas`, o `index` desta *Series* é a coluna à esquerda, que vai de 0 a 5 neste caso. Observe que isso foi criado automaticamente pela biblioteca `Pandas`, uma vez que não especificamos uma lista de rótulos.

In [None]:
notas = pd.Series([2,7,5,10,6,14])
notas

Já podemos aqui verificar os atributos da nossa Series, comecemos pelos valores e o índice, os dois atributos *fundamentais* nesta estrutura:

In [None]:
notas.values

In [None]:
notas.index

Como ao criar a Series não demos um índice específico o `Pandas` usou os inteiros positivos crescentes como padrão. Pode ser conveniente atribuirmos um índice diferente do padrão, supondo que essas sejam notas de uma turma, poderíamos atribuir nomes ao index:

In [None]:
notas = pd.Series([2,7,5,10,6], index=["João", "Pedro", "Luiz", "Larissa", "Janaína"])
notas

O índice nos ajuda para referenciar um determinado valor, ele nos permite acessar os valores pelo seu rótulo:

In [None]:
notas["Larissa"]

Outra facilidade são seus métodos que fornecem informações estatísticas sobre os valores, como:
-  **média**: `.mean()` e 
-  **desvio padrão**: `.std()`. 

In [None]:
print("Média:", notas.mean())
print("Desvio padrão:", notas.std())

Geralmente para resumir brevemente as estatísticas dos dados se usa o `.describe()`

In [None]:
notas.describe()

A estrutura ainda é flexível o suficiente para aplicarmos diretamente algumas expressões matemáticas ou mesmo métodos a partir da biblioteca `Numpy`:

In [None]:
notas**2

In [None]:
np.log(notas)

Maiores detalhes acerca de *Series* podem ser acessados a partir da [documentação oficial](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html#pandas.Series) deste objeto.

<hr>

## DataFrame

Já um DataFrame é uma estrutura bidimensional de dados, como uma planilha. Abaixo criaremos um DataFrame que possui valores de diferentes tipos, usando um dicionário como entrada dos dados:

In [None]:
df = pd.DataFrame({'Aluno' : ["João", "Pedro", "Luiz", "Larissa", "Janaína"],
                   'Faltas' : [3,4,2,1,4],
                   'Prova' : [2,7,5,10,6],
                   'Seminário': [8.5,7.5,9.0,7.5,8.0],
                   'Conceito':  ['B', 'C', 'A', 'C', 'B']})
df

Os tipos de dados que compõem as colunas podem ser verificados por um método próprio:

In [None]:
df.dtypes

É possível acessar a lista de colunas de forma bem intuitiva:

In [None]:
df.columns

Além disso, os nomes das colunas podem ser usadas para acessar seus respectivos valores:

In [None]:
df["Seminário"]

Para DataFrames, o método `.describe()` também é uma boa forma de verificar resumidamente a disposição estatística dos dados numéricos:

In [None]:
df.describe()

Outra tarefa comum aplicada em DataFrames é ordená-los por determinada coluna:

In [None]:
df.sort_values(by="Seminário")

Observe, entretanto, que simplesmente usar o método `sort_values` não modifica o nosso DataFrame original:

In [None]:
df

Muitas vezes é necessário selecionarmos valores específicos de um DataFrame, seja uma linha ou uma célula específica, e isso pode ser feito de diversas formas. A documentação oficial contém [vasta informação](https://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing) para esse tipo de tarefa, aqui nos concentraremos nas formas mais comuns de selecionarmos dados.

Para selecionar pelo index ou rótulo usamos o atributo `.loc`:

In [None]:
df.loc[3]

Para selecionar de acordo com critérios condicionais, se usa o que se chama de **Boolean Indexing**.

Suponha que queiramos selecionar apenas as linhas em que o valor da coluna *Seminário* seja acima de 8.0, podemos realizar esta tarefa passando a condição diretamente como índice:

In [None]:
df[df["Seminário"] > 8.0]

Este tipo de indexação também possibilita checar condições de múltiplas colunas. Diferentemente do que estamos habituados em Python, aqui se usam operadores bitwise, ou seja, `&`, `|`, `~` ao invés de `and`, `or`, `not`, respectivamente. Suponha que além de `df["Seminário"] > 8.0` queiramos que o valor da coluna `Prova` não seja menor que 3:

Em critérios condicionais são usados aqui se usam operadores bitwise, ou seja:
- `&` ao invés de `and` 
- `|` ao invés de `or`
- `~` ao invés de  `not`

In [None]:
df[(df["Seminário"] > 8.0) & (df["Prova"] > 3)]

# Variável Dummy

**O que são?**

Uma variável dummy é utilizada sempre que desejarmos incluir variáveis categóricas em modelos que aceitam apenas variáveis numéricas. São chamadas _dummies_ porque os números em si não têm significado inerente.

**Por que usá-las?**

Iremos usar variáveis categóricas para análise de regressão nos módulos posteriores. Nesse módulo, vamos apenas mostrar sintaxe a do método `pd.get_dummies`. 

Para tanto, vamos substituir a coluna *Conceito* (categórica) por valores numéricos. Inicialmente, criamos as variáveis dummies a partir dessa coluna.

In [None]:
one_hot = pd.get_dummies(df['Conceito'])
one_hot 

Agora, vamos retirar a coluna **Conceito** do nosso dataframe:

In [None]:
df = df.drop('Conceito',axis = 1)
df.head()

Agora, fazemos uma junção das variáveis dummies com o dataframe, usando o métdodo `join`. 

In [None]:
df = df.join(one_hot)
df.head()

Observe que a coluna **Conceito** foi substituída por valores numéricos.

# Salvando em Arquivo .csv

Finalmente, a tarefa de salvar seu DataFrame externamente para um formato específico é feita com a mesma simplicidade que a leitura de dados é feita no pandas, pode-se usar, por exemplo, o método `to_csv`, e o arquivo será criado com os dados do DataFrame:

In [None]:
df = pd.DataFrame({'Aluno' : ["João", "Pedro", "Luiz", "Larissa", "Janaína"],
                   'Faltas' : [3,4,2,1,4],
                   'Prova' : [2,7,5,10,6],
                   'Seminário': [8.5,7.5,9.0,7.5,8.0]})
df.to_csv("aulas.csv")

In [None]:
pd.read_csv("aulas.csv")

<hr>

## Direitos Autorais

[APL Data Intelligence](https://linktr.ee/APLdataintelligence)&#8482;  2021. Este notebook Python e seu código fonte estão liberados sob os termos da [Licença do MIT](https://bigdatauniversity.com/mit-license/).