<center>
    <img src="../imagens/logo_APL.png" width="300" alt="APL logo"  />
</center>

# Uma Introdução à Biblioteca `Pandas` 

**Bem vindo!** Neste notebook será abordada a biblioteca `Pandas`. Ao final, espera-se que você seja capaz de você usar as ferramentas de análise de dados, estruturas de dados de alta performance e *fáceis de usar*. 

<h2>Conteúdo:</h2>
<div class="alert alert-block alert-info" style="margin-top: 20px">
<ul>
    <li> Introdução </li>
    <li> Objetos do Pandas   
        <ul>
            <li> Series </li>
            <li> Dataframes </li>
        </ul>
    </li> 
    <li> Variável Dummy</li>   
    <li> Salvando em Arquivo .csv </li>   
</ul>
</div>

<hr>

<h2>Introdução</h2>

Esta introdução tem por objetivo fornecer de forma enxuta e simplificada uma apresentação básica às principais ferramentas fornecidas pela biblioteca `Pandas`: i) leitura; ii) manipulação; e iii) operações com arquivos de dados. `Pandas` é fundamental para análise de dados com `Python`.

<center>
    <img src="../imagens/pandas_logo.png" width="800" />
</center>

Vamos começar com as importações, usaremos além do `Pandas`, o `numpy`, biblioteca para computação científica. Entretanto, como veremos em outro notebook, o próprio `Pandas` nos fornece facilidades em relação à visualização de dados, com métodos construídos com base no `matplotlib`, facilitar a exibição dos gráficos.

In [41]:
import pandas as pd
import numpy as np

<hr>

## Objetos do `Pandas`

Existem dois tipos principais de estruturas de dados:
 1. **Series** 
 1. **DataFrame**

## Series
Um objeto *Series* é como um array unidimensional ou uma lista de valores. Toda *Series* possui um índice, o `index`, que referencia os valores de cada elemento da lista. 

Abaixo criamos uma *Series* `notas`, o `index` desta *Series* é a coluna à esquerda, que vai de 0 a 5 neste caso. Observe que isso foi criado automaticamente pela biblioteca `Pandas`, uma vez que não especificamos uma lista de rótulos.

In [42]:
notas = pd.Series([2,7,5,10,6,14])
notas

0     2
1     7
2     5
3    10
4     6
5    14
dtype: int64

Já podemos aqui verificar os atributos da nossa Series, comecemos pelos valores e o índice, os dois atributos *fundamentais* nesta estrutura:

In [43]:
notas.values

array([ 2,  7,  5, 10,  6, 14], dtype=int64)

In [44]:
notas.index

RangeIndex(start=0, stop=6, step=1)

Como ao criar a Series não demos um índice específico o `Pandas` usou os inteiros positivos crescentes como padrão. Pode ser conveniente atribuirmos um índice diferente do padrão, supondo que essas sejam notas de uma turma, poderíamos atribuir nomes ao index:

In [45]:
notas = pd.Series([2,7,5,10,6], index=["João", "Pedro", "Luiz", "Larissa", "Janaína"])
notas

João        2
Pedro       7
Luiz        5
Larissa    10
Janaína     6
dtype: int64

O índice nos ajuda para referenciar um determinado valor, ele nos permite acessar os valores pelo seu rótulo:

In [47]:
notas["Larissa"]

10

Outra facilidade são seus métodos que fornecem informações estatísticas sobre os valores, como:
-  **média**: `.mean()` e 
-  **desvio padrão**: `.std()`. 

In [48]:
print("Média:", notas.mean())
print("Desvio padrão:", notas.std())

Média: 6.0
Desvio padrão: 2.9154759474226504


Geralmente para resumir brevemente as estatísticas dos dados se usa o `.describe()`

In [49]:
notas.describe()

count     5.000000
mean      6.000000
std       2.915476
min       2.000000
25%       5.000000
50%       6.000000
75%       7.000000
max      10.000000
dtype: float64

A estrutura ainda é flexível o suficiente para aplicarmos diretamente algumas expressões matemáticas ou mesmo métodos a partir da biblioteca `Numpy`:

In [50]:
notas**2

João         4
Pedro       49
Luiz        25
Larissa    100
Janaína     36
dtype: int64

In [51]:
np.log(notas)

João       0.693147
Pedro      1.945910
Luiz       1.609438
Larissa    2.302585
Janaína    1.791759
dtype: float64

Maiores detalhes acerca de *Series* podem ser acessados a partir da [documentação oficial](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html#pandas.Series) deste objeto.

<hr>

## DataFrame

Já um DataFrame é uma estrutura bidimensional de dados, como uma planilha. Abaixo criaremos um DataFrame que possui valores de diferentes tipos, usando um dicionário como entrada dos dados:

In [52]:
df = pd.DataFrame({'Aluno' : ["João", "Pedro", "Luiz", "Larissa", "Janaína"],
                   'Faltas' : [3,4,2,1,4],
                   'Prova' : [2,7,5,10,6],
                   'Seminário': [8.5,7.5,9.0,7.5,8.0],
                   'Conceito':  ['B', 'C', 'A', 'C', 'B']})
df

Unnamed: 0,Aluno,Faltas,Prova,Seminário,Conceito
0,João,3,2,8.5,B
1,Pedro,4,7,7.5,C
2,Luiz,2,5,9.0,A
3,Larissa,1,10,7.5,C
4,Janaína,4,6,8.0,B


Os tipos de dados que compõem as colunas podem ser verificados por um método próprio:

In [53]:
df.dtypes

Aluno         object
Faltas         int64
Prova          int64
Seminário    float64
Conceito      object
dtype: object

É possível acessar a lista de colunas de forma bem intuitiva:

In [54]:
df.columns

Index(['Aluno', 'Faltas', 'Prova', 'Seminário', 'Conceito'], dtype='object')

Além disso, os nomes das colunas podem ser usadas para acessar seus respectivos valores:

In [55]:
df["Seminário"]

0    8.5
1    7.5
2    9.0
3    7.5
4    8.0
Name: Seminário, dtype: float64

Para DataFrames, o método `.describe()` também é uma boa forma de verificar resumidamente a disposição estatística dos dados numéricos:

In [56]:
df.describe()

Unnamed: 0,Faltas,Prova,Seminário
count,5.0,5.0,5.0
mean,2.8,6.0,8.1
std,1.30384,2.915476,0.65192
min,1.0,2.0,7.5
25%,2.0,5.0,7.5
50%,3.0,6.0,8.0
75%,4.0,7.0,8.5
max,4.0,10.0,9.0


Outra tarefa comum aplicada em DataFrames é ordená-los por determinada coluna:

In [57]:
df.sort_values(by="Seminário")

Unnamed: 0,Aluno,Faltas,Prova,Seminário,Conceito
1,Pedro,4,7,7.5,C
3,Larissa,1,10,7.5,C
4,Janaína,4,6,8.0,B
0,João,3,2,8.5,B
2,Luiz,2,5,9.0,A


Observe, entretanto, que simplesmente usar o método `sort_values` não modifica o nosso DataFrame original:

In [58]:
df

Unnamed: 0,Aluno,Faltas,Prova,Seminário,Conceito
0,João,3,2,8.5,B
1,Pedro,4,7,7.5,C
2,Luiz,2,5,9.0,A
3,Larissa,1,10,7.5,C
4,Janaína,4,6,8.0,B


Muitas vezes é necessário selecionarmos valores específicos de um DataFrame, seja uma linha ou uma célula específica, e isso pode ser feito de diversas formas. A documentação oficial contém [vasta informação](https://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing) para esse tipo de tarefa, aqui nos concentraremos nas formas mais comuns de selecionarmos dados.

Para selecionar pelo index ou rótulo usamos o atributo `.loc`:

In [59]:
df.loc[3]

Aluno        Larissa
Faltas             1
Prova             10
Seminário        7.5
Conceito           C
Name: 3, dtype: object

Para selecionar de acordo com critérios condicionais, se usa o que se chama de **Boolean Indexing**.

Suponha que queiramos selecionar apenas as linhas em que o valor da coluna *Seminário* seja acima de 8.0, podemos realizar esta tarefa passando a condição diretamente como índice:

In [60]:
df[df["Seminário"] > 8.0]

Unnamed: 0,Aluno,Faltas,Prova,Seminário,Conceito
0,João,3,2,8.5,B
2,Luiz,2,5,9.0,A


Este tipo de indexação também possibilita checar condições de múltiplas colunas. Diferentemente do que estamos habituados em Python, aqui se usam operadores bitwise, ou seja, `&`, `|`, `~` ao invés de `and`, `or`, `not`, respectivamente. Suponha que além de `df["Seminário"] > 8.0` queiramos que o valor da coluna `Prova` não seja menor que 3:

Em critérios condicionais são usados aqui se usam operadores bitwise, ou seja:
- `&` ao invés de `and` 
- `|` ao invés de `or`
- `~` ao invés de  `not`

In [61]:
df[(df["Seminário"] > 8.0) & (df["Prova"] > 3)]

Unnamed: 0,Aluno,Faltas,Prova,Seminário,Conceito
2,Luiz,2,5,9.0,A


# Variável Dummy

**O que são?**

Uma variável dummy é utilizada sempre que desejarmos incluir variáveis categóricas em modelos que aceitam apenas variáveis numéricas. São chamadas _dummies_ porque os números em si não têm significado inerente.

**Por que usá-las?**

Iremos usar variáveis categóricas para análise de regressão nos módulos posteriores. Nesse módulo, vamos apenas mostrar sintaxe a do método `pd.get_dummies`. 

Para tanto, vamos substituir a coluna *Conceito* (categórica) por valores numéricos. Inicialmente, criamos as variáveis dummies a partir dessa coluna.

In [62]:
one_hot = pd.get_dummies(df['Conceito'])
one_hot 

Unnamed: 0,A,B,C
0,0,1,0
1,0,0,1
2,1,0,0
3,0,0,1
4,0,1,0


Agora, vamos retirar a coluna **Conceito** do nosso dataframe:

In [63]:
df = df.drop('Conceito',axis = 1)
df.head()

Unnamed: 0,Aluno,Faltas,Prova,Seminário
0,João,3,2,8.5
1,Pedro,4,7,7.5
2,Luiz,2,5,9.0
3,Larissa,1,10,7.5
4,Janaína,4,6,8.0


Agora, fazemos uma junção das variáveis dummies com o dataframe, usando o métdodo `join`. 

In [64]:
df = df.join(one_hot)
df.head()

Unnamed: 0,Aluno,Faltas,Prova,Seminário,A,B,C
0,João,3,2,8.5,0,1,0
1,Pedro,4,7,7.5,0,0,1
2,Luiz,2,5,9.0,1,0,0
3,Larissa,1,10,7.5,0,0,1
4,Janaína,4,6,8.0,0,1,0


Observe que a coluna **Conceito** foi substituída por valores numéricos.

# Salvando em Arquivo .csv

Finalmente, a tarefa de salvar seu DataFrame externamente para um formato específico é feita com a mesma simplicidade que a leitura de dados é feita no pandas, pode-se usar, por exemplo, o método `to_csv`, e o arquivo será criado com os dados do DataFrame:

In [65]:
df = pd.DataFrame({'Aluno' : ["João", "Pedro", "Luiz", "Larissa", "Janaína"],
                   'Faltas' : [3,4,2,1,4],
                   'Prova' : [2,7,5,10,6],
                   'Seminário': [8.5,7.5,9.0,7.5,8.0]})
df.to_csv("aulas.csv")

In [66]:
pd.read_csv("aulas.csv")

Unnamed: 0.1,Unnamed: 0,Aluno,Faltas,Prova,Seminário
0,0,João,3,2,8.5
1,1,Pedro,4,7,7.5
2,2,Luiz,2,5,9.0
3,3,Larissa,1,10,7.5
4,4,Janaína,4,6,8.0


<hr>

## Direitos Autorais

[APL Data Intelligence](https://linktr.ee/APLdataintelligence)&#8482;  2021. Este notebook Python e seu código fonte estão liberados sob os termos da [Licença do MIT](https://bigdatauniversity.com/mit-license/).