# Pandas
Assim como foi feito com ```numpy```, para utilizar o ```pandas``` também se faz necessário realizar a importação da biblioteca 

In [1]:
import pandas as pd # importando a biblioteca Pandas
import numpy as np

## Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

In [None]:
lista = [4, 6, 3, 7, 25]
pd.Series(lista)

Outra forma bem natural de construir séries é apartir de um **dicionário**

Neste caso, as **chaves** se tornam as labels de índice!

In [None]:
dic = {"a": 50, "b" : 42}
pd.Series(dic)

Trabalhando com índices

In [None]:
lista = [4, 6, 3, 7, 25]
indices = ["a", "b", "c", "d", "e"]

serie_pandas = pd.Series(data=lista, index=indices, name='valores_em_reais')
serie_pandas

Podemos realizar o slicing na nossa Pandas Series da mesma forma como fizemos em listas e arrays, mas veja que agora os índices são letras, podemos utilizá-las para realizar o slicing ou a busca.

In [None]:
print(serie_pandas['a'])
print(serie_pandas[0])

Da mesma forma como vimos anteriormente, é possível realizar máscaras booleanas dentro da minha série.

In [None]:
np.random.seed(42)

notas = pd.Series(np.random.randint(3, 12, 10))

# Máscara booleana simples
notas[notas > 6]

In [None]:
# Podemos utiilzar mais de um critério ao mesmo tempo com o E (AND)
notas[(notas > 5) & (notas < 10)]

In [None]:
# Podemos utiilzar mais de um critério ao mesmo tempo com o OU (OR)
notas[(notas < 5) | (notas == 10)]

In [None]:
# E também fazer o inverso
notas[~((notas < 5) | (notas == 10))]

É possivel também ordenar os dados a partir de uma coluna com o **.sort_values()**

In [None]:
notas.sort_values(ascending=False) # ascending = True -> crescente e ascending = False -> decrescente

Para encontrar valores únicos podemos utilizar o atributo **.unique()**

In [None]:
notas.unique()

Podemos mostrar a frequência absoluta com o atributo **.value_counts()**

In [None]:
notas.value_counts()

In [None]:
# frequencia relativa
notas.value_counts(normalize=True)

### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
  
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [None]:
# gerando uma matriz (5, 3) de numeros inteiros aleatórios entre -100 e 100
# use a seed 42

np.random.seed(42)

m = np.random.randint(-100, 100, (5, 3))

m

In [None]:
pd.DataFrame(m)

In [None]:
df_nome_linhas = pd.DataFrame(m,
                              index = ['obs1', 'obs2', 'obs3', 'obs4', 'obs5'],
                              columns = ['Variável 1', 'Variável 2', 'Variável 3'])

df_nome_linhas

A partir de um arquivo

In [17]:
df_dados_religiao = pd.read_table('./dados/dados_religiao_income.txt', sep=' ')

In [None]:
df_dados_religiao

O potencial do pandas é melhor aproveitado quando usamos o conceito de "tidy data" para organizarmos nossos dados.

Nos dados acima, eles estão pivoteados por segmentos de rendimento.

Vamos então tentar ajustar isso.

Para listarmos as colunas o DataFrame possui um atributo .columns que imprime esta informação em formato de lista.

In [None]:
df_dados_religiao.columns

In [None]:
# Veja que podemos trabalhar como listas normalmente
value_col = [col for col in df_dados_religiao.columns if col != 'religion']
value_col

## Funções Pandas
  
### melt  
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html

In [None]:
# Podemos utilizar a função do Pandas .melt para alterar a visão do dataframe
df_melt = pd.melt(df_dados_religiao,
                  id_vars=['religion'],
                  value_vars=value_col,
                  var_name='income',
                  value_name='freq')

df_melt

## Manipulação de dados

Nesta parte apresentaremos algumas funções importantes na manipulação dos dados a fim de obter insights importantes e iniciarmos nossa análise exploratória de dados (EDA - Exploratory Data Analysis).

### Pivot Table

Trabalha semelhante à tablea dinâmica conhecida pelo excel.

In [None]:
# Podemos voltar para o formato anterior, que facilita apresentações para o negócio.
# Usamos o método pivot.
df_melt.pivot_table(index='religion', columns='income', values='freq')

In [None]:
df_melt.pivot(index='religion', columns='income', values='freq')

### Concat  
  
É possível realizar a concatenação de dois ou mais dataframes por meio do método "concat".

In [None]:
# Criação de DataFrames por meio de dicionários
df1 = pd.DataFrame({'nome': ['eu', 'tu', 'ela/ele'],
                    'val': [1, 1, 1]})

# Criação de DataFrames por meio de listas
lista_valores = [['nós', 2],
                 ['vós', 2],
                 ['eles/elas', 2]]
df2 = pd.DataFrame(lista_valores, columns=['nome', 'val'])
df2

In [None]:
# Repare que por padrão o pandas já realiza o empilhamento dos dois dataframes, mas os índices estão confusos
df_empilhado = pd.concat([df1, df2])
df_empilhado

In [26]:
# Utilizamos o método .copy() para fazermos uma cópia do dataframe
new_df2 = df2.copy()

# O atributo .index do dataframe chama os índices
new_df2.index = [3, 4, 5]

In [None]:
new_df2

In [None]:
pd.concat([df1, new_df2])

Caso se queira colocar um do lado do outro, invés de em cima, usamos o parâmetro "axis".

In [None]:
# Agora ao passarmos o axis=1 ele entende que desejamos realizar uma concatenação "lateral" - também conhecido como merge
pd.concat([df1, df2], axis=1)

### Rename
  
O rename é utilizado para renomear labels do dataframe

In [None]:
# Para renomearmos as colunas de um dataframe utilizamos um dicionário tendo como chave o valor antigo e valor o novo
df1.rename(columns={'nome': 'nome_alterado'})

In [None]:
df1.columns = ['nome_modificado', 'valor']
df1

## Exploração de dados

Em estatística, a análise exploratória de dados (EDA - Exploratory Data Analysis) é uma abordagem de análise de conjuntos de dados para resumir suas principais características, muitas vezes usando gráficos estatísticos e outros métodos de visualização de dados. Neste módulo vamos nos ater ao uso de tabelas e estatísticas para este trabalho, principalmente usando o ```pandas```.

In [None]:
import pandas as pd

df = pd.read_table('./dados/dados_parciais.txt', sep=';', decimal=',')
df

### Head

In [None]:
# O head é utilizado para observarmos o início de um dataframe
df.head()

### Tail

In [None]:
# O tail é utilizado para observarmos o final de um dataframe
df.tail()

### Describe

In [None]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.
df.describe()

In [None]:
type(df.describe())

In [None]:
df_statistics = df.describe()
df_statistics['pop_urbana']

### Bora praticar!
  
1) Importe o arquivo ```csv``` **alunos3.csv** que se encontra na pasta dados com nome ```df_notas```.

2. Mostre os 10 primeiros e os 10 últimos registros deste DataFrame importado

3. Renomeie as colunas de notas de provas (ex: Prova_1 para Prova1).

4. Utilizando o DataFrame importado anteriormente (alunos3.csv) calcule a média das provas em uma nova coluna chamada (Media_provas)

5) Mostre o DataFrame ```df_notas``` ordenado em ordem alfabética. 

6. Filtre apenas os alunos aprovados, ou seja, aqueles que obtiveram média a partir de 7.

## Mini tarefa

Filtrando apenas os alunos cujo RA é maior que 110270, qual a média da coluna ```Media_provas```?