# Pandas

In [None]:
import pandas as pd
import numpy as np

## Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

In [None]:
lista = [4, 6, 3, 7, 25]
pd.Series(lista)

Outra forma bem natural de construir séries é apartir de um **dicionário**

Neste caso, as **chaves** se tornam as labels de índice!

In [None]:
dic = {"a": 50, "b" : 42}
pd.Series(dic)

Trabalhando com índices

In [None]:
indices = ["a", "b", "c", "d", "e"]
serie_pandas = pd.Series(data=lista, index=indices, name="coluna1")

Podemos realizar o slicing na nossa Pandas Series da mesma forma como fizemos em listas e arrays, mas veja que agora os índices são letras, podemos utilizá-las para realizar o slicing ou a busca.

In [None]:
print(serie_pandas['a'])
print(serie_pandas[0])

Da mesma forma como vimos anteriormente, é possível realizar máscaras booleanas dentro da minha série.

In [None]:
np.random.seed(42)

notas = pd.Series(np.random.randint(3, 12, 30))

# Máscara booleana simples
notas[notas >= 0]

In [None]:
# Podemos utiilzar mais de um critério ao mesmo tempo com o E (AND)
notas[((notas >= 0) & (notas <= 10))]

In [None]:
# Podemos utiilzar mais de um critério ao mesmo tempo com o OU (OR)
notas[((notas >= 0) | (notas <= 10))]

In [None]:
# E também fazer o inverso
notas[~((notas >= 0) & (notas <= 10))]

É possivel também ordenar os dados a partir de uma coluna com o **.sort_values()**

In [None]:
notas.sort_values(ascending=False)

Para encontrar valores únicos podemos utilizar o atributo **.unique()**

In [None]:
notas.unique()

Podemos mostrar a frequência absoluta com o atributo **.value_counts()**

In [None]:
notas.value_counts()

In [None]:
# frequencia relativa
notas.value_counts(normalize=True)

## DataFrame

In [None]:
import numpy as np
import pandas as pd

In [None]:
df = pd.read_table('dados/dados_religiao_income.txt',
                   header=0, sep=' ')

In [None]:
df

O potencial do pandas é melhor aproveitado quando usamos o conceito de "tidy data" para organizarmos nossos dados.

Nos dados acima, eles estão pivoteados por segmentos de rendimento.

Vamos então tentar ajustar isso.

Para listarmos as colunas o DataFrame possui um atributo .columns que imprime esta informação em formato de lista.

In [None]:
df.columns

In [None]:
# Veja que podemos trabalhar como listas normalmente
value_cols = [col for col in df.columns if col != 'religion']
value_cols

## Funções Pandas
  
### melt  
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html

In [None]:
# Podemos utilizar a função do Pandas .melt para alterar a visão do dataframe
new_df = pd.melt(df, id_vars=['religion'], 
                 value_vars=value_cols,
                 var_name='income', 
                 value_name='freq')

new_df

### pivot_table

In [None]:
# Podemos voltar para o formato anterior, que facilita apresentações para o negócio.
# Usamos o método pivot.
new_df.pivot(index='religion', columns='income', values='freq')

In [None]:
new_df.pivot_table(index='religion', columns='income', values='freq', aggfunc='mean')

### Concat  
  
É possível realizar a concatenação de dois ou mais dataframes por meio do método "concat".

In [None]:
# Criação de DataFrames por meio de dicionários
df1 = pd.DataFrame({'nome':['eu', 'tu', 'ele/ela'],
                    'val':[1, 1, 1]})

# Criação de DataFrames por meio de listas
lista_valores = [['nós', 2],
                 ['vós', 2],
                 ['eles/elas', 2]]
df2 = pd.DataFrame(lista_valores, columns=['nome', 'val'])
df2

In [None]:
# Repare que por padrão o pandas já realiza o empilhamento dos dois dataframes, mas os índices estão confusos
pd.concat([df1, df2])

In [None]:
# Utilizamos o método .copy() para fazermos uma cópia do dataframe
new_df2 = df2.copy()

# O atributo .index do dataframe chama os índices
new_df2.index = [4, 5, 6]

In [None]:
new_df2

Caso se queira colocar um do lado do outro, invés de em cima, usamos o parâmetro "axis".

In [None]:
# Agora ao passarmos o axis=1 ele entende que desejamos realizar uma concatenação "lateral" - também conhecido como merge
pd.concat([df1, df2], axis=1)

In [None]:
pd.concat([df1, new_df2], axis=1)

### Rename
  
O rename é utilizado para renomear labels do dataframe

In [None]:
# Para renomearmos as colunas de um dataframe utilizamos um dicionário tendo como chave o valor antigo e valor o novo
df1.rename(columns={'nome': 'nome_alterado'})

## Exploração de dados: Estatísticas

In [None]:
df = pd.read_table('./dados/dados_parciais.txt', sep=';', decimal=',')

### Head

In [None]:
# O head é utilizado para observarmos o início de um dataframe
df.head(3)

### Tail

In [None]:
# O tail é utilizado para observarmos o final de um dataframe
df.tail(3)

### Describe

In [None]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.
df.describe()

### Outras estatísticas

In [None]:
# Também podemos fazer uma estatística de cada vez.
df.mean()

In [None]:
df.quantile([0.25, 0.75])

In [None]:
df.min(numeric_only=True)

In [None]:
# Se quisermos estatísticas separadas para cada UF, podemos usar o groupby.
df.groupby('regiao').mean(numeric_only=True)

### Importando novo Dataframe

In [None]:
# Importando o dataframe de municípios
df_muni = pd.read_table('./dados/populacao_brasileira_por_municipio.txt',
                        sep=';',
                        thousands='.')

In [None]:
df_muni.head(10)

### Colunas
  
Podemos acessar os dados de uma colunas de dois métodos

In [None]:
# Vamos colocar a região de cada UF na tabela acima, e 
# encontrar a população média por município para cada região.
df.uf

In [None]:
df['uf']

Perceba que temos Ilhas, Litígio e que tem duas estrelas em pernambuco. Vamos limpar isso primeiro.

In [None]:
df2 = df.loc[~df.uf.isin(['Ilhas***', 'Litígio*'])].copy()

In [None]:
df.head()

### Query
  
O método query permite realizar filtros dentro do nosso dataframe semelhante ao utilizado na linguagem SQL na clausula where

In [None]:
df.query("pop_urbana < 500000")

In [None]:
# Podemos utilizar variáveis também
limite = 500000
df.query("`total` < @limite")

### Operações matemáticas

In [None]:
df['total dois'] = df['pop_urbana'] + df['pop_rural']

In [None]:
df.head()

### Merge

In [None]:
# Nós também podemos juntar tabelas diferentes, usando o método "merge"
df_reg = df_muni.merge(df, left_on=['UF'], right_on=['uf'], how='left')
df_reg

In [None]:
df_reg.groupby('regiao').agg({'POPULAÇÃO ESTIMADA':['mean', 'std']})

**Bora praticar!**
  
1) Utilizando o DataFrame importado anteriormente (alunos3.csv) calcule a média das provas em uma nova coluna chamada (Media_provas)

2) Quem foram os alunos que obtiveram a maior e a menor média

3) Agora una este dataframe com o cadastro_alunos.xlsx

4) Qual o média entre as Media_provas dentro do público feminino? e masculino?

5) Qual a média de idade das pessoas que obtiveram Media_provas maior ou igual a 7?

6) Qual das cidades possui o maior média de Media_provas? E qual é este valor?