# Pandas

### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
  
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [None]:
import pandas as pd
import numpy as np

In [None]:
# gerando uma matriz (5, 3) de numeros inteiros aleatórios entre -100 e 100
# use a seed 42

np.random.seed(42)

m = np.random.randint(-100, 100, (5, 3))

m

In [None]:
pd.DataFrame(m)

In [None]:
df_nome_linhas = pd.DataFrame(m, 
                              index = ["obs1", "obs2", "obs3", "obs4", "obs5"], 
                              columns = ["variável 1", 'variável 2', "variável 3"])

df_nome_linhas

A partir de um arquivo

In [None]:
df = pd.read_table('dados_religiao_income.txt',
                   header=0, sep=' ')

In [None]:
df

O potencial do pandas é melhor aproveitado quando usamos o conceito de "tidy data" para organizarmos nossos dados.

Nos dados acima, eles estão pivoteados por segmentos de rendimento.

Vamos então tentar ajustar isso.

Para listarmos as colunas o DataFrame possui um atributo .columns que imprime esta informação em formato de lista.

In [None]:
df.columns

In [None]:
# Veja que podemos trabalhar como listas normalmente
value_cols = [col for col in df.columns if col != 'religion']
value_cols

## Funções Pandas
  
### melt  
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html

In [None]:
# Podemos utilizar a função do Pandas .melt para alterar a visão do dataframe
new_df = pd.melt(df, id_vars=['religion'], 
                 value_vars=value_cols,
                 var_name='income', 
                 value_name='freq')

new_df

### pivot_table

In [None]:
# Podemos voltar para o formato anterior, que facilita apresentações para o negócio.
# Usamos o método pivot.
new_df.pivot(index='religion', columns='income', values='freq')

In [None]:
new_df.pivot_table(index='religion', columns='income', values='freq', aggfunc='mean')

### Concat  
  
É possível realizar a concatenação de dois ou mais dataframes por meio do método "concat".

In [None]:
# Criação de DataFrames por meio de dicionários
df1 = pd.DataFrame({'nome':['eu', 'tu', 'ele/ela'],
                    'val':[1, 1, 1]})

# Criação de DataFrames por meio de listas
lista_valores = [['nós', 2],
                 ['vós', 2],
                 ['eles/elas', 2]]
df2 = pd.DataFrame(lista_valores, columns=['nome', 'val'])
df2

In [None]:
# Repare que por padrão o pandas já realiza o empilhamento dos dois dataframes, mas os índices estão confusos
pd.concat([df1, df2])

In [None]:
# Utilizamos o método .copy() para fazermos uma cópia do dataframe
new_df2 = df2.copy()

# O atributo .index do dataframe chama os índices
new_df2.index = [4, 5, 6]

In [None]:
new_df2

Caso se queira colocar um do lado do outro, invés de em cima, usamos o parâmetro "axis".

In [None]:
# Agora ao passarmos o axis=1 ele entende que desejamos realizar uma concatenação "lateral" - também conhecido como merge
pd.concat([df1, df2], axis=1)

In [None]:
pd.concat([df1, new_df2], axis=1)

### Rename
  
O rename é utilizado para renomear labels do dataframe

In [None]:
# Para renomearmos as colunas de um dataframe utilizamos um dicionário tendo como chave o valor antigo e valor o novo
df1.rename(columns={'nome': 'nome_alterado'})

In [None]:
df1.columns = ['nome_modificado', 'valor']
df1.head()

## Exploração de dados: Estatísticas

In [None]:
df = pd.read_table('dados_parciais.txt', sep=';', decimal=',')

### Head

In [None]:
# O head é utilizado para observarmos o início de um dataframe
df.head(3)

### Tail

In [None]:
# O tail é utilizado para observarmos o final de um dataframe
df.tail(3)

### Describe

In [None]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.
df.describe()

In [None]:
stats = df.describe()
type(stats)

In [None]:
stats['pop_urbana']

In [None]:
salarios = [5000, 3000, 6000, 15000, 4000, 45000, 40000, 50000]

import numpy as np

print('Média:', np.mean(salarios))
print('Mediana:', np.median(salarios))

### Outras estatísticas

In [None]:
# calculando uma estatística por vez
df.mean()

In [None]:
df.median()

In [None]:
df.quantile([0.25, 0.75])

In [None]:
df.quantile([0.01, 0.99])

In [None]:
df.min(numeric_only=True)

In [None]:
df.head()

In [None]:
# se quisermos estatísticas separadas por região
df.groupby('regiao').mean()

### Importando novo Dataframe

In [None]:
# importando o dataframe de municípios
df_muni = pd.read_table('populacao_brasileira_por_municipio.txt',
                        sep=';', thousands='.')

In [None]:
df_muni.head(10)

### Colunas
  
Podemos acessar os dados de uma colunas de três métodos

In [None]:
df.uf

In [None]:
type(df.uf)

In [None]:
df['uf']

In [None]:
type(df['uf'])

In [None]:
# terceira forma - retorna um dataframe
df[['uf']]

In [None]:
type(df[['uf']])

### Query
  
O método query permite realizar filtros dentro do nosso dataframe semelhante ao utilizado na linguagem SQL na clausula where

In [None]:
# quero saber quais cidades tem população urbana > 500000
df.query('pop_urbana > 500000')

In [None]:
# podemos usar uma variável
limite = 500000
df.query("`pop_urbana` > @limite")

### .loc e .iloc

In [None]:
# .loc usado para pesquisar índices e colunas explicitamente

# quero a população urbana da segunda linha do dataset
df.loc[1, 'pop_urbana']

In [None]:
# qual estado corresponde à segunda linha do dataset
df.loc[1, :]

In [None]:
# posso usar lógicas para filtrar o dataset

# quais estados pertencem à região NE?
df.loc[df.regiao == 'Nordeste', 'uf']

In [None]:
# quais estados pertencem à região NE e N?
df.loc[(df.regiao == 'Nordeste') | (df.regiao == 'Norte'), 'uf']

In [None]:
# iloc faz a referência aos índices e colunas de forma implícita
df.iloc[2, 2]

In [None]:
# definir a coluna uf como a coluna de índice
df = df.set_index(['uf'])
df.head()

In [None]:
# desejo obter a população rural do AC

# loc (explícito)
print('Valor desejado', df.loc['AC', 'pop_rural'])

# iloc (implícito)
print('Valor desejado', df.iloc[1, 3])

In [None]:
# queremos as cidades que têm menos de 500000 habitantes (total)
df.loc[df.total < 500000, :].head(1)

### Operações matemáticas

In [None]:
# quero saber a razão entre as população urbana e a população rural
df['razao_urbana_rural'] = df['pop_urbana'] / df['pop_rural']
df.head()

In [None]:
# se eu chamar uma coluna inexiste em modo de leitura
# df['frac_urbana']

In [None]:
# calcular a fração da população urbana sobre a geral
df['frac_urbana'] = df['pop_urbana'] / df['total']

In [None]:
# iterar por cada linha e atribuir 1 se frac_urbana > 0.7 e 0 caso contrário
for uf in df.index:
    if df.loc[uf, 'frac_urbana'] > 0.7:
        df.loc[uf, 'indicador'] = 1
    else:
        df.loc[uf, 'indicador'] = 0

In [None]:
%%timeit
for uf in df.index:
    if df.loc[uf, 'frac_urbana'] > 0.7:
        df.loc[uf, 'indicador'] = 1
    else:
        df.loc[uf, 'indicador'] = 0

In [None]:
df['indicador'] = df['frac_urbana'].apply(lambda x: 1 if x > 0.7 else 0)

In [None]:
df.head()

In [None]:
%%timeit
df['indicador'] = df['frac_urbana'].apply(lambda x: 1 if x > 0.7 else 0)

In [None]:
ponto_cardeal = {
    'Nordeste': 'NE',
    'Centro-Oeste': 'CO',
    'Sul': 'S',
    'Sudeste': 'SE'
}

# podemos fazer transformações com dicionários
df['regiao_pc'] = df['regiao'].map(ponto_cardeal)
df.head()

In [None]:
def soma_quadrados(row):

  soma = (row['pop_urbana']**2 + row['pop_rural']**2) / (row['total'] ** 2)

  return soma

In [None]:
# usando o apply em múltiplas colunas
df['indicador2'] = df.apply(soma_quadrados, axis=1)

df.head()

### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450 style="background-color:white">

In [None]:
import pandas as pd
lista_on_left = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
lista_on_right = [1, 3, 5, 7, 9, 11]

In [None]:
dict_left = {'coluna_on': lista_on_left, 'valores_esquerda': lista_on_left}
dict_right = {'coluna_on': lista_on_right, 'valores_direita': lista_on_right}

df_left = pd.DataFrame(dict_left)
df_left

In [None]:
df_right = pd.DataFrame(dict_right)
df_right

In [None]:
df_left.merge(df_right, how='outer')

In [None]:
df_muni.head()

In [None]:
df.head()

In [None]:
# retirar o uf dos índices
df = df.reset_index()
df.head()

In [None]:
df_reg = df_muni.merge(df, left_on=['UF'], right_on=['uf'], how='left')
df_reg.head(20)

In [None]:
# quero a média e o desvio padrão da população estimada por região
df_reg.groupby('regiao').agg({'POPULAÇÃO ESTIMADA': ['mean', 'std', 'median']})

**Bora praticar!**
  
1) Utilizando o DataFrame importado anteriormente (alunos3.csv) calcule a média das provas em uma nova coluna chamada (Media_provas)

In [None]:
df_grades = pd.read_csv('./dados/alunos3.csv', sep=';', decimal=',')
df_grades['Media_provas'] = df_grades[[f'Prova_{i}'for i in range(1,5)]].T.mean()
df_grades

In [None]:
df_grades = pd.read_csv('./dados/alunos3.csv', sep=';', decimal=',')
df_grades['Media_provas'] = (df_grades['Prova_1'] + df_grades['Prova_2'] + df_grades['Prova_3'] + df_grades['Prova_4'])/4
df_grades

2) Quem foram os alunos que obtiveram a maior e a menor média

In [None]:
%%timeit
df_grades.sort_values('Media_provas').head(1)['Nome']

In [None]:
%%timeit
df_grades.sort_values('Media_provas').tail(1)['Nome']

In [None]:
%%timeit
print(df_grades['Nome'].loc[df_grades['Media_provas'].argmax()])
print(df_grades['Nome'].loc[df_grades['Media_provas'].argmin()])

In [None]:
%%timeit
nota_max = max(df_grades['Media_provas'])
nota_min = min(df_grades['Media_provas'])

print(df_grades.query('Media_provas >= @nota_max'))
print(df_grades.query('Media_provas <= @nota_min'))

3) Agora una este dataframe com o cadastro_alunos.xlsx

In [None]:
df_grades

In [None]:
df_cadastro = pd.read_excel('./dados/cadastro_alunos.xlsx')

df_escola = df_grades.merge(df_cadastro, how='left')
df_escola

4) Qual a média entre as Media_provas dentro do público feminino? e masculino?

In [None]:
df_masc = df_escola [df_escola['Sexo'] == 'Masculino']
df_fem = df_escola [df_escola['Sexo'] == 'Feminino']

media_masc = df_masc['Media_provas'].mean()
media_fem = df_fem['Media_provas'].mean()

print (f'A média dos alunos é {media_masc} e das alunas {media_fem}')

5) Qual a média de idade das pessoas que obtiveram Media_provas maior ou igual a 7?

In [None]:
idade_media_maior_7 = df_escola[df_escola['Media_provas'] >= 7]['Idade'].mean()

idade_media_maior_7

In [None]:
df_escola['Idade'].min()

In [None]:
df_escola['Idade'].max()

In [None]:
df_escola['Idade'].median()

6) Qual das cidades possui o maior média de Media_provas? E qual é este valor?