# Pandas

### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
  
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [None]:
import pandas as pd
import numpy as np

In [None]:
# gerando uma matriz (5, 3) de numeros inteiros aleatórios entre -100 e 100
# use a seed 42


A partir de um arquivo

O potencial do pandas é melhor aproveitado quando usamos o conceito de "tidy data" para organizarmos nossos dados.

Nos dados acima, eles estão pivoteados por segmentos de rendimento.

Vamos então tentar ajustar isso.

Para listarmos as colunas o DataFrame possui um atributo .columns que imprime esta informação em formato de lista.

In [None]:
# Veja que podemos trabalhar como listas normalmente


## Funções Pandas
  
### melt  
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html

In [None]:
# Podemos utilizar a função do Pandas .melt para alterar a visão do dataframe


### pivot_table

In [None]:
# Podemos voltar para o formato anterior, que facilita apresentações para o negócio.
# Usamos o método pivot.


### Concat  
  
É possível realizar a concatenação de dois ou mais dataframes por meio do método "concat".

In [None]:
# Criação de DataFrames por meio de dicionários

# Criação de DataFrames por meio de listas


In [None]:
# Repare que por padrão o pandas já realiza o empilhamento dos dois dataframes, mas os índices estão confusos


In [None]:
# Utilizamos o método .copy() para fazermos uma cópia do dataframe

# O atributo .index do dataframe chama os índices


Caso se queira colocar um do lado do outro, invés de em cima, usamos o parâmetro "axis".

In [None]:
# Agora ao passarmos o axis=1 ele entende que desejamos realizar uma concatenação "lateral" - também conhecido como merge


### Rename
  
O rename é utilizado para renomear labels do dataframe

In [None]:
# Para renomearmos as colunas de um dataframe utilizamos um dicionário tendo como chave 
# o valor antigo e valor o novo


## Exploração de dados: Estatísticas

### Head

In [None]:
# O head é utilizado para observarmos o início de um dataframe


### Tail

In [None]:
# O tail é utilizado para observarmos o final de um dataframe


### Describe

In [None]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.


### Outras estatísticas

In [None]:
# calculando uma estatística por vez


In [None]:
# se quisermos estatísticas separadas por região


### Importando novo Dataframe

In [None]:
# importando o dataframe de municípios


### Colunas
  
Podemos acessar os dados de uma colunas de três métodos

### Query
  
O método query permite realizar filtros dentro do nosso dataframe semelhante ao utilizado na linguagem SQL na clausula where

In [None]:
# quero saber quais cidades tem população urbana > 500000


In [None]:
# podemos usar uma variável


### .loc e .iloc

In [None]:
# .loc usado para pesquisar índices e colunas explicitamente

# quero a população urbana da segunda linha do dataset


In [None]:
# qual estado corresponde à segunda linha do dataset


In [None]:
# posso usar lógicas para filtrar o dataset

# quais estados pertencem à região NE?


In [None]:
# quais estados pertencem à região NE e N?


In [None]:
# iloc faz a referência aos índices e colunas de forma implícita


In [None]:
# definir a coluna uf como a coluna de índice


In [None]:
# desejo obter a população rural do AC

# loc (explícito)

# iloc (implícito)


In [None]:
# queremos as cidades que têm menos de 500000 habitantes (total)


### Operações matemáticas

In [None]:
# quero saber a razão entre as população urbana e a população rural


In [None]:
# se eu chamar uma coluna inexiste em modo de leitura
# df['frac_urbana']

In [None]:
# calcular a fração da população urbana sobre a geral


In [None]:
# iterar por cada linha e atribuir 1 se frac_urbana > 0.7 e 0 caso contrário


In [None]:


# podemos fazer transformações com dicionários


In [None]:
# usando o apply em múltiplas colunas


### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450 style="background-color:white">

In [None]:
# retirar o uf dos índices


In [None]:
# quero a média e o desvio padrão da população estimada por região


**Bora praticar!**
  
1) Utilizando o DataFrame importado anteriormente (alunos3.csv) calcule a média das provas em uma nova coluna chamada (Media_provas)

2) Quem foram os alunos que obtiveram a maior e a menor média

3) Agora una este dataframe com o cadastro_alunos.xlsx

4) Qual a média entre as Media_provas dentro do público feminino? e masculino?

5) Qual a média de idade das pessoas que obtiveram Media_provas maior ou igual a 7?

6) Qual das cidades possui o maior média de Media_provas? E qual é este valor?