# Review

Vamos criar uma matriz com os dados do arquivo `alunos.csv`. Use Numpy!

# Pandas

O **[Pandas](https://pandas.pydata.org/)** é uma das bibliotecas mais usadas em data science. Fornece estruturas e funções de dados de alto nível projetadas para tornar o trabalho com dados estruturados ou tabulares rápido, fácil e expressivo. Desde seu surgimento em 2010, ele ajudou a permitir que o Python fosse um ambiente de análise de dados poderoso e produtivo. 

O Pandas combina as ideias de computação de matriz de alto desempenho do NumPy com os recursos flexíveis de manipulação de dados de planilhas e bancos de dados relacionais (como SQL). Ele fornece uma funcionalidade de indexação sofisticada para facilitar a reformulação, o slice and dice, a execução de agregações e a seleção de subconjuntos de dados.

[Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython - by Wes McKinney, creator of pandas.](https://www.oreilly.com/library/view/python-for-data/9781491957653/)


## Instalação

## Import

___

## Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

O objeto Series é um objeto de matriz rotulado unidimensional.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

In [1]:
lista = [4, 6, 3, 7, 25]



Outra forma bem natural de construir séries é apartir de um **dicionário**

Neste caso, as **chaves** se tornam as labels de índice!

In [2]:
dic = {"a": 50, "b" : 42}



Trabalhando com índices

In [3]:
indices = ["a", "b", "c", "d", "e"]
lista = [4, 6, 3, 7, 25]


Podemos realizar o slicing na nossa Pandas Series da mesma forma como fizemos em listas e arrays, mas veja que agora os índices são letras, podemos utilizá-las para realizar o slicing ou a busca.

Da mesma forma como vimos anteriormente, é possível realizar máscaras booleanas dentro da minha série.

Podemos utiilzar mais de um critério ao mesmo tempo com o E (AND)

Podemos utiilzar mais de um critério ao mesmo tempo com o OU (OR)

E também fazer o inverso

É possivel também ordenar os dados a partir de uma coluna com o **.sort_values()**

Para encontrar valores únicos podemos utilizar o atributo **.unique()**

Podemos mostrar a frequência absoluta com o atributo **.value_counts()**

frequencia relativa

___

## DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

O DataFrame é uma estrutura de dados tabular orientada a colunas com rótulos de linha e coluna.

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
  
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [4]:
# gerando uma matriz (5, 3) de numeros inteiros aleatórios entre -100 e 100
# use a seed 42



## Lendo e Essrevendo os dados de Arquivos

### Lendo dados de um arquivo

A forma mais comum de se construir um dataframe é a partir da **leitura de um arquivo**

Em geral, queremos ler arquivos já estruturados como base de dados, em formatos como .csv, .xls, .xlsx, .ods, .txt, .json, etc.

O pandas é capaz de ler todos esses formatos, com funções específicas!

#### CSV

[pandas.read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

Vamos criar um dataframe usando pandas com os dados do arquivo `alunos.csv`

Vamos criar um dataframe usando pandas com os dados do arquivo `alunos2.csv`

#### XLS ou XLSX

[pandas.read_excel](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)


![Pasta de Trabalho Base](dados/sample_xlsx.png)

Vamos criar um dataframe usando pandas com os dados do arquivo `sample.xlsx`

##### Leitura com seleção de planilha

Vamos criar um dataframe usando pandas com os dados da planilha `p2` da pasta de trabalho `sample.xlsx` 

Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx` 

##### Leitura com seleção de cabeçalho

Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho

##### Leitura com definção de nomes de colunas

Vamos criar um dataframe usando pandas com os dados da planilha `p3` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho e definir os nomes das colunas.

##### Leitura da internet

Vamos criar um dataframe usando pandas com os dados de uma planilha disponivel na página de dados abertos do INPI.

https://www.gov.br/inpi/pt-br/acesso-a-informacao/dados-abertos/conjuntos-corporativos-de-dados-abertos/pedidos-de-patentes-pendentes-de-decisao-final/pedidos-de-patentes-pendentes-de-decisao-final-cgrec.xlsx

#### JSON

[pandas.read_json](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html)

Vamos criar um dataframe usando pandas com os dados do arquivo json `selic.json`

Vamos criar um dataframe usando pandas com os dados da selic em formato json vindo de uma API do Banco Central

https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json

#### TXT de tamanho fixo

[pandas.read_fwf](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_fwf.html)

Vamos criar um dataframe usando pandas com os dados em formato TXT (Com colunas de tamanho fixo) disponíveis por FTP pelo Banco Central.

https://dadosabertos.bcb.gov.br/dataset/precos-de-titulos-publicos-para-redesconto/resource/0bdd030d-ddf3-447c-92ee-437f3c695f4d?inner_span=True


https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT

_________
### Escrevendo dados de um arquivo

Vamos utilizar os dados da selic em formato json vindo de uma API do Banco Central

https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json

#### CSV

Separado por virgula

Separado por virgula e sem index

Separado por ponto e virgula ou um separador qualquer

#### XLSX

Sem index

Fazendo append

## Funções Pandas

A partir de um arquivo `dados_religiao_income.txt`

O potencial do pandas é melhor aproveitado quando usamos o conceito de "tidy data" para organizarmos nossos dados.

Nos dados acima, eles estão pivoteados por segmentos de rendimento.

Vamos então tentar ajustar isso.

Para listarmos as colunas o DataFrame possui um atributo .columns que imprime esta informação em formato de lista.

### melt  
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html

### pivot_table

Podemos voltar para o formato anterior, que facilita apresentações para o negócio.
Usamos o método pivot.

### Concat  
  
É possível realizar a concatenação de dois ou mais dataframes por meio do método "concat".

Caso se queira colocar um do lado do outro, invés de em cima, usamos o parâmetro "axis".

 Agora ao passarmos o axis=1 ele entende que desejamos realizar uma concatenação "lateral" - também conhecido como merge

### Rename
  
O rename é utilizado para renomear labels do dataframe

In [5]:
# Para renomearmos as colunas de um dataframe utilizamos um dicionário tendo como chave o valor antigo e valor o novo

## Exploração de dados: Estatísticas

`dados_parciais.txt`

### Head

O head é utilizado para observarmos o início de um dataframe

### Tail

O tail é utilizado para observarmos o final de um dataframe

### Describe

# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.

### Outras estatísticas

Calculando uma estatística por vez


Se quisermos estatísticas separadas por região (agrupada)

Importando novo Dataframe `populacao_brasileira_por_municipio.txt`

### Colunas
  
Podemos acessar os dados de uma colunas de três métodos

### Query
  
O método query permite realizar filtros dentro do nosso dataframe semelhante ao utilizado na linguagem SQL na clausula where

quero saber quais cidades tem população urbana > 500000

### .loc e .iloc

In [6]:
# .loc usado para pesquisar índices e colunas explicitamente

# quero a população urbana da segunda linha do dataset



In [7]:
# qual estado corresponde à segunda linha do dataset



In [8]:
# posso usar lógicas para filtrar o dataset

# quais estados pertencem à região NE?




In [9]:
# quais estados pertencem à região NE e N?




iloc faz a referência aos índices e colunas de forma implícita

definir a coluna uf como a coluna de índice

desejo obter a população rural do AC

In [10]:
# loc (explícito)



In [11]:
# iloc (implícito)



Queremos as cidades que têm menos de 500000 habitantes (total)

### Operações matemáticas

Quero saber a razão entre as população urbana e a população rural

Calcular a fração da população urbana sobre a geral

Iterar por cada linha e atribuir 1 se frac_urbana > 0.7 e 0 caso contrário

Podemos fazer transformações com dicionários


Usando o apply em múltiplas colunas

### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

retirar o uf dos índices

quero a média e o desvio padrão da população estimada por região