# Aula 04 - Pandas

Na aula de hoje veremos com trabalhar com dados tabulares em alto nível, usando a biblioteca [pandas](https://pandas.pydata.org/).

O [Pandas](https://pandas.pydata.org/) é uma das bibliotecas mais usadas em **ciência de dados**.

Esta biblioteca, construída a partir do Numpy, possibilita a estruturação e manipulação de dados de maneira simples e eficiente.

Como os dados são a matéria prima de todo projeto de Data Science, manipulá-los é fundamental! Por isso, utilizaremos o Pandas em quase todas as aulas daqui pra frente!

____
[Guia do pandas](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)

____
Nesta primeira aula, avaliaremos:
- O que são Séries e DataFrames;
- Alguns dos principais métodos para operar com Séries;
- Leitura e gravação de conjuntos de dados com pandas.

____

## Problemática

Imagina que você queira ler um arquivo csv e transformá-lo em um arquivo xlsx.

O que você faria?

In [None]:
#Importando a biblioteca pandas
import pandas as pd

In [None]:
# Lendo um arquivo CSV e criando um DataFrame


In [None]:
# Salvando um DataFrame em um arquivo xlsx
# O parâmetro index=False evita a escrita do índice no arquivo

**Obs.:** Voltaremos para falar mais das potencialidades do pandas e como trabalhamos com os arquivos no decorrer da aula.
___

## **Séries**

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`:

**Vamos avaliar algumas particularidades das pd.Series a seguir.**

In [None]:
#Criando uma lista


In [None]:
#Criando um array numpy
import numpy as np


In [None]:
# Série a partir de uma lista
# os índices são automaticamente definidos


In [None]:
#ver a série


Os números à esquerda são os **índices** da série, e, aqueles à direita, são seus **valores**. Podemos também acessá-los separadamente.

In [None]:
# Acessando os valores


In [None]:
# Acessando índices


In [None]:
#Criando com list comprehension

### **Indexação da série**

A indexação de uma série com pandas é muito similar à maneira que fazemos com listas e numpy arrays.

In [None]:
#Acessando o elemento zero na série


Podemos fazer uma analogia da série em pandas com os dicionários do Python:

In [None]:
# exemplo de um dicionário


In [None]:
# Acessamos o dicionário pelas chaves


In [None]:
# Também podemos acessar os valores, apenas, assim como para as séries


### **Slicing de séries**

Também é feito da maneira como estamos acostumados a trabalhar com listas e numpy arrays.

In [None]:
# slicing


### **Índices**

Apesar de termos visto a opção padrão de criação de índices, acima, sequencial, podemos defini-los da maneira que quisermos.

In [None]:
#Criando uma lista


In [None]:
#Criando a série


In [None]:
# vamos usar outros índices quaisquer


**Obs.:** Podemos acessar os valores indexando tanto com o número da posição na série, ou com o próprio índice.

In [None]:
# também conseguimos fazer slicing com os índices


In [None]:
#Conseguimos pegar (filtrar uma lista de índices)


Também conseguimos construir séries a partir de **dicionários**. Neste caso, as **chaves** se tornam os índices da série.

In [None]:
#Criando um dicionário


In [None]:
# Série a partir de dicionário


### **Operações com séries**

Como são gerados como numpy arrays, de modo semelhante, operações com séries são realizadas elemento a elemento.

In [None]:
#Criando uma série de uma lista


In [None]:
# No caso de arrays


In [None]:
#Somando o array com 5


In [None]:
# Operações aritméticas básicas funcionam elemento a elemento


In [None]:
# apenas elementos divisíveis por 2


In [None]:
# apenas elementos divisíveis por 2


Também conseguimos operar entre séries.

In [None]:
# Usando a condição lógica como indexação


In [None]:
# Conseguimos "resetar o index"


### Dados vazios (NaN)

NaN = *not a number*; dado vazio.

In [None]:
#Somando os arrays


In [None]:
#Somando as séries


In [None]:
# opção para preencher valores nulos: fill_value
# preenche com 0, porque 0 é o elemento neutro da soma
# outra maneira de somar

In [None]:
# elemento neutro é 1


E com dados de formatos diferentes?

In [None]:
# Com strings


In [None]:
# Mesmo efeito para as séries


In [None]:
# Strings


In [None]:
# Séries


### Filtrando séries

Filtros de séries seguem a mesma lógica de numpy arrays.

In [None]:
# filtro da série: quais são os valores da série que satisfazem uma dada condição?


In [None]:
#Usando comparações conjuntas


In [None]:
#Usando comparações conjuntas


In [None]:
#Usando comparações conjuntas


### **Outros métodos úteis**

Temos outros métodos interessantes para trabalharmos com séries.

#### **Métodos Básicos:**

- head(): Exibe os primeiros elementos;
- tail(): Exibe os últimos elementos;
- describe(): Fornece estatísticas descritivas (média, desvio-padrão, mínimo, máximo, etc.);
- unique: Retorna os valores únicos na Série;
- value_counts(): Conta a frequência de cada valor na Series.

In [None]:
#Ver as primeiras 5 linhas


In [None]:
#Ver as últimas 5 linhas


In [None]:
#Ver a estatística descritiva da série


In [None]:
#Ver os valores únicos da série


In [None]:
#Contar a frequência de cada valor na série


In [None]:
#Frequência relativa de cada valor


In [None]:
#Frequência relativa de cada valor


#### **Método map:**

Aplica uma função ou um mapeamento (um dicionário) a todos os elementos da Series.

In [None]:
#Exemplo dizer se uma nota é par ou ímpar


In [None]:
# Substitui valores de acordo com um dicionário


#### **Método apply:**

O método apply() em pandas é uma poderosa função que permite aplicar uma função ao longo de um eixo de um DataFrame ou de uma Series.

Ele é extremamente versátil e pode ser usado para executar funções personalizadas, funções do Python embutidas (sum, max, min, len, etc.) e funções lambda.

In [None]:
#Exemplo dizer se uma nota é par ou ímpar


#### **sort_values:**

Classifica os valores na Series.

Podemos colocar o ```inplace = True``` para garantir que a mudança foi feita na própria série.

#### **sort_index:**

Classifica pelos índices da Series.

#### Métodos de Estatística:

Existem diferentes métodos, tais como mean(), median(), std(), var(), sum(): Calculam a média, mediana, desvio padrão, variância e soma dos elementos da Series, respectivamente.

In [None]:
#Calculando a média das notas


In [None]:
#Calculando a mediana das notas


In [None]:
#Calculando a moda das notas


In [None]:
#Calculando o desvio-padrão das notas


In [None]:
#Calculando a variância


In [None]:
#Somando todos os valores


Existem também os métodos **idxmax()** e **idxmin()** que retornam o índice onde o valor máximo ou mínimo ocorre na série.

Podemos ainda calcular a soma cumulativa **cumsum()** e o produto cumulativo **cumprod()**:

## **DataFrame**

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).

Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum).

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente:

**Obs.:** As colunas do dataframes são séries. Assim, tudo que vimos para as séries, se estende individualmente para cada coluna!

In [None]:
# Gerando uma matriz (5,3) de números inteiros


In [None]:
#Transformando essa matriz em um DF


In [None]:
# Conseguimos definir nomes pros índices e colunas


### **Acessando posições do dataframe:**

- .loc(): acessamos os rótulos com os **nomes** dos índices e colunas;
- .iloc(): acessamos os índices numéricos das colunas e índice.

### **Selecionando colunas específicas:**

Podemos selecionar uma coluna específica ou colunas específicas do DF.

In [None]:
# Atribuição de valores


As colunas do dataframe são séries. Assim, tudo que vimos para as séries, se estende individualmente para cada coluna!

### Outros métodos para DataFrames

Como uma coluna de um DF é uma Série, a maioria dos métodos vistos anteriormente, são também aplicados aos DF.
- head(), tail(), describe(), shape, iloc[], set_index()

Outros nós veremos com mais detalhes na próxima aula. Contudo, há 2 que trazem informações sobre nosso DF: info() e dtypes.


Podemos ainda, trocar o tipo de alguma variável. Exemplo, trocar as variáveis de Prova (notas) para numéricos.

## Lendo e escrevendo conjuntos de dados com pandas

A forma mais comum de se construir um dataframe é a partir da **leitura de um arquivo**

Em geral, queremos ler arquivos já estruturados como base de dados, em formatos como .csv, .xls, .xlsx, .ods, .txt, .json, etc.

O pandas é capaz de ler todos esses formatos, com funções específicas!

### Arquivos CSV

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Vamos criar um dataframe usando pandas com os dados do arquivo `alunos.csv`.

In [None]:
# Lendo um arquivo CSV e criando um DataFrame


In [None]:
#Filtrando os alunos com frequência acima de 18


Vamos criar um dataframe usando pandas com os dados do arquivo `alunos2.csv`

Ou seja: é preciso estarmos sempre atentos ao separador dos dados!

### XLS ou XLSX

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html

Vamos criar um dataframe usando pandas com os dados do arquivo `sample.xlsx`

#### Leitura com seleção de planilha

Vamos criar um dataframe usando pandas com os dados da planilha `velocidade` da pasta de trabalho `sample.xlsx` 

#### Leitura com seleção de cabeçalho

Vamos criar um dataframe usando pandas com os dados da planilha `Velocidade` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho

#### Leitura com definção de nomes de colunas

Vamos criar um dataframe usando pandas com os dados da planilha `Velocidade` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho e definir os nomes das colunas.

#### Leitura da internet

Vamos criar um dataframe usando pandas com os dados de uma planilha disponivel na página de dados abertos do INPI.

https://www.gov.br/inpi/pt-br/acesso-a-informacao/dados-abertos/conjuntos-corporativos-de-dados-abertos/pedidos-de-patentes-pendentes-de-decisao-final/pedidos-de-patentes-pendentes-de-decisao-final-cgrec.xlsx

### JSON

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html

Vamos criar um dataframe usando pandas com os dados do arquivo json `selic.json`.

Vamos criar um dataframe usando pandas com os dados da selic em formato json vindo de uma API do Banco Central

https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json

In [None]:
f

### TXT de tamanho fixo

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_fwf.html

Vamos criar um dataframe usando pandas com os dados em formato TXT (Com colunas de tamanho fixo) disponíveis por FTP pelo Banco Central.

https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT

## Escrevendo dados de um arquivo

### CSV

Separado por vírgula

XLSX

___
## Vamos praticar?

Leia o arquivo `aluno2.csv`, apenas as colunas RA, Prova_1, Prova_2, Prova_3, Prova_4 realize a média das notas da prova e salve em um arquivo excel (xlsx) as colunas RA e Média.

In [None]:
# leitura especificando separador decimal
