# 🎯 Aula 1 - Introdução ao Pandas - dados tabulares 🎯<br>


Na aula de hoje veremos com trabalhar com dados tabulares em alto nível, usando a biblioteca [pandas](https://pandas.pydata.org/).

O [Pandas](https://pandas.pydata.org/) é uma das bibliotecas mais usadas em **ciência de dados**.

Esta biblioteca, construída a partir do Numpy, possibilita a estruturação e manipulação de dados de maneira simples e eficiente.

Como os dados são a matéria prima de todo projeto de Data Science, manipulá-los é fundamental! Por isso, utilizaremos o Pandas em quase todas as aulas daqui pra frente!

____
[Guia do pandas](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)

____
Nesta primeira aula, avaliaremos:
- O que são Séries e DataFrames;
- Alguns dos principais métodos para operar com Séries;
- Leitura e gravação de conjuntos de dados com pandas.

____
Até então trabalhamos em análises de dados utilizando listas, dicionários, etc...
Mas pensando em observar dados de tabelas, qual a primeira ferramenta que vem a mente?

Em que situações utilizamos esta ferramenta? E quais suas desvantagens em relação a visualização e manipulação de dados?

# Instalando e importando o Pandas

Primeiro passo para utilizarmos o Pandas (package de manipulação de dados do python). Escreva o comando abaixo no terminal associado ao enviroment do python que estás a usar:

``` sh
pip install pandas
```
<br>
Em seguida, rodamos o comando abaixo no notebook para importar o pandas 

```python
import pandas
```

Caso a etapa anterior não tenha dado certo, surgirá um erro ao importar.

In [None]:
#importar o pandas com alias pd
import pandas as pd

# Séries

Antes de falarmos das potencialidades do *Pandas*, precisamos falar das suas estruturas básicas.

O objeto fundamental do Pandas são as **Series**. As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como numpy arrays!

A diferença é que a série possui um **índice associado as linhas**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos que serão super úteis para nossas análises e manipulações de dados.

## Gerando uma Series
Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`:

In [None]:
#Criando uma lista
lista = [4,6,3,7,25]
lista
# Série a partir de uma lista
# os índices das linhas são automaticamente definidos
serie = pd.Series(lista)

In [None]:
serie

Os números à esquerda são os **índices** da série, e, aqueles à direita, são seus **valores**. Podemos também acessá-los separadamente.

In [None]:
# valores
serie.values

In [None]:
# índices
serie.index

A obtenção de itens de uma Series é muito similar à maneira que fazemos com listas:

In [None]:
serie[0]

Também podemos realizar slicing nas Series, tal como fazemos nas listas.

### **Operações com séries**

Como são gerados como numpy arrays, de modo semelhante, operações com séries são realizadas elemento a elemento.

In [None]:
#Criando uma série de uma lista
serie

In [None]:
# No caso de arrays
arr

In [None]:
#Somando o array com 5
arr+5

In [None]:
# Operações aritméticas básicas funcionam elemento a elemento
serie+5

In [None]:
serie*5

In [None]:
serie/5

In [None]:
serie**5

In [None]:
serie

In [None]:
# apenas elementos divisíveis por 2
serie % 2 == 0

In [None]:
# apenas elementos divisíveis por 2
serie[serie % 2 == 0]

In [None]:
serie > 10

Também conseguimos operar entre séries.

In [None]:
lista1 = [4,6,3,7,25]
lista2 = [34,42,2,1,-40,2]

In [None]:
s1 = pd.Series(lista1)
s2 = pd.Series(lista2)

In [None]:
s1

In [None]:
s2

In [None]:
arr2 = np.array(lista2)

In [None]:
arr2

In [None]:
arr+arr2

In [None]:
s3 = s1+s2
s3

In [None]:
# Usando a condição lógica como indexação
s4 = s2[s2 % 2 == 0]
s4

In [None]:
# Conseguimos "resetar o index"
s4.reset_index(drop=True)

### Dados vazios (NaN)

NaN = *not a number*; dado vazio.

In [None]:
np.random.seed(42)
a1 = np.random.randint(0,100,5)
a2 = np.random.randint(20,100,7)

In [None]:
a1

In [None]:
a2

In [None]:
s1 = pd.Series(a1)
s2 = pd.Series(a2)

In [None]:
#Somando os arrays
a1+a2

In [None]:
#Somando as séries
s1+s2

In [None]:
# opção para preencher valores nulos: fill_value
# preenche com 0, porque 0 é o elemento neutro da soma
# outra maneira de somar
s1.add(s2,fill_value=0)

In [None]:
s1*s2

In [None]:
# elemento neutro é 1
s1.multiply(s2,fill_value=1)

E com dados de formatos diferentes?

In [None]:
s_texto = pd.Series(['a','b','c'])
s_numero = pd.Series([1,2,3])

In [None]:
s_texto

In [None]:
s_numero

In [None]:
# Com strings
print('a'*1)
print('b'*2)
print('c'*3)

In [None]:
# Mesmo efeito para as séries
s_texto*s_numero

In [None]:
# Strings
'a'+1

In [None]:
# Séries
s_texto+s_numero

### Filtrando séries

Filtros de séries seguem a mesma lógica de numpy arrays.

In [None]:
s1

In [None]:
# filtro da série: quais são os valores da série que satisfazem uma dada condição?
s1[s1>15]

In [None]:
#Usando comparações conjuntas (>15 E par)
s1[(s1>15) & (s1 %2 == 0)]

In [None]:
#Usando comparações conjuntas (>15 OU par)
s1[(s1>15) | (s1 %2 == 0)]

In [None]:
#Usando comparações conjuntas (>15 E ímpares)
s1[(s1>15) & ~(s1 %2 == 0)]

In [None]:
s1[(s1>15) & (s1 %2 != 0)]

### **Outros métodos úteis**

Temos outros métodos interessantes para trabalharmos com séries.

In [None]:
import numpy as np

In [None]:
np.random.seed(42)
notas = pd.Series(np.random.randint(3,10,30))
notas

#### **Métodos Básicos:**

- head(): Exibe os primeiros elementos;
- tail(): Exibe os últimos elementos;
- describe(): Fornece estatísticas descritivas (média, desvio-padrão, mínimo, máximo, etc.);
- unique: Retorna os valores únicos na Série;
- value_counts(): Conta a frequência de cada valor na Series.

In [None]:
#Ver as primeiras 5 linhas
notas.head()

In [None]:
#Ver as últimas 5 linhas
notas.tail()

In [None]:
#Ver a estatística descritiva da série
notas.describe()

In [None]:
#Ver os valores únicos da série
notas.unique()

In [None]:
#Contar a frequência de cada valor na série
notas.value_counts()

In [None]:
#Frequência relativa de cada valor
notas.value_counts()/notas.size

In [None]:
#Frequência relativa de cada valor
notas.value_counts(normalize=True)

#### **Método map:**

Aplica uma função ou um mapeamento (um dicionário) a todos os elementos da Series.

In [None]:
import pandas as pd

In [None]:
notas

In [None]:
#Exemplo dizer se uma nota é par ou ímpar
notas.map(lambda x: "par" if x%2 == 0 else "ímpar")

In [None]:
# Substitui valores de acordo com um dicionário
notas.map({1:'A',2:'B',3:'C'})

#### **Método apply:**

O método apply() em pandas é uma poderosa função que permite aplicar uma função ao longo de um eixo de um DataFrame ou de uma Series.

Ele é extremamente versátil e pode ser usado para executar funções personalizadas, funções do Python embutidas (sum, max, min, len, etc.) e funções lambda.

In [None]:
#Exemplo dizer se uma nota é par ou ímpar
notas.apply(lambda x: "par" if x%2 == 0 else "ímpar")

In [None]:
notas_aprovado = notas.apply(lambda x: "aprovado" if x >= 7 else "reprovado")

In [None]:
notas_aprovado.values

In [None]:
notas_aprovado.index

#### **sort_values:**

Classifica os valores na Series.

In [None]:
notas.sort_values(inplace=True)

In [None]:
notas

Podemos colocar o ```inplace = True``` para garantir que a mudança foi feita na própria série.

#### **sort_index:**

Classifica pelos índices da Series.

In [None]:
notas.sort_index(inplace=True)

In [None]:
notas

#### Métodos de Estatística:

Existem diferentes métodos, tais como mean(), median(), std(), var(), sum(): Calculam a média, mediana, desvio padrão, variância e soma dos elementos da Series, respectivamente.

In [None]:
#Calculando a média das notas
notas.mean()

In [None]:
#Calculando a mediana das notas
notas.median()

In [None]:
#Calculando a moda das notas
notas.mode()

In [None]:
#Calculando o desvio-padrão das notas
notas.std()

In [None]:
#Calculando a variância
notas.var()

In [None]:
#Somando todos os valores
notas.sum()

In [None]:
notas**0.5

Existem também os métodos **idxmax()** e **idxmin()** que retornam o índice onde o valor máximo ou mínimo ocorre na série.

In [None]:
notas.idxmax()

In [None]:
notas.idxmin()

Podemos ainda calcular a soma cumulativa **cumsum()** e o produto cumulativo **cumprod()**:

In [None]:
notas.cumsum()

In [None]:
notas.cumprod()

## **DataFrame**

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).

Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum).

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente:

**Obs.:** As colunas do dataframes são séries. Assim, tudo que vimos para as séries, se estende individualmente para cada coluna!

In [None]:
# Gerando uma matriz (5,3) de números inteiros
np.random.seed(42)

matriz = np.random.randint(-100,100,(5,3))
matriz

In [None]:
#Transformando essa matriz em um DF
pd.DataFrame(matriz)

In [None]:
# Conseguimos definir nomes pros índices e colunas
df_nomes_linhas = pd.DataFrame(matriz,
                               index = ['obs1','obs2','obs3','obs4','obs5'],
                               columns=['Variável1','Variável2','Variável3'])

In [None]:
df_nomes_linhas

### **Acessando posições do dataframe:**

- .loc(): acessamos os rótulos com os **nomes** dos índices e colunas;
- .iloc(): acessamos os índices numéricos das colunas e índice.

In [None]:
df_nomes_linhas.loc['obs4','Variável2']

In [None]:
df_nomes_linhas.iloc[3,1]

### **Selecionando colunas específicas:**

Podemos selecionar uma coluna específica ou colunas específicas do DF.

In [None]:
df_nomes_linhas['Variável3']

In [None]:
df_nomes_linhas[['Variável1','Variável3']]

In [None]:
df_nomes_linhas.loc[:,'Variável3']

In [None]:
df_nomes_linhas.iloc[:,2]

In [None]:
# Atribuição de valores
df_nomes_linhas['Variável3'][1] = 42

In [None]:
df_nomes_linhas

As colunas do dataframe são séries. Assim, tudo que vimos para as séries, se estende individualmente para cada coluna!

In [None]:
df_nomes_linhas['Variável1']

In [None]:
resultado = df_nomes_linhas['Variável1'] + 10
resultado

### Outros métodos para DataFrames

Como uma coluna de um DF é uma Série, a maioria dos métodos vistos anteriormente, são também aplicados aos DF.
- head(), tail(), describe(), shape, iloc[], set_index()

Outros nós veremos com mais detalhes na próxima aula. Contudo, há 2 que trazem informações sobre nosso DF: info() e dtypes.


In [None]:
df_nomes_linhas.info()

In [None]:
df_nomes_linhas.dtypes

Podemos ainda, trocar o tipo de alguma variável. Exemplo, trocar as variáveis de Prova (notas) para numéricos.

In [None]:
df_alunos = pd.read_csv("../datasets/alunos2.csv",sep=";",decimal=",")

In [None]:
df_alunos.info()

In [None]:
df_alunos[['Prova_1','Prova_2','Prova_3']] = df_alunos[['Prova_1','Prova_2','Prova_3']].astype('float64')

In [None]:
df_alunos.info()

## Lendo e escrevendo conjuntos de dados com pandas

A forma mais comum de se construir um dataframe é a partir da **leitura de um arquivo**

Em geral, queremos ler arquivos já estruturados como base de dados, em formatos como .csv, .xls, .xlsx, .ods, .txt, .json, etc.

O pandas é capaz de ler todos esses formatos, com funções específicas!

### Arquivos CSV

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Vamos criar um dataframe usando pandas com os dados do arquivo `alunos.csv`.

In [None]:
import pandas as pd

In [None]:
# Lendo um arquivo CSV e criando um DataFrame
df_alunos = pd.read_csv('../datasets/alunos.csv',sep=';')

In [None]:
df_alunos.head()

In [None]:
df_alunos['Nome']

In [None]:
#Filtrando os alunos com frequência acima de 18
df_alunos[df_alunos['Frequencia'] > 18][['Nome','RA']]

Vamos criar um dataframe usando pandas com os dados do arquivo `alunos2.csv`

In [None]:
df_alunos.to_csv('../datasets/alunos2.csv')

Ou seja: é preciso estarmos sempre atentos ao separador dos dados!

### XLS ou XLSX

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html

Vamos criar um dataframe usando pandas com os dados do arquivo `sample.xlsx`

In [None]:
#pip install openpyxl

In [None]:
df = pd.read_excel('../datasets/sample.xlsx')

In [None]:
df

#### Leitura com seleção de planilha

Vamos criar um dataframe usando pandas com os dados da planilha `velocidade` da pasta de trabalho `sample.xlsx` 

In [None]:
df = pd.read_excel('../datasets/sample.xlsx','Velocidade')

In [None]:
df

#### Leitura com seleção de cabeçalho

Vamos criar um dataframe usando pandas com os dados da planilha `Velocidade` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho

In [None]:
df = pd.read_excel('../datasets/sample.xlsx',sheet_name='Velocidade',header=1)

In [None]:
df

#### Leitura com definção de nomes de colunas

Vamos criar um dataframe usando pandas com os dados da planilha `Velocidade` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho e definir os nomes das colunas.

In [None]:
df = pd.read_excel('../datasets/sample.xlsx',sheet_name='Velocidade',header=0,
                   names = ['Tempo (min)', 'Velocidade (km/h)'])

In [None]:
df

#### Leitura da internet

Vamos criar um dataframe usando pandas com os dados de uma planilha disponivel na página de dados abertos do INPI.

https://www.gov.br/inpi/pt-br/acesso-a-informacao/dados-abertos/conjuntos-corporativos-de-dados-abertos/pedidos-de-patentes-pendentes-de-decisao-final/pedidos-de-patentes-pendentes-de-decisao-final-cgrec.xlsx

In [None]:
df = pd.read_excel('https://www.gov.br/inpi/pt-br/acesso-a-informacao/dados-abertos/conjuntos-corporativos-de-dados-abertos/pedidos-de-patentes-pendentes-de-decisao-final/pedidos-de-patentes-pendentes-de-decisao-final-cgrec.xlsx')

In [None]:
df

### JSON

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html

Vamos criar um dataframe usando pandas com os dados do arquivo json `selic.json`.

In [None]:
df = pd.read_json('../datasets/selic.json')

In [None]:
df

Vamos criar um dataframe usando pandas com os dados da selic em formato json vindo de uma API do Banco Central

https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json

In [None]:
df = pd.read_json('https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json')

In [None]:
df

### TXT de tamanho fixo

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_fwf.html

Vamos criar um dataframe usando pandas com os dados em formato TXT (Com colunas de tamanho fixo) disponíveis por FTP pelo Banco Central.

https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT

In [None]:
df = pd.read_fwf('https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT',
                 widths = [1,6,8,1,8,1,8])

In [None]:
df

## Escrevendo dados de um arquivo

In [None]:
df = pd.read_json('https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json')

In [None]:
df

### CSV

Separado por vírgula

In [None]:
df.to_csv('selic.csv')

XLSX

In [None]:
df.to_excel('selic.xlsx')

___
## Vamos praticar?

Leia o arquivo `aluno2.csv`, apenas as colunas RA, Prova_1, Prova_2, Prova_3, Prova_4 realize a média das notas da prova e salve em um arquivo excel (xlsx) as colunas RA e Média.

In [None]:
# leitura especificando separador decimal
