# üéØ Aula 1 - Introdu√ß√£o ao Pandas - dados tabulares üéØ<br>


Na aula de hoje veremos com trabalhar com dados tabulares em alto n√≠vel, usando a biblioteca [pandas](https://pandas.pydata.org/).

O [Pandas](https://pandas.pydata.org/) √© uma das bibliotecas mais usadas em **ci√™ncia de dados**.

Esta biblioteca, constru√≠da a partir do Numpy, possibilita a estrutura√ß√£o e manipula√ß√£o de dados de maneira simples e eficiente.

Como os dados s√£o a mat√©ria prima de todo projeto de Data Science, manipul√°-los √© fundamental! Por isso, utilizaremos o Pandas em quase todas as aulas daqui pra frente!

____
[Guia do pandas](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)

____
Nesta primeira aula, avaliaremos:
- O que s√£o S√©ries e DataFrames;
- Alguns dos principais m√©todos para operar com S√©ries;
- Leitura e grava√ß√£o de conjuntos de dados com pandas.

____
At√© ent√£o trabalhamos em an√°lises de dados utilizando listas, dicion√°rios, etc...
Mas pensando em observar dados de tabelas, qual a primeira ferramenta que vem a mente?

Em que situa√ß√µes utilizamos esta ferramenta? E quais suas desvantagens em rela√ß√£o a visualiza√ß√£o e manipula√ß√£o de dados?

# Instalando e importando o Pandas

Primeiro passo para utilizarmos o Pandas (package de manipula√ß√£o de dados do python). Escreva o comando abaixo no terminal associado ao enviroment do python que est√°s a usar:

``` sh
pip install pandas
```
<br>
Em seguida, rodamos o comando abaixo no notebook para importar o pandas 

```python
import pandas
```

Caso a etapa anterior n√£o tenha dado certo, surgir√° um erro ao importar.

In [None]:
#importar o pandas com alias pd
import pandas as pd

# S√©ries

Antes de falarmos das potencialidades do *Pandas*, precisamos falar das suas estruturas b√°sicas.

O objeto fundamental do Pandas s√£o as **Series**. As Series s√£o as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como numpy arrays!

A diferen√ßa √© que a s√©rie possui um **√≠ndice associado as linhas**, permitindo o acesso aos conte√∫dos dessa estrutura por ele, como um dicion√°rio.

Al√©m disso, as s√©ries t√™m m√©todos espec√≠ficos que ser√£o super √∫teis para nossas an√°lises e manipula√ß√µes de dados.

## Gerando uma Series
Podemos criar uma s√©rie **a partir de uma lista**, usando a fun√ß√£o do pandas `pd.Series()`:

In [None]:
#Criando uma lista
lista = [4,6,3,7,25]
lista
# S√©rie a partir de uma lista
# os √≠ndices das linhas s√£o automaticamente definidos
serie = pd.Series(lista)

In [None]:
serie

Os n√∫meros √† esquerda s√£o os **√≠ndices** da s√©rie, e, aqueles √† direita, s√£o seus **valores**. Podemos tamb√©m acess√°-los separadamente.

In [None]:
# valores
serie.values

In [None]:
# √≠ndices
serie.index

A obten√ß√£o de itens de uma Series √© muito similar √† maneira que fazemos com listas:

In [None]:
serie[0]

Tamb√©m podemos realizar slicing nas Series, tal como fazemos nas listas.

### **Opera√ß√µes com s√©ries**

Como s√£o gerados como numpy arrays, de modo semelhante, opera√ß√µes com s√©ries s√£o realizadas elemento a elemento.

In [None]:
#Criando uma s√©rie de uma lista
serie

In [None]:
# No caso de arrays
arr

In [None]:
#Somando o array com 5
arr+5

In [None]:
# Opera√ß√µes aritm√©ticas b√°sicas funcionam elemento a elemento
serie+5

In [None]:
serie*5

In [None]:
serie/5

In [None]:
serie**5

In [None]:
serie

In [None]:
# apenas elementos divis√≠veis por 2
serie % 2 == 0

In [None]:
# apenas elementos divis√≠veis por 2
serie[serie % 2 == 0]

In [None]:
serie > 10

Tamb√©m conseguimos operar entre s√©ries.

In [None]:
lista1 = [4,6,3,7,25]
lista2 = [34,42,2,1,-40,2]

In [None]:
s1 = pd.Series(lista1)
s2 = pd.Series(lista2)

In [None]:
s1

In [None]:
s2

In [None]:
arr2 = np.array(lista2)

In [None]:
arr2

In [None]:
arr+arr2

In [None]:
s3 = s1+s2
s3

In [None]:
# Usando a condi√ß√£o l√≥gica como indexa√ß√£o
s4 = s2[s2 % 2 == 0]
s4

In [None]:
# Conseguimos "resetar o index"
s4.reset_index(drop=True)

### Dados vazios (NaN)

NaN = *not a number*; dado vazio.

In [None]:
np.random.seed(42)
a1 = np.random.randint(0,100,5)
a2 = np.random.randint(20,100,7)

In [None]:
a1

In [None]:
a2

In [None]:
s1 = pd.Series(a1)
s2 = pd.Series(a2)

In [None]:
#Somando os arrays
a1+a2

In [None]:
#Somando as s√©ries
s1+s2

In [None]:
# op√ß√£o para preencher valores nulos: fill_value
# preenche com 0, porque 0 √© o elemento neutro da soma
# outra maneira de somar
s1.add(s2,fill_value=0)

In [None]:
s1*s2

In [None]:
# elemento neutro √© 1
s1.multiply(s2,fill_value=1)

E com dados de formatos diferentes?

In [None]:
s_texto = pd.Series(['a','b','c'])
s_numero = pd.Series([1,2,3])

In [None]:
s_texto

In [None]:
s_numero

In [None]:
# Com strings
print('a'*1)
print('b'*2)
print('c'*3)

In [None]:
# Mesmo efeito para as s√©ries
s_texto*s_numero

In [None]:
# Strings
'a'+1

In [None]:
# S√©ries
s_texto+s_numero

### Filtrando s√©ries

Filtros de s√©ries seguem a mesma l√≥gica de numpy arrays.

In [None]:
s1

In [None]:
# filtro da s√©rie: quais s√£o os valores da s√©rie que satisfazem uma dada condi√ß√£o?
s1[s1>15]

In [None]:
#Usando compara√ß√µes conjuntas (>15 E par)
s1[(s1>15) & (s1 %2 == 0)]

In [None]:
#Usando compara√ß√µes conjuntas (>15 OU par)
s1[(s1>15) | (s1 %2 == 0)]

In [None]:
#Usando compara√ß√µes conjuntas (>15 E √≠mpares)
s1[(s1>15) & ~(s1 %2 == 0)]

In [None]:
s1[(s1>15) & (s1 %2 != 0)]

### **Outros m√©todos √∫teis**

Temos outros m√©todos interessantes para trabalharmos com s√©ries.

In [None]:
import numpy as np

In [None]:
np.random.seed(42)
notas = pd.Series(np.random.randint(3,10,30))
notas

#### **M√©todos B√°sicos:**

- head(): Exibe os primeiros elementos;
- tail(): Exibe os √∫ltimos elementos;
- describe(): Fornece estat√≠sticas descritivas (m√©dia, desvio-padr√£o, m√≠nimo, m√°ximo, etc.);
- unique: Retorna os valores √∫nicos na S√©rie;
- value_counts(): Conta a frequ√™ncia de cada valor na Series.

In [None]:
#Ver as primeiras 5 linhas
notas.head()

In [None]:
#Ver as √∫ltimas 5 linhas
notas.tail()

In [None]:
#Ver a estat√≠stica descritiva da s√©rie
notas.describe()

In [None]:
#Ver os valores √∫nicos da s√©rie
notas.unique()

In [None]:
#Contar a frequ√™ncia de cada valor na s√©rie
notas.value_counts()

In [None]:
#Frequ√™ncia relativa de cada valor
notas.value_counts()/notas.size

In [None]:
#Frequ√™ncia relativa de cada valor
notas.value_counts(normalize=True)

#### **M√©todo map:**

Aplica uma fun√ß√£o ou um mapeamento (um dicion√°rio) a todos os elementos da Series.

In [None]:
import pandas as pd

In [None]:
notas

In [None]:
#Exemplo dizer se uma nota √© par ou √≠mpar
notas.map(lambda x: "par" if x%2 == 0 else "√≠mpar")

In [None]:
# Substitui valores de acordo com um dicion√°rio
notas.map({1:'A',2:'B',3:'C'})

#### **M√©todo apply:**

O m√©todo apply() em pandas √© uma poderosa fun√ß√£o que permite aplicar uma fun√ß√£o ao longo de um eixo de um DataFrame ou de uma Series.

Ele √© extremamente vers√°til e pode ser usado para executar fun√ß√µes personalizadas, fun√ß√µes do Python embutidas (sum, max, min, len, etc.) e fun√ß√µes lambda.

In [None]:
#Exemplo dizer se uma nota √© par ou √≠mpar
notas.apply(lambda x: "par" if x%2 == 0 else "√≠mpar")

In [None]:
notas_aprovado = notas.apply(lambda x: "aprovado" if x >= 7 else "reprovado")

In [None]:
notas_aprovado.values

In [None]:
notas_aprovado.index

#### **sort_values:**

Classifica os valores na Series.

In [None]:
notas.sort_values(inplace=True)

In [None]:
notas

Podemos colocar o ```inplace = True``` para garantir que a mudan√ßa foi feita na pr√≥pria s√©rie.

#### **sort_index:**

Classifica pelos √≠ndices da Series.

In [None]:
notas.sort_index(inplace=True)

In [None]:
notas

#### M√©todos de Estat√≠stica:

Existem diferentes m√©todos, tais como mean(), median(), std(), var(), sum(): Calculam a m√©dia, mediana, desvio padr√£o, vari√¢ncia e soma dos elementos da Series, respectivamente.

In [None]:
#Calculando a m√©dia das notas
notas.mean()

In [None]:
#Calculando a mediana das notas
notas.median()

In [None]:
#Calculando a moda das notas
notas.mode()

In [None]:
#Calculando o desvio-padr√£o das notas
notas.std()

In [None]:
#Calculando a vari√¢ncia
notas.var()

In [None]:
#Somando todos os valores
notas.sum()

In [None]:
notas**0.5

Existem tamb√©m os m√©todos **idxmax()** e **idxmin()** que retornam o √≠ndice onde o valor m√°ximo ou m√≠nimo ocorre na s√©rie.

In [None]:
notas.idxmax()

In [None]:
notas.idxmin()

Podemos ainda calcular a soma cumulativa **cumsum()** e o produto cumulativo **cumprod()**:

In [None]:
notas.cumsum()

In [None]:
notas.cumprod()

## **DataFrame**

Agora que conhecemos as s√©ries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame √© uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais √© que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo √≠ndice, que ir√£o indexar as linhas).

Veremos depois como **ler um dataframe a partir de um arquivo** (que √© provavelmente a forma mais comum).

H√° muitas formas de construir um DataFrame do zero. Todas elas fazem uso da fun√ß√£o **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os √≠ndices de linha, o nome das colunas, e os dados, podemos pass√°-los separadamente:

**Obs.:** As colunas do dataframes s√£o s√©ries. Assim, tudo que vimos para as s√©ries, se estende individualmente para cada coluna!

In [None]:
# Gerando uma matriz (5,3) de n√∫meros inteiros
np.random.seed(42)

matriz = np.random.randint(-100,100,(5,3))
matriz

In [None]:
#Transformando essa matriz em um DF
pd.DataFrame(matriz)

In [None]:
# Conseguimos definir nomes pros √≠ndices e colunas
df_nomes_linhas = pd.DataFrame(matriz,
                               index = ['obs1','obs2','obs3','obs4','obs5'],
                               columns=['Vari√°vel1','Vari√°vel2','Vari√°vel3'])

In [None]:
df_nomes_linhas

### **Acessando posi√ß√µes do dataframe:**

- .loc(): acessamos os r√≥tulos com os **nomes** dos √≠ndices e colunas;
- .iloc(): acessamos os √≠ndices num√©ricos das colunas e √≠ndice.

In [None]:
df_nomes_linhas.loc['obs4','Vari√°vel2']

In [None]:
df_nomes_linhas.iloc[3,1]

### **Selecionando colunas espec√≠ficas:**

Podemos selecionar uma coluna espec√≠fica ou colunas espec√≠ficas do DF.

In [None]:
df_nomes_linhas['Vari√°vel3']

In [None]:
df_nomes_linhas[['Vari√°vel1','Vari√°vel3']]

In [None]:
df_nomes_linhas.loc[:,'Vari√°vel3']

In [None]:
df_nomes_linhas.iloc[:,2]

In [None]:
# Atribui√ß√£o de valores
df_nomes_linhas['Vari√°vel3'][1] = 42

In [None]:
df_nomes_linhas

As colunas do dataframe s√£o s√©ries. Assim, tudo que vimos para as s√©ries, se estende individualmente para cada coluna!

In [None]:
df_nomes_linhas['Vari√°vel1']

In [None]:
resultado = df_nomes_linhas['Vari√°vel1'] + 10
resultado

### Outros m√©todos para DataFrames

Como uma coluna de um DF √© uma S√©rie, a maioria dos m√©todos vistos anteriormente, s√£o tamb√©m aplicados aos DF.
- head(), tail(), describe(), shape, iloc[], set_index()

Outros n√≥s veremos com mais detalhes na pr√≥xima aula. Contudo, h√° 2 que trazem informa√ß√µes sobre nosso DF: info() e dtypes.


In [None]:
df_nomes_linhas.info()

In [None]:
df_nomes_linhas.dtypes

Podemos ainda, trocar o tipo de alguma vari√°vel. Exemplo, trocar as vari√°veis de Prova (notas) para num√©ricos.

In [None]:
df_alunos = pd.read_csv("../datasets/alunos2.csv",sep=";",decimal=",")

In [None]:
df_alunos.info()

In [None]:
df_alunos[['Prova_1','Prova_2','Prova_3']] = df_alunos[['Prova_1','Prova_2','Prova_3']].astype('float64')

In [None]:
df_alunos.info()

## Lendo e escrevendo conjuntos de dados com pandas

A forma mais comum de se construir um dataframe √© a partir da **leitura de um arquivo**

Em geral, queremos ler arquivos j√° estruturados como base de dados, em formatos como .csv, .xls, .xlsx, .ods, .txt, .json, etc.

O pandas √© capaz de ler todos esses formatos, com fun√ß√µes espec√≠ficas!

### Arquivos CSV

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Vamos criar um dataframe usando pandas com os dados do arquivo `alunos.csv`.

In [None]:
import pandas as pd

In [None]:
# Lendo um arquivo CSV e criando um DataFrame
df_alunos = pd.read_csv('../datasets/alunos.csv',sep=';')

In [None]:
df_alunos.head()

In [None]:
df_alunos['Nome']

In [None]:
#Filtrando os alunos com frequ√™ncia acima de 18
df_alunos[df_alunos['Frequencia'] > 18][['Nome','RA']]

Vamos criar um dataframe usando pandas com os dados do arquivo `alunos2.csv`

In [None]:
df_alunos.to_csv('../datasets/alunos2.csv')

Ou seja: √© preciso estarmos sempre atentos ao separador dos dados!

### XLS ou XLSX

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html

Vamos criar um dataframe usando pandas com os dados do arquivo `sample.xlsx`

In [None]:
#pip install openpyxl

In [None]:
df = pd.read_excel('../datasets/sample.xlsx')

In [None]:
df

#### Leitura com sele√ß√£o de planilha

Vamos criar um dataframe usando pandas com os dados da planilha `velocidade` da pasta de trabalho `sample.xlsx` 

In [None]:
df = pd.read_excel('../datasets/sample.xlsx','Velocidade')

In [None]:
df

#### Leitura com sele√ß√£o de cabe√ßalho

Vamos criar um dataframe usando pandas com os dados da planilha `Velocidade` da pasta de trabalho `sample.xlsx`. Por√©m vamos eliminar a primeira linha de cabe√ßalho

In [None]:
df = pd.read_excel('../datasets/sample.xlsx',sheet_name='Velocidade',header=1)

In [None]:
df

#### Leitura com defin√ß√£o de nomes de colunas

Vamos criar um dataframe usando pandas com os dados da planilha `Velocidade` da pasta de trabalho `sample.xlsx`. Por√©m vamos eliminar a primeira linha de cabe√ßalho e definir os nomes das colunas.

In [None]:
df = pd.read_excel('../datasets/sample.xlsx',sheet_name='Velocidade',header=0,
                   names = ['Tempo (min)', 'Velocidade (km/h)'])

In [None]:
df

#### Leitura da internet

Vamos criar um dataframe usando pandas com os dados de uma planilha disponivel na p√°gina de dados abertos do INPI.

https://www.gov.br/inpi/pt-br/acesso-a-informacao/dados-abertos/conjuntos-corporativos-de-dados-abertos/pedidos-de-patentes-pendentes-de-decisao-final/pedidos-de-patentes-pendentes-de-decisao-final-cgrec.xlsx

In [None]:
df = pd.read_excel('https://www.gov.br/inpi/pt-br/acesso-a-informacao/dados-abertos/conjuntos-corporativos-de-dados-abertos/pedidos-de-patentes-pendentes-de-decisao-final/pedidos-de-patentes-pendentes-de-decisao-final-cgrec.xlsx')

In [None]:
df

### JSON

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html

Vamos criar um dataframe usando pandas com os dados do arquivo json `selic.json`.

In [None]:
df = pd.read_json('../datasets/selic.json')

In [None]:
df

Vamos criar um dataframe usando pandas com os dados da selic em formato json vindo de uma API do Banco Central

https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json

In [None]:
df = pd.read_json('https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json')

In [None]:
df

### TXT de tamanho fixo

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_fwf.html

Vamos criar um dataframe usando pandas com os dados em formato TXT (Com colunas de tamanho fixo) dispon√≠veis por FTP pelo Banco Central.

https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT

In [None]:
df = pd.read_fwf('https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT',
                 widths = [1,6,8,1,8,1,8])

In [None]:
df

## Escrevendo dados de um arquivo

In [None]:
df = pd.read_json('https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json')

In [None]:
df

### CSV

Separado por v√≠rgula

In [None]:
df.to_csv('selic.csv')

XLSX

In [None]:
df.to_excel('selic.xlsx')

___
## Vamos praticar?

Leia o arquivo `aluno2.csv`, apenas as colunas RA, Prova_1, Prova_2, Prova_3, Prova_4 realize a m√©dia das notas da prova e salve em um arquivo excel (xlsx) as colunas RA e M√©dia.

In [None]:
# leitura especificando separador decimal
