# Aula 04 - Pandas

Na aula de hoje veremos com trabalhar com dados tabulares em alto nível, usando a biblioteca [pandas](https://pandas.pydata.org/).

O [Pandas](https://pandas.pydata.org/) é uma das bibliotecas mais usadas em **ciência de dados**.

Esta biblioteca, construída a partir do Numpy, possibilita a estruturação e manipulação de dados de maneira simples e eficiente.

Como os dados são a matéria prima de todo projeto de Data Science, manipulá-los é fundamental! Por isso, utilizaremos o Pandas em quase todas as aulas daqui pra frente!

____
[Guia do pandas](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)

____
Nesta primeira aula, avaliaremos:
- O que são Séries e DataFrames;
- Alguns dos principais métodos para operar com Séries;
- Leitura e gravação de conjuntos de dados com pandas.

____

## Problemática

Imagina que você queira ler um arquivo csv e transformá-lo em um arquivo xlsx.

O que você faria?

In [1]:
#Importando a biblioteca pandas
import pandas as pd

In [3]:
# Lendo um arquivo CSV e criando um DataFrame
dados = pd.read_csv('../datasets/titanic_completa_oficial.csv')

In [6]:
dados

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29,0,0,24160,211.3375,B5,S,2,?,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11,?,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2,1,2,113781,151.55,C22 C26,S,?,?,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30,1,2,113781,151.55,C22 C26,S,?,135,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25,1,2,113781,151.55,C22 C26,S,?,?,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,14.5,1,0,2665,14.4542,?,C,?,328,?
1305,3,0,"Zabour, Miss. Thamine",female,?,1,0,2665,14.4542,?,C,?,?,?
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.5,0,0,2656,7.225,?,C,?,304,?
1307,3,0,"Zakarian, Mr. Ortin",male,27,0,0,2670,7.225,?,C,?,?,?


In [7]:
# Salvando um DataFrame em um arquivo xlsx
# O parâmetro index=False evita a escrita do índice no arquivo
dados.to_excel('../datasets/titanic_completa_oficial.xlsx',index=False)

**Obs.:** Voltaremos para falar mais das potencialidades do pandas e como trabalhamos com os arquivos no decorrer da aula.
___

## **Séries**

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`:

**Vamos avaliar algumas particularidades das pd.Series a seguir.**

In [8]:
#Criando uma lista
lista = [4,6,3,7,25]
lista

[4, 6, 3, 7, 25]

In [9]:
#Criando um array numpy
import numpy as np
arr = np.array(lista)
arr

array([ 4,  6,  3,  7, 25])

In [10]:
# Série a partir de uma lista
# os índices são automaticamente definidos
serie = pd.Series(lista)

In [11]:
#ver a série
serie

0     4
1     6
2     3
3     7
4    25
dtype: int64

Os números à esquerda são os **índices** da série, e, aqueles à direita, são seus **valores**. Podemos também acessá-los separadamente.

In [12]:
# Acessando os valores
serie.values

4

In [14]:
# Acessando índices
serie.index

RangeIndex(start=0, stop=5, step=1)

In [16]:
#Criando com list comprehension
[i for i in range(0,5,1)]

[0, 1, 2, 3, 4]

### **Indexação da série**

A indexação de uma série com pandas é muito similar à maneira que fazemos com listas e numpy arrays.

In [17]:
#Acessando o elemento zero na série
serie[0]

4

Podemos fazer uma analogia da série em pandas com os dicionários do Python:

In [18]:
# exemplo de um dicionário
dic = {0:10,1:20}

In [19]:
# Acessamos o dicionário pelas chaves
dic[0]

10

In [20]:
# Também podemos acessar os valores, apenas, assim como para as séries
dic.values()

dict_values([10, 20])

### **Slicing de séries**

Também é feito da maneira como estamos acostumados a trabalhar com listas e numpy arrays.

In [21]:
# slicing
serie[2:]

2     3
3     7
4    25
dtype: int64

### **Índices**

Apesar de termos visto a opção padrão de criação de índices, acima, sequencial, podemos defini-los da maneira que quisermos.

In [22]:
#Criando uma lista
lista = [4,6,3,7,25]

In [23]:
#Criando a série
serie = pd.Series(lista)
serie

0     4
1     6
2     3
3     7
4    25
dtype: int64

In [24]:
# vamos usar outros índices quaisquer
indices = ['a','b','c','d','e']

In [25]:
serie = pd.Series(data = lista,
                  index = indices,
                  name = 'coluna_1')
serie

a     4
b     6
c     3
d     7
e    25
Name: coluna_1, dtype: int64

**Obs.:** Podemos acessar os valores indexando tanto com o número da posição na série, ou com o próprio índice.

In [26]:
serie['c']

3

In [27]:
serie[2]

3

In [28]:
# também conseguimos fazer slicing com os índices
serie['c':]

c     3
d     7
e    25
Name: coluna_1, dtype: int64

In [29]:
#Conseguimos pegar (filtrar uma lista de índices)
serie[['c','d']]

c    3
d    7
Name: coluna_1, dtype: int64

Também conseguimos construir séries a partir de **dicionários**. Neste caso, as **chaves** se tornam os índices da série.

In [30]:
#Criando um dicionário
dic = {'Curso':"Unimed", 'Turma': 1108}
dic

{'Curso': 'Unimed', 'Turma': 1108}

In [31]:
# Série a partir de dicionário
pd.Series(dic)

Curso    Unimed
Turma      1108
dtype: object

### **Operações com séries**

Como são gerados como numpy arrays, de modo semelhante, operações com séries são realizadas elemento a elemento.

In [32]:
#Criando uma série de uma lista
serie

a     4
b     6
c     3
d     7
e    25
Name: coluna_1, dtype: int64

In [33]:
# No caso de arrays
arr

array([ 4,  6,  3,  7, 25])

In [34]:
#Somando o array com 5
arr+5

array([ 9, 11,  8, 12, 30])

In [35]:
# Operações aritméticas básicas funcionam elemento a elemento
serie+5

a     9
b    11
c     8
d    12
e    30
Name: coluna_1, dtype: int64

In [36]:
serie*5

a     20
b     30
c     15
d     35
e    125
Name: coluna_1, dtype: int64

In [37]:
serie/5

a    0.8
b    1.2
c    0.6
d    1.4
e    5.0
Name: coluna_1, dtype: float64

In [38]:
serie**5

a       1024
b       7776
c        243
d      16807
e    9765625
Name: coluna_1, dtype: int64

In [39]:
serie

a     4
b     6
c     3
d     7
e    25
Name: coluna_1, dtype: int64

In [40]:
# apenas elementos divisíveis por 2
serie % 2 == 0

a     True
b     True
c    False
d    False
e    False
Name: coluna_1, dtype: bool

In [41]:
# apenas elementos divisíveis por 2
serie[serie % 2 == 0]

a    4
b    6
Name: coluna_1, dtype: int64

In [42]:
serie > 10

a    False
b    False
c    False
d    False
e     True
Name: coluna_1, dtype: bool

Também conseguimos operar entre séries.

In [43]:
lista1 = [4,6,3,7,25]
lista2 = [34,42,2,1,-40,2]

In [44]:
s1 = pd.Series(lista1)
s2 = pd.Series(lista2)

In [45]:
s1

0     4
1     6
2     3
3     7
4    25
dtype: int64

In [46]:
s2

0    34
1    42
2     2
3     1
4   -40
5     2
dtype: int64

In [47]:
arr2 = np.array(lista2)

In [48]:
arr2

array([ 34,  42,   2,   1, -40,   2])

In [49]:
arr+arr2

ValueError: operands could not be broadcast together with shapes (5,) (6,) 

In [50]:
s3 = s1+s2
s3

0    38.0
1    48.0
2     5.0
3     8.0
4   -15.0
5     NaN
dtype: float64

In [51]:
# Usando a condição lógica como indexação
s4 = s2[s2 % 2 == 0]
s4

0    34
1    42
2     2
4   -40
5     2
dtype: int64

In [52]:
# Conseguimos "resetar o index"
s4.reset_index(drop=True)

0    34
1    42
2     2
3   -40
4     2
dtype: int64

### Dados vazios (NaN)

NaN = *not a number*; dado vazio.

In [53]:
np.random.seed(42)
a1 = np.random.randint(0,100,5)
a2 = np.random.randint(20,100,7)

In [54]:
a1

array([51, 92, 14, 71, 60])

In [55]:
a2

array([40, 94, 94, 43, 22, 41, 72])

In [56]:
s1 = pd.Series(a1)
s2 = pd.Series(a2)

In [57]:
#Somando os arrays
a1+a2

ValueError: operands could not be broadcast together with shapes (5,) (7,) 

In [58]:
#Somando as séries
s1+s2

0     91.0
1    186.0
2    108.0
3    114.0
4     82.0
5      NaN
6      NaN
dtype: float64

In [59]:
# opção para preencher valores nulos: fill_value
# preenche com 0, porque 0 é o elemento neutro da soma
# outra maneira de somar
s1.add(s2,fill_value=0)

0     91.0
1    186.0
2    108.0
3    114.0
4     82.0
5     41.0
6     72.0
dtype: float64

In [60]:
s1*s2

0    2040.0
1    8648.0
2    1316.0
3    3053.0
4    1320.0
5       NaN
6       NaN
dtype: float64

In [62]:
# elemento neutro é 1
s1.multiply(s2,fill_value=1)

0    2040.0
1    8648.0
2    1316.0
3    3053.0
4    1320.0
5      41.0
6      72.0
dtype: float64

E com dados de formatos diferentes?

In [63]:
s_texto = pd.Series(['a','b','c'])
s_numero = pd.Series([1,2,3])

In [64]:
s_texto

0    a
1    b
2    c
dtype: object

In [65]:
s_numero

0    1
1    2
2    3
dtype: int64

In [66]:
# Com strings
print('a'*1)
print('b'*2)
print('c'*3)

a
bb
ccc


In [67]:
# Mesmo efeito para as séries
s_texto*s_numero

0      a
1     bb
2    ccc
dtype: object

In [68]:
# Strings
'a'+1

TypeError: can only concatenate str (not "int") to str

In [69]:
# Séries
s_texto+s_numero

TypeError: can only concatenate str (not "int") to str

### Filtrando séries

Filtros de séries seguem a mesma lógica de numpy arrays.

In [70]:
s1

0    51
1    92
2    14
3    71
4    60
dtype: int32

In [71]:
# filtro da série: quais são os valores da série que satisfazem uma dada condição?
s1[s1>15]

0    51
1    92
3    71
4    60
dtype: int32

In [72]:
#Usando comparações conjuntas (>15 E par)
s1[(s1>15) & (s1 %2 == 0)]

1    92
4    60
dtype: int32

In [73]:
#Usando comparações conjuntas (>15 OU par)
s1[(s1>15) | (s1 %2 == 0)]

0    51
1    92
2    14
3    71
4    60
dtype: int32

In [74]:
#Usando comparações conjuntas (>15 E ímpares)
s1[(s1>15) & ~(s1 %2 == 0)]

0    51
3    71
dtype: int32

In [75]:
s1[(s1>15) & (s1 %2 != 0)]

0    51
3    71
dtype: int32

### **Outros métodos úteis**

Temos outros métodos interessantes para trabalharmos com séries.

In [76]:
np.random.seed(42)
notas = pd.Series(np.random.randint(3,10,30))
notas

0     9
1     6
2     7
3     9
4     5
5     7
6     7
7     9
8     4
9     5
10    9
11    5
12    5
13    7
14    6
15    5
16    8
17    7
18    4
19    6
20    8
21    8
22    4
23    6
24    7
25    3
26    6
27    4
28    8
29    7
dtype: int32

#### **Métodos Básicos:**

- head(): Exibe os primeiros elementos;
- tail(): Exibe os últimos elementos;
- describe(): Fornece estatísticas descritivas (média, desvio-padrão, mínimo, máximo, etc.);
- unique: Retorna os valores únicos na Série;
- value_counts(): Conta a frequência de cada valor na Series.

In [80]:
#Ver as primeiras 5 linhas
notas.head()

0    9
1    6
2    7
3    9
4    5
dtype: int32

In [83]:
#Ver as últimas 5 linhas
notas.tail()

25    3
26    6
27    4
28    8
29    7
dtype: int32

In [84]:
#Ver a estatística descritiva da série
notas.describe()

count    30.000000
mean      6.366667
std       1.711691
min       3.000000
25%       5.000000
50%       6.500000
75%       7.750000
max       9.000000
dtype: float64

In [85]:
#Ver os valores únicos da série
notas.unique()

array([9, 6, 7, 5, 4, 8, 3])

In [86]:
#Contar a frequência de cada valor na série
notas.value_counts()

7    7
6    5
5    5
9    4
4    4
8    4
3    1
Name: count, dtype: int64

In [87]:
#Frequência relativa de cada valor
notas.value_counts()/notas.size

7    0.233333
6    0.166667
5    0.166667
9    0.133333
4    0.133333
8    0.133333
3    0.033333
Name: count, dtype: float64

In [88]:
#Frequência relativa de cada valor
notas.value_counts(normalize=True)

7    0.233333
6    0.166667
5    0.166667
9    0.133333
4    0.133333
8    0.133333
3    0.033333
Name: proportion, dtype: float64

#### **Método map:**

Aplica uma função ou um mapeamento (um dicionário) a todos os elementos da Series.

In [None]:
#Exemplo dizer se uma nota é par ou ímpar


In [None]:
# Substitui valores de acordo com um dicionário


#### **Método apply:**

O método apply() em pandas é uma poderosa função que permite aplicar uma função ao longo de um eixo de um DataFrame ou de uma Series.

Ele é extremamente versátil e pode ser usado para executar funções personalizadas, funções do Python embutidas (sum, max, min, len, etc.) e funções lambda.

In [None]:
#Exemplo dizer se uma nota é par ou ímpar


#### **sort_values:**

Classifica os valores na Series.

Podemos colocar o ```inplace = True``` para garantir que a mudança foi feita na própria série.

#### **sort_index:**

Classifica pelos índices da Series.

#### Métodos de Estatística:

Existem diferentes métodos, tais como mean(), median(), std(), var(), sum(): Calculam a média, mediana, desvio padrão, variância e soma dos elementos da Series, respectivamente.

In [None]:
#Calculando a média das notas


In [None]:
#Calculando a mediana das notas


In [None]:
#Calculando a moda das notas


In [None]:
#Calculando o desvio-padrão das notas


In [None]:
#Calculando a variância


In [None]:
#Somando todos os valores


Existem também os métodos **idxmax()** e **idxmin()** que retornam o índice onde o valor máximo ou mínimo ocorre na série.

Podemos ainda calcular a soma cumulativa **cumsum()** e o produto cumulativo **cumprod()**:

## **DataFrame**

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).

Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum).

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente:

**Obs.:** As colunas do dataframes são séries. Assim, tudo que vimos para as séries, se estende individualmente para cada coluna!

In [None]:
# Gerando uma matriz (5,3) de números inteiros


In [None]:
#Transformando essa matriz em um DF


In [None]:
# Conseguimos definir nomes pros índices e colunas


### **Acessando posições do dataframe:**

- .loc(): acessamos os rótulos com os **nomes** dos índices e colunas;
- .iloc(): acessamos os índices numéricos das colunas e índice.

### **Selecionando colunas específicas:**

Podemos selecionar uma coluna específica ou colunas específicas do DF.

In [None]:
# Atribuição de valores


As colunas do dataframe são séries. Assim, tudo que vimos para as séries, se estende individualmente para cada coluna!

### Outros métodos para DataFrames

Como uma coluna de um DF é uma Série, a maioria dos métodos vistos anteriormente, são também aplicados aos DF.
- head(), tail(), describe(), shape, iloc[], set_index()

Outros nós veremos com mais detalhes na próxima aula. Contudo, há 2 que trazem informações sobre nosso DF: info() e dtypes.


Podemos ainda, trocar o tipo de alguma variável. Exemplo, trocar as variáveis de Prova (notas) para numéricos.

## Lendo e escrevendo conjuntos de dados com pandas

A forma mais comum de se construir um dataframe é a partir da **leitura de um arquivo**

Em geral, queremos ler arquivos já estruturados como base de dados, em formatos como .csv, .xls, .xlsx, .ods, .txt, .json, etc.

O pandas é capaz de ler todos esses formatos, com funções específicas!

### Arquivos CSV

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

Vamos criar um dataframe usando pandas com os dados do arquivo `alunos.csv`.

In [None]:
# Lendo um arquivo CSV e criando um DataFrame


In [None]:
#Filtrando os alunos com frequência acima de 18


Vamos criar um dataframe usando pandas com os dados do arquivo `alunos2.csv`

Ou seja: é preciso estarmos sempre atentos ao separador dos dados!

### XLS ou XLSX

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html

Vamos criar um dataframe usando pandas com os dados do arquivo `sample.xlsx`

#### Leitura com seleção de planilha

Vamos criar um dataframe usando pandas com os dados da planilha `velocidade` da pasta de trabalho `sample.xlsx` 

#### Leitura com seleção de cabeçalho

Vamos criar um dataframe usando pandas com os dados da planilha `Velocidade` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho

#### Leitura com definção de nomes de colunas

Vamos criar um dataframe usando pandas com os dados da planilha `Velocidade` da pasta de trabalho `sample.xlsx`. Porém vamos eliminar a primeira linha de cabeçalho e definir os nomes das colunas.

#### Leitura da internet

Vamos criar um dataframe usando pandas com os dados de uma planilha disponivel na página de dados abertos do INPI.

https://www.gov.br/inpi/pt-br/acesso-a-informacao/dados-abertos/conjuntos-corporativos-de-dados-abertos/pedidos-de-patentes-pendentes-de-decisao-final/pedidos-de-patentes-pendentes-de-decisao-final-cgrec.xlsx

### JSON

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html

Vamos criar um dataframe usando pandas com os dados do arquivo json `selic.json`.

Vamos criar um dataframe usando pandas com os dados da selic em formato json vindo de uma API do Banco Central

https://api.bcb.gov.br/dados/serie/bcdata.sgs.4390/dados?formato=json

In [None]:
f

### TXT de tamanho fixo

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_fwf.html

Vamos criar um dataframe usando pandas com os dados em formato TXT (Com colunas de tamanho fixo) disponíveis por FTP pelo Banco Central.

https://www.bcb.gov.br/pom/spb/Down/ftp/prod/ASPB0004.TXT

## Escrevendo dados de um arquivo

### CSV

Separado por vírgula

XLSX

___
## Vamos praticar?

Leia o arquivo `aluno2.csv`, apenas as colunas RA, Prova_1, Prova_2, Prova_3, Prova_4 realize a média das notas da prova e salve em um arquivo excel (xlsx) as colunas RA e Média.

In [None]:
# leitura especificando separador decimal
