# Aprendizado do Pandas

---

O presente notebook tem por objetivo o aprendizado da biblioteca de manipulação de dados Pandas do Python. O tutorial que eu seguirei
vão ser dos seguintes sites:

> https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/

> https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html

> https://pandas.pydata.org/pandas-docs/stable/getting_started/dsintro.html#series

# Instalando e importando o Pandas (numpy também)

---

In [1]:
# pip install pandas

import pandas as pd

import numpy as np

# Principais componentes do Pandas

---

- Series: As Series essencialmente são colunas (variáveis)
- DataFrames: Tabela multidimensional composta por colunas (Series).

## Series

### Criando uma Serie

---

Os parâmetros essenciais para a criação da **Serie** é o `data` e o `index`, sendo o último não obrigatório.

### O parâmetro `data` sendo uma lista

In [2]:
serie1 = pd.Series(data = [1, 3, 5, 7, 9])

serie1

0    1
1    3
2    5
3    7
4    9
dtype: int64

### O parâmetro `data` sendo um dicionário

In [3]:
serie2 = pd.Series(data = {'b': 1, 'a': 0, 'c': 2})

serie2

b    1
a    0
c    2
dtype: int64

### O parâmetro `data` sendo um ndarray

In [4]:
serie3 = pd.Series(data = np.random.randn(5))

serie3

0   -0.743563
1    0.192335
2   -1.383472
3    1.358648
4   -1.009805
dtype: float64

### O parâmetro `data` sendo um escalar

In [5]:
serie4 = pd.Series(data = 5.)

serie4

0    5.0
dtype: float64

### O parâmetro `index`

Para quem vem do R, como eu, o parâmetro `index` equivale como um rownames. Vamos pegar qualquer um dos exemplos acima e 
para utilizá-lo. Logo, ele deve ter o mesmo tamanho que a nossa variável, nesse caso, estamos chamando 5 número randômicos
da distribuição normal, então o tamanho do `index` também deve ser 5.

In [6]:
serie3 = pd.Series(data = np.random.randn(5), index = ["a", "b", "c", "d", "e"])

serie3

a    0.382535
b   -0.144053
c   -0.280981
d    0.106096
e    1.852089
dtype: float64

## DataFrame

---

### Criando um DataFrame a partir de um dicionário

In [23]:
d = {'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
     'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}

df1 = pd.DataFrame(data = d)

df1

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


### Criando um DataFrame a partir de uma lista

In [13]:
d = {'one': [1., 2., 3., 4.],
     'two': [4., 3., 2., 1.]}

df2 = pd.DataFrame(data = d)

df2

Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


### Criando um DataFrame a partir de uma Serie

In [16]:
df3 = pd.DataFrame(data = serie2, index = ["a", "b", "c"])

df3

Unnamed: 0,0
a,0
b,1
c,2


# Manipulação de Dados

---

Primeiro vamos criar um DataFrame genérico com algumas informações básicas.

In [28]:
dados = {"Nome": ["João", "Maria", "José", "Fulano"],
         "Idade": pd.Series([17, 22, 54, 34]),
         "Cidade": ["Belém", "Marituba", "Castanhal", "Belém"],
         "Valor 1":  np.random.randn(4),
         "Valor 2":  np.random.randn(4)}

banco = pd.DataFrame(data = dados)

banco

Unnamed: 0,Nome,Idade,Cidade,Valor 1,Valor 2
0,João,17,Belém,0.466963,0.524722
1,Maria,22,Marituba,0.826884,0.851959
2,José,54,Castanhal,1.126865,-0.39621
3,Fulano,34,Belém,-1.034252,-0.174671


## Seleção de Colunas

In [21]:
banco["Nome"]

0      João
1     Maria
2      José
3    Fulano
Name: Nome, dtype: object

In [22]:
banco.Nome

0      João
1     Maria
2      José
3    Fulano
Name: Nome, dtype: object

## Inserindo e modificando as variáveis

In [30]:
banco["Valor 3"] = banco["Valor 1"] + banco["Valor 2"]

banco["Valor 3"]

0    0.991685
1    1.678843
2    0.730655
3   -1.208923
Name: Valor 3, dtype: float64

In [33]:
banco["Logica"] = banco["Valor 1"] > 0

banco 

Unnamed: 0,Nome,Idade,Cidade,Valor 1,Valor 2,Valor 3,Logica
0,João,17,Belém,0.466963,0.524722,0.991685,True
1,Maria,22,Marituba,0.826884,0.851959,1.678843,True
2,José,54,Castanhal,1.126865,-0.39621,0.730655,True
3,Fulano,34,Belém,-1.034252,-0.174671,-1.208923,False


In [36]:
banco["foo"] = "foo"

banco

Unnamed: 0,Nome,Idade,Cidade,Valor 1,Valor 2,Valor 3,foo
0,João,17,Belém,0.466963,0.524722,0.991685,foo
1,Maria,22,Marituba,0.826884,0.851959,1.678843,foo
2,José,54,Castanhal,1.126865,-0.39621,0.730655,foo
3,Fulano,34,Belém,-1.034252,-0.174671,-1.208923,foo


## Excluindo colunas

In [35]:
del banco["Logica"]

banco

Unnamed: 0,Nome,Idade,Cidade,Valor 1,Valor 2,Valor 3
0,João,17,Belém,0.466963,0.524722,0.991685
1,Maria,22,Marituba,0.826884,0.851959,1.678843
2,José,54,Castanhal,1.126865,-0.39621,0.730655
3,Fulano,34,Belém,-1.034252,-0.174671,-1.208923
