# Jupyter Notebook - Um Overview

Dheny R. Fernandes
- **E-mail**: profdheny.fernandes@fiap.com.br
- **LinkedIn**: https://www.linkedin.com/in/dhenyfernandes/
- **Github**: 

## Agenda

- [O que é um Jupyter Notebook?](#parte_1)

- [Instalando o Jupyter Notebook](#parte_2)

- Executando o Jupyter Notebook

- Explicando a Interface

- [Keyboard shortcuts](#parte_3)

- [Markdown](#parte_4)

- [Imagens e fórmulas](#parte_5)

- [Uma breve introdução ao Pandas](#parte_6)

- [Exercícios](#parte_7)

- [Links úteis](#parte_8)

## Definição<a id='parte_1'></a>

Um notebook integra código e sua saída num único documento que combina visualização, narrativa em texto, equações matemáticas e outras mídias ricas. Em outras palavras: é um único documento em que você executa código, apresenta a saída e adiciona explicações, fórmulas, gráficos e outros, deixando seu trabalho mais transparente, entendível e fácil de compartilhar. 

## Instalação<a id='parte_2'></a>

A maneira mais simples de instalar o Jupyter é via instalaçáo do [Anaconda](https://www.anaconda.com/download/).

Entretanto, caso você seja um usuário mais avançado de Python, pode fazer a instalação do pacote manualmente via pip: 

* pip install jupyter

## Keyboard Shortcuts<a id='parte_3'></a>

* **Esc** e **Enter** são usadas para alternar a célula entre modo de comando (a seleção fica fora da célula) e modo de edição (a seleção fica interna - para escrever código ou markdown)

* Em modo de comando:
    1. As setas para cima e para baixo navegam pelas células
    2. Pressione A ou B para inserir uma nova célula acima ou abaixo da célula atual
    3. M irá transformar a célula ativa numa célula Markdown
    4. Y irá transformar a célula ativa numa célula de código
    5. D (2x) irá deletar a célula ativa
    6. Z desfaz a deleção da célula
    7. Segurar Shift e pressione seta para cima ou para baixo para selecionar múltiplas células de uma vez. Com múltiplas células selecionadas, Shift+M irá fazer um merge da seleção
    

## Markdown<a id='parte_4'></a>

# Cabeçalho nível 1

## Cabeçalho nível 2

Este é apenas um texto puro. É possível adicionar êmfase usando *itálico*, **negrito** ou __negrito__

Parágrafos podem ser separados por uma linha em branco

* As vezes você quer usar bullets
* que podem ser feitos usando asteríscos

1. As listas podem ser numeradas também
2. se você as quer de maneira ordenada

[É possível incluir links externos](https://www.python.org/)

Códigos inline usam um acento grave: `import pandas as pd` e bloco de códigos usam três acentos graves:

```
def exemplo(x):
    y = x
    return y
```

## Imagens e Fórmulas<a id='parte_5'></a>

Podemos adicionar imagens de páginas da internet da seguinte maneira:

![Símbolo do Python](https://miro.medium.com/v2/resize:fit:1400/1*ycIMlwgwicqlO6PcFRA-Iw.png)

Já adicionar imagens a partir do nosso computador é relativamente simples também:

<img src="img/logo.png" />

As fórmulas são construídas a partir da linguagem latex, que é um sistema de composição de alta qualidade. Veja a documentação oficial [aqui](https://www.latex-project.org/). 

Aprender o latex foge do escopo dessa aula, mas no final eu deixei alguns links para consulta. A título de exemplo, veja as seguintes fórmulas:

- Função de Kernel RBF usada no SVM:

$\phi\gamma(x, \ell) = exp(-\gamma\|x-\ell\|^2)$

- Função que normaliza os dados usando a técnica chamada MinMaxScaler:

\begin{align}
x = \frac{x - min}{max - min}
\end{align}

## Introdução ao Pandas<a id='parte_6'></a>

Pandas é uma biblioteca que contém estrutura de dados de alto nível e ferramentas de manipulação projetadas para tornar análise de dados rápida e fácil em Python.

Para começar a entender Pandas é preciso compreender e ficar confortável com suas duas principais estrutura de dados: Series e DataFrame.

Série: uma serie é um objeto 1D que contém um array de dados e é associado à um índice. Veja o exemplo abaixo:

In [1]:
from pandas import Series, DataFrame
import pandas as pd
obj = Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

É possível recuperar os valores e o índice de uma série através de seus atributos:

In [2]:
print(obj.values)
print(obj.index) 

[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)


Pandas permite a realização de operações vetorizadas e fácil integração com as funções do Numpy:

In [3]:
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c']) #especificando o índice
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [5]:
import numpy as np
print(obj2[(obj2 > 0) & (obj2 < 5)])
print()
print(obj2 * 2)
print()
print(np.exp(obj2))

d    4
c    3
dtype: int64

d     8
b    14
a   -10
c     6
dtype: int64

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64


É possível criar uma Serie a partir de um dicionário:

In [6]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

Quando passa apenas um dicionário, o índice na série resultante terá as chaves dos dicionários na ordem escrita:

In [7]:
states = ['Oregon', 'Texas','California', 'Ohio']
obj4 = Series(sdata, index=states)
obj4

Oregon        16000.0
Texas         71000.0
California        NaN
Ohio          35000.0
dtype: float64

Um DataFrame representa uma estrutura de dados tabular contendo uma coleção ordenada de colunas, sendo que cada uma pode ser de um tipo diferente. Além disso, ele possui índice de linha e coluna.

Existem diversas maneiras de se construir um DataFrame. Uma das mais comuns é a partir de um dicionário de listas ou arrays de mesmo tamanho:

In [8]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
df = DataFrame(data)
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


É possível informar a sequencia das colunas no DataFrame e, se houver uma coluna sem dados, seus valores serão NaN. É possível definir o índice também:

In [9]:
df2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                index=['one', 'two', 'three', 'four', 'five'])
df2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


É possível retornar uma coluna de um DataFrame como um objeto Serie através da notação de dicionário ou atributo

In [11]:
print(df['state'])
print()
print(df.year)

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
Name: state, dtype: object

0    2000
1    2001
2    2002
3    2001
4    2002
Name: year, dtype: int64


Para recuperar uma linha, usamos loc e iloc. O primeiro é para índice baseado em string e o segundo para índice baseado em inteiro:

In [13]:
print(df2.loc['four']) #label
print()
print(df.iloc[0]) #int

year       2001
state    Nevada
pop         2.4
debt        NaN
Name: four, dtype: object

state    Ohio
year     2000
pop       1.5
Name: 0, dtype: object


Podemos modificar os valores de colunas através de atribuição:

In [15]:
df2['debt'] = np.arange(len(df2))
df2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4


Atribuir uma coluna que não existe a um DataFrame irá criar uma nova coluna:

In [16]:
df2['eastern'] = df2.state == 'Ohio'
df2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,0,True
two,2001,Ohio,1.7,1,True
three,2002,Ohio,3.6,2,True
four,2001,Nevada,2.4,3,False
five,2002,Nevada,2.9,4,False


Para apagar uma coluna, use del:

In [17]:
del df2['eastern']
df2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4


Para recuperar os valores de um DataFrame usamos a mesma estrutura vista em Series:

In [18]:
df.values

array([['Ohio', 2000, 1.5],
       ['Ohio', 2001, 1.7],
       ['Ohio', 2002, 3.6],
       ['Nevada', 2001, 2.4],
       ['Nevada', 2002, 2.9]], dtype=object)

É possível mapear uma função a todos os elementos de um DataFrame:

In [19]:
df = DataFrame(np.random.randn(4, 3), columns=list('bde'),
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df

Unnamed: 0,b,d,e
Utah,-1.060845,-1.100895,0.222415
Ohio,-0.136356,1.156053,-1.787082
Texas,0.313419,-1.657344,-0.337408
Oregon,-0.646232,1.032646,0.779317


In [20]:
np.abs(df) #retorna valor absoluto

Unnamed: 0,b,d,e
Utah,1.060845,1.100895,0.222415
Ohio,0.136356,1.156053,1.787082
Texas,0.313419,1.657344,0.337408
Oregon,0.646232,1.032646,0.779317


Outra frequente operação é aplicar uma função nos arrays de cada linha ou coluna. Apply faz isso:

In [22]:
f = lambda x: x.max() - x.min()
print(df.apply(f))
print()
print(df.apply(f, axis=1))

b    1.374264
d    2.813397
e    2.566398
dtype: float64

Utah      1.323310
Ohio      2.943135
Texas     1.970763
Oregon    1.678878
dtype: float64


É possível aplicar funções elemento-a-elemento. Para isso, usa-se applymap:

In [23]:
format2 = lambda x: '%.2f' % x
df.applymap(format2)

Unnamed: 0,b,d,e
Utah,-1.06,-1.1,0.22
Ohio,-0.14,1.16,-1.79
Texas,0.31,-1.66,-0.34
Oregon,-0.65,1.03,0.78


Para ordenar uma coluna, ou linha, use o método sort_values:

In [26]:
df.sort_values(by=['b'])

Unnamed: 0,b,d,e
Utah,-1.060845,-1.100895,0.222415
Oregon,-0.646232,1.032646,0.779317
Ohio,-0.136356,1.156053,-1.787082
Texas,0.313419,-1.657344,-0.337408


A função Rank cria um índice que pode ser ascendente ou descendente:

In [27]:
data = {'name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'], 
        'nota': [8, 7, 7.5, 10, 5]}
df4 = DataFrame(data)
print(df4)
df4['rank'] = df4['nota'].rank(ascending=0)
df4.sort_values('rank')

    name  nota
0  Jason   8.0
1  Molly   7.0
2   Tina   7.5
3   Jake  10.0
4    Amy   5.0


Unnamed: 0,name,nota,rank
3,Jake,10.0,1.0
0,Jason,8.0,2.0
2,Tina,7.5,3.0
1,Molly,7.0,4.0
4,Amy,5.0,5.0


Pandas possui um vasto conjunto de métodos estatísticos e matemáticos. Vejamos:

In [28]:
df5 = DataFrame([[1.4, np.nan], [7.1, -4.5],
                [np.nan, np.nan], [0.75, -1.3]],
               index=['a', 'b', 'c', 'd'],
               columns=['one', 'two'])
print(df5)
print(df5.sum())
print(df5.sum(axis=1))
print(df5.count())

    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3
one    9.25
two   -5.80
dtype: float64
a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64
one    3
two    2
dtype: int64


O método describe() fornece um resumo estatístico dos dados:

In [29]:
df5.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


Dados faltantes são comuns em muitas aplicações de análises de dados. Pandas foi projetado para lidar com isso o menos dolorido possível:

In [32]:
data = DataFrame([[1., 6.5, 3.], [1., np.nan, np.nan],
                  [np.nan, np.nan, np.nan], [np.nan, 6.5, 3.]])
print(data)
cleaned = data.dropna()
print()
print('\n',cleaned)
print()
data.dropna(how='all')

     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
2  NaN  NaN  NaN
3  NaN  6.5  3.0


      0    1    2
0  1.0  6.5  3.0



Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


É possível preencher os valores faltantes também:

In [33]:
print(data.fillna(0))
print(data.fillna(data.mean()))

     0    1    2
0  1.0  6.5  3.0
1  1.0  0.0  0.0
2  0.0  0.0  0.0
3  0.0  6.5  3.0
     0    1    2
0  1.0  6.5  3.0
1  1.0  6.5  3.0
2  1.0  6.5  3.0
3  1.0  6.5  3.0


Os dados contidos no Pandas podem ser combinados de algumas maneiras:

* Merge: conecta linhas em DataFrames baseado em uma ou mais chaves. Operações join.

* Concat: ‘cola’ objetos a partir de um eixo


Iniciando pelo merge, considere as seguintes tabelas:

In [35]:
import pandas as pd
df1 = pd.DataFrame({
'Nome':['João', 'João', 'Pedro' , 'Caio'], 
'Telefone': ['12121', '343434', '565656', '787878'], 
'Carros': ['azul', 'preto', 'verde' , 'amarelo']})

df1

Unnamed: 0,Nome,Telefone,Carros
0,João,12121,azul
1,João,343434,preto
2,Pedro,565656,verde
3,Caio,787878,amarelo


In [36]:
df2 = pd.DataFrame({
'Nome':['João', 'Marcelo', 'Thiago' , 'Caio'],  
'Irmãos': ['1', '3', '2' , '2']})

df2

Unnamed: 0,Nome,Irmãos
0,João,1
1,Marcelo,3
2,Thiago,2
3,Caio,2


O merge segue a teoria dos conjuntos para agrupar dois datasets distintos. Observe a imagem:

<img src="img/merge.png" />

In [38]:
#inner
m = pd.merge(df1, df2, how = 'inner', on = 'Nome')
m

Unnamed: 0,Nome,Telefone,Carros,Irmãos
0,João,12121,azul,1
1,João,343434,preto,1
2,Caio,787878,amarelo,2


In [39]:
#outer
m = pd.merge(df1, df2, how = 'outer')
m

Unnamed: 0,Nome,Telefone,Carros,Irmãos
0,João,12121.0,azul,1.0
1,João,343434.0,preto,1.0
2,Pedro,565656.0,verde,
3,Caio,787878.0,amarelo,2.0
4,Marcelo,,,3.0
5,Thiago,,,2.0


Um merge “left” ou “right” depende de qual tabela você deixa na direita ou esquerda. Para o seguinte cenário faremos um merge do tipo “left”. Mas o mesmo resultado pode ser obtido com um merge “right” trocando a posição das tabelas no método “merge”.

In [41]:
# Obtém o mesmo resultado
m = pd.merge(df1, df2, how = 'left', on = 'Nome')
m = pd.merge(df2, df1, how = 'right', on = 'Nome')
m

Unnamed: 0,Nome,Irmãos,Telefone,Carros
0,João,1.0,12121,azul
1,João,1.0,343434,preto
2,Pedro,,565656,verde
3,Caio,2.0,787878,amarelo


O método concat(), como dito, concatena os dados a partir de um determinado eixo:

In [42]:
pd.concat([df1, df2])

Unnamed: 0,Nome,Telefone,Carros,Irmãos
0,João,12121.0,azul,
1,João,343434.0,preto,
2,Pedro,565656.0,verde,
3,Caio,787878.0,amarelo,
0,João,,,1.0
1,Marcelo,,,3.0
2,Thiago,,,2.0
3,Caio,,,2.0


Pandas provê alguns métodos de leitura de arquivos externos. A tabela abaixo mostra os métodos:
<img src="img/read.png" />

Uma importante característica desses métodos é a Inferência de Tipo. Com ela, não há necessidade de especificar qual coluna é numérica, string ou booleana. 

In [44]:
poke = pd.read_csv('data/pokemon.csv')
poke.head()#mostra as 5 primeiras linhas

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False


## Exercícios<a id='parte_7'></a>

### Manipulação de Dados usando Pandas

Usando o dataset Pokemon.csv, faça:

    1) Verifique em qual(is) coluna(s) existem valores faltantes
    2) Preencha os valores faltantes da coluna Type 2 com os valores correspondentes da coluna Type 1
    3) Crie um DataFrame a partir dos dados originais contendo apenas pokemons lendários. Imprima os 5 primeiros
    4) Use apply/applymap para passar todos os valores das colunas Name, Type 1 e Type 2 para minúscula

In [None]:
# Resposta 1

In [None]:
# Resposta 2

In [None]:
# Resposta 3

In [None]:
# Resposta 4

## Links Úteis<a id='parte_8'></a>

Seguem alguns links úteis para estudo:

1. [Documentação](https://docs.python.org/3/) oficial do Python
2. [Documentação](https://pandas.pydata.org/docs/) oficial do Pandas
3. [Documentação](https://jupyter-notebook.readthedocs.io/en/stable/notebook.html) oficial do Jupyter Notebook
4. Um [guia](https://www.markdownguide.org/getting-started/) de como usar o markdown no jupyter