# Revisão - Técnicas de Programação I

In [None]:
from prettytable import PrettyTable

### Git

#### Setup

Nome do usuário

`git config --global user.name “[firstname lastname]”`

E-mail do usuário

`git config --global user.email “[valid-email]”`

#### Clonando um repositório

Passe a url do respositório

`git clone [url]`

#### Estágio e snapshot

Mostre as modificações de arquivos, arquivos `staged` para o próximo `commit`

`git status`

Faça o `commit` do conteúdo `staged` como um snapshot do projeto

`git commit`

Adicione um arquivo para `staged` utilizando:

`git add [arquivo]`


#### Branch e Merge

Mostre a lista de `branches`

`git branch`

Troque para uma nova branch do projeto

`git checkout`

Junte as histórias de uma branch com a branch corrente

`git merge [branch]`

Mostre todos os commits da branch atual

`git log`

#### Update e compartilhamento

Transmita as informações da branch local para o repositório remoto (e.g. GitHub)

`git push`

Capture e junte (`merge`) os `commits` realizados na branch remota (atualização de código).

`git pull`

### Numpy
NumPy é uma biblioteca que permite a computação científica em Python.

Permite manipular de forma eficiente arrays multidimensionais, além de diversas funções e métodos para trabalhar com esses arrays!

#### Criando arrays

In [None]:
import numpy as np
# <np.array(<lista>)>
# Vetores, arrays unidimensionais
# São semelhantes a uma lista simples em Python
# Tão semelhantes que criamos a partir de uma lista!
a = np.array([1, 2, 3])
print('a', a)

ls = [4, 5, 6]
b = np.array(ls)
print('b', b)

# Podemos criar arrays multidimensionais
# 2D, matriz bidimensional
matriz1 = np.array([
    [1, 2],
    [3, 4]
]
)
print('matriz1')
print(matriz1)

# Ou tridimensionais
matriz2 = np.array([[
    [1, 2],
    [3, 4]
  ],[
    [1, 2],
    [3, 4]
  ]
]
)
print('matriz2')
print(matriz2)

a [1 2 3]
b [4 5 6]
matriz1
[[1 2]
 [3 4]]
matriz2
[[[1 2]
  [3 4]]

 [[1 2]
  [3 4]]]


#### Placeholders
Como as dimensões dos arrays são fixas é muito comum inicializar um array com tamanho predefinido. Diferente das listas em Python que conseguimos modificar (`append`, `extend`)!

In [None]:
# Array de zeros
# <np.zeros(<shape>)>
print('zeros, 3, 2')
print(np.zeros((3, 2)))

print('zeros, 2, 3, 2')
print(np.zeros((2, 3, 2)))
print('-'*32)

# Array de uns (1)
# <np.ones(<shape>, dtype=<tipo>)>
print('uns, 2, 2, int')
np.ones((2, 2), dtype=int)

print('uns, 2, 2, float')
print(np.ones((2, 2), dtype=float))
print('-'*32)

# Array com uma constante
# <np.full(<shape>, <constante>)>
print('Array de constante')
print(np.full((2, 3), 7)) # Troque de int para float para ver o que acontece
print('-'*32)

# Array de valores igualmente espaçados
# <np.arange(<start>, <stop>, <step>)>
print('arange')
print(np.arange(0, 5, 0.5))
print('-'*32)

# Espaço linear
# <np.linspace(<start>, <stop>, <n_samples>)>
print('linspace')
print(np.linspace(0, 5, 11))
print('-'*32)

# Matriz identidade
# <np.eye(<tamanho>)>
print('Identidade')
print(np.eye(3))
print('-'*32)

# Matriz vazia
# <np.empty(<shape>)>
print('Vazia')
print(np.empty((2, 3)))

zeros, 3, 2
[[0. 0.]
 [0. 0.]
 [0. 0.]]
zeros, 2, 3, 2
[[[0. 0.]
  [0. 0.]
  [0. 0.]]

 [[0. 0.]
  [0. 0.]
  [0. 0.]]]
--------------------------------
uns, 2, 2, int
uns, 2, 2, float
[[1. 1.]
 [1. 1.]]
--------------------------------
Array de constante
[[7 7 7]
 [7 7 7]]
--------------------------------
arange
[0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5]
--------------------------------
linspace
[0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5 5. ]
--------------------------------
Identidade
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
--------------------------------
Vazia
[[3.5e-323 3.5e-323 3.5e-323]
 [3.5e-323 3.5e-323 3.5e-323]]


#### Tipos de dados


In [None]:
np.int64
np.int32
np.int16
np.int8
np.uint64
np.uint32
np.uint16
np.uint8
np.float64
np.float32
np.float16 
object # Python object

object

**Limite de cada tipo númerico**

In [None]:
table = PrettyTable()
table.field_names = ['nome', 'min', 'max']

tipos = {
  'int64': np.int64,
  'int32': np.int32,
  'int16': np.int16,
  'int8': np.int8,
  'uint64': np.uint64,
  'uint32': np.uint32,
  'uint16': np.uint16,
  'uint8': np.uint8,
  'float64': np.float64,
  'float32': np.float32,
  'float16': np.float16
}
for nome, tipo in tipos.items():
  if 'int' in nome:
    info = np.iinfo(tipo)
    table.add_row([nome, info.min, info.max])
  else:
    info = np.finfo(tipo)
    table.add_row([nome, info.min, info.max])

table.align['min'] = 'l'
table.align['max'] = 'l'
print(table)

+---------+--------------------------+-------------------------+
|   nome  | min                      | max                     |
+---------+--------------------------+-------------------------+
|  int64  | -9223372036854775808     | 9223372036854775807     |
|  int32  | -2147483648              | 2147483647              |
|  int16  | -32768                   | 32767                   |
|   int8  | -128                     | 127                     |
|  uint64 | 0                        | 18446744073709551615    |
|  uint32 | 0                        | 4294967295              |
|  uint16 | 0                        | 65535                   |
|  uint8  | 0                        | 255                     |
| float64 | -1.7976931348623157e+308 | 1.7976931348623157e+308 |
| float32 | -3.4028235e+38           | 3.4028235e+38           |
| float16 | -65500.0                 | 65500.0                 |
+---------+--------------------------+-------------------------+


#### Inspeção do array

In [None]:
matriz1 = np.random.random((2, 3, 4))
# Dimensões do array
print('shape')
print(matriz1.shape)
print('-'*32)

# Tamanho do array -> Tamanho da primeira dimensão!
print('len')
print(len(matriz1))
print('-'*32)

# Número de dimensões do array
# Seria como descobrir quantos elementos temos depois de realizar o shape!
# len(matriz1.shape)
print('ndim')
print(matriz1.ndim)
print('-'*32)

# Número de elementos dentro do array
print('size')
print(matriz1.size)
print('-'*32)

# Tipo de dados do array
print('dtype')
print(matriz1.dtype)
print('-'*32)

# Convertendo o tipo do array
# <array>.astype(<tipo>)
print('astype int')
print(matriz1.astype(np.int16))

print('astype float16')
print(matriz1.astype(np.float16))
print('-'*32)

shape
(2, 3, 4)
--------------------------------
len
2
--------------------------------
ndim
3
--------------------------------
size
24
--------------------------------
dtype
float64
--------------------------------
astype int
[[[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]

 [[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]]
astype float16
[[[0.09344 0.3228  0.4412  0.7163 ]
  [0.627   0.955   0.7466  0.864  ]
  [0.3508  0.1792  0.7065  0.8516 ]]

 [[0.3474  0.985   0.3184  0.1472 ]
  [0.496   0.6294  0.893   0.298  ]
  [0.05432 0.5356  0.3174  0.084  ]]]
--------------------------------


#### Operações aritiméticas

In [None]:
a = np.array([10, 5, 20])
b = np.array([20, 10, 30])

# Subtração
print('Subtração')
print(a - b)
print(np.subtract(a, b))

# Adição
print('Adição')
print(a + b)
print(np.add(a, b))

# Divisão
print('Divisão')
print(a / b)
print(np.divide(a, b))

# Multiplicação
print('Multiplicação')
print(a * b)
print(np.multiply(a, b))

# Exponencial
print('Exponencial')
print(np.exp(a))

# Raiz quadrada
print('Raiz quadrada')
print(np.sqrt(a))

# Log
print('Log')
print(np.log(a))

Subtração
[-10  -5 -10]
[-10  -5 -10]
Adição
[30 15 50]
[30 15 50]
Divisão
[0.5        0.5        0.66666667]
[0.5        0.5        0.66666667]
Multiplicação
[200  50 600]
[200  50 600]
Exponencial
[2.20264658e+04 1.48413159e+02 4.85165195e+08]
Raiz quadrada
[3.16227766 2.23606798 4.47213595]
Log
[2.30258509 1.60943791 2.99573227]


**Produto escalar**

Entre dois vetores

In [None]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
arr1.dot(arr2)

32

**Produto de matriz**

Entre duas matrizes

In [None]:
mat1 = np.random.randint(0, 10, (3, 2))
mat2 = np.random.randint(0, 10, (2, 3))

print(mat1 @ mat2)
print(np.matmul(mat1, mat2))

[[50 76 24]
 [58 83 27]
 [32 28 12]]
[[50 76 24]
 [58 83 27]
 [32 28 12]]


#### Comparações e Mascáras

In [None]:
np.random.seed(42)
mat1 = np.random.randint(0, 10, (3, 2))
mat1

array([[6, 3],
       [7, 4],
       [6, 9]])

In [None]:
# Comparações `>`, `>=`, `<=`, `<`, `==`
print(mat1 == 3)
print(mat1 >= 6)

[[False  True]
 [False False]
 [False False]]
[[ True False]
 [ True False]
 [ True  True]]


In [None]:
# Comparando se um elemento do array está dento de uma lista de valores
# <np.isin(<array>, <lista>)>
np.isin(mat1, [3, 9])

array([[False,  True],
       [False, False],
       [False,  True]])

**Múltiplas comparações**

Se for o operador `and` use `&`

Para o operador `or` use `|`

In [None]:
print('Operador &')
print((mat1 > 5) & (mat1 <8))

print('Operador |')
print((mat1 < 5) | (mat1 > 13))

Operador &
[[ True False]
 [ True False]
 [ True False]]
Operador |
[[False  True]
 [False  True]
 [False False]]


**Mascaras**

In [None]:
# <array>[<filtro>]
print(mat1[ mat1 > 8 ])

[9]


#### Funções de agregações

In [None]:
np.random.seed(42)
mat1 = np.random.randint(0, 10, (3, 2))
mat1

array([[6, 3],
       [7, 4],
       [6, 9]])

In [None]:
# Soma total
print('Soma total')
print(mat1.sum())
print('-'*32)

# Soma por linha axis=1
print('Soma linha')
print(mat1.sum(axis=1))
print('-'*32)

# Soma por coluna axis=0
print('Soma coluna')
print(mat1.sum(axis=0))
print('-'*32)

### Note que o axis é valido para as operações seguintes ###

# Maximo
print('Máximo')
print(mat1.max())
print('-'*32)

# Minimo
print('Minimo')
print(mat1.min())
print('-'*32)

# Média
print('Média')
print(mat1.mean())
print('-'*32)

# Quantils, sendo 0.5 a mediana
print('Q50, mediana')
print(np.quantile(mat1, 0.5))
print('-'*32)

# Desvio padrão
print('Desvio padrão')
print(mat1.std())
print('-'*32)


Soma total
35
--------------------------------
Soma linha
[ 9 11 15]
--------------------------------
Soma coluna
[19 16]
--------------------------------
Máximo
9
--------------------------------
Minimo
3
--------------------------------
Média
5.833333333333333
--------------------------------
Q50, mediana
6.0
--------------------------------
Desvio padrão
1.950783318453271
--------------------------------


#### Manipulação de array

In [None]:
np.random.seed(42)
mat1 = np.random.randint(0, 10, (3, 2))
mat1

array([[6, 3],
       [7, 4],
       [6, 9]])

**Transposição de array**

Linhas viram colunas

Colunas viram linhas

In [None]:
mat1.T

array([[6, 7, 6],
       [3, 4, 9]])

**Redimensionamento de arrays**

In [None]:
# Transformando arrays multidimensionais em unidimensional (vetores)
mat1.ravel()

array([6, 3, 7, 4, 6, 9])

In [None]:
# Redefinindo as dimensões com reshape
mat1.reshape(2, 3)

array([[6, 3, 7],
       [4, 6, 9]])

#### Combinando arrays

In [None]:
mat = np.random.random((3, 2))
arr = np.random.random((3, 1))
np.hstack([mat, arr])

array([[0.06550597, 0.99952771, 0.96371039],
       [0.77273856, 0.5937185 , 0.06100841],
       [0.16062441, 0.51732352, 0.01685655]])

In [None]:
mat = np.random.random((3, 2))
arr = np.random.random((1, 2))
np.vstack([mat, arr])

array([[0.18769969, 0.2691636 ],
       [0.45180095, 0.65740228],
       [0.04640201, 0.61373919],
       [0.67318122, 0.62767265]])

## Pandas

De acordo com o `Tidy Data`, cada variavél é salva em sua própria coluna (e.g. `idade`). Cada linha representa uma observação/amostra (e.g. `uma pessoa`)

### Criando DataFrames

In [None]:
import pandas as pd

In [None]:
# A partir de um dicionário
pd.DataFrame(
  {
    'a': [1, 2, 3],
    'b': [20, 30, 40],
    'c': [70, 80, 29]
   }
).values

array([[ 1, 20, 70],
       [ 2, 30, 80],
       [ 3, 40, 29]])

In [None]:
# A partir de uma lista de lista
pd.DataFrame(
    data= [
     [ 1, 20, 70],
     [ 2, 30, 80],
     [ 3, 40, 29]],
    index=[1, 2, 3],  # Nomeando os indices
    columns=['a', 'b', 'c']  # Nomeando as colunas
)


Unnamed: 0,a,b,c
1,1,20,70
2,2,30,80
3,3,40,29


### Subset de observações (linhas)



In [None]:
np.random.seed(42)
df = pd.DataFrame({
    'age':    [40, 20, 20, 30, 25, 30, 21],
    'salary': [1000, 2000, 2000, 5000, 6000, 1000, 3400]
})
df

Unnamed: 0,age,salary
0,40,1000
1,20,2000
2,20,2000
3,30,5000
4,25,6000
5,30,1000
6,21,3400


**Visualizando as `n` primeiras linhas**

In [None]:
# <DataFrame>.head(<n>)
df.head(3)

Unnamed: 0,age,salary
0,40,1000
1,20,2000
2,20,2000


**Visualizando as `n` últimas linhas**

In [None]:
# <DataFrame>.tail(<n>)
df.tail(3)

Unnamed: 0,age,salary
4,25,6000
5,30,1000
6,21,3400


**Extraindo linhas de acordo com um critério lógico**

In [None]:
df[df['salary'] > 3000]

Unnamed: 0,age,salary
3,30,5000
4,25,6000
6,21,3400


**Removendo dados duplicados**

In [None]:
# Note que o indice `2` foi removido!
df.drop_duplicates()

Unnamed: 0,age,salary
0,40,1000
1,20,2000
3,30,5000
4,25,6000
5,30,1000
6,21,3400


**Selecionando o top `n` entradas**

In [None]:
# <DataFrame>.nlargest(<n>, <coluna>)
display(df.nlargest(3, 'salary'))

display(df.nlargest(3, 'age'))

Unnamed: 0,age,salary
4,25,6000
3,30,5000
6,21,3400


Unnamed: 0,age,salary
0,40,1000
3,30,5000
5,30,1000


**Selecionando as `n` menores entradas**

In [None]:
# <DataFrame>.nsmallest(<n>, <coluna>)
display(df.nsmallest(3, 'salary'))

display(df.nsmallest(3, 'age'))

Unnamed: 0,age,salary
0,40,1000
5,30,1000
1,20,2000


Unnamed: 0,age,salary
1,20,2000
2,20,2000
6,21,3400


### Subset de variáveis (colunas)

In [None]:
pessoas = ['João'] * 10 + ['Maria'] * 10 + ['José'] * 10
df = pd.DataFrame(
    {
        'nome': pessoas,
        'prova1': np.random.randint(0, 10, 30),
        'prova2': np.random.randint(0, 10, 30),
        'prova3': np.random.randint(0, 10, 30),
    }
)

**Selecionando algumas colunas**

In [None]:
df[['nome', 'prova1']].head()

Unnamed: 0,nome,prova1
0,João,6
1,João,3
2,João,7
3,João,4
4,João,6


### Selecionando colunas e linhas

In [None]:
pessoas = ['João'] * 10 + ['Maria'] * 10 + ['José'] * 10
df = pd.DataFrame(
    {
        'nome': pessoas,
        'prova1': np.random.randint(0, 10, 30),
        'prova2': np.random.randint(0, 10, 30),
        'prova3': np.random.randint(0, 10, 30),
    }
)

In [None]:
df.loc[0: 5, 'nome']

0    João
1    João
2    João
3    João
4    João
5    João
Name: nome, dtype: object

In [None]:
# Utilizando máscaras
df.loc[(df['nome'] == 'João'), ['nome', 'prova1', 'prova3']]

Unnamed: 0,nome,prova1,prova3
0,João,6,2
1,João,4,2
2,João,0,3
3,João,0,7
4,João,2,5
5,João,1,7
6,João,4,0
7,João,9,7
8,João,5,3
9,João,6,0


### Ordenando valores

In [None]:
# <DataFrame>.sort_values(<coluna(s)>, ascending=<bool>)
# Se ascending=True, ordena do maior para o menor
df.sort_values(['prova1'], ascending=False)

Unnamed: 0,nome,prova1,prova2,prova3
7,João,9,6,7
28,José,9,8,0
22,José,8,1,5
15,Maria,7,9,2
12,Maria,7,8,5
11,Maria,6,8,3
9,João,6,7,0
0,João,6,2,2
8,João,5,1,3
14,Maria,5,6,3


### Renomeando colunas

In [None]:
df.rename(columns={'prova1': 'prova 1', 'prova2': 'prova 2', 'prova3': 'prova 3'}).head()

Unnamed: 0,nome,prova 1,prova 2,prova 3
0,João,6,2,2
1,João,4,3,2
2,João,0,6,3
3,João,0,3,7
4,João,2,8,5


In [None]:
# Podemos utilizar dict comprehension
# A vantagem é que não precisamos saber quantas provas existem.
# O importante é reconhecer o padrão e descobrir como transformar esse em código
provas = [col for col in df.columns if 'prova' in col]
col_provas = {f"prova{idx}": f"prova {idx}" for idx, col in enumerate(provas, start=1)}
df.rename(columns=col_provas).head()

Unnamed: 0,nome,prova 1,prova 2,prova 3
0,João,6,2,2
1,João,4,3,2
2,João,0,6,3
3,João,0,3,7
4,João,2,8,5


#### Resetando o indice

O indice torna-se uma nova coluna no DataFrame

In [None]:
df.reset_index().head()

Unnamed: 0,index,nome,prova1,prova2,prova3
0,0,João,6,2,2
1,1,João,4,3,2
2,2,João,0,6,3
3,3,João,0,3,7
4,4,João,2,8,5


In [None]:
# Para apenas resetar e não inserir uma nova coluna
# Utilize o drop=True
df.reset_index(drop=True).head()

Unnamed: 0,nome,prova1,prova2,prova3
0,João,6,2,2
1,João,4,3,2
2,João,0,6,3
3,João,0,3,7
4,João,2,8,5


**Drop de colunas**

In [None]:
# <DataFrame>.drop(columns=<lista>)
df.drop(columns=['nome']).head()

Unnamed: 0,prova1,prova2,prova3
0,3,4,5
1,7,7,6
2,7,0,9
3,6,4,6
4,2,2,9


### Reshape do DataFrame

**Concat**

Quando queremos realizar um `append` nos dados expandindo o número de amostras (concat vertical), ou expandir o número de features (concat horizontal).

In [None]:
df1 = pd.DataFrame({
    'a': [10, 20, 30],
    'b': [30, 40, 50],
    'c': [60, 70, 90],
    },
    index=[0, 1, 2]
)

df2 = pd.DataFrame({
    'b': [0, 1, 2],
    'c': [4, 5, 7],
    'd': [100, 200, 300]
    },
    index=[1, 2, 3]
)


In [None]:
# Vertical
# Note que ele empilha verticalmente pelo nomes iguais de coluna
pd.concat([df1, df2], axis=0)

Unnamed: 0,a,b,c,d
0,10.0,30,60,
1,20.0,40,70,
2,30.0,50,90,
1,,0,4,100.0
2,,1,5,200.0
3,,2,7,300.0


In [None]:
# Horizontal
# Note que ele empilha horizontalmente pelo nomes iguais de index
pd.concat([df1, df2], axis=1)

Unnamed: 0,a,b,c,b.1,c.1,d
0,10.0,30.0,60.0,,,
1,20.0,40.0,70.0,0.0,4.0,100.0
2,30.0,50.0,90.0,1.0,5.0,200.0
3,,,,2.0,7.0,300.0


**Pivot**

In [None]:
pessoas = ['João'] * 3 + ['Maria'] * 3 + ['José'] * 3
df = pd.DataFrame(
    {
        'nome': pessoas,
        'nota': np.random.randint(0, 10, 9),
        'prova': ['prova1', 'prova2', 'prova3'] * 3
    }
)

In [None]:
df.pivot(columns=['nome'], index='prova', values=['nota'])

Unnamed: 0_level_0,nota,nota,nota
nome,José,João,Maria
prova,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
prova1,1,4,0
prova2,2,2,7
prova3,1,0,9


### Sumarizando os dados

In [None]:
pessoas = ['João'] * 10 + ['Maria'] * 10 + ['José'] * 10
df = pd.DataFrame(
    {
        'nome': pessoas,
        'prova1': np.random.randint(0, 10, 30),
        'prova2': np.random.randint(0, 10, 30),
        'prova3': np.random.randint(0, 10, 30),
    }
)

**Value counts**

Contando o número de linhas em que cada valor único aparece, útil para variáveis categóricas (nome, id, carro, etc).

In [None]:
df['nome'].value_counts()

João     10
Maria    10
José     10
Name: nome, dtype: int64

**nunique**

Contando quantos valores únicos tempos, útil para saber quantas categorias temos nos dados.

In [None]:
# Três nomes distintos
df['nome'].nunique()

3

**Describe**

Importante para estatística descritiva dos dados
- Contagem de valores
- Media
- Desvio padrão
- Quartis (1 quartil, 2 quartil, 3 quartil)
  - Que representa os percentis (25, 50, e 75%).
- Valor máximo
- Valor mínimo

In [None]:
df.describe()

Unnamed: 0,prova1,prova2,prova3
count,30.0,30.0,30.0
mean,5.1,4.1,5.6
std,3.122223,2.916658,2.883963
min,0.0,0.0,0.0
25%,2.25,2.0,4.0
50%,5.0,4.0,6.0
75%,8.0,6.0,8.0
max,9.0,9.0,9.0


In [None]:
# Realizar a transposta pode ser uma boa para explorar essas medidas centrais
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
prova1,30.0,5.1,3.122223,0.0,2.25,5.0,8.0,9.0
prova2,30.0,4.1,2.916658,0.0,2.0,4.0,6.0,9.0
prova3,30.0,5.6,2.883963,0.0,4.0,6.0,8.0,9.0


Como padrão o describe apenas descreve variáveis categóricas.

Podemos alterar para incluir `object`, que, em geral, representa objetos do tipo string.

In [None]:
df.describe(include='object')

Unnamed: 0,nome
count,30
unique,3
top,João
freq,10


### Missing values

Há duas formas principais de corrigir dados faltantes
- Retirada dos valores
- Preenchimento dos valores

In [None]:
notas = np.random.randint(0, 10, 30)
notas2 = np.random.randint(0, 10, 30)
notas3 = np.random.randint(0, 10, 30).astype('float')
notas3[[3, 4, 8, 12, 20]] = np.nan
df = pd.DataFrame({
    'prova1': notas,
    'prova2': notas2,
    'prova3': notas3
})

**Removendo dados com NaN**

In [None]:
df_sem_nan = df.dropna()

In [None]:
print('antes do dropna', df.shape)
print('depois do dropna', df_sem_nan.shape)


antes do dropna (30, 3)
depois do dropna (25, 3)


**Preenchimento dos valores**

In [None]:
# <DataFrame>.fillna(<valor>)
df.fillna(0)

Unnamed: 0,prova1,prova2,prova3
0,4,8,2.0
1,9,0,7.0
2,0,7,4.0
3,5,3,0.0
4,5,3,0.0
5,3,4,8.0
6,7,7,9.0
7,3,4,3.0
8,7,7,0.0
9,7,9,4.0


### Agregações (groupby)

In [None]:
pessoas = ['João'] * 3 + ['Maria'] * 3 + ['José'] * 3
df = pd.DataFrame(
    {
        'nome': pessoas,
        'nota': np.random.randint(0, 10, 9),
        'prova': ['prova1', 'prova2', 'prova3'] * 3
    }
)

In [None]:
df

Unnamed: 0,nome,nota,prova
0,João,0,prova1
1,João,3,prova2
2,João,8,prova3
3,Maria,0,prova1
4,Maria,3,prova2
5,Maria,5,prova3
6,José,5,prova1
7,José,7,prova2
8,José,0,prova3


In [None]:
# <DataFrame>.groupby(<coluna(s)>).<função>
df.groupby('nome').sum()

Unnamed: 0_level_0,nota
nome,Unnamed: 1_level_1
José,10
João,7
Maria,15


In [None]:
df.groupby('nome').mean()

Unnamed: 0_level_0,nota
nome,Unnamed: 1_level_1
José,3.333333
João,2.333333
Maria,5.0


In [None]:
# Passando uma função de agregação utilizando o `agg`
df.groupby('prova').agg({'nota': ['mean', 'sum', 'max', 'min']})

Unnamed: 0_level_0,nota,nota,nota,nota
Unnamed: 0_level_1,mean,sum,max,min
prova,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
prova1,5.333333,16,7,4
prova2,3.0,9,9,0
prova3,2.333333,7,6,0


### Combinando Dados (merge)

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

In [None]:
df1 = pd.DataFrame({
    'x1': ['A', 'B', 'C'],
    'x2': [1, 2, 3]
    }
  )
df2 = pd.DataFrame({
    'x1': ['A', 'B', 'D'],
    'x3': [True, False, True]
    }
  )


**Left Join**

In [None]:
df1.merge(df2, how='left', on='x1')

Unnamed: 0,x1,x2,x3
0,A,1,True
1,B,2,False
2,C,3,


**Right join**

In [None]:
df1.merge(df2, how='right', on='x1')

Unnamed: 0,x1,x2,x3
0,A,1.0,True
1,B,2.0,False
2,D,,True


**Inner Join**

In [None]:
df1.merge(df2, how='inner', on='x1')

Unnamed: 0,x1,x2,x3
0,A,1,True
1,B,2,False


**Outer Join**

In [None]:
df1.merge(df2, how='outer', on='x1')

Unnamed: 0,x1,x2,x3
0,A,1.0,True
1,B,2.0,False
2,C,3.0,
3,D,,True
