# Python para Análise de Dados

# Numpy
O Numpy é uma biblioteca do Python de álgebra linear.   
É o bloco de construção de todas as outraas bibliotecas de análise de dados.   
É extremamente rápida, uma vez que seus principais métodos foram compilados em C.   
Por convensão usamos ```np``` para referenciar o numpy quando estivermos usando ele.

In [1]:
import numpy as np

## Criação de Vetores e Arrays

### Array   
O array é um método para criar arrays de uma e duas dimensões

In [2]:
lista = (1, 2, 3)

In [3]:
np.array(lista)

array([1, 2, 3])

In [4]:
matriz = ([1, 2, 3], [4, 5, 6], [7, 8, 9])

In [5]:
np.array(matriz)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

### Arange   
O arange é um método para criar uma sequência de números.   
É obrigatório passar dois parametros, o inicio e o fim.

In [6]:
np.arange(0, 10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

O último número que é passado não é incluido nos números gerados.   
O step seria o intervalos dos números gerados.

In [7]:
np.arange(0, 10, 2)

array([0, 2, 4, 6, 8])

### Zeros   
Cria uma matriz de zeros, deve especificar o tamanho.   
A seguir, mostra criando uma matriz de 3 elementos zerados.

In [8]:
np.zeros(3)

array([0., 0., 0.])

Para criar uma matriz n x n é só passar uma tupla como referência.

In [9]:
np.zeros((5, 5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

### Ones   
Parecido com o zeros, ele cria uma matriz ou vetor também, porém, preenchidas com um.

In [10]:
np.ones((5,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

### Eye   
Como último exemplo de formas básicas dessas matrizes, o eye nada mais é que criar a matriz identidade.

In [11]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

### Linspace   
Se semelhante ao arange, você precisa passar o inicio e o fim, mas diferente do arange que precisa passar os passos, no linspace você passa a qunatidade de números que você quer ver igualmente espaçados dentro dessa série.

In [12]:
np.linspace(0, 10, 2)

array([ 0., 10.])

In [13]:
np.linspace(0, 10, 3)

array([ 0.,  5., 10.])

### Random   
Cria números aleatórios baseados em regras diferentes.   
Usando o rand, uma "sub-biblioteca" do random,  ele vai criar números aleatórios dentro de um intervalo de  0 a 1 seguindo uma distribuição uniforme, ou seja, eles tem igual probabilidade de serem selecionados, dado que eles estão dentro de um intervalo de 0 e 1.

In [14]:
np.random.rand(5)

array([0.71932046, 0.75925129, 0.81048441, 0.59324161, 0.99835714])

Caso queira gerar de 0 a 100, por exemplo, basta multiplicar por 100.   
Diferente dos outros métodos, caso queira gerar uma matriz, não precisa passar uma tupla, é só passar um parâmetro a mais.   
Exemplo de uma matriz 5x5:

In [15]:
np.random.rand(5, 5)

array([[0.39414357, 0.80924176, 0.60347956, 0.34665482, 0.17774631],
       [0.55092458, 0.90848674, 0.26968239, 0.66881908, 0.2934226 ],
       [0.07156822, 0.91551393, 0.25360945, 0.18551065, 0.51391079],
       [0.51990832, 0.20816145, 0.52259543, 0.88506429, 0.6084951 ],
       [0.15069745, 0.98056176, 0.61573784, 0.29634126, 0.94065479]])

O randn também gera números aleatórios, porém, diferente do rand, ele tira de uma distribuição normal.

In [16]:
np.random.randn(3)

array([-0.67461746,  0.03904939, -0.32193273])

Para gerar números inteiros aleatórios usamos o randint.

In [17]:
np.random.randint(0, 100, 5)

array([95, 35, 91, 30, 53], dtype=int32)

Dá para fazer o mesmo com o rand, passando dentro do round e multiplicando por 100, ele vai gerar números aleatórios inteiros.

In [18]:
np.round(np.random.rand(5) * 100, 0)

array([10., 42., 50., 26.,  5.])

## Atributos e Métodos

### Reshape   
Ele é basicamente usado para fazer algo assumir outros formatos.   
Exemplo:   
Criei um vetor de 25 elementos usando o rand e depois usei o reshape para fazer ele assumir a forma de uma matriz de 5x5.

In [19]:
arr = np.random.rand(25)
arr

array([0.3092517 , 0.01360219, 0.27176385, 0.91386483, 0.26887559,
       0.03548586, 0.65457399, 0.52471165, 0.21389238, 0.22987518,
       0.53119404, 0.51899081, 0.80147535, 0.91384473, 0.65607478,
       0.03093253, 0.51440423, 0.89288948, 0.03762148, 0.14626494,
       0.29243833, 0.03495772, 0.33363408, 0.42956002, 0.51744814])

In [20]:
arr = arr.reshape((5, 5))
arr

array([[0.3092517 , 0.01360219, 0.27176385, 0.91386483, 0.26887559],
       [0.03548586, 0.65457399, 0.52471165, 0.21389238, 0.22987518],
       [0.53119404, 0.51899081, 0.80147535, 0.91384473, 0.65607478],
       [0.03093253, 0.51440423, 0.89288948, 0.03762148, 0.14626494],
       [0.29243833, 0.03495772, 0.33363408, 0.42956002, 0.51744814]])

### Shape   
O Shape é um atributo que permite consultar tamanho das matrizes, arrays, vetores, etc.

In [21]:
arr.shape

(5, 5)

### Max e Min   
Os métodos max e min são usados para encontrar o maior e menor valor.

In [22]:
arr.max()

np.float64(0.9138648319730913)

In [23]:
arr.min()

np.float64(0.013602186486653456)

### Argmax e Argmin   
Os métodos argmax e argmin são usados para encontrar a posição do maior e menor valor.

In [24]:
arr.argmax()

np.int64(3)

In [25]:
arr.argmin()

np.int64(1)

## Indexação e Fatiamento de Arrays

Assim como em listas, pode ser puxado o elemento através de indexação

In [26]:
arr = np.arange(0, 30, 3)
arr

array([ 0,  3,  6,  9, 12, 15, 18, 21, 24, 27])

In [27]:
arr[3]

np.int64(9)

In [28]:
arr[2:5]

array([ 6,  9, 12])

In [29]:
arr[:5]

array([ 0,  3,  6,  9, 12])

In [30]:
arr[2:]

array([ 6,  9, 12, 15, 18, 21, 24, 27])

In [31]:
arr[2:] = 100
arr

array([  0,   3, 100, 100, 100, 100, 100, 100, 100, 100])

### Arrays Bidimencionais

In [32]:
arr = np.arange(50).reshape((5, 10))
arr

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49]])

In [33]:
arr.shape

(5, 10)

### Copy   
Criando um segundo array e fazer ele receber até a linha 3 do primeiro array, se eu alterar o segundo array, vai ser alterado o primeiro array. Por que isso?   
O Python vai entender que o segundo array é um ponteiro para essas linhas do primeiro array.   
Para fazer o segundo array receber os valores, teria que usar o copy.

In [34]:
arr2 = arr[:3]
arr2

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29]])

In [35]:
arr2[:] = 100
# Imprimindo o primeiro array
arr 

array([[100, 100, 100, 100, 100, 100, 100, 100, 100, 100],
       [100, 100, 100, 100, 100, 100, 100, 100, 100, 100],
       [100, 100, 100, 100, 100, 100, 100, 100, 100, 100],
       [ 30,  31,  32,  33,  34,  35,  36,  37,  38,  39],
       [ 40,  41,  42,  43,  44,  45,  46,  47,  48,  49]])

In [36]:
# Para não ter que apagar as células anteriores, vou criar tudo de novo.
arr = np.arange(50).reshape(5, 10)
arr2 = arr[:3].copy()
print(arr, '\n\n', arr2, '\n')
arr2[:] = 100

print(arr, '\n\n', arr2)

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]] 

 [[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]] 

[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]
 [20 21 22 23 24 25 26 27 28 29]
 [30 31 32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47 48 49]] 

 [[100 100 100 100 100 100 100 100 100 100]
 [100 100 100 100 100 100 100 100 100 100]
 [100 100 100 100 100 100 100 100 100 100]]


Caso eu queira fatiar, por exemplo, o intervalo entre a linha 1 e 3.

In [37]:
arr[1:4, 5:]

array([[15, 16, 17, 18, 19],
       [25, 26, 27, 28, 29],
       [35, 36, 37, 38, 39]])

Outra forma de extrair os dados das arrays, eu posso comparar e aplicar operações lógicas com eles.

In [38]:
# Vou voltar um pouco para aquele array do arr2
arr[:3] = arr2
arr
# Agora continuando...
print(arr < 50)
bol = arr > 50
arr[bol]

[[False False False False False False False False False False]
 [False False False False False False False False False False]
 [False False False False False False False False False False]
 [ True  True  True  True  True  True  True  True  True  True]
 [ True  True  True  True  True  True  True  True  True  True]]


array([100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100,
       100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100,
       100, 100, 100, 100])

In [39]:
# Criando um novo array
array = np.linspace(0, 100, 30)
# Tamanho dele
array.shape

(30,)

In [40]:
# Mudando ele para uma matriz 3x10
array = array.reshape(3, 10)
array

array([[  0.        ,   3.44827586,   6.89655172,  10.34482759,
         13.79310345,  17.24137931,  20.68965517,  24.13793103,
         27.5862069 ,  31.03448276],
       [ 34.48275862,  37.93103448,  41.37931034,  44.82758621,
         48.27586207,  51.72413793,  55.17241379,  58.62068966,
         62.06896552,  65.51724138],
       [ 68.96551724,  72.4137931 ,  75.86206897,  79.31034483,
         82.75862069,  86.20689655,  89.65517241,  93.10344828,
         96.55172414, 100.        ]])

In [41]:
# Exemplo para caso eu queira os valores 6.89... e 41.37...
array[0:2, 2]

array([ 6.89655172, 41.37931034])

## Operações com Arrays, Vetores e Matrizes

### Soma, Subtração, Multiplicação e Divisão
Da para somar, subtrair, multiplicar e dividir arrays da mesma forma que faria com variaveis em Python.
<small>**OBS.:** É importante as arrays serem do mesmo tamanho.<small/>


In [42]:
# Criando um array
arr = np.arange(0, 16)
print(
    # Somando arrays
    "Soma:          ", arr + arr,
    # Subtraindo arrays
    "\nSubtração:     ", arr - arr,
    # Multiplicando arrays
    "\nMultiplicação: ", arr * arr,
    # Dividindo arrays
    "\nDivisão:       ", arr / arr
)

Soma:           [ 0  2  4  6  8 10 12 14 16 18 20 22 24 26 28 30] 
Subtração:      [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0] 
Multiplicação:  [  0   1   4   9  16  25  36  49  64  81 100 121 144 169 196 225] 
Divisão:        [nan  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.]


  "\nDivisão:       ", arr / arr


In [43]:
1 / arr

  1 / arr


array([       inf, 1.        , 0.5       , 0.33333333, 0.25      ,
       0.2       , 0.16666667, 0.14285714, 0.125     , 0.11111111,
       0.1       , 0.09090909, 0.08333333, 0.07692308, 0.07142857,
       0.06666667])

<small>**OBS.:** Normalmente na divisão por zero o Python não faria a divisão e retornaria um erro, no NumPy ele faz a opreção com os outros e no que era divisão por zero ele retorna o ```nan``` e se a divisão tende a infinito ele retorna ```inf```.<small/>

### Exponenciação   
Possivel da mesma forma como fazia com números normais.

In [44]:
arr ** 2

array([  0,   1,   4,   9,  16,  25,  36,  49,  64,  81, 100, 121, 144,
       169, 196, 225])

### Operações com Escalares   
Da mesma forma que outras operações.

In [45]:
print(
    # Somando
    "Soma:          ", arr + 100,
    # Subtraindo
    "\nSubtração:     ", arr - 100,
    # Multiplicando
    "\nMultiplicação: ", arr * 100,
    # Dividindo
    "\nDivisão:       ", arr / 100
)

Soma:           [100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115] 
Subtração:      [-100  -99  -98  -97  -96  -95  -94  -93  -92  -91  -90  -89  -88  -87
  -86  -85] 
Multiplicação:  [   0  100  200  300  400  500  600  700  800  900 1000 1100 1200 1300
 1400 1500] 
Divisão:        [0.   0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1  0.11 0.12 0.13
 0.14 0.15]


### Funções do NumPy   
O NumPy tem uma série de métodos pré-programados que tem muitas operações matemáticas básicas e até algumas avançadas.   
Por exemplo:

In [46]:
print(
    "Raiz quadrada: \n", np.sqrt(arr),
    "\nExponenciação: \n", np.exp(arr),
    "\nMédia do array: \n", np.mean(arr),
    "\nDesvio padrão: \n", np.std(arr),
    "\nSeno do array: \n", np.sin(arr),
)

Raiz quadrada: 
 [0.         1.         1.41421356 1.73205081 2.         2.23606798
 2.44948974 2.64575131 2.82842712 3.         3.16227766 3.31662479
 3.46410162 3.60555128 3.74165739 3.87298335] 
Exponenciação: 
 [1.00000000e+00 2.71828183e+00 7.38905610e+00 2.00855369e+01
 5.45981500e+01 1.48413159e+02 4.03428793e+02 1.09663316e+03
 2.98095799e+03 8.10308393e+03 2.20264658e+04 5.98741417e+04
 1.62754791e+05 4.42413392e+05 1.20260428e+06 3.26901737e+06] 
Média do array: 
 7.5 
Desvio padrão: 
 4.6097722286464435 
Seno do array: 
 [ 0.          0.84147098  0.90929743  0.14112001 -0.7568025  -0.95892427
 -0.2794155   0.6569866   0.98935825  0.41211849 -0.54402111 -0.99999021
 -0.53657292  0.42016704  0.99060736  0.65028784]


## Finalizando
Para outros métodos do NumPy visite o site SciPy.org, lá tem sobre todos eles e a explicação de cada um.

# Pandas  
Pandas é uma biblioteca de código fonte aberto escrita sobre o Numpy.  
Permite rápida visualização e limpeza de dados.  
É muito semelhante ao Excel.  
Pode trabalhar com dados de diversos tipos diferentes.  
Possui métodos próprios de visualização de dados.  
Por convensão usamos ```pd``` para referenciar o pandas quando estivermos usando ele.

In [47]:
import numpy as np
import pandas as pd

In [48]:
# Algumas variáveis que vão ser usadas na aula
labels = ['a', 'b', 'c']
lista = [10, 20, 30] 
arr = np.array([10, 20, 30]) # Array
d = {'a':10, 'b':20, 'c':30} # Dictionary

## DataFrame  
A Series é o objeto básico do Pandas, o Dataframe é o objeto principal que é um conjunto de Series.  
Vai ser com ele que vamos utilizar todas as ferramentas de Data Science e Machine Learning.

### Series  
É muito parecido com um array no Numpy, porém, a diferença é que os meus dados agora possuem um índice em relação a eles. Algo como um dicionário.

In [49]:
pd.Series(data=lista, index=labels)

a    10
b    20
c    30
dtype: int64

Não precisa ficar especificando como no exemplo acima, pode ficar só passando os parametros colocando eles em ordem.

In [50]:
pd.Series(labels, lista)

10    a
20    b
30    c
dtype: object

In [51]:
pd.Series(lista, labels)

a    10
b    20
c    30
dtype: int64

Outra coisa que pode se notar que uma Series não precisa ficar presa a um tipo de dados especifico, ele pode ter uma variedade de dados enorme dentro dele. Outra coisas estranha que dá pra fazer, é que pode associar os métodos padrões do Python como parametros.

In [52]:
pd.Series([sum, print, len])

0      <built-in function sum>
1    <built-in function print>
2      <built-in function len>
dtype: object

In [53]:
ser1 = pd.Series([1, 2, 3, 4], index=['EUA', 'Alemanha', 'URSS', 'Japão'])
ser1

EUA         1
Alemanha    2
URSS        3
Japão       4
dtype: int64

In [54]:
ser2 = pd.Series([1, 2, 3, 4], index=['EUA', 'Alemanha', 'Italia', 'Japão'])
ser2

EUA         1
Alemanha    2
Italia      3
Japão       4
dtype: int64

#### Operações  
Uma coisa que dá para fazer com Series, é fazer operações com elas. Diferente de uma array do Numpy, ele vai somar, por exemplo, pelo índice, como URSS e Italia não vão ter essa referencia, ele vai devolver um valor ```Nan```.

In [55]:
ser1 + ser2

Alemanha    4.0
EUA         2.0
Italia      NaN
Japão       8.0
URSS        NaN
dtype: float64

### Criação e Fatiamento

In [56]:
np.random.seed(101)
df = pd.DataFrame(np.random.randn(5, 4), index='A B C D E'.split(), columns='W X Y Z'.split())
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


A indexação do DataFrame é semelhante a uma dicionário

In [57]:
df['W']

A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: W, dtype: float64

In [58]:
print(type(df['W']))
print(type(df))

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


Para acessar multiplas colunas, tem que passar um lista de nomes de colunas na mesma notação. Também pode ser utilizado pontos (.) para acessar colunas, mas pode ser confundido com métodos do DataFrame. Exemplo com ponto: ```df.W```.

In [59]:
df[['W', 'X']]

Unnamed: 0,W,X
A,2.70685,0.628133
B,0.651118,-0.319318
C,-2.018168,0.740122
D,0.188695,-0.758872
E,0.190794,1.978757


Para criar novas colunas no DataFrame.  
Não faça assim: ```df['new']```, ele vai procurar uma coluna chamada new e vai retornar um erro enorme, porém se fazer assim: ```df['new'] = df['W'] + df['X']```, dá para pra criar assumindo que ele já exista.


In [60]:
df['new'] # Dá erro

KeyError: 'new'

In [61]:
df['new'] = df['W'] + df['X'] # Cria uma nova coluna
df

Unnamed: 0,W,X,Y,Z,new
A,2.70685,0.628133,0.907969,0.503826,3.334983
B,0.651118,-0.319318,-0.848077,0.605965,0.3318
C,-2.018168,0.740122,0.528813,-0.589001,-1.278046
D,0.188695,-0.758872,-0.933237,0.955057,-0.570177
E,0.190794,1.978757,2.605967,0.683509,2.169552


Para deletar uma coluna usa o ```drop```, precisa adicionar o axis, senão dá erro.

In [62]:
df.drop('new', axis=1)

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


Mas se rodar ```df``` o new ainda vai aparecer ainda, tem outras formas para fazer isso, fazendo o ```df``` receber o drop e usando o ```implace```.

In [63]:
df['new'] = df['W'] + df['X'] # Cria uma nova coluna, para mostrar
df.drop('new', axis=1, inplace=True)
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


Para localizar elemento pelo indice existem 2 formas:  
+ ```loc```: Elevai puxar a linha inteira. Pode ser passado uma lista valores também.  
+ ```iloc```: A diferença com o ```loc``` é que você vai falar para o Pandas que você quer selecionar dados utilizando notação de Numpy, seria por posições númericas.  
Ou seja, o ```loc``` seria para fazer seleção baseado nos nomes das linha e colunas, o ```iloc``` seria para fazer seleção usando os mesmos métodos usados no Numpy, por índices.

In [64]:
df.loc[['A', 'B'], ['X', 'Y', 'Z']] # Seleção usando o loc

Unnamed: 0,X,Y,Z
A,0.628133,0.907969,0.503826
B,-0.319318,-0.848077,0.605965


In [65]:
df.iloc[1:4, 2:] # Seleção usando iloc

Unnamed: 0,Y,Z
B,-0.848077,0.605965
C,0.528813,-0.589001
D,-0.933237,0.955057


### Seleção Condicional
O DataFrame se comporta muito parecido ao Numpy array quando faz algum teste condicional nele, por exemplo, se eu quiser procurar os dados que são maiores que zero, a resposta vai ser um DataFrame com nos booleanos nos campos que estão os números.  

In [66]:
df > 0

Unnamed: 0,W,X,Y,Z
A,True,True,True,True
B,True,False,False,True
C,False,True,True,False
D,True,False,False,True
E,True,True,True,True


Também dá para definir uma variavel sendo o teste condicional feito e fazer uma seleção DataFrame usando notação de colchete com o teste feito, semelhante ao Numpy.

In [67]:
bol = df > 0
df[bol]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,,,0.605965
C,,0.740122,0.528813,
D,0.188695,,,0.955057
E,0.190794,1.978757,2.605967,0.683509


Outra forma é fazer um teste com series especificas.

In [68]:
df[df['W'] > 0] # Retorna um DataFrame onde os valores de W sõa maiores que 0

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


Como pode ver, o output é diferente, ele retorna só os índices em que os valores de W são maiores que 0.  
Também podemos fazer slices (cortes) passando como referências, por exemplo, quero retornar os valores de Y nos quais o os valores de W são maiores que 0.

In [69]:
df[df['W'] > 0]['Y']  
# Esse código pode parecer confuso, porém, é o mesmo que fazer o seguinte código
#
# bol = df['W'] > 0
# df2 = def[bol]
# df2['Y']

A    0.907969
B   -0.848077
D   -0.933237
E    2.605967
Name: Y, dtype: float64

Podemos também fazer filtros condicionais baseados em multiplas condições, não só em uma condição. Por exemplo, passar uma referência onde o W seja maior que zero e também que o Y seja maior que 1.

In [70]:
df[(df['W']>0) & (df['Y'])<1] # Não use and ou or, vai dar erro por que ele não consegue lidar com valores incertos
                              # Procure usar o operador & ou |

Unnamed: 0,W,X,Y,Z
C,-2.018168,0.740122,0.528813,-0.589001


### Ajustar Index  
O indice pode ser reajustado ao longo do projeto, podemos resetar ele, basicamente dá para resetar o index e ele vai voltar para as configurações iniciais, as que vem quando você não adiciona o index, que seria no lugar do A, B, C, D e E colocar os números de 0 a quantidade de linhas (no nosso caso 0, 1, 2, 3 e 4).  
<small>**OBS.:** Uma coisa que acontece, é que vai aparecer um DataFrame com o index anterior do lado, para mudar isso é só adicionar o ```Inplace=True``` para executar as mudanças no DataFrame.<small/>

In [71]:
df.reset_index()

Unnamed: 0,index,W,X,Y,Z
0,A,2.70685,0.628133,0.907969,0.503826
1,B,0.651118,-0.319318,-0.848077,0.605965
2,C,-2.018168,0.740122,0.528813,-0.589001
3,D,0.188695,-0.758872,-0.933237,0.955057
4,E,0.190794,1.978757,2.605967,0.683509


Outra forma de resetar o Index é usar o ```set_index```, por exemplo, quero que outra coluna seja meu index temporariamente. 

In [72]:
col = 'RS RJ SP AM SC'.split()
df['Estado'] = col
df

Unnamed: 0,W,X,Y,Z,Estado
A,2.70685,0.628133,0.907969,0.503826,RS
B,0.651118,-0.319318,-0.848077,0.605965,RJ
C,-2.018168,0.740122,0.528813,-0.589001,SP
D,0.188695,-0.758872,-0.933237,0.955057,AM
E,0.190794,1.978757,2.605967,0.683509,SC


In [73]:
df.set_index('Estado', inplace=True)

In [74]:
df

Unnamed: 0_level_0,W,X,Y,Z
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
RS,2.70685,0.628133,0.907969,0.503826
RJ,0.651118,-0.319318,-0.848077,0.605965
SP,-2.018168,0.740122,0.528813,-0.589001
AM,0.188695,-0.758872,-0.933237,0.955057
SC,0.190794,1.978757,2.605967,0.683509


### Índices Multiníveis  
O índice multinível são índice com níveis diferente (acho que isso é bem óbvio), pode ser usado, por exemplo, para categorizar estados do país (o G1 e G2) e o nível menor pode ser variáveis que estamos medindo e as colunas cidades, IDH das cidades, etc. Basicamente é para categorizar essas informações, seria para isso que ele serve.

In [75]:
# Níveis de Índice
# outside contém lista com 6 elementos que variam de um e de dois
outside = ['G1', 'G1', 'G1', 'G2', 'G2', 'G2'] 
# Contém uma lista de 1, 2, 3
inside = [1, 2, 3, 1, 2, 3] 
# Usa o método zip para criar uma lista de tuplas associando cada valor do outside com cada valor de inside
hier_index = list(zip(outside, inside)) 
# Cria um objeto no Pandas que é um índice multinível
hier_index = pd.MultiIndex.from_tuples(hier_index)
# Criando um DataFrame novo (vou só substituir os valores do df anterior), vai estar passando um randn 6x2 e o index vai ser o nosso hier_index
df = pd.DataFrame(np.random.randn(6, 2), index=hier_index, columns=['A', 'B']) # O columns A e B só para diferenciar as colunas das linhas
df

Unnamed: 0,Unnamed: 1,A,B
G1,1,0.302665,1.693723
G1,2,-1.706086,-1.159119
G1,3,-0.134841,0.390528
G2,1,0.166905,0.184502
G2,2,0.807706,0.07296
G2,3,0.638787,0.329646


Para acessar eles é da mesma forma que fazia antes.  
Notação de colchetes para as colunas.  
Se especificar novamente o loc, vai retornar uma Series que tem o índice acessado.

In [76]:
df.loc['G1']

Unnamed: 0,A,B
1,0.302665,1.693723
2,-1.706086,-1.159119
3,-0.134841,0.390528


In [77]:
df.loc['G1'].loc[1]

A    0.302665
B    1.693723
Name: 1, dtype: float64

 Outra coisa que pode estar vendo, os indices tem nomes, caso necessário, podemos específicar o nome dos índices.

In [79]:
df.index.names # Como pode ver, a saída vai ser None porque não foi específicado um nome para os índices

FrozenList([None, None])

In [80]:
df.index.names = ['Grupo', 'Número']
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
Grupo,Número,Unnamed: 2_level_1,Unnamed: 3_level_1
G1,1,0.302665,1.693723
G1,2,-1.706086,-1.159119
G1,3,-0.134841,0.390528
G2,1,0.166905,0.184502
G2,2,0.807706,0.07296
G2,3,0.638787,0.329646


Outra forma de fazer seleções de dados em DataFrames que tem índices de multiníveis é usando o comando ```xs```.

In [81]:
df.xs(1, level='Número') # Usa o level para pegar os valores, nesse caso, do G2 também

Unnamed: 0_level_0,A,B
Grupo,Unnamed: 1_level_1,Unnamed: 2_level_1
G1,0.302665,1.693723
G2,0.166905,0.184502


### Dados Ausentes  
Quando se trabalha com ciência de dados, eventualmente acaba sendo encontrado banco da dados com dados ausentes, ou faltantes.  
O Pandas tem algumas funcionalidades para contornar esses problemas.

In [82]:
# Dessa vez vamos começar criando um dictionary, vamos ir inserindo listas nele com valores faltando
# OBS.: Vou usar o mesmo DataFrame, pra não criar vários e ficar mudando o nome
d = {
    'A': [1, 2, np.nan],
    'B': [5, np.nan, np.nan],
    'C': [1, 2, 3]
}
d

{'A': [1, 2, nan], 'B': [5, nan, nan], 'C': [1, 2, 3]}

In [83]:
df = pd.DataFrame(d)
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


Primeira forma de tratar e resduzir esse DataFrame é utilizar o ```dropna```.
Ao rodar o ```dropna``` ele vai tirar os valores NaN, mas os valores que ainda existiam são excluídos junto. Isso acontece porque ele, por padrão, exclui esses valores por referênciar as linhas.

In [84]:
df.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,1


Podemos fazer uso do ```thresh```, ele vai excluir as linhas na qual ```thresh = quantidade de valores faltantes```.

In [85]:
df.dropna(thresh=2) # Exclui a linha onde a quantidade de valores faltantes é igual a dois

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2


<small>**OBS.:** Se rodar ```df```, vai perceber que o DataFrame não foi alterado, ele só vai ser alterado se acrescentar ```inplace = True```.</small>  

Outra forma de tratar esses dados, é utilizar o método ```fillna()```, ele vai substituir esses valores por alguma coisa, seja texto, número, etc.

In [86]:
df.fillna(value='Faltante')

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,Faltante,2
2,Faltante,Faltante,3


In [87]:
df['A'].fillna(value=df['A'].mean()) # Nesse exemplo, estamos fazendo pegar os valores da coluna A e aplica a média

0    1.0
1    2.0
2    1.5
Name: A, dtype: float64

Outras formas de utilizar o ```fillna()``` é usando o ```method```. Esse método tem uma sérrie de formas de preencher os valores desses dados.  
Exemplo: Supondo que tenhamos Series temporais, ou seja, cada um dos valores sejam valores que os meus índices são coletas desses valores ao longo do tempo e pra mim faz sentido preencher os valores ausentes no meio do periodo com a última observação que eu vi aqui. Vamos supor que tenho uma linha de produção de refrigerantes, e as colunas (A a C) sejam as três linha de produção e eu estou coletando a quantidade de gás carbônico que eu tenho ao longo do tempo dessas linha, ai por ventura um dos sencores não fez a coleta, faria sentido eu replicar o valor com o valor da última coleta para não perder a informação da coluna e apagar toda a linha , por conta de um sensor que não fez uma leitura no periodo específico. Para isso vou usar o parâmetro ```method``` e digitar ```ffill```, ele vai preencher os valores com os valores anteriores.

In [88]:
df.fillna(method='ffill')

  df.fillna(method='ffill')


Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,5.0,2
2,2.0,5.0,3


A forma que vai tratar esses dados vai depender muito do tipo de banco de dados que estou utilizando, dependendo do banco de dados não faria sentido usar o ```ffill```.

### GroupBy  
No GroupBy a gente agrupar os valores de uma determinada coluna e depois realizar uma operação nas demais colunas, com base na colune agrupada.

In [89]:
# Cria um DataFrame
# OBS.: Gosto de deixar nesse formato porque fica mais organizado (pelo meno eu acho), mas nem sempre vai estar assim
data = {
    'Empresa': [
        'GOOG', # Google
        'GOOG', 
        'MSFT', # Microsoft
        'MSFT', 
        'FB', # Facebook
        'FB'
    ],
    'Nome': [
        'Sam', 
        'Charlie', 
        'Amy', 
        'Vanessa', 
        'Carl', 
        'Sarah'
    ],
    'Venda': [
        200, 
        120,
        340,
        124,
        243,
        350
    ]
}
# Antes era os dados, em um dicionário, agora sim cria o DataFrame
df = pd.DataFrame(data) # Sim, vou reutilizar o df
df

Unnamed: 0,Empresa,Nome,Venda
0,GOOG,Sam,200
1,GOOG,Charlie,120
2,MSFT,Amy,340
3,MSFT,Vanessa,124
4,FB,Carl,243
5,FB,Sarah,350


In [90]:
group = df.groupby('Empresa') # Agrupa pela empresa
group

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000215E9EA6A50>

In [91]:
group.sum() # Vai somar as vendar por empresa
# De alguma forma, não era para acontencer, mas realizou a soma dos textos, isso não acontenceu no vído do curso

Unnamed: 0_level_0,Nome,Venda
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
FB,CarlSarah,593
GOOG,SamCharlie,320
MSFT,AmyVanessa,464


In [92]:
# mean vai mostrar média de vendas por empresa, mas não vou colocar aqui
# O describe vai retornar um relatório de todas as empresas
group.describe()

Unnamed: 0_level_0,Venda,Venda,Venda,Venda,Venda,Venda,Venda,Venda
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Empresa,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
FB,2.0,296.5,75.660426,243.0,269.75,296.5,323.25,350.0
GOOG,2.0,160.0,56.568542,120.0,140.0,160.0,180.0,200.0
MSFT,2.0,232.0,152.735065,124.0,178.0,232.0,286.0,340.0


O exemplo mostrado anteriormente foi utilizando o agrupamentos da coluna Empresa, outra forma de fazer, exemplo nesse caso, é pelo nome.

In [93]:
group =df.groupby('Nome')
group

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000215ECC76210>

In [94]:
group.sum()

Unnamed: 0_level_0,Empresa,Venda
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Amy,MSFT,340
Carl,FB,243
Charlie,GOOG,120
Sam,GOOG,200
Sarah,FB,350
Vanessa,MSFT,124


No exemplo acima mostra, por exemplo, o total de vendas por pessoa.

### Concatenar, Juntar e Mesclar  
Existem três maneiras principais de combinar os DataFrames, mesclando, juntando e concatenando (merge, join, e concat).  
<small>**OBS.:** Esse texto (os de explicação sobre os 3 métodos também) foi "copiado" do que tem no vídeo do curso. Talvez esteja algo digitado errado, mas saiba que é porque o vídeo tá na resolução máxima (360p) e foi o que eu conseguir extrair da tela.</small>

#### Exemplos de DataFrames

In [95]:
df1 = pd.DataFrame(
    {
        'A': ['A0', 'A1', 'A2', 'A3'],
        'B': ['B0', 'B1', 'B2', 'B3'],
        'C': ['C0', 'C1', 'C2', 'C3'],
        'D': ['D0', 'D1', 'D2', 'D3']
    },
    index = [0, 1, 2, 3]
)
df2 = pd.DataFrame(
    {
        'A': ['A4', 'A5', 'A6', 'A7'],
        'B': ['B4', 'B5', 'B6', 'B7'],
        'C': ['C4', 'C5', 'C6', 'C7'],
        'D': ['D4', 'D5', 'D6', 'D7']
    },
    index = [4, 5, 6, 7]
)
df3 = pd.DataFrame(
    {
        'A': ['A8', 'A9', 'A10', 'A11'],
        'B': ['B8', 'B9', 'B10', 'B11'],
        'C': ['C8', 'C9', 'C10', 'C11'],
        'D': ['D8', 'D9', 'D10', 'D11']
    },
    index = [8, 9, 10, 11]
)

In [96]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [97]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [98]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


#### Concatenação  
Concatenação basicamente cola DataFrames.  
Você (acho que ele fala de mim) pode usar ```pd.concat``` e passar uma lista de DataFrames para concatenar juntos.  
<small>**OBS.:** Tem que ter em mente que as dimensões devem se corresponder ao longo do eixo que está sendo concatenado.</small>

In [99]:
pd.concat([df1, df2, df3]) # Por padrão o axis é zero, lembrando só
# Se adicionar o axis = 1, ele vai concatenar as colunas e não as linhas
# O código ficaria assim:
# pd.concat([df1, df2, df3], axis=1)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [100]:
# Eu vi depois que ele mostra unindo as colunas, ou seja, meu comentário no código anterior foi inutil
pd.concat([df1, df2, df3], axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


#### Outros DataFrames

In [101]:
esquerda = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K3'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})
direita = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K3'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
})

In [102]:
esquerda

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [103]:
direita

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


#### Mesclar  
A função mesclar permita que você mescle os quadros de dados juntos usando uma lógica semelhante à mesclagem de tabelas SQL juntas.

In [104]:
pd.merge(esquerda, direita, how='inner', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


Ou para mostrar um exemplo mais complicado:

In [105]:
# Mesmos DataFrames para mostrar o exemplo, mas o key muda, quase os mesmos então
esquerda = pd.DataFrame({
    'key1': ['K0', 'K0', 'K1', 'K2'],
    'key2': ['K0', 'K1', 'K0', 'K1'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})
direita = pd.DataFrame({
    'key1': ['K0', 'K1', 'K1', 'K2'],
    'key2': ['K0', 'K0', 'K0', 'K0'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
})
pd.merge(esquerda, direita, on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


In [106]:
pd.merge(esquerda, direita, how='outer', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K0,,,C3,D3
5,K2,K1,A3,B3,,


In [107]:
 pd.merge(esquerda, direita, how='right', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2
3,K2,K0,,,C3,D3


In [108]:
pd.merge(esquerda, direita, how='left', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,


#### Juntar  
Juntar é um método conveniente para combinar as colunas de dois DataFrames indexados potencialmente diferentes com um único resultado DataFrame.

In [109]:
esquerda = pd.DataFrame({
    'A': ['A0', 'A1', 'A2'],
    'B': ['B0', 'B1', 'B2']},
index = ['K0', 'K1', 'K2']
)
direita = pd.DataFrame({
    'C': ['C0', 'C2', 'C3'],
    'D': ['D0', 'D2', 'D3']},
    index = ['K0', 'K2', 'K3']
)

In [110]:
esquerda.join(direita) # Sempre o o índice da direita for igual ao índice da esquerda, ele junta

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


In [111]:
esquerda.join(direita, how='outer') # com o outer, ele junta com todos os DataFrames possiveis
# Caso não tenha alguma valor nele ele preenche com NaN, normalmente é só fazer um tratamenta para os NaN

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


### Operações  

In [112]:
df = pd.DataFrame({
    'col1': [1, 2, 3, 4],
    'col2': [444, 555, 666, 444],
    'col3': ['abc', 'def', 'ghi', 'jkl']
})
df

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,jkl


#### Seleção de dados únicos  
Um método que vai apontar qual a lista de uma coluna especifica que contém apenas únicos valores e não cópias.

In [113]:
df['col2'].unique() # É semelhante ao método do Numpy, np.unique(df['col2'])

array([444, 555, 666])

Outra forma de trabalhar com dados únicos é pegar o tamanho da lista

In [114]:
# Uma das formas é o len
len(df['col2'].unique())
# O Pandas também tem já um método para isso também
df['col2'].nunique()
# Aliás, o retorno dos dois é o mesmo

3

Mais uma forma é o ```value_counts```.

In [115]:
df['col2'].value_counts()

col2
444    2
555    1
666    1
Name: count, dtype: int64

#### Seleção de dados  
Supondo que, por exemplo, queiramos pegar um conjunto de dados, da coluna 1 (col1), que os valores sejam maiores que 2.

In [116]:
df[df['col1']>2]

Unnamed: 0,col1,col2,col3
2,3,666,ghi
3,4,444,jkl


Também caso queiramos os valores maiores que 2 (col1) e que sejam iguais a 444 (col2).

In [117]:
df[(df['col1']>2) & (df['col2']==444)]

Unnamed: 0,col1,col2,col3
3,4,444,jkl


#### Utilizar funções  
Dá para definir funções para fazer algum tipo de operação nos elementos do DataFrame, ele vai aplicar em elemento por elemento.

In [118]:
# Retorna o o dobro do valor
def vezes2(x):
    return x*2

df['col1'].apply(vezes2) 

0    2
1    4
2    6
3    8
Name: col1, dtype: int64

In [119]:
df['col3'].apply(len) # Saber o tamanho das strings

0    3
1    3
2    3
3    3
Name: col3, dtype: int64

O ```apply``` ele aplica uma função que você cria ou pode simplesmente aplicar um lambda dentro dele.

In [120]:
df['col1'].apply(lambda x: x*x)

0     1
1     4
2     9
3    16
Name: col1, dtype: int64

O ```del``` é usado para deletar (parece óbvio), você tem que específicar a coluna que você quer deletar.

In [121]:
del df['col2']
df

Unnamed: 0,col1,col3
0,1,abc
1,2,def
2,3,ghi
3,4,jkl


Também as vezes podemos estar interessado em quais são os valores das colunas, para isso usamos o seguinte:

In [122]:
df.columns

Index(['col1', 'col3'], dtype='object')

O mesmo com os índices, nesse caso do exemplo, como o índice foi criado de forma padrão do DataFrame, ele vai mostrar o ```RangeIndex```.

In [123]:
df.index

RangeIndex(start=0, stop=4, step=1)

Podemos ordenar os valores, para isso usamos o ```sort_values```, é necessário usar o ```by```.  
<small>**OBS.:** Novamente, se quiser aplicar no DataFrame de forma definitiva precisa colocar o ```inplace=True```, por padrão ele vem como False.</small>

In [124]:
# Vou iniciar novamente o df, nas operações anteriores foi apagado a col2
df = pd.DataFrame({
    'col1': [1, 2, 3, 4],
    'col2': [444, 555, 666, 444],
    'col3': ['abc', 'def', 'ghi', 'jkl']
})
df.sort_values(by='col2')

Unnamed: 0,col1,col2,col3
0,1,444,abc
3,4,444,jkl
1,2,555,def
2,3,666,ghi


Outra operação que dá para usar é o ```isnull```, ele vai perguntar para todos os valores do DataFrame quem é nulo.

In [125]:
df.isnull()

Unnamed: 0,col1,col2,col3
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False


Outro método que dá para usar é o ```dropna()```, funciona da mesma forma que o dropna do Numpy.

In [126]:
# Criando um DataFrame que tem valores NaN
df = pd.DataFrame({
    'col1': [1, 2, 3, np.nan],
    'col2': [np.nan, 555, 666, 444],
    'col3': ['abc', 'def', 'ghi', 'jkl']
})
df.head()

Unnamed: 0,col1,col2,col3
0,1.0,,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,,444.0,jkl


In [127]:
df.dropna()

Unnamed: 0,col1,col2,col3
1,2.0,555.0,def
2,3.0,666.0,ghi


Também para preencher todos os valores NaN, usamos o ```fillna```, por exemplo, podemos preencher os valores NaN da col1 com a média deles.

In [128]:
df['col1'].fillna(value=df['col1'].mean())

0    1.0
1    2.0
2    3.0
3    2.0
Name: col1, dtype: float64

O ```pivot_table``` vai trabalhar como uma tabela dinâmica do Excel. Basicamente ele consegue reajustar o DataFrame da forma como eu quero ver e envetualmente criando índices multinível.

In [129]:
# Vou iniciar novamente o df, com outros valores agora
df = pd.DataFrame({
    'A': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'],
    'B': ['one', 'one', 'two', 'two', 'one', 'one'],
    'C': ['x', 'y', 'x', 'y', 'x', 'y'],
    'D': [1, 3, 2, 5, 4, 1]
})
df

Unnamed: 0,A,B,C,D
0,foo,one,x,1
1,foo,one,y,3
2,foo,two,x,2
3,bar,two,y,5
4,bar,one,x,4
5,bar,one,y,1


In [130]:
df.pivot_table(values='D', index=['A', 'B'], columns=['C'])

Unnamed: 0_level_0,C,x,y
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4.0,1.0
bar,two,,5.0
foo,one,1.0,3.0
foo,two,2.0,


### Entrada e Saída de Dados  
Bom... Existe diversas forma de ler dados para criar um DataFrame no Pandas, por exemplo ler dados de SQL, HTML, CSV, JSON, Excel, entre outros.  
No Pandas também há formas de exportar dados.  
Os exemplos que serão mostrados aqui vai ser com Excel, CSV e HTML.

#### CSV  
Eu criei um arquivo CSV para fazer a demonstração. Vamos utilizar o ```read_csv```, para importar os dados de uma arquivo CSV, e o ```to_csv```, para exportar novamente o arquivo CSV.

In [131]:
df = pd.read_csv('exemplo.csv', sep=';') # Para ler o arquivo CSV
df

Unnamed: 0.1,Unnamed: 0,a,b,c,d
0,0,1,2,3,4
1,1,5,6,7,8
2,2,9,10,11,12
3,3,13,14,15,16


In [132]:
df = df + 1
df

Unnamed: 0.1,Unnamed: 0,a,b,c,d
0,1,2,3,4,5
1,2,6,7,8,9
2,3,10,11,12,13
3,4,14,15,16,17


In [133]:
df.to_csv('exemplo.csv', sep=';', decimal=',') # Para exportar o arquivo

#### Excel

In [134]:
df = pd.read_excel('Exemplo_Excel.xlsx', sheet_name='sheet1')
df

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [135]:
df.to_excel('exemplo.xlsx', sheet_name='sheet1')

#### HTML  

In [136]:
df = pd.read_html('https://www.fdic.gov/bank-failures/failed-bank-list')
df

[                                            Bank Name                City  \
 0                        The Santa Anna National Bank          Santa Anna   
 1                                Pulaski Savings Bank             Chicago   
 2                  The First National Bank of Lindsay             Lindsay   
 3               Republic First Bank dba Republic Bank        Philadelphia   
 4                                       Citizens Bank            Sac City   
 5                            Heartland Tri-State Bank             Elkhart   
 6                                 First Republic Bank       San Francisco   
 7                                      Signature Bank            New York   
 8                                 Silicon Valley Bank         Santa Clara   
 9                                   Almena State Bank              Almena   
 10                         First City Bank of Florida   Fort Walton Beach   
 11                               The First State Bank       Bar

In [137]:
df[0]

Unnamed: 0,Bank Name,City,State,Cert,Acquiring Institution,Closing Date,Fund Sort ascending
0,The Santa Anna National Bank,Santa Anna,Texas,5520,Coleman County State Bank,"June 27, 2025",10549
1,Pulaski Savings Bank,Chicago,Illinois,28611,Millennium Bank,"January 17, 2025",10548
2,The First National Bank of Lindsay,Lindsay,Oklahoma,4134,First Bank & Trust Co.,"October 18, 2024",10547
3,Republic First Bank dba Republic Bank,Philadelphia,Pennsylvania,27332,"Fulton Bank, National Association","April 26, 2024",10546
4,Citizens Bank,Sac City,Iowa,8758,Iowa Trust & Savings Bank,"November 3, 2023",10545
5,Heartland Tri-State Bank,Elkhart,Kansas,25851,"Dream First Bank, N.A.","July 28, 2023",10544
6,First Republic Bank,San Francisco,California,59017,"JPMorgan Chase Bank, N.A.","May 1, 2023",10543
7,Signature Bank,New York,New York,57053,"Flagstar Bank, N.A.","March 12, 2023",10540
8,Silicon Valley Bank,Santa Clara,California,24735,First Citizens Bank & Trust Company,"March 10, 2023",10539
9,Almena State Bank,Almena,Kansas,15426,Equity Bank,"October 23, 2020",10538
