## Aula 3 - Trabalhando com dataframes Pandas

Nesta aula aprenderemos algumas operações básicas, mas poderosas, que realizamos nas análises de dados com pandas.

Os seguintes tópicos serão abordados nesta aula:
* As principais estruturas de dados do pandas.
* Criação de dataframes de arquivos, API requests, SQL queries e outros objetos Python.
* Inspecionar dataframes e calcular estatísticas resumidas.
* Pegando subconjuntos de dataframes por seleção, divisão, indexação e filtragem (selection, slicing, indexing, and filtering).
* Adicionar e remover colunas e linhas.

### **Estruturas de dados Pandas**

Pandas fornece duas estruturas principais para facilitar o trabalho com dados: **Series** e **DataFrame**. As Series e DataFrame contêm, cada uma, outra estrutura de dados pandas, que é muito importante: **Index**. Mas, para entender as estruturas de dados do pandas, precisamos dar uma olhada no NumPy, que fornece os arrays n-dimensionais nos quais o pandas se baseia.

As estruturas de dados mencionadas anteriormente são criadas como **classes** Python; quando realmente criamos uma, elas são chamadas de **objetos** ou **instâncias**. Esta é uma distinção importante, uma vez que algumas ações podem ser realizadas usando o próprio objeto (um **método**), enquanto outras exigirão nosso objeto seja passado como um argumento para alguma **função**. 

Usamos uma função pandas para ler um arquivo CSV em um objeto da classe DataFrame, mas usamos métodos em nossos objetos DataFrame para executar ações neles, como descartar colunas ou calcular estatísticas resumidas. Com pandas, geralmente queremos acessar os atributos do objeto com o qual estamos trabalhando. Isso não gerará ação como um método ou função faria; em vez disso, nos dará informações sobre nosso objeto pandas, como dimensões, nomes das colunas, tipos de dados e se está vazio.

Obs.: Nomes de classes em Python são tradicionalmente escritos em CapWords. Podemos usar isso para nos ajudar a distinguir um objeto de uma classe. Por exemplo, imagine que estejamos lendo o código de alguém e vemos uma variável chamada dataframe. Sabemos que o pandas segue a convenção CapWords e que a classe é DataFrame. Portanto, podemos assumir que a variável é uma instância da classe DataFrame.

### **NumPy**

Python NumPy Tutorial - Canal freeCodeCamp.org

Livro Python para análise de dados

#### O que é NumPy?

#### Diferença entre listas e NumPy

#### Aplicações de NumPy

* Mathematics (substituindo o Matlab)
* Plotagem de gráficos (Matplotlib)
* Backend (Pandas, Connect 4, Fotografia Digital)
* Machine Learning

#### O básico

In [1]:
import numpy as np # fazer pip install primeiro

In [2]:
a = np.array([1,2,3])
print(a)

[1 2 3]


In [5]:
b = np.array([[9.0,8.0,7.0],[6.0,5.0,4.0]])
print(b)

[[9. 8. 7.]
 [6. 5. 4.]]


In [6]:
# dimensão do array
print(a.ndim)
print(b.ndim)

1
2


In [7]:
# forma do array
print(a.shape)
print(b.shape)

(3,)
(2, 3)


In [9]:
# tipo de dado
print(a.dtype)
print(b.dtype)
# Podemos determinar o tipo de dado
# Por exemplo,a = np.array([1,2,3], dtype="int16" ) 

int32
float64


In [11]:
# size
print(a.itemsize)
print(b.itemsize)

4
8


In [15]:
# size total
print(a.size)
print(a.size * a.itemsize)
print(a.nbytes)
print(b.size)
print(b.size * b.itemsize)
print(b.nbytes)

3
12
12
6
48
48


In [18]:
a = np.array([[1,2,3,4,5,6,7],[8,9,10,11,12,13,14]])
print(a)
print(a.shape)

[[ 1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14]]
(2, 7)


In [21]:
# mostrando um elemento específico [linha,coluna]
print(a[1,5])
print(a[1,-2])

13
13


In [22]:
# mostrando uma linha específica
print(a[0,:])
print(a[1,:])

[1 2 3 4 5 6 7]
[ 8  9 10 11 12 13 14]


In [24]:
# mostrando uma coluna específica
print(a[:,0])
print(a[:,1])
print(a[:,2])
print(a[:,3])
print(a[:,4])
print(a[:,5])
print(a[:,6])

[1 8]
[2 9]
[ 3 10]
[ 4 11]
[ 5 12]
[ 6 13]
[ 7 14]


In [29]:
# mostrando [índice_inicial:índice_final:tamanho_passo]
print(a[0,1:5])
print(a[1,2:6])
print(a[0,1:6:2])
print(a[0,1:-1:2])
print(a[0,1:-2:2])

[2 3 4 5]
[10 11 12 13]
[2 4 6]
[2 4 6]
[2 4]


In [30]:
a[1,5] = 20
print(a)

[[ 1  2  3  4  5  6  7]
 [ 8  9 10 11 12 20 14]]


In [31]:
a[:,2] = 5
print(a)

[[ 1  2  5  4  5  6  7]
 [ 8  9  5 11 12 20 14]]


In [32]:
a[:,2] = [1,2]
print(a)

[[ 1  2  1  4  5  6  7]
 [ 8  9  2 11 12 20 14]]


In [33]:
# Exemplo 3D
b = np.array([[[1,2],[3,4]],[[5,6],[7,8]]])
print(b)

[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]


In [39]:
# Mostrando elementos específicos (de fora para dentro) - [array,linha,coluna]
print(b[0,1,1])
print(b[1,0,1])
print(b[:,1])
print(b[:,1,:])
print(b[:,:,0])

4
6
[[3 4]
 [7 8]]
[[3 4]
 [7 8]]
[[1 3]
 [5 7]]


In [40]:
# Substituindo
b[:,1,:] = [[9,9],[8,8]]
print(b)

[[[1 2]
  [9 9]]

 [[5 6]
  [8 8]]]


In [47]:
# Matriz nula
a = np.zeros(5)
print(a)
b = np.zeros((2,3))
print(b)
c = np.zeros((2,2,3))
print(c)
d = np.zeros((2,3,3,2))
print(d)

[0. 0. 0. 0. 0.]
[[0. 0. 0.]
 [0. 0. 0.]]
[[[0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]]]
[[[[0. 0.]
   [0. 0.]
   [0. 0.]]

  [[0. 0.]
   [0. 0.]
   [0. 0.]]

  [[0. 0.]
   [0. 0.]
   [0. 0.]]]


 [[[0. 0.]
   [0. 0.]
   [0. 0.]]

  [[0. 0.]
   [0. 0.]
   [0. 0.]]

  [[0. 0.]
   [0. 0.]
   [0. 0.]]]]


In [49]:
# Matriz de 1´s
a = np.ones((4,2,2), dtype="int32")
print(a)

[[[1 1]
  [1 1]]

 [[1 1]
  [1 1]]

 [[1 1]
  [1 1]]

 [[1 1]
  [1 1]]]


In [52]:
# Inicializando uma matriz com outros valores
a = np.full((2,2),9, dtype="float32")
print(a)

[[9. 9.]
 [9. 9.]]


In [58]:
# Preenchendo um array usando full_like
a = np.array([[1,2,3,4,5,6,7],[8,9,10,11,12,13,14]])
#np.full(a.shape,4)
np.full_like(a,4)

array([[4, 4, 4, 4, 4, 4, 4],
       [4, 4, 4, 4, 4, 4, 4]])

In [59]:
# Números decimais aleatórios
a = np.random.rand(4,2)
print(a)

[[0.23685825 0.65520681]
 [0.27378129 0.22993992]
 [0.8508684  0.35448769]
 [0.55978304 0.45477408]]


In [60]:
b = np.random.rand(4,2,3)
print(b)

[[[0.18941943 0.32694943 0.44332878]
  [0.14125214 0.60385987 0.37574585]]

 [[0.10386506 0.37713432 0.28841967]
  [0.82349186 0.65379513 0.45556165]]

 [[0.10835259 0.21572918 0.68697097]
  [0.83658639 0.38437353 0.38831415]]

 [[0.85703325 0.40671832 0.30468067]
  [0.07016704 0.55229269 0.74065117]]]


In [61]:
# Valores inteiros aleatórios
a = np.random.randint(7, size=(3,3))
print(a)

[[2 2 4]
 [2 3 3]
 [4 5 1]]


In [63]:
a = np.random.randint(4,7, size=(3,3))
print(a)

[[5 4 4]
 [5 4 6]
 [5 5 4]]


In [64]:
a = np.random.randint(-4,8, size=(3,3))
print(a)

[[-2 -4 -2]
 [ 0  6  3]
 [ 7  4  7]]


In [66]:
# Matriz identidade
a = np.identity(5)
print(a)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


In [67]:
a = np.identity(5, dtype="int32")
print(a)

[[1 0 0 0 0]
 [0 1 0 0 0]
 [0 0 1 0 0]
 [0 0 0 1 0]
 [0 0 0 0 1]]


In [68]:
# Array a partir de outro array
a = np.array([1,2,3])
r1 = np.repeat(a,3)
print(r1)

[1 1 1 2 2 2 3 3 3]


In [69]:
r1 = np.repeat(a,3, axis=0)
print(r1)

[1 1 1 2 2 2 3 3 3]


In [76]:
a = np.array([[1],[2],[3]])
print(a)
r1 = np.repeat(a,3, axis=0)
print(r1)

[[1]
 [2]
 [3]]
[[1]
 [1]
 [1]
 [2]
 [2]
 [2]
 [3]
 [3]
 [3]]


In [77]:
r1 = np.repeat(a,3, axis=1)
print(r1)

[[1 1 1]
 [2 2 2]
 [3 3 3]]


In [84]:
# Trabalhando com submatrizes
a = np.ones((5,5), dtype="int32")
print(a)
z = np.zeros((3,3), dtype="int32")
print(z)
z[1,1] = 9
print(z)
a[1:4,1:4] = z
print(a)

[[1 1 1 1 1]
 [1 1 1 1 1]
 [1 1 1 1 1]
 [1 1 1 1 1]
 [1 1 1 1 1]]
[[0 0 0]
 [0 0 0]
 [0 0 0]]
[[0 0 0]
 [0 9 0]
 [0 0 0]]
[[1 1 1 1 1]
 [1 0 0 0 1]
 [1 0 9 0 1]
 [1 0 0 0 1]
 [1 1 1 1 1]]


##### Importante!!!

In [86]:
a = np.array([1,2,3])
print(a)
b = a
print(b)
b[0] = 100
print(a)

[1 2 3]
[1 2 3]
[100   2   3]


In [89]:
b = a.copy()
print(b)
b[0] = 1
print(a)
print(b)

[100   2   3]
[100   2   3]
[1 2 3]


#### Operações matemáticas

In [90]:
a = np.array([1,2,3,4])


array([3, 4, 5, 6])

In [91]:
a + 2

array([3, 4, 5, 6])

In [92]:
a - 2

array([-1,  0,  1,  2])

In [93]:
a * 2

array([2, 4, 6, 8])

In [94]:
a / 2

array([0.5, 1. , 1.5, 2. ])

In [95]:
a += 2

In [96]:
b = np.array([1,0,1,0])
a + b

array([4, 4, 6, 6])

In [97]:
a ** 2

array([ 9, 16, 25, 36], dtype=int32)

In [98]:
# Seno
np.sin(a)

array([ 0.14112001, -0.7568025 , -0.95892427, -0.2794155 ])

In [99]:
# Cosseno
np.cos(a)

array([-0.9899925 , -0.65364362,  0.28366219,  0.96017029])

#### Álgebra linear

In [102]:
a = np.ones((2,3))
a

array([[1., 1., 1.],
       [1., 1., 1.]])

In [103]:
b = np.full((3,2),2)
b

array([[2, 2],
       [2, 2],
       [2, 2]])

In [104]:
ab = np.matmul(a,b)
ab

array([[6., 6.],
       [6., 6.]])

In [106]:
c = np.identity(3)
c

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [107]:
# determinante de uma matriz
detc = np.linalg.det(c)
detc

1.0

In [109]:
d = np.array([[1,2],[3,4]])
detd = np.linalg.det(d)
detd

-2.0000000000000004

#### Estatística

In [110]:
estat = np.array([[1,2,3,],[4,5,6]])
estat

array([[1, 2, 3],
       [4, 5, 6]])

In [111]:
# valor mínimo
np.min(estat)

1

In [112]:
# valor máximo
np.max(estat)

6

In [113]:
# valor mínimo na linha
np.min(estat, axis=0)

array([1, 2, 3])

In [114]:
# valor mínimo na coluna
np.min(estat, axis=1)

array([1, 4])

In [115]:
# Soma dos valores da matriz
np.sum(estat)

21

In [116]:
# Soma dos valores por coluna
np.sum(estat, axis=0)

array([5, 7, 9])

In [117]:
# Soma dos valores por linha
np.sum(estat, axis=1)

array([ 6, 15])

#### Reorganizando arrays

In [121]:
antes = np.array([[1,2,3,4],[5,6,7,8]])
print(antes)
print(antes.shape)

[[1 2 3 4]
 [5 6 7 8]]
(2, 4)


In [122]:
depois = antes.reshape((8,1))
print(depois)

[[1]
 [2]
 [3]
 [4]
 [5]
 [6]
 [7]
 [8]]


In [123]:
depois = antes.reshape((4,2))
print(depois)

[[1 2]
 [3 4]
 [5 6]
 [7 8]]


In [124]:
depois = antes.reshape((2,2,2))
print(depois)

[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]


In [125]:
# Empilhando vetores na vertical
v1 = np.array([1,2,3,4])
v2 = np.array([5,6,7,8])
v = np.vstack([v1,v2])
v

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [131]:
v = np.stack((v1,v2,v1,v2))
v

array([[1, 2, 3, 4],
       [5, 6, 7, 8],
       [1, 2, 3, 4],
       [5, 6, 7, 8]])

In [129]:
# Empilhando vetores na horizontal
h = np.hstack((v1,v2))
h

array([1, 2, 3, 4, 5, 6, 7, 8])

In [130]:
h = np.hstack((v1,v2,v1,v2))
h

array([1, 2, 3, 4, 5, 6, 7, 8, 1, 2, 3, 4, 5, 6, 7, 8])

#### Carregando dados de um arquivo

In [133]:
np.genfromtxt("data.txt", delimiter=",")

array([[  1.,  13.,  21.,  11., 196.,  75.,   4.,   3.,  34.,   6.,   7.,
          8.,   0.,   1.,   2.,   3.,   4.,   5.],
       [  3.,  42.,  12.,  33., 766.,  75.,   4.,  55.,   6.,   4.,   3.,
          4.,   5.,   6.,   7.,   0.,  11.,  12.],
       [  1.,  22.,  33.,  11., 999.,  11.,   2.,   1.,  78.,   0.,   1.,
          2.,   9.,   8.,   7.,   1.,  76.,  88.]])

In [134]:
filedata = np.genfromtxt("data.txt",delimiter=",")
filedata

array([[  1.,  13.,  21.,  11., 196.,  75.,   4.,   3.,  34.,   6.,   7.,
          8.,   0.,   1.,   2.,   3.,   4.,   5.],
       [  3.,  42.,  12.,  33., 766.,  75.,   4.,  55.,   6.,   4.,   3.,
          4.,   5.,   6.,   7.,   0.,  11.,  12.],
       [  1.,  22.,  33.,  11., 999.,  11.,   2.,   1.,  78.,   0.,   1.,
          2.,   9.,   8.,   7.,   1.,  76.,  88.]])

In [135]:
filedata.astype("int32")

array([[  1,  13,  21,  11, 196,  75,   4,   3,  34,   6,   7,   8,   0,
          1,   2,   3,   4,   5],
       [  3,  42,  12,  33, 766,  75,   4,  55,   6,   4,   3,   4,   5,
          6,   7,   0,  11,  12],
       [  1,  22,  33,  11, 999,  11,   2,   1,  78,   0,   1,   2,   9,
          8,   7,   1,  76,  88]])

In [136]:
filedata = filedata.astype("int32")
filedata

array([[  1,  13,  21,  11, 196,  75,   4,   3,  34,   6,   7,   8,   0,
          1,   2,   3,   4,   5],
       [  3,  42,  12,  33, 766,  75,   4,  55,   6,   4,   3,   4,   5,
          6,   7,   0,  11,  12],
       [  1,  22,  33,  11, 999,  11,   2,   1,  78,   0,   1,   2,   9,
          8,   7,   1,  76,  88]])

In [137]:
filedata > 50

array([[False, False, False, False,  True,  True, False, False, False,
        False, False, False, False, False, False, False, False, False],
       [False, False, False, False,  True,  True, False,  True, False,
        False, False, False, False, False, False, False, False, False],
       [False, False, False, False,  True, False, False, False,  True,
        False, False, False, False, False, False, False,  True,  True]])

In [138]:
filedata[filedata > 50] # varredura por coluna

array([196,  75, 766,  75,  55, 999,  78,  76,  88])

In [140]:
np.any(filedata > 50, axis=0)

array([False, False, False, False,  True,  True, False,  True,  True,
       False, False, False, False, False, False, False,  True,  True])

In [141]:
np.any(filedata > 50, axis=1) # varredura por linha

array([ True,  True,  True])

In [142]:
((filedata > 50) & (filedata < 100))

array([[False, False, False, False, False,  True, False, False, False,
        False, False, False, False, False, False, False, False, False],
       [False, False, False, False, False,  True, False,  True, False,
        False, False, False, False, False, False, False, False, False],
       [False, False, False, False, False, False, False, False,  True,
        False, False, False, False, False, False, False,  True,  True]])

In [143]:
(~((filedata > 50) & (filedata < 100)))

array([[ True,  True,  True,  True,  True, False,  True,  True,  True,
         True,  True,  True,  True,  True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True, False,  True, False,  True,
         True,  True,  True,  True,  True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True,  True,  True,  True, False,
         True,  True,  True,  True,  True,  True,  True, False, False]])

#### Podemos indexar com uma lista em NumPy

In [139]:
a = np.array([1,2,3,4,5,6,7,8,9])
a[[1,2,8]]

array([2, 3, 9])