In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Versão de Python Neste Jupyter Notebook:', python_version())

## Álgebra Linear

A álgebra linear é um ramo da matemática referente a espaços vetoriais e mapeamentos lineares entre esses espaços. Simplesmente, ele explora relações lineares. Praticamente todas as áreas da ciência moderna aproximam equações de modelagem com álgebra linear. Em particular, a ciência de dados depende da álgebra linear para aprendizado de máquina, modelagem matemática e solução de problemas de distribuição dimensional. 

### Espaços vetoriais

Um espaço vetorial é uma coleção de vetores. Um vetor é qualquer quantidade com magnitude e direção que determina a posição de um ponto no espaço em relação a outro. Magnitude é o tamanho de um objeto medido pelo movimento, comprimento e/ou velocidade. Os vetores podem ser adicionados e multiplicados (por escalares) para formar novos vetores. Um escalar é qualquer quantidade com magnitude (tamanho). Na aplicação, os vetores são pontos no espaço finito.

Exemplos de vetores incluem respiração, caminhada e deslocamento. A respiração requer que os músculos do diafragma exerçam uma força que tem magnitude e direção. Caminhar requer movimento em alguma direção. O deslocamento mede a distância que um objeto se move em uma determinada direção. 

### Matemática vetorial

Na matemática vetorial, um vetor é representado como um segmento de linha direcionado cujo comprimento é seu vetor de magnitude com uma seta indicando a direção da cauda para a cabeça. A cauda é onde o segmento de linha começa e a cabeça é onde termina (a seta). Os vetores são iguais se tiverem o mesmo módulo e direção.

Para somar dois vetores a e b, comece b onde a termina e complete o triângulo. Visualmente, comece em algum ponto de origem, desenhe a (Figura 3-1), comece b (Figura 3-2) da cabeça de a e o resultado c (Figura 3-3) é uma linha da cauda de a à cabeça de b. O primeiro exemplo ilustra a adição de vetores, bem como uma representação gráfica do processo:

In [None]:
import matplotlib.pyplot as plt, numpy as np

def vector_add(a, b):
    return np.add(a, b)

def set_up():
    plt.figure()
    plt.xlim(-.05, add_vectors[0]+0.4)
    plt.ylim(-1.1, add_vectors[1]+0.4)

if __name__ == "__main__":
    v1, v2 = np.array([3, -1]), np.array([2, 3])
    add_vectors = vector_add(v1, v2)
    set_up()
    ax = plt.axes()
    ax.arrow(0, 0, 3, -1, head_width=0.1, fc='b', 
             ec='b')
    
    ax.text(1.5, -0.35, 'a')
    ax.set_facecolor('honeydew')
    set_up()
    ax = plt.axes()
 
    ax.arrow(0, 0, 3, -1, head_width=0.1, fc='b', 
             ec='b')
    
    ax.arrow(3, -1, 2, 3, head_width=0.1, fc='crimson',
             ec='crimson')
    
    ax.text(1.5, -0.35, 'a')
    ax.text(4, -0.1, 'b')
    ax.set_facecolor('honeydew')
    set_up()
    ax = plt.axes()
    
    ax.arrow(0, 0, 3, -1, head_width=0.1, fc='b',
             ec='b')
    ax.arrow(3, -1, 2, 3, head_width=0.1, fc='crimson',
             ec='crimson')
    
    ax.arrow(0, 0, 5, 2, head_width=0.1, fc='springgreen',
             ec='springgreen')
    
    ax.text(1.5, -0.35, 'a')
    ax.text(4, -0.1, 'b')
    ax.text(2.3, 1.2, 'a + b')
    ax.text(4.5, 2.08, add_vectors, color='fuchsia')
    ax.set_facecolor('honeydew')
    plt.show()

O código começa importando as bibliotecas matplotlib e numpy. Biblioteca matplotlib é uma biblioteca de plotagem usada para visualização de alta qualidade. A biblioteca numpy é o pacote fundamental para a computação científica. É uma biblioteca maravilhosa para trabalhar com vetores e matrizes. O código continua com duas funções — vector_add() e set_up(). A função vector_add() adiciona dois vetores. A função set_up() configura a figura para plotagem. O bloco principal começa criando dois vetores e adicionando-os.

O restante do código demonstra graficamente como funciona a adição de vetores. Primeiro, ele cria um objeto axes() com uma seta representando o vetor a começando na origem (0, 0) e terminando em (3, -1). Ele continua adicionando texto e uma cor de fundo. Em seguida, ele cria um segundo objeto axes() com a mesma seta a, mas adiciona a seta b (vetor b) começando em (3, -1) e continuando em (2, 3). Finalmente, ele cria um terceiro objeto axes() com as mesmas setas a e b, mas adiciona a seta c (a + b) começando em (0, 0) e terminando em (5, 2).

O segundo exemplo modifica o exemplo anterior usando subtramas (Figura 3-4). Subtramas dividem uma figura em uma grade m × n para uma experiência de visualização diferente.

In [None]:
import matplotlib.pyplot as plt, numpy as np

def vector_add(a, b):
    return np.add(a, b)
if __name__ == "__main__":
    v1, v2 = np.array([3, -1]), np.array([2, 3])
    add_vectors = vector_add(v1, v2)
    f, ax = plt.subplots(3)
    x, y = [0, 3], [0, -1]
    ax[0].set_xlim([-0.05, 3.1])
    ax[0].set_ylim([-1.1, 0.1])
    ax[0].scatter(x,y,s=1)
    ax[0].arrow(0, 0, 3, -1, head_width=0.1, head_length=0.07,
                fc='b', ec='b')

    ax[0].text(1.5, -0.35, 'a')
    ax[0].set_facecolor('honeydew')
    x, y = ([0, 3, 5]), ([0, -1, 2])
    ax[1].set_xlim([-0.05, 5.1])
    ax[1].set_ylim([-1.2, 2.2])
    ax[1].scatter(x,y,s=0.5)
    ax[1].arrow(0, 0, 3, -1, head_width=0.2, head_length=0.1,
                fc='b', ec='b')
    
    ax[1].arrow(3, -1, 2, 3, head_width=0.16, head_length=0.1,
                fc='crimson', ec='crimson')
    
    ax[1].text(1.5, -0.35, 'a')
    ax[1].text(4, -0.1, 'b')
    ax[1].set_facecolor('honeydew')
    x, y = ([0, 3, 5]), ([0, -1, 2])
    ax[2].set_xlim([-0.05, 5.25])
    ax[2].set_ylim([-1.2, 2.3])
    ax[2].scatter(x,y,s=0.5)
    ax[2].arrow(0, 0, 3, -1, head_width=0.15, head_length=0.1,
                fc='b', ec='b')
    
    ax[2].arrow(3, -1, 2, 3, head_width=0.15, head_length=0.1,
                fc='crimson', ec='crimson')
    
    ax[2].arrow(0, 0, 5, 2, head_width=0.1, head_length=0.1,
                fc='springgreen', ec='springgreen')
    
    ax[2].text(1.5, -0.35, 'a')
    ax[2].text(4, -0.1, 'b')
    ax[2].text(2.3, 1.2, 'a + b')
    ax[2].text(4.9, 1.4, add_vectors, color='fuchsia')
    ax[2].set_facecolor('honeydew')
    plt.tight_layout()
    plt.show()

O código começa importando as bibliotecas matplotlib e numpy. Ele continua com a mesma função vector_add(). O bloco principal cria três subplots com plt.subplots(3) e atribui a f e ax, onde f representa a figura e ax representa cada subplot (ax[0], ax[1] e a [2]).

Em vez de trabalhar com uma figura, o código constrói cada subtrama indexando ax. O código usa plt.tight_layout() para alinhar automaticamente cada subtrama.

O terceiro exemplo adiciona subtração de vetores. Subtrair dois vetores é adicionar com o oposto (negação) de um vetor. Portanto, o vetor a menos o vetor b é o mesmo que a + (-b). O exemplo de código demonstra adição e subtração de vetores para vetores 2 e 3-D:

In [None]:
import numpy as np

def vector_add(a, b):
    return np.add(a, b)

def vector_sub(a, b):
    return np.subtract(a, b)

if __name__ == "__main__":
    v1, v2 = np.array([3, -1]), np.array([2, 3])
    add = vector_add(v1, v2)
    sub = vector_sub(v1, v2)
    print ('2D vectors:')
    print (v1, '+', v2, '=', add)
    print (v1, '-', v2, '=', sub)
    v1 = np.array([1, 3, -5])
    v2 = np.array([2, -1, 3])
    add = vector_add(v1, v2)
    sub = vector_sub(v1, v2)
    print ('\n3D vectors:')
    print (v1, '+', v2, '=', add)
    print (v1, '-', v2, '=', sub)

O código começa importando a biblioteca numpy. Ele continua com as funções vector_add() e vector_subtract(), que adicionam e subtraem vetores respectivamente. O bloco principal começa criando dois vetores 2-D e adicionando e subtraindo-os. Ele continua adicionando e subtraindo dois vetores 3-D.Qualquer n-dimensional pode ser adicionado e subtraído da mesma maneira.

A magnitude é medida pela fórmula da distância. A magnitude de um único vetor é medida da origem (0, 0) até o vetor. A magnitude entre dois vetores é medida do 1º vetor ao 2º vetor. A distancia  fórmula é a raiz quadrada de ((o 1º valor do 2º vetor menos o 1º valor do 1º vetor ao quadrado) mais (o 2º valor do 2º vetor menos o 2º valor do 1º vetor ao quadrado)). 

### Matrix matemática...

Uma matriz é uma matriz de números. Muitas operações podem ser realizadas em uma matriz, como adição, subtração, negação, multiplicação e divisão. A dimensão de uma matriz é o seu tamanho em número de linhas e colunas nessa ordem. Ou seja, uma matriz 2 × 3 tem duas linhas e três colunas. Geralmente, uma matriz m × n tem m linhas e n colunas. Um elemento é uma entrada em uma matriz. Especificamente, um elemento em rowi e columnj da matriz A é denotado como ai,j. Finalmente, um vetor em uma matriz é normalmente visto como uma coluna. Assim, uma matriz 2 × 3 tem três vetores (colunas) cada um com dois elementos. Este é um conceito muito importante para entender ao realizar a multiplicação de matrizes e/ou usar matrizes em algoritmos de ciência de dados.

O primeiro exemplo de código cria uma matriz numpy, multiplica-a por um escalar, calcula significa linha e coluna, cria uma matriz numpy a partir de matrizes numpy e a exibe por linha e elemento:

In [None]:
import numpy as np

def mult_scalar(m, s):
    matrix = np.empty(m.shape)
    m_shape = m.shape
    for i, v in enumerate(range(m_shape[0])):
        result = [x * s for x in m[v]]
        x = np.array(result[0])
        matrix[i] = x
    
    return matrix

def display(m):
    s = np.shape(m)
    cols = s[1]
    
    for i, row in enumerate(m):
        print ('row', str(i) + ':', row, 'elements:', end=' ')
    
    for col in range(cols):
        print (row[col], end=' ')
    print ()
    
if __name__ == "__main__":
    v1, v2, v3 = [1, 7, -4], [2, -3, 10], [3, 5, 6]
    A = np.matrix([v1, v2, v3])
    print ('matrix A:\n', A)
    
    scalar = 0.5
    B = mult_scalar(A, scalar)
    print ('\nmatrix B:\n', B)
    
    mu_col = np.mean(A, axis=0, dtype=np.float64)
    print ('\nmean A (column-wise):\n', mu_col)
    
    mu_row = np.mean(A, axis=1, dtype=np.float64)
    print ('\nmean A (row-wise):\n', mu_row)
    print ('\nmatrix C:')
    C = np.array([[2, 14, -8], [4, -6, 20], [6, 10, 12]])
    print (C)
    print ('\ndisplay each row and element:')
    display(C)

O código começa importando numpy. Ele continua com duas funções —mult_scalar() e display(). A função mult_scalar() multiplica uma matriz por um escalar. A função display() exibe uma matriz por linha e cada elemento de uma linha. O bloco principal cria três vetores e os adiciona a matriz numpy A. B é criada multiplicando escalar 0,5 por A. Em seguida, as médias para A são calculadas por coluna e linha. Por fim, a matriz numpy C é criada a partir de três matrizes numpy e exibida por linha e elemento.

O segundo exemplo de código cria uma matriz numpy A, soma suas colunas e linhas, calcula o produto escalar de dois vetores e calcula o produto escalar de duas matrizes. O produto escalar multiplica dois vetores para obter a magnitude que pode ser usada para calcular comprimentos de vetores e ângulos entre vetores. Especificamente, o produto escalar de dois vetores a e b é ax × bx + ay × by.

Para a multiplicação de matrizes, o produto escalar produz a matriz C a partir de duas matrizes A e B. No entanto, dois vetores não podem ser multiplicados quando ambos são vistos como matrizes de coluna. Para corrigir esse problema, transponha o 1º vetor de A, transformando-o em uma matriz de 1 × n linhas para que possa ser multiplicado pelo 1º vetor de B e somado. O produto agora está bem definido porque o produto de uma matriz 1 × n com uma matriz n × 1 é uma matriz 1 × 1 (um escalar). Para obter o produto escalar, repita este processo para os vetores restantes de A e B. Numpy inclui uma função prática que calcula o produto escalar para você, o que simplifica bastante a multiplicação de matrizes.

In [None]:
import numpy as np

def sum_cols(matrix):
    return np.sum(matrix, axis=0)

def sum_rows(matrix):
    return np.sum(matrix, axis=1)

def dot(v, w):
    return np.dot(v, w)

if __name__ == "__main__":
    v1, v2, v3 = [1, 7, -4], [2, -3, 10], [3, 5, 6]
    A = np.matrix([v1, v2, v3])
    print ('matrix A:\n', A)
    v_cols = sum_cols(A)
    print ('\nsum A by column:\n', v_cols)
    v_rows = sum_rows(A)
    print ('\nsum A by row:\n', v_rows)
    dot_product = dot(v1, v2)
    print ('\nvector 1:', v1)
    print ('vector 2:', v2)
    print ('\ndot product v1 and v2:')
    print (dot_product)
    
    v1, v2, v3 = [-2, 5, 4], [1, 2, 9], [10, -9, 3]
    B = np.matrix([v1, v2, v3])
    print ('\nmatrix B:\n', B)
    C = A.dot(B)
    print ('\nmatrix C (dot product A and B):\n', C)
    print ('\nC by row:')
    for i, row in enumerate(C):
        print ('row', str(i) + ': ', end='')
        for v in np.nditer(row):
            print (v, end=' ')
        print()

O código começa importando numpy. Ele continua com três funções — sum_cols(), sum_rows() e dot(). A função sum_cols() soma cada coluna e retorna uma linha com esses valores. A função sum_rows() soma cada linha e retorna uma coluna com esses valores. A função dot() calcula o produto escalar. O bloco principal começa criando três vetores que são usados para criar a matriz A. Colunas e linhas são somadas para A. O produto escalar é então calculado para dois vetores (v1 e v2). Em seguida, são criados três novos vetores que são usados para criar a matriz B. A matriz C é criada calculando o produto escalar para A e B. Finalmente, cada linha de C é exibida.

O terceiro exemplo de código ilumina um cenário realista. Suponha que uma empresa venda três tipos de tortas — carne, frango e vegetais. As tortas de carne custam $ 3 cada, as tortas de frango custam $ 4 dólares cada e as tortas de legumes custam $ 2 dólares cada. A representação vetorial para o custo da torta é [3, 4, 2]. Você também conhece as vendas por torta de segunda a quinta-feira. As vendas de carne bovina são 13 na segunda-feira, 9 na terça, 7 na quarta e 15 na quinta. O vetor para vendas de carne bovina é assim [13, 9, 7, 15]. Seguindo a mesma lógica, os vetores para vendas de frango são [8, 7, 4, 6] e [6, 4, 0, 3], respectivamente. O objetivo é calcular o total de vendas para quatro dias (segunda a quinta).

In [None]:
import numpy as np

def dot(v, w):
    return np.dot(v, w)

def display(m):
    for i, row in enumerate(m):
        print ('total sales by day:\n', end='')
        for v in np.nditer(row):
            print (v, end=' ')
        print()

if __name__ == "__main__":
    a = [3, 4, 2]
    
    A = np.matrix([a])
    print ('cost matrix A:\n', A)
    v1, v2, v3 = [13, 9, 7, 15], [8, 7, 4, 6], [6, 4, 0, 3]
    
    B = np.matrix([v1, v2, v3])
    print ('\ndaily sales by item matrix B:\n', B)
    
    C = A.dot(B)
    print ('\ndot product matrix C:\n', C, '\n')
    
    display(C)

O código começa importando numpy. Continua com a função dot() se _name__ == "__main__": a = [3, 4, 2] que calcula o produto escalar e a função display() que exibe os elementos de uma matriz, linha por linha. O bloco principal começa criando um vetor que contém o custo de cada tipo de pizza. Ele continua convertendo o vetor na matriz A. Em seguida, são criados três vetores que representam as vendas de cada tipo de torta de segunda a sexta-feira. O código continua convertendo os três vetores na matriz B. A matriz C é criada encontrando o produto escalar de A e B. Este cenário demonstra como o produto escalar pode ser usado para resolver problemas de negócios.

O quarto exemplo de código calcula a magnitude (distância) e direção (ângulo) com um único vetor e entre dois vetores:

In [None]:
import math, numpy as np

def sqrt_sum_squares(ls):
    return math.sqrt(sum(map(lambda x:x*x,ls)))

def mag(v):
    return np.linalg.norm(v)

def a_tang(v):
    return math.degrees(math.atan(v[1]/v[0]))

def dist(v, w):
    return math.sqrt(((w[0]-v[0])** 2) + ((w[1]-v[1])** 2))

def mags(v, w):
    return np.linalg.norm(v - w)

def a_tangs(v, w):
    val = (w[1] - v[1]) / (w[0] - v[0])
    return math.degrees(math.atan(val))

if __name__ == "__main__":
    v = np.array([3, 4])
    print ('single vector', str(v) + ':')
    print ('magnitude:', sqrt_sum_squares(v))
    print ('NumPY magnitude:', mag(v))
    print ('direction:', round(a_tang(v)), 'degrees\n')
    v1, v2 = np.array([2, 3]), np.array([5, 8])
    print ('two vectors', str(v1) + ' and ' + str(v2) + ':')
    print ('magnitude', round(dist(v1, v2),2))
    print ('NumPY magnitude:', round(mags(v1, v2),2))
    print ('direction:', round(a_tangs(v1, v2)), 'degrees\n')
    v1, v2 = np.array([0, 0]), np.array([3, 4])
    print ('use origin (0,0) as 1st vector:')
    print ('"two vectors', str(v1) + ' and ' + str(v2) + '"')
    print ('magnitude:', round(mags(v1, v2),2))
    print ('direction:', round(a_tangs(v1, v2)), 'degrees')

O código começa importando as bibliotecas math e numpy. Continua com seis funções. A função sqrt_sum_squares() calcula a magnitude de um vetor a partir do zero. A função mag() faz o mesmo, mas usa numpy. print('use origem (0,0) como 1º vetor:') print('"dois vetores', str(v1) + + str(v2) + '"') print('magnitude:', round(mags( v1, v2),2)) print('direção:', round(a_tangs(v1, v2)), 'graus') A função a_tang() calcula o arco tangente de um vetor, que é a direção (ângulo) de um vetor a partir da origem (0,0). A função dist() calcula a magnitude entre dois vetores desde o início. A função mags() faz o mesmo, mas usa numpy. A função a_tangs() calcula o arco tangente de dois vetores. O bloco principal cria um vetor, calcula magnitude e direção e exibe. Em seguida, magnitude e direção são calculadas e exibidas para dois vetores. Por fim, a magnitude e a direção de um único vetor são calculadas usando as duas fórmulas vetoriais. Isso é feito usando a origem (0,0) como o 1º vetor. Portanto, funções que calculam magnitude e direção para um único etor não são necessárias, porque qualquer vetor único sempre começa na origem (0,0). Portanto, um vetor é simplesmente um ponto no espaço medido a partir da origem (0,0) ou em relação a outro vetor por magnitude

### Transformações básicas de matrizes

O primeiro exemplo de código apresenta a matriz de identidade, que é uma matriz quadrada com uns na diagonal principal e zeros em outras partes. O produto da matriz A e sua matriz identidade é A, o que é importante matematicamente porque a propriedade de identidade da multiplicação afirma que qualquer número multiplicado por 1 é igual a ele mesmo.

In [None]:
import numpy as np

def slice_row(M, i):
    return M[i,:]

def slice_col(M, j):
    return M[:, j]

def to_int(M):
    return M.astype(np.int64)

if __name__ == "__main__":
    A = [[1, 9, 3, 6, 7],
         [4, 8, 6, 2, 1],
         [9, 8, 7, 1, 2],[1, 1, 9, 2, 4],
         [9, 1, 1, 3, 5]]
    
    A = np.matrix(A)
    print ('A:\n', A)
    print ('\n1st row: ', slice_row(A, 0))
    print ('\n3rd column:\n', slice_col(A, 2))
    
    shapeA = np.shape(A)
    I = np.identity(np.shape(A)[0])
    I = to_int(I)
    print ('\nI:\n', I)
    dot_product = np.dot(A, I)
    print ('\nA * I = A:\n', dot_product)
    print ('\nA\':\n', A.I)
    A_by_Ainv = np.round(np.dot(A, A.I), decimals=0, out=None)
    A_by_Ainv = to_int(A_by_Ainv)
    print ('\nA * A\':\n', A_by_Ainv)

O código começa importando numpy. Continua com três funções. A função slice_row() divide uma linha de uma matriz. A função slice_col() divide uma coluna de uma matriz. A função to_int() converte a matriz elementos para inteiros. O bloco principal começa criando a matriz A. Ele continua criando a matriz identidade para A. Finalmente, ele cria a matriz identidade para A usando o produto escalar de A com A' (inverso de A).

O segundo exemplo de código converte uma lista de listas em uma matriz numpy e a atravessa:

In [None]:
import numpy as np

if __name__ == "__main__":
    data = [[41, 72, 180], [27, 66, 140],
            [18, 59, 101], [57, 72, 160],
            [21, 59, 112], [29, 77, 250],
            [55, 60, 120], [28, 72, 110],
            [19, 59, 99], [32, 68, 125],
            [31, 79, 322], [36, 69, 111]
            ]
    
    A = np.matrix(data)
    print ('manual traversal:')
    for p in range(A.shape[0]):
        for q in range(A.shape[1]):
            print (A[p,q], end=' ')
        print ()

O código começa importando numpy. O bloco principal começa criando uma lista de listas, convertendo-a na matriz numpy A e percorrendo A. Embora eu tenha demonstrado vários métodos para percorrer uma matriz numpy, esse é meu método favorito.

O terceiro exemplo de código converte uma lista de listas na matriz numpy A. Em seguida, fatia e corta A:

In [None]:
if __name__ == "__main__":
    points_3D_space = [[0, 0, 0],
                       [1, 2, 3],
                       [2, 2, 2],
                       [9, 9, 9]]
    
    A = np.matrix(points_3D_space)
    print ('slice entire A:')
    print (A[:])
    print ('\nslice 2nd column:')
    print (A[0:4, 1])
    print ('\nslice 2nd column (alt method):')
    print (A[:, 1])
    print ('\nslice 2nd & 3rd value 3rd column:')
    print (A[1:3, 2])
    print ('\nslice last row:')
    print (A[-1])
    print ('\nslice last row (alt method):')
    print (A[3])
    print ('\nslice 1st row:')
    print (A[0, :])
    print ('\nslice 2nd row; 2nd & 3rd value:')
    print (A[1, 1:3])

O código começa importando numpy. O bloco principal começa criando uma lista de listas e convertendo-a na matriz numpy A. O código continua dividindo e dividindo a matriz.

### Aplicações Pandas Matrix

A biblioteca pandas fornece estrutura de dados e ferramentas de análise fáceis de usar e de alto desempenho. O objeto pandas mais comumente usado é um DataFrame (df). Um df é uma estrutura 2-D com eixos rotulados (linha e coluna) de tipos potencialmente diferentes. As operações matemáticas se alinham nos rótulos de linha e coluna. Um df pode ser conceituado por coluna ou linha. Para ver por coluna, use axis = 0 ou axis = 'index'. Para visualizar por linha, use axis = 1 ou axis = 'columns'. Isso pode parecer contra-intuitivo ao trabalhar com linhas, mas é assim que os pandas implementam esse recurso.

Um pandas df é muito mais fácil de trabalhar do que uma matriz numpy, mas também é menos eficiente. Ou seja, são necessários muito mais recursos para processar um pandas df. A biblioteca numpy é otimizada para processar grandes quantidades de dados e cálculos numéricos.

O primeiro exemplo cria uma lista de listas, coloca-a em um pandas df e exibe alguns dados:

In [None]:
import pandas as pd

if __name__ == "__main__":
    data = [[41, 72, 180], [27, 66, 140],
            [18, 59, 101], [57, 72, 160],
            [21, 59, 112], [29, 77, 250],
            [55, 60, 120], [28, 72, 110],
            [19, 59, 99], [32, 68, 125],
            [31, 79, 322], [36, 69, 111]]
    
    headers = ['age', 'height', 'weight']
    df = pd.DataFrame(data, columns=headers)
    n = 3
    
    print ('First', n, '"df" rows:\n', df.head(n))
    print ('\nFirst "df" row:')
    print (df[0:1])
    print ('\nRows 2 through 4')
    print (df[2:5])
    print ('\nFirst', n, 'rows "age" column')
    print (df[['age']].head(n))
    print ('\nLast', n, 'rows "weight" and "age" columns')
    print (df[['weight', 'age']].tail(n))
    print ('\nRows 3 through 6 "weight" and "age" columns')
    print (df.ix[3:6, ['weight', 'age']])

O código começa importando pandas. O bloco principal começa criando uma lista de listas e adicionando-a a um pandas df. É uma boa ideia criar seus próprios cabeçalhos como fazemos aqui. Os métodos head() e tail() exibem automaticamente os primeiros cinco registros e os últimos cinco registros, respectivamente, a menos que um valor seja incluído. Neste caso, exibimos o 1º e os três últimos registros. Usar head() e tail() são muito úteis, especialmente com um grande df. Observe como é fácil fatiar e cortar o df. Além disso, observe como é fácil exibir os dados da coluna de sua escolha.

O segundo exemplo cria uma lista de listas, coloca-a na matriz numpy A e coloca A em um pandas df. Essa habilidade é muito importante porque mostra como é fácil criar um df a partir de uma matriz numpy. Portanto, você pode trabalhar com matrizes numpy para precisão e desempenho e, em seguida, converter em pandas para fatiar, cortar em cubos e outras operações.

In [None]:
import pandas as pd, numpy as np

if __name__ == "__main__":
    data = [[41, 72, 180], [27, 66, 140],
            [18, 59, 101], [57, 72, 160],
            [21, 59, 112], [29, 77, 250],
            [55, 60, 120], [28, 72, 110],
            [19, 59, 99], [32, 68, 125],
            [31, 79, 322], [36, 69, 111]]
    
    A = np.matrix(data)
    headers = ['age', 'height', 'weight']
    df = pd.DataFrame(A, columns=headers)
    print ('Entire "df":')
    print (df, '\n')
    print ('Sliced by "age" and "height":')
    print (df[['age', 'height']])
    

O código começa importando pandas e numpy. O bloco principal começa criando uma lista de listas, convertendo-a em uma matriz numpy A e, em seguida, adicionando A a um pandas df.

O terceiro exemplo cria uma lista de listas, coloca-a em uma lista de elementos do dicionário e a coloca em um pandas df. Essa capacidade também é muito importante porque os dicionários são estruturas de dados muito eficientes ao trabalhar com aplicativos de ciência de dados.

In [None]:
import pandas as pd

if __name__ == "__main__":
    data = [[41, 72, 180], [27, 66, 140],
            [18, 59, 101], [57, 72, 160],
            [21, 59, 112], [29, 77, 250],
            [55, 60, 120], [28, 72, 110],
            [19, 59, 99], [32, 68, 125],
            [31, 79, 322], [36, 69, 111]]
    d = {}
    dls = []
    key = ['age', 'height', 'weight']
    for row in data:
        for i, num in enumerate(row):
            d[key[i]] = num
        dls.append(d)
        d = {}
    df = pd.DataFrame(dls)
    print ('dict elements from list:')
    
    for row in dls:
        print (row)
    
    print ('\nheight from 1st dict element is:', end=' ')
    print (dls[0]['height'])
    print ('\n"df" converted from dict list:\n', df)
    print ('\nheight 1st df element:\n', df[['height']].head(1))

O quarto exemplo de código cria duas listas de listas — dados e pontuações. A lista de dados contém idades, alturas e pesos para 12 atletas. A lista de pontuações contém três pontuações de exame para 12 alunos. A lista de dados é colocada diretamente em df1 e a lista de pontuações é colocada diretamente em df2. As médias são calculadas e exibidas.

In [None]:
import pandas as pd, numpy as np

if __name__ == "__main__":
    data = [[41, 72, 180], [27, 66, 140],
            [18, 59, 101], [57, 72, 160],
            [21, 59, 112], [29, 77, 250],
            [55, 60, 120], [28, 72, 110],
            [19, 59, 99], [32, 68, 125],
            [31, 79, 322], [36, 69, 111]]
    
    scores = [[99, 90, 88], [77, 66, 81], 
              [78, 77, 83], [75, 72, 79], 
              [88, 77, 93], [88, 77, 94],
              [100, 99, 93], [94, 74, 90], 
              [98, 97, 99], [73, 68, 77], 
              [55, 50, 68], [36, 77, 90]]
    
    n = 3
    key1 = ['age', 'height', 'weight']
    df1 = pd.DataFrame(data, columns=key1)
    print ('df1 slice:\n', df1.head(n))
    
    avg_cols = df1.apply(np.mean, axis=0)
    print ('\naverage by columns:')
    print (avg_cols)
    
    avg_wt = df1[['weight']].apply(np.mean, axis='index')
    print ('\naverage weight')
    print (avg_wt)
    
    key2 = ['exam1', 'exam2', 'exam3']
    df2 = pd.DataFrame(scores, columns=key2)
    print ('\ndf2 slice:\n', df2.head(n))
    
    avg_scores = df2.apply(np.mean, axis=1)
    print ('\naverage scores for 1st', n, 'students (rows):')
    print (avg_scores.head(n))
    
    avg_slice = df2[['exam1','exam3']].apply(np.mean,
                                             axis='columns')
    
    print ('\naverage "exam1" & "exam3" 1st', n, 'students(rows):')
    print (avg_slice[0:n])

O código começa importando pandas e numpy. O bloco principal cria as listas de dados e pontuações e as coloca em df1 e df2, respectivamente. Com df1 (dados), calculamos a média por coluna porque nosso objetivo é retornar a média de idade, altura e peso de todos os atletas. Com df2 (pontuações), calculamos a média por linha porque nosso objetivo é retornar a pontuação geral média do exame para cada aluno. Poderíamos calcular a média por coluna para df2 se o objetivo for calcular a pontuação geral média para um dos exames. Tente isso se desejar.

In [None]:
%reload_ext watermark
%watermark -a "Caique Miranda" -gu "caiquemiranda" -iv

### End.