# Data Science Academy

### Fundamentos de Linguagem Python para Análise de Dados e Data Science

##### Matemática e Manipulação de Matrizes com NumPy

In [None]:
# Versão da Linguagem Python 
from platform import python_version
print(python_version())

#### **Numpy**
- https://numpy.org

In [None]:
import numpy as np # type: ignore

In [None]:
np.__version__

##### Criando Arrays NumPy

In [None]:
# Array criado a partur de uma lista Python
arr1 = np.array([10,21,32,43,48,15,76,57,89])

In [None]:
print(arr1)

In [None]:
# Um objeto do tipo ndarray é um recipiente multidimensional de itens do mesmo tipo e tamanho
type(arr1)

In [None]:
# Verificando o formato do Array
arr1.shape

- Um array NumPy é uma estrutura de dados multidimensional usada em computação científica e análise de dados. O numPy fornece um objeto de matriz N-dimensional (ou ndarray), que é uma grade homogênea de elementos, geralmente números, que podem ser indexados por um conjunto de inteiros.
- Os arrays NumPy são mais eficientes do que as listas python para armazenar e manipular grandes quantidades de dados, pois são implementados em Linguagem C e fornecem várias otimizações de desempenho. Além disso, o NumPy permite a fácil leitura e escrita de arquivos de dados, integração com outras bibliotecas Python e suporte a operações em paralelo uando várias CPUs ou GPUs.

##### Indexação em Array NumPy

In [None]:
print(arr1)

In [None]:
# Imprimindo um elemento específico no array
arr1[4]

In [None]:
# Indexação
arr1[1:4]

In [None]:
arr1[1:4+1]

In [None]:
# Cria uma lista de índices
indices = [1,2,5,6]

In [None]:
# Imprimindo os elementos dos índices
arr1[indices]

In [None]:
# Cria uma máscara booleana para os elementos pares
mask = (arr1 % 2 == 0)

In [None]:
arr1[mask]

In [None]:
# Alterando um elemento do array
arr1[0] = 100

In [None]:
print(arr1)

In [None]:
# Não é possível incluir elemento de outro tipo
try:
    arr1[0] = 'novo elemento'
except:
    print('Operação não permitida')

##### Funções NumPy

In [None]:
# A função np.array() cria um array NumPy
arr2 = np.array([1,2,3,4,5])

In [None]:
print(arr2)

In [None]:
# Verificando o tipo do objeto
type(arr2)

In [None]:
# Digite . e pressione a tecla Tab no seu teclado para visualizar os métodos disponíveis em objetos NumPy
arr2

In [None]:
# Usando métodos do Array NumPy
arr2.cumsum()

In [None]:
arr2.cumprod()

In [None]:
# A função arange cria um array NumPy contendo uma progressão aritmética a partir de um intervalo - star, stop, step 
arr3 = np.arange(0,50,2)

In [None]:
print(arr3)    

In [None]:
type(arr3)

In [None]:
np.shape(arr3)

In [None]:
print(arr3.dtype)

In [None]:
# Cria um array preenchido com zeros
arr4 = np.zeros(10)

In [None]:
arr4

In [None]:
# Retorna 1 nas posições em diagonal e o 0 no restante 
arr5 = np.eye(3)

In [None]:
print(arr5)

In [None]:
# Os valores passados como parâmetro, formam uma diagonal
arr6 = np.diag(np.array([1,2,3,4]))

In [None]:
print(arr6)

In [None]:
# Array de valores booleanos
arr7 = np.array([True, False, False, True])

In [None]:
print(arr7)

In [None]:
# Array de strings
arr8 = np.array(['Linguagem Python', 'Linguagem R', 'Linguagem Julia'])

In [None]:
arr8

A função linespace() do NumPy é usada para criar uma sequência de números igualmente espaçados dentro de um intervalo especificado. Esa função é amplamente utilizada em programação científica e matemática para gerar arrays de números para diversos fins, como gráficos, cálculos e simulações. 
O método linspace (linearly spaced vector) retorna um número de valores igualmente distribuídos no intervalo esepcificado.

In [None]:
print(np.linspace(0,10))

In [None]:
print(np.linspace(0,10,15))

A função  logspace() no NumPy é usada para criar uma sequência de números igulmente espaçados em escala logarítmica dentro de um intervalor especificado. Essa função é aplamente utilizada em programação cienctífica e matemática para gerar arrays de números para diversos fins, como gráficos, cálculos e simulações.

In [None]:
print(np.logspace(0,5,10))

##### Manipulando Matrizes

In [None]:
# Criando uma matriz 
arr9 = np.array([[1,2,3],[9,8,7]])

In [None]:
type(arr9)

In [None]:
print(arr9)

In [None]:
# Criando uma matriz 2x3 apenas com números
arr10 = np.ones((2,3))

In [None]:
arr10

In [None]:
# Criando uma lista de listas 
lista = [[13,81,22],[0,34,59],[21,48,94]]

In [None]:
# a função matrix cria uma matriz a partir de uma lista de listas
arr11 = np.matrix(lista)

In [None]:
arr11

In [None]:
type(arr11)

In [None]:
# Formato da matriz
np.shape(arr11)

In [None]:
# Tamanho da matriz 
arr11.size

In [None]:
print(arr11.dtype)

In [None]:
# Indexação de matrizes, lembrando que indexação em Python se incia em ZERO
arr11[2,1]

In [None]:
# Indexação em matrizes
arr11[0:2,2]

In [None]:
# Imprime todos os valores na linha. 
arr11[1,]

In [None]:
# Alterando um elemento da matriz
arr11[1,0] = 100

In [None]:
print(arr11)

In [None]:
x = np.array([1,2]) # NumPy decide o tipo dos dados  
y = np.array([3.4,3.0]) # NumPy decide o tipo dos dados
z = np.array([1,2], dtype = np.float64) # Forçamos um tipo de dado particular 

In [None]:
print(x.dtype, y.dtype, z.dtype)

In [None]:
arr12 = np.array([[24,76,92,14],[47,35,89,2]], dtype = float)

In [None]:
print(arr12)

- O item size de um array numpy é atributo que retorna o tamanho em bytes de cada elemento do array. Em outras palavras, o item size representa o número de bytes necessários para armazenar cada valor do array numpy.

In [None]:
arr12.itemsize

In [None]:
arr12.nbytes

In [None]:
arr12.ndim

##### Manipulando Objetos de 3 e 4 dimensões com NumPy

In [None]:
# Cria uma array numpy em 3 dimensões
arr_3d = np.array([
    [
        [1,2,3,4],
        [5,6,7,8],
        [9,10,11,12]
    ],
    [
        [13,14,15,16],
        [17,18,19,20],
        [21,22,23,24]        
    ]
    ])

In [None]:
arr_3d

In [None]:
type(arr_3d)

In [None]:
arr_3d.ndim

In [None]:
arr_3d.shape

In [None]:
arr_3d[0,2,1]

In [None]:
# Cria uma Array NumPy de 3 dimensões 
arr_4d = np.array([
    [
        [
            [1,2,3,4,5],
            [6,7,8,9,10],
            [11,12,13,14,15],
            [16,17,18,19,20]
        ],
        [
            [21,22,23,24,25],
            [26,27,28,29,30],
            [31,32,33,34,35],
            [36,37,38,39,40]    
        ],
        [
            [41,42,43,44,45],
            [46,47,48,49,50],
            [51,52,53,54,55],
            [56,57,58,59,60]
        ]
    ],
    [
        [
            [61,62,63,64,65],
            [66,67,68,69,70],
            [71,72,73,74,75],
            [76,77,78,79,80]
        ],
        [
            [81,82,83,84,85],
            [86,87,88,89,90],
            [91,92,93,94,95],
            [96,97,98,99,100]    
        ],
        [
            [101,102,103,104,105],
            [106,107,108,109,110],
            [111,112,113,114,115],
            [116,117,118,119,120]
        ]
    ]
])

In [None]:
arr_4d

In [None]:
arr_4d.ndim

In [None]:
arr_4d.shape

In [None]:
arr_4d[0,2,1]

##### Manipulando Arquivos NumPy

In [None]:
import os 
filename = os.path.join('dataset.csv')

In [None]:
# No windows use !MORE dataset.csv. Mac ou Linux use !HEAD dataset.csv
# !head dataset.csv
!more dataset.csv

In [None]:
arr13 = np.loadtxt(filename, delimiter = ',', usecols=(0,1,2,3), skiprows=1)

In [None]:
print(arr13)

In [None]:
type(arr13)

In [None]:
# Carregando apenas duas variáveis (colunas) do arquivos
var1, var2 = np.loadtxt(filename,delimiter = ',', usecols=(0,1), skiprows=1, unpack=True)

In [None]:
var1

In [None]:
var2

In [None]:
# Gerando um plot a partir de um arquivo usando o NumPy 
import matplotlib.pyplot as plt
plt.show(plt.plot(var1, var2 ,'o', markersize = 6, color = 'red'))

##### Análise Estatística 

In [None]:
# Criando um Array 
arr14 = np.array([15,23,63,94,75])

- Em estatística, a média é uma medida de tendência central que representa o valor de um conjunto de dados. É calculada somando-se todos os valores do conjunto de dados e dividindo-se pelo número de observações 

In [None]:
# Média
np.mean(arr14)

- O desvio padrão é uma medida de estátistica de dispersão que indica o quanto os valores de dados se afastam da média. Ele é calculado como a raiz quadrada da variância, que é a média dos quadrados das diferenças entre cada valor e a média. 
- O desvio padrão é uma medida útil porque permite avaliar a variabilidade dos dados em torno da média. Se os valores estiverem próximos da média, o desvio padrão será baixo, indicado que os dados têm pouca variabilidade. Por outro lado, se os valores estiverem muito distantes da média o desvio padrão será alto, indicando que os dados tem alta variabilidade.
- O desvio padrão é amplamente utilizado em análise e ciência de dados, para avaliar a consistência dos ados e comparar conjuntos de dados diferentes. É importante notar que o desvio padrão pode ser influenciado por valores extremos (***outliers***) e pode ser afetado por diferentes distribuições de dados.

In [None]:
# Desvio Padrão (Standar Deviation)
np.std(arr14)

- A variância é uma medida estátistica que quantifica a dispersão dos valores em um conjunto de dados em relação à média . Ela é calculada como média dos quadrados das diferenças entre cada valor e a média 
A fórmula para o cálculo da variância é: 

**var = 1/n * Σ(xi-x̅)²** 

Onde:
- var é a variância
- é o núumero de observações
- xi é o i-ésimo valor no conjunto de dados
- x̅ é a média dos valores

- A variância é uma medida útil para avaliar a variabilidade dos dados em torno da média. Se a variância for baixa, isso indica que os valores estão próximos da média e têm pouca variabilidade. Por outro lado, se a variância for alta, isso indica que os valores estão distantes e têm alta variabilidade. 


In [None]:
np.var(arr14)

- Ler o manual em pdf no capítulo 09 sobre quando usar variância e desvio padrão para análise de dados.