# Capítulo 9 - Colocando em Prática o Que Você Sabe

## Contextualizando Problemas e Dados

De maneira geral, ao se deparar com os dados, deve-se examinar criticamente o problema e os recursos disponíveis e criar o ambiente para resolvê-los

### Avaliando um problema de Data Science

Na primeira avaliação de um problema, deve-se considerar:
- Os dados disponíveis em termos de acessibilidade, quantidade e qualidade: Esteja ciente da confiabilidade dos dados e faça uma análise crítica.
- Os métodos viáveis para fazer a análise do conjunto de dados: Comece usando abordagens simples, e nunca se apaixone por uma técnica em particular.
- As perguntas que deseja responder e como medir se obteve uma resposta satisfatoria: Entender quais benefícios seu projeto trará.


## Considerando a arte da criação de atributos

Muitas vezes, deve-se realizar transformações nos dados para poder trabalhar, por exemplo, os dados numericos estarão em formato string na fonte de dados e será preciso converte-los.

### Combinando variáveis

Os dados geralmente vêm em formatos que não funcionam para um algoritmo. Por exemplo, as vezes para uma mesma equação você precisa buscar dados em diferentes tabelas e fazer essa combinação.

### Entendendo a compartimentalização e a discretização

A ação de separar valores em categorias(ou intervalos), melhora a precisão de modelos preditivos e reduz ruidos.

### Usando variáveis indicadoras

Serve para dados que existam apenas aa opções 'verdadeiro' e 'falso', assumindo valores '0' ou '1' 

### Transformando as distribuições

"Distribuição" é a forma como os dados estão organizados. Algumas vezes os valores apresentarão assimetria e deve-se estudar a possiblidade de transformar para se parecerem com umas distribuição normal. Algumas transformações são:
- Logarítmica e Exponencial: np.log(x) e np.exp(x)
- Inversa, Raiz-quadrada e Raiz-Cubica: 1/x, np.sqrt(x) e x**(1.0/3.0)
- Transformações polinomiais como: x* * 2, x* * 3, e assim por diante

## Realizando operações em arrays

In [3]:
import numpy as np

dataset = np.array([[2,4,6,8,3,2,5],
                   [7,5,3,1,6,8,0], 
                   [1,3,2,1,0,0,8]])
print(np.max(dataset, axis=1) - np.min(dataset, axis=1))


[6 8 8]


A linha `print(np.max(dataset, axis=1) - np.min(dataset, axis=1))` calcula a diferença entre os valores máximos e mínimos de cada linha do conjunto de dados.

A função `np.max()` é aplicada ao dataset com o argumento axis=1, o que indica que a operação de máximo deve ser aplicada ao longo do eixo das colunas. Isso resulta em um array unidimensional contendo os valores máximos de cada linha.

Da mesma forma, a função `np.min()` é aplicada ao dataset com axis=1, resultando em um array unidimensional contendo os valores mínimos de cada linha.

### Realizando aritmetica simples em vetores e raizes

In [4]:
a = np.array([15.0,20.0,22.0,75.0,40.0,35.0])
a = a*.01
print(a)

[0.15 0.2  0.22 0.75 0.4  0.35]


Multiplica cada elemento do array `a` por 0.01. Essa operação é realizada elemento por elemento, o que resulta na multiplicação de cada valor do array por 0.01.

### Multiplicando vetores por matrizes

In [5]:
a = np.array([2,4,6,8])
b = ([[1,2,3,4],
     [2,3,4,5],
     [3,4,5,6],[4,5,6,7]])
c = np.dot(a,b)

print(c)

[ 60  80 100 120]


A função `np.dot(a, b)` realiza o cálculo do produto de matrizes multiplicando cada elemento de a pelos elementos correspondentes nas colunas de b, somando esses produtos e gerando um novo array com os resultados.

### Multiplicando matrizes

In [6]:
a = np.array([[2,4,6,8],
             [1,3,5,7]])
b = np.array([[1,2],
             [2,3],
             [3,4],
             [4,5]])
c= np.dot(a,b)
print(c)

[[60 80]
 [50 66]]


Cada linha na primeira matriz é multiplicado pelas colunas da segunda. Por exemplo, para obter o valor 50 exibido na linha 2 coluna 1 da saída correspondemos os valores na linha 2 da matriz `a` com a coluna 1 da matris `b`, desta forma: 1 * 1 + 3 * 2 + 5 * 3 + 7 * 4