# Python Machine Learning Cookbook¶
__Tanscrição de capítulos para o Português para estudo e uso como referência__

Uso pessoal @caiosainvallio

# Capítulo 2

# Carregar Dados

# 2.1 Carregar um Dataset de Amostra
## Problema
Preciso de um dataset preexistente para estudar.
## Solução
O Scikit-learn vem com vários datasets para serem usados:

In [1]:
# Carregar dataset do scikit-learn
from sklearn import datasets

# Carregar o dataset digitos
digitos = datasets.load_digits()

# Criar uma matriz de features
features = digitos.data

# Criar um vetor de target
target = digitos.target

# Ver as primeiras observações
features[0]

array([ 0.,  0.,  5., 13.,  9.,  1.,  0.,  0.,  0.,  0., 13., 15., 10.,
       15.,  5.,  0.,  0.,  3., 15.,  2.,  0., 11.,  8.,  0.,  0.,  4.,
       12.,  0.,  0.,  8.,  8.,  0.,  0.,  5.,  8.,  0.,  0.,  9.,  8.,
        0.,  0.,  4., 11.,  0.,  1., 12.,  7.,  0.,  0.,  2., 14.,  5.,
       10., 12.,  0.,  0.,  0.,  0.,  6., 13., 10.,  0.,  0.,  0.])

## Discussão
Esses datasets são pequenos e já estão 'limpos', usados geralmente para estudar modelagem. Para mais informações [scikit-learn toy dataset](https://scikit-learn.org/stable/datasets/index.html)

---

# 2.2 Simular Dataset
## Problema
Preciso gerar um dataset com dados simulados.
## Solução
O scikit-leanr oferece diversas maneiras de criar dados simulados, o que é bastante útil:

### 2.2.1 Dados para regressão

In [2]:
# Carregar pacote
from sklearn.datasets import make_regression

# Gerar matriz de feature, vetor de target e coeficientes
features, target, coefficients = make_regression(n_samples=100, 
                                                 n_features=3, 
                                                 n_informative=3, 
                                                 n_targets=1, 
                                                 noise=0.0,
                                                 coef=True, 
                                                 random_state=1)

# Ver a matriz de features e vetor de target
print(f'Matriz de feature\n{features[:3]}')
print(f'Vetor de target\n{target[:3]}')

Matriz de feature
[[ 1.29322588 -0.61736206 -0.11044703]
 [-2.793085    0.36633201  1.93752881]
 [ 0.80186103 -0.18656977  0.0465673 ]]
Vetor de target
[-10.37865986  25.5124503   19.67705609]


### 2.2.2 Dados para classificação

In [3]:
# Carregar pacote
from sklearn.datasets import make_classification

# Gerar matriz de feature e vetor de target
features, target = make_classification(n_samples=100,
                                       n_features=3,
                                       n_informative=3,
                                       n_redundant=0,
                                       n_classes=2,
                                       weights=[.25, .75],
                                       random_state=1)

# Ver a matriz de features e vetor de target
print(f'Matriz de feature\n{features[:3]}')
print(f'Vetor de target\n{target[:3]}')

Matriz de feature
[[ 1.06354768 -1.42632219  1.02163151]
 [ 0.23156977  1.49535261  0.33251578]
 [ 0.15972951  0.83533515 -0.40869554]]
Vetor de target
[1 0 0]


### 2.2.3 Dados para clusterização

In [4]:
# Carregar pacote
from sklearn.datasets import make_blobs

# Gerar matriz de feature e vetor de target
features, target = make_blobs(n_samples=100,
                              n_features=2, 
                              centers=3, 
                              cluster_std=0.5, 
                              shuffle=True, 
                              random_state=1)

# Ver a matriz de features e vetor de target
print(f'Matriz de feature\n{features[:3]}')
print(f'Vetor de target\n{target[:3]}')

Matriz de feature
[[ -1.22685609   3.25572052]
 [ -9.57463218  -4.38310652]
 [-10.71976941  -4.20558148]]
Vetor de target
[0 1 1]


---

# 2.3 Carregar Arquivos CSV
## Problema
Preciso importar um arquivo CSV.
## Solução
Usar `read_csv` do pandas:

In [5]:
# Carregar pacote
import pandas as pd

# Criar uma URL
url = 'http://data.insideairbnb.com/sweden/stockholms-l%C3%A4n/stockholm/2020-02-28/visualisations/listings.csv'

# Carregar o dataset
dataframe = pd.read_csv(url)

# Ver as primeiras duas linhas
dataframe.head(2)

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,155220,"Stockholm, new spacoius villa",746396,Madeleine,,Skarpnäcks,59.24667,18.17799,Entire home/apt,1200,3,0,,,2,0
1,155685,Hornstull with water view!,748592,Robert,,Södermalms,59.31535,18.03277,Entire home/apt,3184,4,22,2015-12-01,0.21,1,0


## Discussão
Esse framework é o mesmo para:
* Arquivos Excel: `read_excel`
* Arquivos JSON: `read_json`

---
---