# Preparando os dados para o Algoritmo de Aprendizado de Maquina

A preparação de dados é o processo de preparar os dados brutos para adequá-los as etapas seguintes de processamento e analise. 

Segundo a AWS, a preparação de dados pode consumir até 80% do tempo investido em um projeto de ML(Machine Learing).

Para entender melhor sobre **preparação de dados**, consulte este artigo da AWS:  
[O que é preparação de dados?](https://aws.amazon.com/pt/what-is/data-preparation/)


A preparação de dados segue uma série de etapas que começa com a coleta de dados, seguida pela limpeza, rotulagem, validação e visualização.


## Importando o arquivo com os dados

In [1]:
import os 
import tarfile
import urllib.request

# Definindo o caminho do dataset
DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml2/master/"
HOUSING_PATH = os.path.join("datasets", "housing")
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"

# download do dataset
def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    os.makedirs(housing_path, exist_ok=True)
    tgz_path = os.path.join(housing_path, "housing.tgz")
    urllib.request.urlretrieve(housing_url, tgz_path) # Faz o download do arquivo
    housing_tgz = tarfile.open(tgz_path) # Abre o arquivo
    housing_tgz.extractall(path=housing_path) # Extrai o arquivo
    housing_tgz.close()# Fecha o arquivo

fetch_housing_data()


### Carregando Dados

In [2]:
import pandas as pd

def load_housing_data(housing_path=HOUSING_PATH):
    csv_path = os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path)

housing = load_housing_data()



### Verificando dados ausentes

In [3]:
#ver dados faltantes
print(housing.isnull().sum())

longitude               0
latitude                0
housing_median_age      0
total_rooms             0
total_bedrooms        207
population              0
households              0
median_income           0
median_house_value      0
ocean_proximity         0
dtype: int64


### Substituindo dados ausentes pela média:
A limpeza de dados corrige erros e preenche dados ausentes como uma etapa de garantia da qualidade dos dados. Após a limpeza dos dados, será necessário transformá-los em um formato consistente e passível de leitura. Esse processo pode incluir a alteração de formatos de campo como datas e moeda, a modificação de convenções de nomenclatura e a correção de valores e unidades de medida para promover consistência.


A maioria dos algoritmos de ML, não funcionam com caracteristicas faltantes. Como verificar isso no nosso projeto de estudo ?

In [4]:
median = housing["total_bedrooms"].median()

housing["total_bedrooms"] = housing["total_bedrooms"].fillna(median)                                                                                 

O Scikit-Learn fornece uma classe útil: *SimpleImputer*, que substitui os valores ausentes pela media desse atributo.

In [5]:
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy="media")

### Manipulando atributos categóricos:
A manipulação de atributos de texto e categóricos na preparação de dados para Machine Learning (ML) é fundamental porque a maioria dos algoritmos trabalha apenas com dados numéricos. Se os dados não forem processados corretamente, o modelo pode não conseguir interpretá-los, resultando em erros ou desempenho ruim.

As cetegorias *'<1H OCEAN', 'INLAND', 'ISLAND', 'NEAR BAY', 'NEAR OCEAN'* precisam ser trasnfomadas em números antes do treinamento:


In [10]:
housing_cat = housing[["ocean_proximity"]]

from sklearn.preprocessing import OrdinalEncoder
ordinal_encoder = OrdinalEncoder()
housing_cat_encoded = ordinal_encoder.fit_transform(housing_cat)

In [8]:
housing_cat_encoded[:10]

array([[3.],
       [3.],
       [3.],
       [3.],
       [3.],
       [3.],
       [3.],
       [3.],
       [3.],
       [3.]])

In [9]:
ordinal_encoder.categories_

[array(['<1H OCEAN', 'INLAND', 'ISLAND', 'NEAR BAY', 'NEAR OCEAN'],
       dtype=object)]