### Estudo para iniciantes em Data Science.

Segundo o livro **Data Science with Python - Packt**, na parte de *_Roadmap for Building Machine Learning Models_*, exitem 5 (cinco) etapas principais para a construção de modelos de aprendizado de máquina.

1 - Data Pre-processing  
2 - Model Learning  
3 - Model Evaluation - *_Hyperparameter optimization_*  
4 - Prediction  
5 - Model Deployment

Variáveis
 - Independentes são usadas para prever a variável de destino,  elas devem ser independentes uma da outra. Se não estiverem, isso precisará ser resolvido no estágio de pré-processamento (limpeza).

**NÃO** devem conter:
* Valores ausentes ou *_NULL_*
* Recursos de dados altamente categóricos ou alta cardinalidade
* Outliers
* Dados em diferentes escalas
* Erro humano
* Multicolinearidade (variáveis independentes correlacionadas)
* Conjuntos de recursos independentes muito grandes (muitas variáveis independentes para serem gerenciáveis)
* Dados esparsos
* Caracteres especiais



---
## Data Representation

#### Exercício 01 - Carregando um conjunto de dados de amostra e criando a matriz de recursos e a matriz de destino.

Para este primeiro exemplo, os dados que serão utilizados está disponibilizado no [link](https://github.com/TrainingByPackt/Data-Science-with-Python/blob/master/Chapter01/Data/USA_Housing.csv). O conjunto de dados **House_price_prediction** é obtido no Repositório de Aprendizado de Máquina da UCI - Universidade da Califórnia Irvine.

Importação da biblioteca Pandas para manipulação de dados no formato tabular.

In [7]:
import pandas as pd

In [8]:
df = pd.read_csv("USA_Housing.csv", header = 0, encoding='UTF-8')

Para imprimir todos os nomes das colunas.

In [9]:
df.columns

Index(['Avg. Area Income', 'Avg. Area House Age', 'Avg. Area Number of Rooms',
       'Avg. Area Number of Bedrooms', 'Area Population', 'Price', 'Address'],
      dtype='object')

In [10]:
df.index

RangeIndex(start=0, stop=5000, step=1)

In [11]:
df

Unnamed: 0,Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Avg. Area Number of Bedrooms,Area Population,Price,Address
0,79545.458574,5.682861,7.009188,4.09,23086.800503,1.059034e+06,"208 Michael Ferry Apt. 674\nLaurabury, NE 3701..."
1,79248.642455,6.002900,6.730821,3.09,40173.072174,1.505891e+06,"188 Johnson Views Suite 079\nLake Kathleen, CA..."
2,61287.067179,5.865890,8.512727,5.13,36882.159400,1.058988e+06,"9127 Elizabeth Stravenue\nDanieltown, WI 06482..."
3,63345.240046,7.188236,5.586729,3.26,34310.242831,1.260617e+06,USS Barnett\nFPO AP 44820
4,59982.197226,5.040555,7.839388,4.23,26354.109472,6.309435e+05,USNS Raymond\nFPO AE 09386
...,...,...,...,...,...,...,...
4995,60567.944140,7.830362,6.137356,3.46,22837.361035,1.060194e+06,USNS Williams\nFPO AP 30153-7653
4996,78491.275435,6.999135,6.576763,4.02,25616.115489,1.482618e+06,"PSC 9258, Box 8489\nAPO AA 42991-3352"
4997,63390.686886,7.250591,4.805081,2.13,33266.145490,1.030730e+06,"4215 Tracy Garden Suite 076\nJoshualand, VA 01..."
4998,68001.331235,5.534388,7.130144,5.44,42625.620156,1.198657e+06,USS Wallace\nFPO AE 73316


Comando para a inclusão de uma coluna como index.

In [12]:
df.set_index('Address', inplace=True)

In [13]:
df

Unnamed: 0_level_0,Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Avg. Area Number of Bedrooms,Area Population,Price
Address,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"208 Michael Ferry Apt. 674\nLaurabury, NE 37010-5101",79545.458574,5.682861,7.009188,4.09,23086.800503,1.059034e+06
"188 Johnson Views Suite 079\nLake Kathleen, CA 48958",79248.642455,6.002900,6.730821,3.09,40173.072174,1.505891e+06
"9127 Elizabeth Stravenue\nDanieltown, WI 06482-3489",61287.067179,5.865890,8.512727,5.13,36882.159400,1.058988e+06
USS Barnett\nFPO AP 44820,63345.240046,7.188236,5.586729,3.26,34310.242831,1.260617e+06
USNS Raymond\nFPO AE 09386,59982.197226,5.040555,7.839388,4.23,26354.109472,6.309435e+05
...,...,...,...,...,...,...
USNS Williams\nFPO AP 30153-7653,60567.944140,7.830362,6.137356,3.46,22837.361035,1.060194e+06
"PSC 9258, Box 8489\nAPO AA 42991-3352",78491.275435,6.999135,6.576763,4.02,25616.115489,1.482618e+06
"4215 Tracy Garden Suite 076\nJoshualand, VA 01707-9165",63390.686886,7.250591,4.805081,2.13,33266.145490,1.030730e+06
USS Wallace\nFPO AE 73316,68001.331235,5.534388,7.130144,5.44,42625.620156,1.198657e+06


Para realizar a reindexação no dataframe executar o comando.

In [14]:
df.reset_index(inplace=True)

In [15]:
df

Unnamed: 0,Address,Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Avg. Area Number of Bedrooms,Area Population,Price
0,"208 Michael Ferry Apt. 674\nLaurabury, NE 3701...",79545.458574,5.682861,7.009188,4.09,23086.800503,1.059034e+06
1,"188 Johnson Views Suite 079\nLake Kathleen, CA...",79248.642455,6.002900,6.730821,3.09,40173.072174,1.505891e+06
2,"9127 Elizabeth Stravenue\nDanieltown, WI 06482...",61287.067179,5.865890,8.512727,5.13,36882.159400,1.058988e+06
3,USS Barnett\nFPO AP 44820,63345.240046,7.188236,5.586729,3.26,34310.242831,1.260617e+06
4,USNS Raymond\nFPO AE 09386,59982.197226,5.040555,7.839388,4.23,26354.109472,6.309435e+05
...,...,...,...,...,...,...,...
4995,USNS Williams\nFPO AP 30153-7653,60567.944140,7.830362,6.137356,3.46,22837.361035,1.060194e+06
4996,"PSC 9258, Box 8489\nAPO AA 42991-3352",78491.275435,6.999135,6.576763,4.02,25616.115489,1.482618e+06
4997,"4215 Tracy Garden Suite 076\nJoshualand, VA 01...",63390.686886,7.250591,4.805081,2.13,33266.145490,1.030730e+06
4998,USS Wallace\nFPO AE 73316,68001.331235,5.534388,7.130144,5.44,42625.620156,1.198657e+06


Podemos utilizar o indexador **iloc** para acessarmos os indices de linha e/ou de colunas.

In [16]:
df.iloc[0:4 , 0:3]

Unnamed: 0,Address,Avg. Area Income,Avg. Area House Age
0,"208 Michael Ferry Apt. 674\nLaurabury, NE 3701...",79545.458574,5.682861
1,"188 Johnson Views Suite 079\nLake Kathleen, CA...",79248.642455,6.0029
2,"9127 Elizabeth Stravenue\nDanieltown, WI 06482...",61287.067179,5.86589
3,USS Barnett\nFPO AP 44820,63345.240046,7.188236


Caso deseja acessar os dados pelos nomes das colunas deverá utilizar o **loc**.

In [17]:
df.loc[0:4 , ["Avg. Area Income", "Avg. Area House Age"]]

Unnamed: 0,Avg. Area Income,Avg. Area House Age
0,79545.458574,5.682861
1,79248.642455,6.0029
2,61287.067179,5.86589
3,63345.240046,7.188236
4,59982.197226,5.040555


Criação de um dataframe **X** armazenando todos os campos do dataframe **df** menos o campo de **preço**, este conjunto é chamado de **label**. 

In [19]:
X = df.drop('Price', axis=1)

Apresentação dos cinco primeiros registros do dataframe **X**. Comando **head** é utilizado para apresentar o cabeçalho do dataframe, por padrão traz as cinco primeiras linhas, caso deseje aumentar o valor deverá ser passado por parâmetro.

In [20]:
X.head()

Unnamed: 0,Address,Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Avg. Area Number of Bedrooms,Area Population
0,"208 Michael Ferry Apt. 674\nLaurabury, NE 3701...",79545.458574,5.682861,7.009188,4.09,23086.800503
1,"188 Johnson Views Suite 079\nLake Kathleen, CA...",79248.642455,6.0029,6.730821,3.09,40173.072174
2,"9127 Elizabeth Stravenue\nDanieltown, WI 06482...",61287.067179,5.86589,8.512727,5.13,36882.1594
3,USS Barnett\nFPO AP 44820,63345.240046,7.188236,5.586729,3.26,34310.242831
4,USNS Raymond\nFPO AE 09386,59982.197226,5.040555,7.839388,4.23,26354.109472


O comando **shape** lista a quantidade de linhas, na sua primeira posição, e colunas, na segunda opção.

In [21]:
X.shape

(5000, 6)

Criação de um dataframe **y** para armazenar somente o campo de **preço**, este conjunto de dados é chamado de **target**.

In [22]:
y = df['Price']