# House Price - Linear Regression

## Parte 01 - EDA

#### > Importação das Bibliotecas

Download da Biblioteca **Missingno**

In [2]:
conda install -c conda-forge/label/gcc7 missingno

^C

Note: you may need to restart the kernel to use updated packages.


In [None]:
import matplotlib.pyplot as plt
#import missingno as msno
import numpy as np
import pandas as pd
import seaborn as sns

#### > Carregamento do Dataset

Carregamento do dataset **'kc_house_data.csv'**. O comando 'set_option' permite que a tabela seja apresentada sem simplicação 

In [None]:
df = pd.read_csv('kc_house_data.csv')
pd.set_option('max_columns', None)

#### Legenda

**id** - ID \
**date** - Dia da Venda \
**price** - Preço da Venda \
**bedrooms** - Número de quartos \
**bathrooms** - Número de banheiros, onde 0,5 corresponde a um lavabo \
**sqft_living** - Metragem quadrada da área interna \
**sqft_lot** - Metragem quadrada do Terreno \
**floors** - Número de andares \
**waterfront** - Se a casa é de frente para o mar \
**view** - Um índice de 0 a 4 de qualidade da vista \
**condition** - Um índice de 1 a 5 sobre a condição da casa \
**grade** - Um índice de 1 a 13, onde 1-3 tem uma construção e design do edifício de baixa qualidade, 7 tem um nível médio de construção e design e 11-13 tem um nível de construção e design de alta qualidade \
**sqft_above** - A metragem quadrada do espaço habitacional interior que está acima do nível do solo \
**sqft_basement** - A metragem quadrada do espaço habitacional interior que está abaixo do nível do solo \
**yr_built** - Ano de Construção \
**yr_renovated** - Ano de Reforma \
**zipcode** - Código Postal \
**lat** - Latitude \
**long** - Longitude \
**sqft_living15** - A metragem quadrada do espaço interno da casa para os 15 vizinhos mais próximos \
**sqft_lot15** - A metragem quadrada dos lotes de terreno dos 15 vizinhos mais próximos 

#### > Verificação do Dataset

Verificação do tamanho do Dataset

In [None]:
df.shape

Features do modelo

In [None]:
df.columns

Verificando as informações do Dataset

In [None]:
df.info()

Nessa primeira informação, podemos ver que o nosso dataset se encontra sem valores nulo, isso pode ser percebido pela presença de valores iguais em todas as features.

Avaliando o dataset de forma aleatória

In [None]:
df.sample(5)

Verificando a existencia de dados duplicados na coluna **'ID'**

In [None]:
df.nunique()

Como podemos avaliar, o **'ID'** não apresenta valores unicos para o df, com isso, não podemos usar ele como index. Assim sendo, decidi retirar essa feature do nosso dataset

In [None]:
df.drop(['id'],axis=1,inplace=True)

In [None]:
df.describe().apply(lambda s: s.apply('{0:.5f}'.format))

Após a utilização do 'describe()', é possivel observar alguns pontos:\
Na coluna **'Price'**
> Podemos perceber que a média de Preço dos imovéis é igual a 540088,14. Porém apresentamos mais valores com Preço menor que a média, isso pode ser concluido pela mediana (450000,00) ser menor que a média. O maior valor foi de 770000,00 e o menor foi de 75000,00. 

Na coluna **'bedrooms'**
> É possivel identificar qua a média de Dormitórios é igual a 3, no caso estou arredondando o valor para baixo, pois não é possivel obter valores quebrados para esse tipo. Conforme visto na coluna anterior, apresenta uma quantidade de Dormitorios menor que a média, devido a comparação com a mediana (3). O valor maxímo foi de 33 e o minimo foi de 0.

Na coluna **'bathrooms'**
> É possivel identificar qua a média de Banheiros é igual a 2, no caso estou arredondando o valor para baixo, pois não é possivel obter valores quebrados para esse tipo. Conforme visto na coluna anterior, apresenta uma quantidade de Banheiros maior que a média, devido a comparação com a mediana (2). O valor maxímo foi de 8 e o minimo foi de 0.

#### > Gráficos

Esse primeiro grafico é uma forma sutil de avaliar se podemos avaliar correlação entre as features

In [None]:
sns.pairplot(df)

A partir dessa primeira analise podemos identificar alguns pontos importantes, como a nossa pergunta visa trazer como resultado o valor de um imovel a partir de especificações dadas, podemos observar que:
Features que mais influenciam no preço:
> **'bathroom'**\
> **'sqft_living'**\
> **'grade'**\
> **'sqft_above'**\
> **'sqft_living15'**

Features que mais influencima negativamente no preço:
> **'zipcode'**

Features com influencia conjunta:
> **'sqfr_living15'**\
> **'sqft_lot15'**\

Isso se deve a relação do tamanho dos lot ao redor

##### > **Gráfico das features**

**BEDROOMS**

In [None]:
fig,ax = plt.subplots()
sns.set(style='whitegrid')
fig.set_size_inches(12,6)
ax = sns.boxplot(df['bedrooms'])
ax.set_title('Bedrooms',fontsize=20)
ax.set_xlabel('Quantidade Total',fontsize=17)

In [None]:
fig,ax = plt.subplots()
sns.set(style='darkgrid')
fig.set_size_inches(12,6)
ax = sns.countplot(x='bedrooms', data=df, order = df['bedrooms'].value_counts().iloc[:10].index)
ax.set_ylabel('Quantidade de vezes',fontsize=17)
ax.set_title('Bedrooms',fontsize=20)
ax.set_xlabel('Quantidade',fontsize=17)

for p in ax.patches:
    percentage = '{:.1f}%'.format(100 * p.get_height()/df['bedrooms'].count())
    x = p.get_x() + p.get_width()
    y = p.get_height()
    ax.annotate(percentage, (x, y),ha='center')

plt.plot()

Podemos observar que possuimos mais casas vendidas com 2 a 5 quartos disponíveis

**BATHROOMS**

In [None]:
fig,ax = plt.subplots()
sns.set(style='whitegrid')
fig.set_size_inches(12,6)
ax = sns.boxplot(df['bathrooms'])
ax.set_title('Bathrooms',fontsize=20)
ax.set_xlabel('Quantidade Total',fontsize=17)

In [None]:
fig,ax = plt.subplots()
sns.set(style='darkgrid')
fig.set_size_inches(12,6)
ax = sns.countplot(x='bathrooms', data=df, order = df['bathrooms'].value_counts().iloc[:10].index)
ax.set_ylabel('Quantidade de vezes',fontsize=17)
ax.set_title('Bathrooms',fontsize=20)
ax.set_xlabel('Quantidade',fontsize=17)

for p in ax.patches:
    percentage = '{:.1f}%'.format(100 * p.get_height()/df['bathrooms'].count())
    x = p.get_x() + p.get_width()
    y = p.get_height()
    ax.annotate(percentage, (x, y),ha='center')

plt.plot()

Podemos observar que possuimos mais casas vendidas com 1 a 3 banheiros disponíveis

**SQFT_LIVING**

In [None]:
fig,ax = plt.subplots()
sns.set(style='whitegrid')
fig.set_size_inches(12,6)
ax = sns.distplot(df['sqft_living'], bins= 10)
ax.set_title('Living',fontsize=20)
ax.set_xlabel('Espaço',fontsize=17)

**FLOORS**

In [None]:
fig,ax = plt.subplots()
sns.set(style='whitegrid')
fig.set_size_inches(12,6)
ax = sns.boxplot(df['floors'])
ax.set_title('Floors',fontsize=20)
ax.set_xlabel('Quantidade Total',fontsize=17)

In [None]:
fig,ax = plt.subplots()
sns.set(style='darkgrid')
fig.set_size_inches(12,6)
ax = sns.countplot(x='floors', data=df, order = df['floors'].value_counts().iloc[:10].index)
ax.set_ylabel('Quantidade de vezes',fontsize=17)
ax.set_title('Floors',fontsize=20)
ax.set_xlabel('Andares',fontsize=17)

for p in ax.patches:
    percentage = '{:.1f}%'.format(100 * p.get_height()/df['floors'].count())
    x = p.get_x() + p.get_width()
    y = p.get_height()
    ax.annotate(percentage, (x, y),ha='center')

plt.plot()

Podemos perceber que grande parte do dataset apresenta entre 1 a 2 andares

**WATERFRONT**

In [None]:
fig,ax = plt.subplots()
sns.set(style='darkgrid')
fig.set_size_inches(12,6)
ax = sns.countplot(x='waterfront', data=df, order = df['waterfront'].value_counts().iloc[:10].index)
ax.set_ylabel('Quantidade de vezes',fontsize=17)
ax.set_title('Waterfront',fontsize=20)

for p in ax.patches:
    percentage = '{:.1f}%'.format(100 * p.get_height()/df['floors'].count())
    x = p.get_x() + p.get_width()
    y = p.get_height()
    ax.annotate(percentage, (x, y),ha='center')

plt.plot()

Podemos ver que grande parte das casas não possuem vista para o mar

**VIEW**

In [None]:
fig,ax = plt.subplots()
sns.set(style='darkgrid')
fig.set_size_inches(12,6)
ax = sns.countplot(x='view', data=df, order = df['view'].value_counts().iloc[:10].index)
ax.set_ylabel('Quantidade de vezes',fontsize=17)
ax.set_title('View',fontsize=20)

for p in ax.patches:
    percentage = '{:.1f}%'.format(100 * p.get_height()/df['view'].count())
    x = p.get_x() + p.get_width()
    y = p.get_height()
    ax.annotate(percentage, (x, y),ha='center')

plt.plot()

A maioria das casas de casas recebeu 0 nota da vista 

**CONDITION**

In [None]:
fig,ax = plt.subplots()
sns.set(style='darkgrid')
fig.set_size_inches(12,6)
ax = sns.countplot(x='condition', data=df, order = df['condition'].value_counts().iloc[:10].index)
ax.set_ylabel('Quantidade de vezes',fontsize=17)
ax.set_title('Estado',fontsize=20)

for p in ax.patches:
    percentage = '{:.1f}%'.format(100 * p.get_height()/df['condition'].count())
    x = p.get_x() + p.get_width()
    y = p.get_height()
    ax.annotate(percentage, (x, y),ha='center')

plt.plot()

A maioria das casas estão como classificação 3 para o estado da moradia

**GRADE**

In [None]:
fig,ax = plt.subplots()
sns.set(style='darkgrid')
fig.set_size_inches(12,6)
ax = sns.countplot(x='grade', data=df, order = df['grade'].value_counts().iloc[:10].index)
ax.set_ylabel('Quantidade de vezes',fontsize=17)
ax.set_title('Grade',fontsize=20)

for p in ax.patches:
    percentage = '{:.1f}%'.format(100 * p.get_height()/df['grade'].count())
    x = p.get_x() + p.get_width()
    y = p.get_height()
    ax.annotate(percentage, (x, y),ha='center')

plt.plot()

Mais da metade das casas estão classficadas com notas entre 6 a 9, em relação ao seu design e contrução

**YR_BUILT**

In [None]:
fig,ax = plt.subplots()
sns.set(style='whitegrid')
fig.set_size_inches(12,6)
ax = sns.distplot(df['yr_built'])
ax.set_title('Construção',fontsize=20)
ax.set_xlabel('Ano',fontsize=17)

In [None]:
fig,ax = plt.subplots()
sns.set(style='whitegrid')
fig.set_size_inches(12,6)
ax = sns.boxplot(df['yr_built'])
ax.set_title('Construção',fontsize=20)
ax.set_xlabel('Ano',fontsize=17)

A maioria das casas vendidas foram construidas entre os anos de 1951 a 1997

**LAT e LON**

In [None]:
fig,ax = plt.subplots()
sns.set(style='whitegrid')
fig.set_size_inches(12,6)
plt.scatter(x=df['lat'], y=df['long'])
plt.show()

In [None]:
fig,ax = plt.subplots()
sns.set(style='whitegrid')
fig.set_size_inches(12,6)
ax = sns.boxplot(df['sqft_lot'])
ax.set_title('Bedrooms',fontsize=20)
ax.set_xlabel('Quantidade Total',fontsize=17)