# Projeto Insights - House Rocket Plataforma de Compra e Venda de Imóveis

## Ciclo 1

### 1. Problema do negócio

A empresa se trata de uma plataforma de compra e venda de imóveis e precisa buscar oportunidades de compras e de venda por preços maiores que aqueles preços de aquisição. Portanto, o CEO da empresa gostaria de maximizar o lucro encontrando bons negócios e para tal gostaria de ter visibilidade das oportunidades. 

Atualmente ele utiliza fontes externas com internet e boca-a-boca para a sua investigação. Por isso, agora o CEO espera utilizar do time de cientísta de dados para que a base de dados seja avaliada a fim de que as boas oportunidades sejam identificadas de uma forma técnica.

As perguntas do CEO para a análise exploratória são:

1) Quantas casas estão disponíveis para compra?<br>
2) Quantos atributos os imóveis possuem?<br>
3) Quais são os atributos?<br>
4) Qual a casa mais cara do portifólio?<br>
5) Qual a casa com o maior número de quartos?

### 2. Planejamento da solução

##### 2.1. Planejamento do produto final
- O que eu vou entregar (output - texto, e-mail, modelo de machine learning)<br>
Nesse caso será entregue um texto com as respostas.<br>
- Como será a entrega? (planilha, power bi, quais os tipos de gráficos...)<br>
Texto estilo de perguntas e respostas.

##### 2.2. Planejamento do processo (Como vai responder as perguntas)
- Onde estão as informações? Excel, BD, API, UpLoad?<br>
As informações estão no Kagle: https://www.kaggle.com/datasets/harlfoxem/housesalesprediction

- Como as informações serão coletadas? SQL, Python, Streamlit...
Para que o datasset seja lido utilizaremos extração com Python, utilizando a biblioteca Pandas para a estruturação do DataFrame.

##### 2.3. Planejamento das ferramentas que irá utilizar
Utilizaremos para o projeto Python 3.8.8, além do Jupyter Notebook disponível no navegador no Anaconda.

In [1]:
# Imports das bibliotecas utilizadas
import pandas as pd
import numpy as np

In [2]:
#Lendo o dataset extraído do Kagle
data = pd.read_csv('Datasets/kc_house_data.csv')

In [3]:
#Avaliando a estrutura entre linhas e colunas
print(data.shape)

(21613, 21)


In [4]:
#Identificando número de linhas excluíndo ids duplicados
data['id'].nunique()

21436

In [5]:
#Avaliando as colunas/atributos
data.columns

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15'],
      dtype='object')

In [6]:
#Avaliando os tipos das colunas/atributos
print(data.dtypes)

id                 int64
date              object
price            float64
bedrooms           int64
bathrooms        float64
sqft_living        int64
sqft_lot           int64
floors           float64
waterfront         int64
view               int64
condition          int64
grade              int64
sqft_above         int64
sqft_basement      int64
yr_built           int64
yr_renovated       int64
zipcode            int64
lat              float64
long             float64
sqft_living15      int64
sqft_lot15         int64
dtype: object


In [7]:
#Transformando os tipos inadequados dos atributos para tipos válidos
#coluna 'date', que está como string e deve ser do tipo data
data['date'] = pd.to_datetime(data['date'])

In [14]:
#Avaliando se a alteração foi realizada
print(data.dtypes)

id                        int64
date             datetime64[ns]
price                   float64
bedrooms                  int64
bathrooms               float64
sqft_living               int64
sqft_lot                  int64
floors                  float64
waterfront                int64
view                      int64
condition                 int64
grade                     int64
sqft_above                int64
sqft_basement             int64
yr_built                  int64
yr_renovated              int64
zipcode                   int64
lat                     float64
long                    float64
sqft_living15             int64
sqft_lot15                int64
dtype: object


### Respondendo as questões do CEO

In [24]:
# Pergunta 1 do CEO: Quantas casas estão disponíveis para compra?
houses = data['id'].nunique()

# ou

len(data['id'].unique())

# ou ainda

len(data['id'].drop_duplicates())

print('O número de casa disponíveis é de {}'.format(houses))

O número de casa disponíveis é de 21436


In [38]:
# Pergunta 2: Quantos atributos os imóveis possuem? Sabendo que id e date não são características dos imóveis
colunas = len(data.drop(['id', 'date'], axis=1).columns)

print('O número de casa disponíveis é de {}'.format(colunas))

O número de casa disponíveis é de 19


In [41]:
#3) Quais são os atributos, sabendo que o id e data não são características dos imóveis?
data.drop(['id', 'date'], axis=1).columns.to_list()

['price',
 'bedrooms',
 'bathrooms',
 'sqft_living',
 'sqft_lot',
 'floors',
 'waterfront',
 'view',
 'condition',
 'grade',
 'sqft_above',
 'sqft_basement',
 'yr_built',
 'yr_renovated',
 'zipcode',
 'lat',
 'long',
 'sqft_living15',
 'sqft_lot15']

In [46]:
#4) Qual a casa mais cara do portifólio?
preco_max = data[['id', 'price']].sort_values('price', ascending=False).reset_index(drop=True).loc[0,'id']
print('A casa mais cara do portifólio é a com id {}'.format(preco_max))
#ou data['price'].max()

A casa mais cara do portifólio é a com id 6762700020


In [44]:
#5) Qual a casa com o maior número de quartos?
maior_quarto = data[['id','bedrooms']].sort_values('bedrooms', ascending=False).reset_index(drop=True).loc[0,'id']
print('A casa com o maior número de quartos é a com id {}'.format(maior_quarto))
#ou data['bedrooms'].max()

A casa com o maior número de quartos é a com id 2402100895
