\<p style="text-align: justify">

# <center>Projeto de Insights - House Rocket</center>

<center><img src="house_rocket.jpg" style="height: 387.8px; width:600.0px;"/></center>

## 1. Questão de negócio

### 1.1. Sobre a empresa
<p style="text-align: justify">A House Rocket é uma empresa digital fictícia de empreendimentos imobiliários. Seu modelo de negócios se define por encontrar oportunidades de compra e venda de imóveis no estado de Washington, EUA, através de tecnologia. A principal estratégia da companhia é a compra de imóveis com ótima localização e preços baixos para então revendê-los a preços com altas margens de lucro, passando em vezes por processos de renovações.</p>

### 1.2. Sobre o projeto
<p style="text-align: justify">Ao se analizar uma propriedade, observa-se vários atributos tais como área total construída, números de quartos, banheiros e andares, anos de construção e reforma, código postais e outros. Tais informações tornam as propriedades mais ou menos atrativas a compradores e seus donos e, levando em conta também a sazonalidade, impactam de maneira significante seus preços.</p>
<p style="text-align: justify">Assim, o objetivo deste projeto é fornecer aos parceiros de negócio as respostas a três questões chave:</p>

> - Quais imóveis deveriam ser compradas pela House Rocket?
> - Quando e por qual preço os imóveis devem ser postos à venda?
> - A empresa deve reformar as unidades para aumentar seu preço de revenda? Se sim, quais renovações devem ser feitas e em qual magnitude o preço de revenda deve ser aumentado para cada melhoria?

### 1.3. Visão geral do conjunto de dados
#### 1.3.1. Conjunto de dados bruto
<p style="text-align: justify">O conjunto de dados bruto, ou seja, que não foi modificado por nenhum processo de limpeza e sem ação de nenhuma premissa, possui 21613 linhas e 21 colunas.</p>

Estas 21 colunas são descritas abaixo:

| **Coluna**        | Descrição                                                                                                                             |
|:-------------------|:---------------------------------------------------------------------------------------------------------------------------------------|
| **id**            | Código único identificador do imóvel vendido                                                                                                 |
| **date**          | Data de venda do imóvel                                                                                                |
| **price**         | Preço de venda da propriedade                                                                                                                  |
| **bedrooms**      | Número de quartos                                                                                                                     |
| **bathrooms**     | Número de banheiros                                                                                                                   |
| **sqft_living**   | Área, em pés quadrados, de área construída                                                                                            |
| **sqft_lot**      | Área, em pés quadrados, de área do lote                                                                                               |
| **floors**        | Número de andares                                                                                                                     |
| **waterfront**    | Vista para água. Caso o valor seja 1, o imóvel possui vista para a costa. O valor 0 indica que o imóvel não possui vista para a costa |
| **view**          | Condição de vista do imóvel. 4 indica excelente; 3 indica ótimo; 2 indica regular; 1 indica ruim; 0 indica péssima                                                                                                                                   |
| **condition**     | Condição do imóvel. 5 excelente. 4 boa; 3 regular; 2 ruim; 1 péssima                                                          |
| **grade**         | Índice de 1 a 13, onde 1-3 peca em construção e design; 7 possui um nível médio de construção e design; 11-13 possui alta qualidade de construção e design                                                                                    |
| **sqft_above**    | Área, em pés quadrados, dos andares superiores |
| **sqft_basement** | Área, em pés quadrados, do porão, caso haja                                                                                         |
| **yr_built**      | Ano de construção do imóvel                                                                                                           |
| **yr_renovated**  | Ano da última reforma do imóvel, caso haja                                                                                                   |
| **zipcode**       | Código postal                                                                                                                         |
| **lat**           | Latitude, em graus                                                                                                                    |
| **long**          | Longitude, em graus                                                                                                                   |
| **sqft_living15** | Área, em pés quadrados, da área construída dos 15 vizinhos mais próximos                                                                                                           |
| **sqft_lot15**    | Área, em pés quadrados, da área total dos 15 vizinhos mais próximos                                                                                                           |

## 2. Premissas do negócio
<p style="text-align: justify">Para a elaboração deste trabalho, as seguintes premissas são adotadas:</p>

- O conjunto de dados não possui linhas com dados faltantes (NaN, '-' ou similares);
- Apartamentos que possuírem valores zerados para número de quartos e banheiros serão excluídos;
- A coluna 'bathrooms' possui valores decimais, porque é considerado que "3/4 de banheiro" é um cômodo que não possui ou chuveiro ou banheira, sendo assim um banheiro recebe valor 1 quando possui pia, vaso sanitário, chuveiro e banheira. Neste trabalho serão considerados todos os banheiros como completos, e por isso os valores serão arredondados para o próximo valor inteiro;
- Semelhante à coluna 'bathrooms', a coluna 'floors' possui valores decimais. A mesma abordagem de arredondamento para o próximo valor inteiro será adotada;
- Outliers são descartados. Tais valores são avaliados através de método de amplitude interquartílica.

## 3. Planejamento da solução
### 3.1 O método SAPE (Saída - Processo - Entrada)
#### Saída (Produto final)
Serão fornecidos dois relatórios:

- Relatório com as sugestões de compra de imóveis por um valor recomendado;
- Relatório com as sugestões de venda de imóveis por um valor recomendado.
    
Ambos os relatórios estarão presentes em um único dashboard do Streamlit contendo:

- Tabela com informações sobre os imóveis e recomendação de compra e venda;
- Tabela com preços médios por código postal;
- Tabela com estatísticas descritivas das recomendações de compra e venda;
- Mapas descrevendo as densidades do portfólio e dos preços;
- Gráficos plotando os preços médios por anos e dias, ao longo da série histórica das listas de compra e venda;
- Histograma da distribuição dos preços de compra e venda;
- Gráficos com os atributos físicos dos imóveis, sendo quartos, banheiros, andares e presença ou não do imóvel à costa.

Os relatórios terão filtros para exploração dos dados.

#### Processo (Passo-a-passo)
<strong>1. Extração dos dados (Extraction)</strong>
- Carregar o conjunto de dados bruto com a biblioteca pandas e armazenar em uma variável;

<strong>2. Transformação dos dados (Transformation)</strong>

2.1. Limpeza dos dados

- Conferir os dados faltantes da base de dados e excluir as linhas (PREMISSA);
- Conferir dados zerados nas colunas de andares, quartos e banheiros e excluí-los (PREMISSA);
- Conferir os tipos das colunas e, se necessário, alterá-los;
- Arredondar os valores das colunas 'bathrooms' e 'floors' para o próximo valor inteiro (PREMISSA);
- Cálcular os outliers;
- Excluir os outliers (PREMISSA);

2.2. Criação de novas colunas

- Criar novas colunas convertendo pés quadrados em metros quadrados;
- Criar nova coluna com a condição dos imóveis em texto (boa, regular e ruim);
- Criar nova coluna com a estação do ano do imóvel


2.3. Seção de compra

2.3.1. Construção de tabela de compra

- Agrupar os dados por região;
- Dentro de cada região, encontrar a mediana do preço dos imóveis;
- Criar nova coluna e nela sugerir que os imóveis que estão abaixo do preço mediano de cada região e que estejam em boas condições sejam comprados.


2.4. Seção de venda

2.4.1. Construção de tabela de venda

- Agrupar os imóveis por região (zipcode) e por sazonalidade (estações do ano);
- Dentro de cada região e sazonalidade, calcular a mediana de preços;
- Criar nova coluna com as condições de venda:

    - Se o preço da compra for maior que a mediana da região+sazonalidade:<br/>
      O preço da venda será igual ao preço da compra + 10%.
    - Se o preço da compra for menor que a mediana da região+sazonalidade:<br/>
      O preço da venda será igual ao preço da compra + 30%.


2.5. Construção do dashboard

2.5.1. Tabelas
- Inserir as tabelas de compra e venda desenvolvidas anteriormente no dashboard;
- Calcular o preço médio dos imóveis de cada tabela;
- Criar tabela de estatísticas descritivas para os imóveis de compra e venda

2.5.2. Mapas
- Criar mapa com a densidade de portfólio;
- Criar mapa com a densidade de preços.

2.5.3. Gráficos
- Atributos comerciais:
    - Evolução dos preços ano a ano;
    - Evolução dos preços dia a dia;
    - Histograma de preços.
    
- Atributos físicos:
    - Distribuição de número de quartos;
    - Distribuição de número de banheiros;
    - Distribuição de número andares;
    - Distribuição de vista para costa.

<strong>3. Carregamento dos dados (Loading)</strong>

3.1. Validação de hipóteses

- <strong>H1</strong>: Imóveis que possuem vista para água são em média 30% mais caros;
- <strong>H2</strong>: Imóveis com data de construção menor que 1955 são em média 50% mais baratos;
- <strong>H3</strong>: Imóveis sem porão possuem em média área total 40% maior;
- <strong>H4</strong>: O crescimento do preço dos imóveis Year over Year (YoY) é de 10%;
- <strong>H5</strong>: Imóveis com 3 banheiros têm um crescimento Month over Month (MoM) de 15%;
- <strong>H6</strong>: Imóveis com reformas são em média 20% mais caros;
- <strong>H7</strong>: Imóveis com condição 3 são em média 40% mais caros que os imóveis com condição 1;
- <strong>H8</strong>: Imóveis com até 2 quartos são em média 10% mais baratos ;
- <strong>H9</strong>: Imóveis com porão são em média 5% mais caros;
- <strong>H10</strong>: Imóveis são vendidos no verão por um preço médio 15% maior que no inverno.

3.2. Avaliação de insights para o negócio

#### Entrada
- Os dados deste projeto foram retirados do portal Kaggle e estão disponíveis no link:
    
    [https://www.kaggle.com/datasets/harlfoxem/housesalesprediction](https://www.kaggle.com/datasets/harlfoxem/housesalesprediction)



## 4. Os principais insights
<p style="text-align: justify">A análise exploratória dos dados das propriedades disponíveis para compra e revenda pela House Rocket proporciona alguns insights:</p>

### Insight 1: Título do Insight 1
<p style="text-align: justify">Descrição do insight 1.</p>

### Insight 2: Título do Insight 2
<p style="text-align: justify">Descrição do insight 2.</p>

### Insight 3: Título do Insight 3
<p style="text-align: justify">Descrição do insight 3.</p>

### Insight 4: Título do Insight 4
<p style="text-align: justify">Descrição do insight 4.</p>

### Insight 5: Título do Insight 5
<p style="text-align: justify">Descrição do insight 5.</p>


## 5. Resultados financeiros para o negócio

## 6. Conclusão
O objetivo do projeto foi alcançado? Eu consegui responder as perguntas de negócios?

## 7. Próximos passos
Como o projeto pode melhoras?

## 8. Tecnologias

## 9. Sobre o autor

In [2]:
import pandas as pd
import numpy as np
import datetime

In [3]:
pd.options.display.float_format = '{:,.2f}'.format

In [4]:
# 1. Extração dos dados (Extraction)
# - Carregar o conjunto de dados bruto com a biblioteca pandas e armazenar em uma variável;
data = pd.read_csv('kc_house_data.csv')

# - Conferir os dados faltantes da base de dados e excluir as linhas;
print('Conferência de dados nulos\n')
print(data.info())
print('\nNão há dados nulos\n\n')

# - Conferir dados zerados nas colunas de andares, quartos e banheiros e excluí-los;
print('Conferência de colunas com dados zerados que devem ser excluídos\n')
for i in data.columns:
    if (data[i] == 0).sum() != 0:
        print(f'{i}: {(data[i] == 0).sum()}')
print("\nHá dados nulos nas colunas 'bedrooms' e 'bathroomns' que devem ser excluídos\n")
# Excluindo valores zerados
data = data[(data['bathrooms'] != 0) & (data['bedrooms'] != 0)]
print(data.shape)

# - Conferir os tipos das colunas e, se necessário, alterá-los.
print('Conferindo os tipos das colunas\n')
print(data.dtypes)
# Convertendo date para datetime
data['date'] = pd.to_datetime(data['date'])
# Convertendo bathrooms para int
data['bathrooms'] = data['bathrooms'].astype(dtype='int64')
# Convertendo floors para int
data['floors'] = data['floors'].astype(dtype='int64')
print('\nConferindo os novos tipos das colunas que foram alteradas\n')
print(data[['date', 'bathrooms', 'floors']].dtypes)

Conferência de dados nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21613 entries, 0 to 21612
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             21613 non-null  int64  
 1   date           21613 non-null  object 
 2   price          21613 non-null  float64
 3   bedrooms       21613 non-null  int64  
 4   bathrooms      21613 non-null  float64
 5   sqft_living    21613 non-null  int64  
 6   sqft_lot       21613 non-null  int64  
 7   floors         21613 non-null  float64
 8   waterfront     21613 non-null  int64  
 9   view           21613 non-null  int64  
 10  condition      21613 non-null  int64  
 11  grade          21613 non-null  int64  
 12  sqft_above     21613 non-null  int64  
 13  sqft_basement  21613 non-null  int64  
 14  yr_built       21613 non-null  int64  
 15  yr_renovated   21613 non-null  int64  
 16  zipcode        21613 non-null  int64  
 17  lat            21613 n

In [13]:
data

Unnamed: 0,id,date,price_x,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15,price_y
0,7129300520,2014-10-13,221900.00,3,1,1180,5650,1,0,0,...,1180,0,1955,0,98178,47.51,-122.26,1340,5650,278277.00
1,4060000240,2014-06-23,205425.00,2,1,880,6780,1,0,0,...,880,0,1945,0,98178,47.50,-122.25,1190,6780,278277.00
2,4058801670,2014-07-17,445000.00,3,2,2100,8201,1,0,2,...,1620,480,1967,0,98178,47.51,-122.24,2660,8712,278277.00
3,2976800796,2014-09-25,236000.00,3,1,1300,5898,1,0,0,...,1300,0,1961,0,98178,47.51,-122.25,1320,7619,278277.00
4,6874200960,2015-02-27,170000.00,2,1,860,5265,1,0,0,...,860,0,1931,0,98178,47.50,-122.27,1650,8775,278277.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21592,2525049086,2014-10-03,2720000.00,4,3,3990,18115,2,0,0,...,3990,0,1989,0,98039,47.62,-122.23,3450,16087,1892500.00
21593,2525049113,2014-07-25,1950000.00,4,3,4065,18713,2,0,0,...,4065,0,1987,0,98039,47.62,-122.24,3070,18713,1892500.00
21594,3262300485,2015-04-21,2250000.00,5,5,3410,8118,2,0,0,...,3410,0,2006,0,98039,47.63,-122.24,3410,16236,1892500.00
21595,6447300365,2014-11-13,2900000.00,5,4,5190,14600,2,0,1,...,5190,0,2013,0,98039,47.61,-122.22,3840,19250,1892500.00


In [1]:
import pandas as pd
from datetime import datetime

data = pd.read_csv('kc_house_data.csv')

data['date'] = pd.to_datetime(data['date'], format='%Y-%m-%d')

data['condition_description'] = data['condition'].apply(lambda x: 'excellent' if x == 5 else
                                                                  'good' if x == 4 else
                                                                  'fair' if x == 3 else
                                                                  'poor' if x == 2 else
                                                                  'bad')

spring = range(80, 172)
summer = range(172, 264)
fall = range(264, 355)
# winter for anyone else
data['season'] = data['date'].apply(lambda x: 'spring' if x.timetuple().tm_yday in spring else
                                              'summer' if x.timetuple().tm_yday in summer else
                                              'fall' if x.timetuple().tm_yday in fall else
                                              'winter')

df_median = data[['zipcode', 'price']].groupby('zipcode').median().reset_index()
df_median.columns = ['zipcode', 'price_median']

data = pd.merge(data, df_median, on='zipcode', how='inner')

data_purchase = pd.DataFrame()
data_purchase[['id', 'zipcode', 'purchase_price', 'price_median', 'condition']] = data[['id', 'zipcode', 'price', 'price_median', 'condition']]
     
for i in range(len(data_purchase)):
    if (data_purchase.loc[i, 'purchase_price'] < data_purchase.loc[i, 'price_median']) & (data_purchase.loc[i, 'condition'] >= 4):
        data_purchase.loc[i, 'status'] = 'Buy'
    else:
        data_purchase.loc[i, 'status'] = 'Do not buy'

data = pd.merge(data, data_purchase[['id', 'status']], on='id', how='inner')


df_median_season = data[['zipcode', 'season', 'price']].groupby(['zipcode', 'season']).median().reset_index()
df_median_season.columns = ['zipcode', 'season', 'price_median_season']

data = pd.merge(data, df_median_season, on=['zipcode', 'season'], how='inner')

data_sell = pd.DataFrame()
data_sell[['id', 'zipcode', 'season', 'price', 'price_median', 'condition', 'condition_description', 'status']] = data[['id', 'zipcode', 'season', 'price', 'price_median_season', 'condition', 'condition_description', 'status']]
data_sell = data_sell[data_sell['status'] == 'Buy'].reset_index(drop=True)

for i in range(len(data_sell)):
    if data_sell.loc[i, 'price'] < data_sell.loc[i, 'price_median']:
        data_sell.loc[i, 'sell_price'] = data_sell.loc[i, 'price']*1.3
        
    else:
        data_sell.loc[i, 'sell_price'] = data_sell.loc[i, 'price']*1.1
        
    data_sell.loc[i, 'gain'] = data_sell.loc[i, 'sell_price'] - data_sell.loc[i, 'price']

data_sell.drop(columns=['status'], axis=1, inplace=True)
data_sell

Unnamed: 0,id,zipcode,season,price,price_median,condition,condition_description,sell_price,gain
0,3352402236,98178,fall,252500.0,284000.0,5,excellent,328250.0,75750.0
1,7129300420,98178,fall,258000.0,284000.0,5,excellent,335400.0,77400.0
2,1180002735,98178,fall,269000.0,284000.0,4,good,349700.0,80700.0
3,4279900140,98178,fall,251000.0,284000.0,5,excellent,326300.0,75300.0
4,3352400351,98178,fall,200000.0,284000.0,4,good,260000.0,60000.0
...,...,...,...,...,...,...,...,...,...
3871,3025300225,98039,fall,1450000.0,1717500.0,4,good,1885000.0,435000.0
3872,2210500019,98039,spring,937500.0,1800000.0,4,good,1218750.0,281250.0
3873,2525049133,98039,spring,1398000.0,1800000.0,4,good,1817400.0,419400.0
3874,3025300250,98039,spring,1620000.0,1800000.0,4,good,2106000.0,486000.0


In [2]:
data_sell_full = pd.merge(data_sell, data[['id', 'lat', 'long', 'date', 'sqft_living', 'bedrooms', 
                                           'bathrooms', 'yr_built']], on='id', how='inner')
data_sell_full

Unnamed: 0,id,zipcode,season,price,price_median,condition,condition_description,sell_price,gain,lat,long,date,sqft_living,bedrooms,bathrooms,yr_built
0,3352402236,98178,fall,252500.0,284000.0,5,excellent,328250.0,75750.0,47.4980,-122.263,2014-12-15,1150,3,2.00,1956
1,7129300420,98178,fall,258000.0,284000.0,5,excellent,335400.0,77400.0,47.5111,-122.256,2014-12-02,1040,3,1.75,1951
2,1180002735,98178,fall,269000.0,284000.0,4,good,349700.0,80700.0,47.4980,-122.222,2014-11-19,1010,2,1.50,1923
3,4279900140,98178,fall,251000.0,284000.0,5,excellent,326300.0,75300.0,47.5008,-122.257,2014-10-01,1650,4,2.00,1972
4,3352400351,98178,fall,200000.0,284000.0,4,good,260000.0,60000.0,47.5045,-122.270,2014-11-21,1480,3,1.00,1947
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4279,3025300225,98039,fall,1450000.0,1717500.0,4,good,1885000.0,435000.0,47.6232,-122.235,2014-10-31,3090,5,2.75,1953
4280,2210500019,98039,spring,937500.0,1800000.0,4,good,1218750.0,281250.0,47.6187,-122.226,2015-03-24,1320,3,1.00,1954
4281,2525049133,98039,spring,1398000.0,1800000.0,4,good,1817400.0,419400.0,47.6191,-122.234,2015-04-02,2640,5,2.25,1929
4282,3025300250,98039,spring,1620000.0,1800000.0,4,good,2106000.0,486000.0,47.6232,-122.236,2015-05-13,2350,4,2.25,1977


In [3]:
data

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,zipcode,lat,long,sqft_living15,sqft_lot15,condition_description,season,price_median,status,price_median_season
0,7129300520,2014-10-13,221900.0,3,1.00,1180,5650,1.0,0,0,...,98178,47.5112,-122.257,1340,5650,fair,fall,278277.0,Do not buy,284000.0
1,2976800796,2014-09-25,236000.0,3,1.00,1300,5898,1.0,0,0,...,98178,47.5053,-122.255,1320,7619,fair,fall,278277.0,Do not buy,284000.0
2,3352402236,2014-12-15,252500.0,3,2.00,1150,6000,1.0,0,0,...,98178,47.4980,-122.263,1980,6360,excellent,fall,278277.0,Buy,284000.0
3,1180002378,2014-09-26,299000.0,4,2.50,1950,3000,2.0,0,0,...,98178,47.4977,-122.226,1170,6000,fair,fall,278277.0,Do not buy,284000.0
4,1180500070,2014-11-24,335000.0,4,2.50,2330,7050,2.0,0,0,...,98178,47.5001,-122.231,1810,5424,fair,fall,278277.0,Do not buy,284000.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21964,7397300170,2014-05-30,3710000.0,4,3.50,5550,28078,2.0,0,2,...,98039,47.6395,-122.234,2980,19602,good,spring,1892500.0,Do not buy,1800000.0
21965,3262300920,2015-04-08,1200000.0,4,3.00,2150,8119,2.0,0,0,...,98039,47.6335,-122.236,1590,8119,fair,spring,1892500.0,Do not buy,1800000.0
21966,2470200020,2014-05-14,1880000.0,4,2.75,3260,19542,1.0,0,0,...,98039,47.6245,-122.236,3480,19863,good,spring,1892500.0,Buy,1800000.0
21967,2425049066,2014-06-16,1920000.0,4,2.50,3070,34412,1.0,0,3,...,98039,47.6400,-122.240,3780,27940,good,spring,1892500.0,Do not buy,1800000.0


In [13]:
df_median_season[df_median_season['zipcode'] == 98039]

Unnamed: 0,zipcode,season,price_median_season
96,98039,fall,1717500.0
97,98039,spring,1800000.0
98,98039,summer,2200000.0
99,98039,winter,1788875.0


Unnamed: 0,price
147,257500.0
253,220000.0
340,380000.0
518,385100.0
744,310000.0
...,...
21919,1320000.0
21933,940000.0
21934,940000.0
21941,1880000.0


In [31]:
data

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,zipcode,lat,long,sqft_living15,sqft_lot15,condition_description,season,price_median,status,price_median_season
0,7129300520,2014-10-13,221900.0,3,1.00,1180,5650,1.0,0,0,...,98178,47.5112,-122.257,1340,5650,fair,fall,278277.0,Do not buy,284000.0
1,2976800796,2014-09-25,236000.0,3,1.00,1300,5898,1.0,0,0,...,98178,47.5053,-122.255,1320,7619,fair,fall,278277.0,Do not buy,284000.0
2,3352402236,2014-12-15,252500.0,3,2.00,1150,6000,1.0,0,0,...,98178,47.4980,-122.263,1980,6360,excellent,fall,278277.0,Buy,284000.0
3,1180002378,2014-09-26,299000.0,4,2.50,1950,3000,2.0,0,0,...,98178,47.4977,-122.226,1170,6000,fair,fall,278277.0,Do not buy,284000.0
4,1180500070,2014-11-24,335000.0,4,2.50,2330,7050,2.0,0,0,...,98178,47.5001,-122.231,1810,5424,fair,fall,278277.0,Do not buy,284000.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21964,7397300170,2014-05-30,3710000.0,4,3.50,5550,28078,2.0,0,2,...,98039,47.6395,-122.234,2980,19602,good,spring,1892500.0,Do not buy,1800000.0
21965,3262300920,2015-04-08,1200000.0,4,3.00,2150,8119,2.0,0,0,...,98039,47.6335,-122.236,1590,8119,fair,spring,1892500.0,Do not buy,1800000.0
21966,2470200020,2014-05-14,1880000.0,4,2.75,3260,19542,1.0,0,0,...,98039,47.6245,-122.236,3480,19863,good,spring,1892500.0,Buy,1800000.0
21967,2425049066,2014-06-16,1920000.0,4,2.50,3070,34412,1.0,0,3,...,98039,47.6400,-122.240,3780,27940,good,spring,1892500.0,Do not buy,1800000.0


In [38]:
data['waterfront'].sample(100, random_state=10)

array([0, 1], dtype=int64)

In [47]:
import plotly.express as px

df = px.data.tips()


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [50]:
data.columns

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15', 'condition_description',
       'season', 'price_median', 'status', 'price_median_season'],
      dtype='object')