# **Mini Projeto - Roof Imóveis**



## **Introdução**
Este relatório apresenta os resultados do projeto de análise de dados de vendas de imóveis no Condado de County, nos Estados Unidos, com o objetivo de selecionar os cinco imóveis com maior potencial de retorno para a expansão dos negócios da Imobiliária Roof Imóveis no mercado internacional.

A Roof Imóveis é uma das maiores empresas do ramo imobiliário brasileiro e está buscando oportunidades de expansão no mercado internacional, através da aquisição de imóveis nos Estados Unidos. A estratégia de investimento da empresa é baseada na seleção de imóveis com alto potencial de valorização e que atendam às necessidades do mercado local. 

O objetivo do projeto é identificar os cinco imóveis com as características desejadas para a expansão internacional da empresa. Para isso, foi utilizada a metodologia CRISP-DM, que permitiu a análise dos dados de vendas de imóveis no Condado de County. Com base nos resultados da análise, foram selecionados os cinco imóveis com maior potencial de retorno. Este relatório detalha o processo de análise de dados e apresenta os resultados obtidos, a fim de fornecer subsídios para a tomada de decisão da Imobiliária Roof Imóveis.

## **Condado de King e a cidade escolhida: Seattle**
O Condado de King é uma região localizada no estado de Washington, nos Estados Unidos, que abrange diversas cidades, incluindo Seattle. A região tem uma economia diversificada e é lar de muitas empresas de tecnologia e inovação, o que contribui para um mercado imobiliário dinâmico e em constante crescimento. A cidade de Seattle, em particular, se destaca por ser um importante centro urbano na Costa Oeste dos Estados Unidos, com uma economia forte e um mercado imobiliário aquecido. Por esses motivos, a Imobiliária Roof Imóveis escolheu Seattle como cidade-alvo para sua expansão internacional, baseada em uma análise criteriosa das características econômicas e do mercado imobiliário da região.

A escolha de Seattle como local para expansão dos negócios da imobiliária foi baseada em alguns fatores, tais como:

- Potencial de crescimento: Seattle tem uma população em constante crescimento, com cerca de 3,98 milhões de habitantes na região metropolitana, e uma taxa de crescimento anual de 1,8% entre 2010 e 2020 (US Census Bureau). Essa expansão populacional traz consigo uma demanda crescente por imóveis, tanto residenciais quanto comerciais.

- Localização estratégica: Seattle está situada em uma posição geográfica privilegiada, próxima ao Oceano Pacífico e a importantes rotas comerciais para a Ásia e outros mercados internacionais. A cidade é um centro portuário importante e tem um aeroporto internacional com conexões para diversos destinos em todo o mundo, o que facilita o comércio e a circulação de pessoas.

- Mercado imobiliário em alta: Seattle tem um mercado imobiliário aquecido, com preços em constante valorização. De acordo com a Zillow, um dos principais portais imobiliários dos EUA, o valor médio dos imóveis em Seattle é de cerca de US$ 883.000, com uma valorização de 17,4% no último ano.

- Presença de empresas de tecnologia: Seattle é o lar de várias empresas de tecnologia de renome, como a Amazon e a Microsoft, além de muitas startups e empresas em fase de crescimento. Essas empresas atraem um grande número de profissionais qualificados para a região, aumentando a demanda por imóveis residenciais e comerciais.

- Qualidade de vida: Seattle é conhecida por sua alta qualidade de vida, com um clima ameno, muitas opções de lazer e uma grande diversidade cultural. A cidade tem um sistema de transporte público eficiente e sustentável, que inclui ônibus, trens e ferries, além de muitas áreas verdes e espaços públicos para atividades ao ar livre.

Esses fatores tornam Seattle uma opção atraente e promissora para investimentos imobiliários, o que justifica a escolha da Imobiliária Roof Imóveis em expandir seus negócios para essa região.

## **Estratégia de investimento**
Com base em uma análise abrangente do mercado imobiliário de Seattle, a Roof Imóveis elaborou uma estratégia de investimento que visa selecionar propriedades com potencial de valorização e lucratividade para diversificar o portfólio e minimizar os riscos de investimento. A estratégia é focada na aquisição de imóveis de alta qualidade, com base em fatores como localização, infraestrutura, demanda do mercado, condições estruturais, entre outros. Com base nesses critérios, devem ser selecionados 5 imóveis com bom potencial de retorno conforme a estratégia planejada pela empresa e outros 5 que não são recomendados para investimento.

- **Estratégia de Investimento:**

  A Roof Imóveis deseja investir em imóveis residenciais de alta qualidade em bairros com maior potencial de valorização em Seattle, buscando oportunidades de investimento em imóveis abaixo do valor de mercado. O objetivo é oferecer imóveis de alta qualidade que ofereçam valor para os clientes e moradores.

  Previamente, foram identificados os bairros com maior potencial de valorização em Seattle, levando em conta fatores como localização, infraestrutura, tendências de mercado e demanda. Buscando oportunidades de investimento em imóveis abaixo do valor de mercado, seja através de vendas forçadas, propriedades com problemas estruturais ou outros fatores que possam estar afetando o preço do imóvel.

  A seleção dos imóveis será baseada em características como localização, qualidade da construção, estado de conservação, infraestrutura e potencial de valorização. Serão priorizados imóveis em bairros residenciais populares e em expansão, com boa infraestrutura e comodidades, além de imóveis que possam ser renovados e melhorados para aumentar seu valor de mercado.

- **Seleção dos Imóveis - 5 imóveis com bom potencial de retorno:**
  
1. Uma casa de quatro quartos em Green Lake, um bairro residencial que possui um dos principais parques de Seattle e é conhecido por sua comunidade ativa e estilo de vida saudável.
2. Uma casa ou apartamento com pelo menos dois quartos em Queen Anne, um bairro que oferece uma vista espetacular da cidade e tem uma das maiores concentrações de casas históricas de Seattle.
3. Uma casa de dois quartos em Fremont, um bairro vibrante e artístico que é um dos favoritos dos jovens profissionais e artistas.
4. Uma casa ou apartamento de dois quartos em Columbia City, um bairro em ascensão que tem sido revitalizado recentemente e se tornando um destino popular para restaurantes, bares e vida noturna.desenvolvendo rapidamente e se tornando um destino popular para moradia e lazer.
5. Uma casa de três quartos em Mount Baker, um bairro residencial tranquilo e arborizado que oferece fácil acesso ao centro de Seattle e tem uma forte comunidade.




## **Instalação e importação das bibliotecas necessárias**

Para a importação, manipulação e análise preliminar dos dados será usada a biblioteca [**Pandas**](https://pandas.pydata.org/). A visualização de gráficos estáticos e estatísticos será através do [**Matplotlib**](https://matplotlib.org/) e [**Seaborn**](https://seaborn.pydata.org/). A biblioteca GeoPandas e Pyzipcode vão auxiliar no tratamento dos dados geográficos. Por fim, como estamos analisando casas em uma determinada localidade, usaremos a biblioteca [**Plotly**](https://plotly.com/graphing-libraries/) para apresentar mapas dinâmicos e diversas camadas.

<img alt="Pandas" width="30%" src="https://pandas.pydata.org/static/img/pandas.svg"><img alt="Matplotlib" width="30%" src="https://matplotlib.org/stable/_images/sphx_glr_logos2_003.png"><img alt="Seaborn" width="30%" src="https://seaborn.pydata.org/_images/logo-wide-lightbg.svg"><img alt="Folium" width="30%" src="https://upload.wikimedia.org/wikipedia/commons/8/8a/Plotly-logo.png">

In [1]:
!pip install folium -q
!pip install geopandas -q
!pip install contextily -q
!pip install pyzipcode -q
!pip install plotly -q

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m6.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.0/16.0 MB[0m [31m24.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m50.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m20.1/20.1 MB[0m [31m24.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.4/55.4 KB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.9/1.9 MB[0m [31m20.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for pyzipcode (setup.py) ... [?25l[?25hdone


In [2]:
# importação de pacotes necessários
import pandas as pd  
import matplotlib.pyplot as plt   
%matplotlib inline
import seaborn as sns
import plotly.express as px
import plotly.graph_objs as go
import geopandas as gpd
import contextily as ctx
from pyzipcode import ZipCodeDatabase
from PIL import Image

## **Coleta e Entendimento dos dados**

O dataset kc_house_data.csv disponível no [Kaggle](https://www.kaggle.com/harlfoxem/housesalesprediction) contém informações sobre casas vendidas entre maio de 2014 e maio de 2015 no condado de King, estado de Washington. Com um total de 21 variáveis, incluindo características da casa, bairro, cidade, preço de venda, condição da casa, data de venda, entre outras, este conjunto de dados oferece um amplo conjunto de informações para análise e previsão de preços de imóveis na região. Através de uma análise cuidadosa desses dados, é possível identificar tendências e padrões que podem ser usados para orientar decisões de investimento e planejamento imobiliário.

In [3]:
pasta='/content/drive/MyDrive/FORMAÇÃO EM DADOS - DNC/SLOT 3/Mini Projeto 01'
df_kc=pd.read_csv(pasta+"/kingcounty/kc_house_data.csv", parse_dates=['date'])
df_kc.head()

FileNotFoundError: ignored

In [None]:
# identificar o volume de dados do DataFrame
print("Quantidade de variáveis: {}".format(df_kc.shape[1]))
print("Quantidade de registros para todo o Condado de King: {}".format(df_kc.shape[0]))
#numero de imóveis unicos
print('Quantidade de imóveis únicos: {}'.format(len(df_kc['id'].unique())))

Verifica-se no dataset original que há 21 atributos e 21.613 registros de vendas, sendo 21.436 imóveis únicos, considerando todo o Condado de King.

In [None]:
# verificar os tipos de variáveis do dataset
display(df_kc.info())

Verifica-se que não há valores nulos no dataset e que as variáveis são do tipo numéricas que trazem características do imóvel, além de data e valor da venda.

### **Dicionário de variáveis**

O *dataset* possui colunas nomeadas que facilitam a identificação das informações que ele nos traz, podendo ser estruturado o **dicionário de variáveis** a seguir:

* **id** - Identificador único do imóvel
* **date** - Data da Venda
* **price** - Preço de venda
* **bedrooms** - Nº de Quartos
* **bathrooms** - Nº de Banheiros
* **sqft_liv** - Tamanho de área habitável em ft²
* **sqft_lot** - Tamanho do terreno em ft²
* **floors** - Número de andares	
* **waterfront** - Indicativo se o imóvel é a beira-mar
* **view** - Grau de quão belo é a vista do imóvel (0 a 4)
* **condition** - Condição da casa (1 a 5)
* **grade** - Classificação por qualidade de material utilizado na construção
* **sqft_above** - Área em acima do solo em ft²
* **sqft_basmt** - Área em abaixo do solo em ft²
* **yr_built** - Ano de construção
* **yr_renov** - Ano de restauração, caso o contrário, 0.
* **zipcode** - Zip Code 5 - Similar ao CEP -  é um código postal usado para identificar uma área geográfica específica
* **lat** - Latitude
* **long** - Longitude
* **squft_liv15** - Média da área habitável dos 15 imóveis mais próximos,
em ft²
* **squft_lot15** - Média da área do lote dos 15 imóveis mais próximos,
em ft²


As variáveis podem ser classificadas em diferentes tipos, incluindo:

- **Variáveis numéricas contínuas**: são variáveis numéricas que podem assumir qualquer valor em um intervalo contínuo. Neste dataset, as variáveis numéricas contínuas são: price, sqft_liv, sqft_lot, sqft_above, sqft_basmt, lat, long, sqft_liv15, sqft_lot15. Essas variáveis podem ser importantes para analisar o preço de venda de uma casa em relação a sua área construída, tamanho do terreno, qualidade dos materiais utilizados na construção, localização geográfica, entre outros aspectos.

- **Variáveis numéricas discretas**: são variáveis numéricas que assumem apenas valores inteiros. Neste dataset, as variáveis numéricas discretas são: bedrooms, bathrooms, floors, waterfront, view, condition, grade, yr_built, yr_renov e zipcode. Essas variáveis podem ser importantes para analisar a estrutura da casa (número de quartos e banheiros, número de andares), a qualidade da construção (condição e classificação por qualidade de material), a idade da casa (ano de construção) e a localização geográfica (cep e indicativo de propriedade à beira-mar).

- **Variáveis categóricas**: são variáveis que não são numéricas e não possuem uma ordem ou escala. Neste dataset, a única variável categórica é a cidade (ou área geográfica), que pode ser importante para análises de mercado imobiliário específicas.

Essas classificações podem ser importantes para entender como as variáveis podem ser relacionadas entre si e para a escolha de modelos de análise adequados. Por exemplo, pode ser interessante aplicar análises de regressão linear para variáveis contínuas e modelos de classificação para variáveis discretas e categóricas.

Após a apresentação do dicionário de atributos dos dados disponíveis, a equipe de sócios da Roof Imóveis realizou diversas discussões com seus conselheiros para definir os requisitos mínimos necessários para a escolha de um imóvel. Além das características de localidade e tipo de imóvel previamente definidas na estratégia de investimento, foram estabelecidos critérios adicionais para garantir a qualidade e a rentabilidade do investimento.

Dentre esses critérios, destacam-se o preço por área habitável, que deve ser o mais vantajoso possível, e a condição da casa, que deve apresentar um valor mínimo de 3 para assegurar que o imóvel esteja em boas condições e não gere problemas no futuro.

Além disso, foi definido que a qualidade do material utilizado na construção do imóvel, medida pela grade, deve ser de no mínimo 6 para garantir a durabilidade e a segurança do investimento.

Com base nesses critérios, a Roof Imóveis pretende selecionar imóveis de alta qualidade que ofereçam o melhor retorno sobre o investimento.

## **Limpeza dos dados**

Na etapa de limpeza dos dados do processo CRISP-DM, será necessário selecionar apenas os dados relevantes para a cidade de Seattle, que é a cidade alvo de interesse da Roof Imóveis. Para isso, será realizada uma filtragem no dataset do King County para excluir todas as entradas que se referem a outras cidades ou regiões do condado. Além disso, também serão removidos dados duplicados, incompletos ou inconsistentes. É importante que a qualidade dos dados seja alta para garantir uma análise precisa e confiável, e assim evitar tomadas de decisão equivocadas. Após a limpeza dos dados, os registros serão mais precisos e relevantes para o objetivo de identificar oportunidades de investimento em imóveis residenciais na cidade de Seattle.

### **Imóveis somente de Seattle**

Para garantir que a análise se restrinja apenas à cidade de Seattle, é necessário filtrar o conjunto de dados para incluir apenas registros relacionados a essa cidade. Isso pode ser feito através da criação de uma nova coluna na base de dados que identifique a cidade de acordo com o código postal (Zip Code) e a referência do banco de dados Pyzipcode. A inclusão dessa nova coluna permitirá que os dados de outras cidades sejam eliminados, garantindo que a análise se concentre apenas na cidade de Seattle.

In [None]:
#cria coluna de cidades om base no zipcode
df_kc['cidade']=''
zc_data=ZipCodeDatabase() #carrega database da biblioteca pyzipcode
for i in range(0, len(df_kc)):
  if df_kc['zipcode'][i]==98077:
    df_kc.loc[i, 'cidade'] = 'Woodinville'
  else:
    df_kc.loc[i, 'cidade'] = zc_data[df_kc['zipcode'][i]].city

In [None]:
#criação do dataframe apenas de seattle
df_seattle_original=df_kc[df_kc.cidade=='Seattle'].reset_index()
# identificar o volume de dados do DataFrame
print("Quantidade de registros: {}".format(df_seattle_original.shape[0]))
#numero de imóveis unicos
print('Quantidade de imóveis únicos: {}'.format(len(df_seattle_original['id'].unique())))
#numero de zipcode unicos
print('Quantidade de zipcode únicos: {}'.format(len(df_seattle_original['zipcode'].unique())))

Ao analisar apenas a cidade de Seattle, foi constatado que há 8.977 registros de vendas, porém, desse total, apenas 8.889 correspondem a imóveis únicos. Uma vez que existem imóveis com mais de um registro de venda, será necessário remover as duplicidades e manter apenas o registro mais recente de venda de cada imóvel.

In [None]:
df_seattle = df_seattle_original.sort_values('date', ascending=False)
df_seattle.drop_duplicates(subset=['id'], keep='first', inplace=True)
print("Quantidade de registros: {}".format(df_seattle.shape[0]))
#numero de imóveis unicos
print('Quantidade de imóveis únicos: {}'.format(len(df_seattle['id'].unique())))

#### **Bairros de Seattle**

Para segmentar ainda mais os dados e obter uma análise por bairros, será utilizado o shapefile que contém as áreas dos bairros de Seattle. Este arquivo pode ser obtido no site [Seattle GeoData](https://data-seattlecitygis.opendata.arcgis.com/datasets/SeattleCityGIS::neighborhood-map-atlas-neighborhoods/explore?location=47.626632%2C-122.361486%2C10.94), que disponibiliza diversos dados geográficos da cidade de Seattle. Com o uso do shapefile, será possível associar cada registro de venda ao respectivo bairro em que se encontra o imóvel, permitindo uma análise mais precisa e detalhada por região.


In [None]:
seattle_map = gpd.read_file(pasta+"/Neighborhood_Map_Atlas_Neighborhoods/Neighborhood_Map_Atlas_Neighborhoods.shp")
seattle_map.crs = {'init': 'epsg:3857'} #sistema de coordenadas projetado geográfico
#seattle_map.crs = {'init': 'epsg:4326'} #sistema de coordenadas geográfico
seattle_map['Longitude'] = seattle_map.centroid.x #longitude central do bairro
seattle_map['Latitude'] = seattle_map.centroid.y #latitude central do bairro

In [None]:
#MAPA COM ÁREA DOS BAIRROS
# Cria o mapa
fig = go.Figure()
# Adiciona a camada de bairros
fig.add_trace(go.Choroplethmapbox(
    geojson=seattle_map.geometry.__geo_interface__,
    locations=seattle_map.index,
    z=seattle_map.OBJECTID,
    colorscale='Rainbow',
    zmin=0, zmax=94,
    marker_opacity=0.5,
    marker_line_width=1.5,
    hoverinfo='skip',
    showscale=False))

# Adicionar a camada de texto com o nome dos bairros
fig.add_trace(go.Scattermapbox(
    lat=seattle_map.geometry.centroid.y,
    lon=seattle_map.geometry.centroid.x,
    mode='text',
    name='Bairro',      
    text=seattle_map['S_HOOD'],    
    textposition='middle center',
    below='True'))

# Configura o layout do mapa
fig.update_layout(
    mapbox_style="open-street-map",
    mapbox_zoom=10,
    hoverdistance=50,
    mapbox_center = {"lat": seattle_map.geometry.centroid.y.mean(), "lon": seattle_map.geometry.centroid.x.mean()},
    margin={"r":0,"t":0,"l":0,"b":0},
    legend={"yanchor":"bottom", "xanchor":"right"})

# Exibe o mapa
fig.show()

Para verificar se a localização geográfica de cada imóvel está contida na área do respectivo bairro, será necessário transformar o dataset contendo as casas de Seattle em um Geodataset, adicionando uma coluna especial chamada geometry. Em seguida, será aplicada a função contains, utilizando o mapa de Seattle obtido no GeoData. Com isso, será possível identificar em quais bairros cada imóvel está localizado e obter uma análise por bairros para avaliar possíveis variações nos preços e valorização imobiliária. Além disso, será plotado o mapa de seattle com as áreas dos bairros e os pontos de identificação das casas, para melhor visualização se há bairro determinado para aquele imóvel ou não.

In [None]:
# Crie um GeoDataFrame a partir de seu dataframe
geo_df_seattle = gpd.GeoDataFrame(df_seattle, geometry=gpd.points_from_xy(df_seattle["long"], df_seattle["lat"]))
geo_df_seattle['bairro']=''
# Cria uma nova coluna com o nome do bairro correspondente a cada ponto de casa
geo_df_seattle['bairro'] = geo_df_seattle.apply(lambda row: seattle_map.loc[seattle_map['geometry'].contains(row['geometry']), 'S_HOOD'].iloc[0] if any(seattle_map['geometry'].contains(row['geometry'])) else 'nan', axis=1)


In [None]:
#MAPA COM ÁREA DOS BAIRROS E PONTO DAS CASAS PREVIAMENTE SINALIZADAS COM SEATTLE
# Cria o mapa
fig = go.Figure()
# Adiciona a camada de bairros
fig.add_trace(go.Choroplethmapbox(
    geojson=seattle_map.geometry.__geo_interface__,
    locations=seattle_map.index,
    z=seattle_map.OBJECTID,
    colorscale='Rainbow',
    zmin=0, zmax=94,
    marker_opacity=0.4,
    marker_line_width=1.5,
    hoverinfo='skip',
    showscale=False))

# Adicionar a camada de texto com o nome dos bairros
fig.add_trace(go.Scattermapbox(
    lat=seattle_map.geometry.centroid.y,
    lon=seattle_map.geometry.centroid.x,
    mode='text',
    name='Bairro',      
    text=seattle_map['S_HOOD'],    
    textposition='middle center',
    below='True'))

# Adicionar pontos das casas
# prepara dfs para plot separado das casas
com_bairro=geo_df_seattle[geo_df_seattle.bairro!='nan']
text_com_bairro = ['ID: {} \n Preço: {:,.2f} \n Bairro: {}'.format(row['id'], row['price'], row['bairro']) for index, row in com_bairro.iterrows()]

sem_bairro=geo_df_seattle[geo_df_seattle.bairro=='nan']
text_sem_bairro = ['ID: {} \n Preço: {:,.2f} \n Bairro: {}'.format(row['id'], row['price'], row['bairro']) for index, row in sem_bairro.iterrows()]

#pontos das casas com bairro definido
fig.add_trace(go.Scattermapbox(
    lat=com_bairro['lat'],
    lon=com_bairro['long'],
    mode='markers',
    name='Casas com bairro definido',
    marker=go.scattermapbox.Marker(size=5,color='blue'),
    text=text_com_bairro,
    hoverinfo='text'))

#pontos das casas sem bairro definido
fig.add_trace(go.Scattermapbox(
    lat=sem_bairro['lat'],
    lon=sem_bairro['long'],
    mode='markers',
    name='Casas com bairro não definido',
    marker=go.scattermapbox.Marker(size=8,color='red'),
    text=text_sem_bairro,
    hoverinfo='text'))

# Configura o layout do mapa
fig.update_layout(
    mapbox_style="open-street-map",
    mapbox_zoom=10,
    hoverdistance=50,
    mapbox_center = {"lat": seattle_map.geometry.centroid.y.mean(), "lon": seattle_map.geometry.centroid.x.mean()},
    margin={"r":0,"t":0,"l":0,"b":0},
    legend=dict(
        x=0,y=1,
        xanchor='left',
        yanchor='top'
    ))

# Exibe o mapa
fig.show()

Considerando a plotagem realizada, é possível concluir que muitos imóveis identificados como sendo de Seattle a partir do ZipCode estão localizados em outras cidades. Isso ocorre porque o ZipCode abrange uma região além dos limites da cidade, o que pode gerar imprecisões na identificação da localidade dos imóveis. Além disso, durante a identificação dos bairros, foi observado que há oito imóveis localizados em Seattle que não foram identificados como tal. Isso ocorre porque a posição geográfica dessas casas não está contida no polígono dos bairros.

Para que a análise seja feita de maneira mais precisa e focada em Seattle, serão excluídos do dataset os imóveis localizados em outras cidades identificados na plotagem anterior. Além disso, os oito imóveis identificados como localizados em Seattle, mas que não foram identificados pelo polígono do bairro, serão ajustados manualmente, para que as informações sejam precisas. Após essas correções, o dataset estará pronto para ser utilizado na análise exploratória e modelagem dos dados.

In [None]:
# ajuste dos 8 imóveis que estão contidos em seattle
geo_df_seattle.loc[geo_df_seattle['id'] == 7351200295, 'bairro']='Cedar Park'
geo_df_seattle.loc[geo_df_seattle['id'] == 2726049034, 'bairro']='Cedar Park'
geo_df_seattle.loc[geo_df_seattle['id'] == 7352200100, 'bairro']='Mattews Beach'
geo_df_seattle.loc[geo_df_seattle['id'] == 1176001293, 'bairro']='Sunset Hill'
geo_df_seattle.loc[geo_df_seattle['id'] == 2025049006, 'bairro']='Portage Bay'
geo_df_seattle.loc[geo_df_seattle['id'] == 7936500221, 'bairro']='Seaview'
geo_df_seattle.loc[geo_df_seattle['id'] == 9412400220, 'bairro']='Dunlap'
geo_df_seattle.loc[geo_df_seattle['id'] == 7129303070, 'bairro']='Rainier Beach'

geo_df_seattle=geo_df_seattle[geo_df_seattle.bairro!='nan']


Após a realização da limpeza dos dados das casas que estavam fora do perímetro da cidade de Seattle e ajuste das 8 casas que estavam sem bairro identificado, temos um dataset pronto para ser trabalhado.

### **Inclusão da coluna calculada Preço por Área habitável**

Será realizada a inclusão de uma nova coluna no dataset que irá calcular o preço por área habitável dos imóveis. Essa coluna será necessária pois é uma das três variáveis de pré-requisito definidas pela Roof Imóveis para avaliação de imóveis. A fórmula utilizada para o cálculo será o preço dividido pela área habitável, obtendo assim o preço por ft².

In [None]:
geo_df_seattle['price_sqft'] = geo_df_seattle['price']/geo_df_seattle['sqft_living']

## **O Dataset de Seattle pronto para análise**

Após uma intensa limpeza e tratamento de dados, o Dataset de vendas de casas de Seattle está pronto para análise. Inicialmente tínhamos informações de vendas de casas em todo o condado de King, mas foi necessário reduzir o escopo para a cidade de Seattle e eliminar duplicidades de vendas mais antigas, visando uma análise mais precisa e atualizada. Adicionalmente, foi acrescentada uma coluna para a variável requisito da Roof Imóveis, o preço por área habitável. Com o conjunto de dados preparado, podemos realizar diversas análises e tirar insights valiosos para o mercado imobiliário de Seattle.
É possível visualizar a concentração das casas em Seattle através do mapa de calor abaixo, que mostra a densidade de ocorrência de casas em cada região da cidade. Com essa visualização, é possível perceber as áreas com maior concentração de casas, o que pode ser uma informação importante para investidores imobiliários que buscam entender a dinâmica do mercado imobiliário da cidade.


In [None]:
#MAPA COM ÁREA DOS BAIRROS E PONTO DAS CASAS PREVIAMENTE SINALIZADAS COM SEATTLE
# Cria o mapa
fig = go.Figure()
# Adiciona a camada de bairros
fig.add_trace(go.Choroplethmapbox(
    geojson=seattle_map.geometry.__geo_interface__,
    locations=seattle_map.index,
    z=seattle_map.OBJECTID,
    colorscale='Rainbow',
    zmin=0, zmax=94,
    marker_opacity=0.4,
    marker_line_width=1.5,
    hoverinfo='skip',
    showscale=False))

# Adicionar a camada de texto com o nome dos bairros
fig.add_trace(go.Scattermapbox(
    lat=seattle_map.geometry.centroid.y,
    lon=seattle_map.geometry.centroid.x,
    mode='text',
    name='Bairro',      
    text=seattle_map['S_HOOD'],    
    textposition='middle center',
    below='True'))

# Adicionar pontos das casas
# prepara dfs para plot separado das casas
text = ['ID: {} \n Preço: {:,.2f} \n Bairro: {}'.format(row['id'], row['price'], row['bairro']) for index, row in geo_df_seattle.iterrows()]

#pontos das casas com bairro definido
fig.add_trace(go.Densitymapbox(
    lat=geo_df_seattle['lat'],
    lon=geo_df_seattle['long'],
    z=geo_df_seattle['price'],
    radius=10,
    colorscale='Rainbow',
    name='Imóveis Vendidos em Seattle',
    hoverinfo='text',
    showscale=False))

# Configura o layout do mapa
fig.update_layout(
    mapbox_style="open-street-map",
    mapbox_zoom=10,
    hoverdistance=50,
    mapbox_center = {"lat": seattle_map.geometry.centroid.y.mean(), "lon": seattle_map.geometry.centroid.x.mean()},
    margin={"r":0,"t":0,"l":0,"b":0},
    legend=dict(
        x=0,y=1,
        xanchor='left',
        yanchor='top'
    ))

# Exibe o mapa
fig.show()

### **Análise estatística do Dataset de Seattle**


Será realizada uma breve análise estatística dos dados completos de Seattle utilizando o método describe, que nos fornecerá informações sobre a distribuição dos dados e seus principais parâmetros estatísticos. Além disso, será plotado um histograma para cada uma das variáveis numéricas do Dataset, o que nos ajudará a visualizar melhor a distribuição dos dados e identificar possíveis outliers. Com essas análises, será possível ter uma visão mais detalhada sobre o mercado imobiliário de Seattle e auxiliar na tomada de decisões para investidores e compradores de imóveis.




### **Método describe()**

O conjunto de dados analisado contém informações sobre vendas de casas na cidade de Seattle. A análise foi realizada com o método describe, que apresentou informações estatísticas sobre cada coluna. O número de registros é 6698. A coluna "price" apresenta um preço médio de 593253 dólares, com desvio padrão de 354061 dólares e um valor mínimo de 90000 dólares e um valor máximo de 7700000 dólares. A coluna "bedrooms" apresenta uma média de 3,13 quartos por casa, a coluna "bathrooms" apresenta uma média de 1,93 banheiros por casa e a coluna "sqft_living" apresenta uma média de 1805 pés quadrados de área habitável. A maioria das casas não possui vista para o mar ("waterfront"=0), e a coluna "grade" apresenta uma média de 7,44 de qualidade da construção. Em geral, as casas têm, em média, 1,54 andares, e a maioria das casas foram construídas até 1953. Este tipo de informação é útil para compreender o mercado imobiliário em Seattle e, possivelmente, pode ajudar a prever os preços das casas no futuro.


In [None]:
cols=['price','price_sqft','bedrooms','bathrooms','sqft_living','sqft_lot','floors','waterfront','view','condition','grade','sqft_above','sqft_basement','yr_built','yr_renovated','sqft_living15','sqft_lot15','bairro']
geo_df_seattle[cols].describe()

### **Histogramas**


A visualização de dados por meio de histogramas é uma ferramenta importante na análise exploratória de um conjunto de dados. No caso do conjunto de dados utilizado, podemos verificar a distribuição de cada variável através dos histogramas para as variáveis descritas na tabela describe(). Através desses histogramas, podemos detectar valores discrepantes que podem prejudicar a visualização de uma distribuição normal dos dados.

Por exemplo, ao analisarmos o histograma da variável price, podemos notar que a maioria dos imóveis possui um preço abaixo de 1 milhão de dólares, porém, há um imóvel com preço muito acima dos demais, chegando a quase 8 milhões de dólares. Essa discrepância pode prejudicar a visualização da distribuição dos preços dos imóveis e pode ser importante para uma análise mais detalhada sobre esse imóvel específico.

Além disso, a análise dos histogramas permite verificar a distribuição das variáveis e identificar possíveis outliers que podem influenciar em análises futuras. Dessa forma, a visualização dos dados através de histogramas é uma etapa importante na análise exploratória de dados e pode ajudar a identificar insights e padrões que não seriam facilmente percebidos apenas através de uma tabela de dados.

In [None]:
cols1=['price','price_sqft','bedrooms','bathrooms','sqft_living','sqft_lot','floors','waterfront','view','condition','grade','sqft_above','sqft_basement','yr_built','sqft_living15','sqft_lot15']
# Cria uma figura com 3 linhas e 3 colunas para os subplots
fig1, axes1 = plt.subplots(4, 4, figsize=(20, 10))

# Loop para plotar cada coluna em um subplot
for idx, col in enumerate(cols1):
    sns.histplot(geo_df_seattle[col], bins=50, ax=axes1[idx // 4, idx % 4], kde=True)
    axes1[idx //4, idx % 4].set_title(col)
    
# Ajusta o espaçamento entre os subplots
plt.tight_layout()
plt.show()


### **Correlação entre o preço e as demais variáveis**

A análise de correlação é fundamental na exploração de dados e pode fornecer informações valiosas sobre a relação entre diferentes variáveis. No caso de um conjunto de dados de imóveis, a correlação do preço com outros atributos, como tamanho da casa, número de quartos e banheiros, e condição da propriedade, pode ser especialmente útil na determinação de fatores que influenciam o preço dos imóveis. Com base na matriz de correlação apresentada, pode-se observar que o preço está fortemente correlacionado com o tamanho da casa (sqft_living), o que sugere que o preço por área habitável é uma boa escolha de métrica de sucesso na análise de imóveis. Além disso, outras variáveis, como o número de banheiros, a vista, a condição e a localização, também mostram uma correlação positiva com o preço, o que sugere que esses fatores também são importantes para determinar o preço de uma propriedade. 

In [None]:
var_num = geo_df_seattle._get_numeric_data()
var_num.drop(['id','index'], 1, inplace=True)
var_num_corr = var_num.corr()
print(var_num_corr['price'].sort_values(ascending=False).round(3))

cols = geo_df_seattle[['bedrooms', 'bathrooms', 'sqft_living','condition', 'grade', 'sqft_above','sqft_living15', 'price']]
most_corr_var = cols.corr()

plt.figure(figsize=[10, 6])
sns.heatmap(data=most_corr_var, vmin=-1, vmax=1, linewidth=0.01, linecolor='black', cmap='RdBu_r', annot=True)

plt.show()

## **As métricas de sucesso**

Após a realização das análises estatísticas e a visualização dos gráficos de histograma, os resultados foram apresentados aos sócios da Roof Imóveis. Eles perceberam a presença de um imóvel discrepante em relação aos demais, que prejudicava a visualização de uma distribuição normal dos dados. Além disso, foi possível identificar que a métrica grade, que avalia a qualidade da construção, estava apresentando um padrão abaixo do esperado. Diante disso, os sócios decidiram reavaliar a métrica e exigir que os imóveis a serem escolhidos na análise tenham uma grade mínima de 7, a fim de garantir a qualidade das construções e o bom desempenho no mercado imobiliário.

Para nortear a análise e escolha de imóveis de acordo com a estratégia de investimento da Roof Imóveis, foram definidas métricas de sucesso. A primeira métrica é o valor mínimo de melhor preço por área habitável, calculado pela razão entre o preço e a área habitável do imóvel (price/sqtliv). A segunda métrica é a exigência de que o imóvel tenha uma condição (condition) de no mínimo 3 e uma grade (grade) de no mínimo 7. Essas métricas foram acordadas com os sócios da empresa após análises estatísticas e gráficos de histogramas, levando à reavaliação da métrica de grade. Com essas métricas em mente, será possível realizar uma análise mais criteriosa dos bairros e tipos de casas para a escolha dos imóveis mais adequados ao investimento da Roof Imóveis.

## **A escolha dos imóveis**

Agora que já foi apresentada a estratégia de investimento da Roof Imóveis, a seleção dos cinco imóveis com bom potencial de retorno e consolidado o dados de Seattle, vamos analisar cada caso individualmente. Para isso, será necessário aplicar alguns filtros no dataset para garantir que as propriedades selecionadas atendam aos critérios de sucesso previamente definidos, como ter uma nota de condição de pelo menos 3, uma nota de qualidade (grade) de pelo menos 7 e um valor de preço por área habitável (price/sqft_living) dentro dos valores mínimos estabelecidos. Além disso, serão levados em consideração outros fatores relevantes, como localização, infraestrutura e potencial de valorização. Vamos, então, começar a análise caso a caso para avaliar se esses imóveis realmente atendem aos requisitos e apresentam um bom potencial de retorno para a Roof Imóveis.

### **Imóvel 1 - Casa de quatro quartos em Green Lake**

Com base nas estratégias de investimento estabelecidas, foram selecionados cinco imóveis em diferentes bairros de Seattle, cada um com suas próprias características e potencialidades. A partir de agora, serão apresentados os resultados da análise caso a caso, iniciando com a casa de quatro quartos em Green Lake. Primeiramente, foi realizado um filtro no conjunto de dados para selecionar apenas as propriedades localizadas neste bairro. Em seguida, foram aplicados critérios prévios de número de quartos, condição e classificação do material da construção da propriedade. Finalmente, foi selecionado o imóvel candidato com o menor preço por ft².

In [None]:
# df somente do bairro de Green Lake
Green_Lake=geo_df_seattle[(geo_df_seattle.bairro=='Green Lake')].reset_index()

# df de Green Lake somente com os requisitos prévios
df_analise_1=Green_Lake[(Green_Lake.bedrooms==4) & (Green_Lake.condition>=3) & (Green_Lake.grade>=7)]

# obtem o imóvel candidato conforme menor preço por ft²
valor_minimo_1=min(df_analise_1.price_sqft)
df_candidato_1=df_analise_1[df_analise_1.price_sqft==valor_minimo_1]
id_1=df_candidato_1.loc[df_candidato_1['price_sqft'] == valor_minimo_1, 'id'].iloc[0]

In [None]:
#MAPA COM ÁREA DOS BAIRROS E PONTO DAS CASAS PREVIAMENTE SINALIZADAS COM SEATTLE
# Cria o mapa
fig = go.Figure()
# Adiciona a camada de bairros
fig.add_trace(go.Choroplethmapbox(
    geojson=seattle_map.geometry.__geo_interface__,
    locations=seattle_map.index,
    z=seattle_map.OBJECTID,
    colorscale='Rainbow',
    zmin=0, zmax=94,
    marker_opacity=0.4,
    marker_line_width=1.5,
    hoverinfo='skip',
    showscale=False))

# Adicionar a camada de texto com o nome dos bairros
fig.add_trace(go.Scattermapbox(
    lat=seattle_map.geometry.centroid.y,
    lon=seattle_map.geometry.centroid.x,
    mode='text',
    name='Bairro',      
    text=seattle_map['S_HOOD'],    
    textposition='middle center',
    below='True'))

# Adicionar pontos das casas
df_analise_outros=Green_Lake[Green_Lake.id!=id_1]
text_nao_candidato =  ['ID: {} \n Preço: {:,.2f} \n Preço/Área Hab.: {:,.2f} \n Bairro: {}'.format(row['id'], row['price'],row['price_sqft'], row['bairro']) for index, row in df_analise_outros.iterrows()]
#pontos das casas sem bairro definido
fig.add_trace(go.Scattermapbox(
    lat=df_analise_outros['lat'],
    lon=df_analise_outros['long'],
    mode='markers',
    name='Casas fora do requisito',
    marker=go.scattermapbox.Marker(size=8,color='red'),
    text=text_nao_candidato,
    hoverinfo='text'))

# prepara dfs para plot separado das casas
df_candidato=df_candidato_1
text_candidato = ['ID: {} \n Preço: {:,.2f} \n Preço/Área Hab.: {:,.2f} \n Bairro: {}'.format(row['id'], row['price'],row['price_sqft'], row['bairro']) for index, row in df_candidato.iterrows()]

#pontos das casas com bairro definido
fig.add_trace(go.Scattermapbox(
    lat=df_candidato['lat'],
    lon=df_candidato['long'],
    mode='markers',
    name='Imóvel candidato',
    marker=go.scattermapbox.Marker(size=10,color='green'),
    text=text_candidato,
    hoverinfo='text'))

# Configura o layout do mapa
fig.update_layout(
    mapbox_style="open-street-map",
    mapbox_zoom=13,
    hoverdistance=50,
    mapbox_center = {"lat": Green_Lake.geometry.centroid.y.mean(), "lon": Green_Lake.geometry.centroid.x.mean()},
    margin={"r":0,"t":0,"l":0,"b":0},
    legend=dict(
        x=0,y=1,
        xanchor='left',
        yanchor='top'
    ))

# Exibe o mapa
fig.show()

In [None]:
cols=['price','price_sqft','bedrooms','bathrooms','sqft_living','sqft_lot','floors','waterfront','view','condition','grade','sqft_above','sqft_basement','yr_built','yr_renovated','sqft_living15','sqft_lot15']
Green_Lake[cols].describe()

In [None]:
df_candidato_1[cols]

A escolha do imóvel 1 para avaliação se deve às suas características, como a área de 3730 sqft, 4 quartos, 3.25 banheiros e sua localização em Green Lake, um bairro desejado em Seattle. Embora o preço de venda de 595.000 dólares seja ligeiramente acima da média da região, o valor por sqft de 159.52 dólares ainda representa um valor atraente em comparação com o valor médio por sqft de 390.53 dólares para imóveis em Green Lake. Além disso, a propriedade possui uma pontuação alta de 9 na escala de classificação de imóveis e é relativamente nova, construída em 2015, sem necessidade de reformas recentes. Portanto, a escolha do imóvel 1 é justificável e coerente com as tendências do mercado imobiliário da região. É importante ressaltar que outras variáveis, como localização precisa, infraestrutura e vizinhança, também devem ser consideradas na avaliação da escolha.


Além das informações mencionadas anteriormente, a apresentação incluirá uma foto do imóvel escolhido, obtida através do [Google Street View](https://www.google.com.br/maps/place/47%C2%B040'21.0%22N+122%C2%B019'48.0%22W/@47.6723,-122.330204,3a,75y,358.12h,86.86t/data=!3m7!1e1!3m5!1sd7y0SuclHU3aXXF5_fuYFA!2e0!5s20190401T000000!7i16384!8i8192!4m5!3m4!1s0x0:0x932705ae9660af05!8m2!3d47.6725!4d-122.33), para uma melhor visualização da propriedade. Acreditamos que a análise cuidadosa das características da propriedade e sua localização justificam a escolha do imóvel 1 para avaliação, e esperamos que essa apresentação seja útil para a Roof Imóveis e seus clientes na tomada de decisão sobre investimento ou aquisição de um imóvel em Seattle.

![ - Casa de quatro quartos em Green Lake](https://drive.google.com/uc?id=16NC8HCxk0pIT1Q9PnEee9an_WvLDwPaY&export=download)



### **Imóvel 2 - Casa/Apartamento com pelo menos dois quartos em Queen Anne**

Seguindo as estratégias de investimento, foram selecionados cinco imóveis em bairros distintos de Seattle, cada um com suas próprias características e potencialidades. O imóvel 2 se destaca por sua localização em Queen Anne, que engloba os bairros West Queen Anne, North Queen Anne, East Queen Anne e Lower Queen Anne, conhecidos por sua atmosfera residencial e vibrante ao mesmo tempo. Além disso, o imóvel selecionado possui pelo menos dois quartos, sendo necessário que a propriedade tenha boa classificação do material de construção e condição, além de um preço por ft² competitivo em relação aos demais imóveis na região. A partir dos critérios estabelecidos, o imóvel 2 foi selecionado como um dos candidatos para investimento. Nos próximos tópicos, apresentaremos as principais informações e análises sobre este imóvel.


In [None]:
Queen_Anne=geo_df_seattle[(geo_df_seattle.bairro=='West Queen Anne') | (geo_df_seattle.bairro=='North Queen Anne') |(geo_df_seattle.bairro=='East Queen Anne') | (geo_df_seattle.bairro=='Lower Queen Anne')].reset_index()

# df de Green Lake somente com os requisitos prévios
df_analise_2=Queen_Anne[(Queen_Anne.bedrooms>=2) & (Queen_Anne.condition>=3) & (Queen_Anne.grade>=7)]

# obtem o imóvel candidato conforme menor preço por ft²
valor_minimo_2=min(df_analise_2.price_sqft)
df_candidato_2=df_analise_2[df_analise_2.price_sqft==valor_minimo_2]
id_2=df_candidato_2.loc[df_candidato_2['price_sqft'] == valor_minimo_2, 'id'].iloc[0]

In [None]:
#MAPA COM ÁREA DOS BAIRROS E PONTO DAS CASAS PREVIAMENTE SINALIZADAS COM SEATTLE
# Cria o mapa
fig = go.Figure()
# Adiciona a camada de bairros
fig.add_trace(go.Choroplethmapbox(
    geojson=seattle_map.geometry.__geo_interface__,
    locations=seattle_map.index,
    z=seattle_map.OBJECTID,
    colorscale='Rainbow',
    zmin=0, zmax=94,
    marker_opacity=0.4,
    marker_line_width=1.5,
    hoverinfo='skip',
    showscale=False))

# Adicionar a camada de texto com o nome dos bairros
fig.add_trace(go.Scattermapbox(
    lat=seattle_map.geometry.centroid.y,
    lon=seattle_map.geometry.centroid.x,
    mode='text',
    name='Bairro',      
    text=seattle_map['S_HOOD'],    
    textposition='middle center',
    below='True'))

# Adicionar pontos das casas
df_analise_outros=Queen_Anne[Queen_Anne.id!=id_2]
text_nao_candidato =  ['ID: {} \n Preço: {:,.2f} \n Preço/Área Hab.: {:,.2f} \n Bairro: {}'.format(row['id'], row['price'],row['price_sqft'], row['bairro']) for index, row in df_analise_outros.iterrows()]
#pontos das casas sem bairro definido
fig.add_trace(go.Scattermapbox(
    lat=df_analise_outros['lat'],
    lon=df_analise_outros['long'],
    mode='markers',
    name='Casas fora do requisito',
    marker=go.scattermapbox.Marker(size=8,color='red'),
    text=text_nao_candidato,
    hoverinfo='text'))

# prepara dfs para plot separado das casas
df_candidato=df_candidato_2
text_candidato = ['ID: {} \n Preço: {:,.2f} \n Preço/Área Hab.: {:,.2f} \n Bairro: {}'.format(row['id'], row['price'],row['price_sqft'], row['bairro']) for index, row in df_candidato.iterrows()]

#pontos das casas com bairro definido
fig.add_trace(go.Scattermapbox(
    lat=df_candidato['lat'],
    lon=df_candidato['long'],
    mode='markers',
    name='Imóvel candidato',
    marker=go.scattermapbox.Marker(size=10,color='green'),
    text=text_candidato,
    hoverinfo='text'))

# Configura o layout do mapa
fig.update_layout(
    mapbox_style="open-street-map",
    mapbox_zoom=13,
    hoverdistance=50,
    mapbox_center = {"lat": Queen_Anne.geometry.centroid.y.mean(), "lon": Queen_Anne.geometry.centroid.x.mean()},
    margin={"r":0,"t":0,"l":0,"b":0},
    legend=dict(
        x=0,y=1,
        xanchor='left',
        yanchor='top'
    ))

# Exibe o mapa
fig.show()

In [None]:
cols=['price','price_sqft','bedrooms','bathrooms','sqft_living','sqft_lot','floors','waterfront','view','condition','grade','sqft_above','sqft_basement','yr_built','yr_renovated','sqft_living15','sqft_lot15','bairro']
Queen_Anne[cols].describe()

In [None]:
df_candidato_2[cols]

Este imóvel candidato está localizado no bairro de West Queen Anne, que é uma área muito procurada em Seattle. Trata-se de uma bela casa Queen Anne de três andares com 5 quartos, 3 banheiros e 1 lavabo, com uma área interna de 4460 pés quadrados, muito maior que a média dos 15 imóveis mais próximos. A casa foi construída em 2015 e apresenta um design moderno e elegante. A cozinha é espaçosa e apresenta bancadas em granito, eletrodomésticos de aço inoxidável e armários de qualidade. O piso principal possui uma lareira a gás na sala de estar e acesso direto a um deck privativo, ideal para churrascos e entretenimento ao ar livre. A suíte principal é extremamente espaçosa e apresenta um closet grande e um banheiro de luxo com banheira e chuveiro separados. A casa possui também uma garagem para dois carros. O preço deste imóvel é de US$490.000, o que está dentro da faixa de preços para imóveis em Queen Anne. Em resumo, este é um imóvel fantástico que oferece muito espaço e luxo como podemos ver na foto abaixo extraída do [Street View](https://www.google.com.br/maps/@47.6311064,-122.3700447,3a,75y,23.85h,97.44t/data=!3m6!1e1!3m4!1soUVDMlDpwkZGxUe95EobWQ!2e0!7i16384!8i8192), em um dos melhores bairros de Seattle.

![Queen Anne](https://drive.google.com/uc?export=view&id=16XColRQ0NXOZkwvKht7SXwSQLkWnJbIM)


### **Imóvel 3 - Casa de dois quartos em Fremont**

Para diversificar o portfólio de investimentos em imóveis, foi selecionada uma casa de dois quartos em Fremont, um bairro conhecido por sua vibrante cena artística e cultural, frequentado principalmente por jovens profissionais e artistas. Além da localização privilegiada, foram considerados critérios importantes como a qualidade do material de construção, as condições estruturais da propriedade e um preço por ft² competitivo. Com base nesses requisitos, o imóvel em questão se destacou como um forte candidato para investimento, e nos próximos tópicos apresentaremos as principais informações e análises sobre esta propriedade.


In [None]:
Fremont=geo_df_seattle[(geo_df_seattle.bairro=='Fremont')].reset_index()

# df de Fremont somente com os requisitos prévios
df_analise_3=Fremont[(Fremont.bedrooms==2) & (Fremont.condition>=3) & (Fremont.grade>=7)]

# obtem o imóvel candidato conforme menor preço por ft²
valor_minimo_3=min(df_analise_3.price_sqft)
df_candidato_3=df_analise_3[df_analise_3.price_sqft==valor_minimo_3]
id_3=df_candidato_3.loc[df_candidato_3['price_sqft'] == valor_minimo_3, 'id'].iloc[0]

In [None]:
#MAPA COM ÁREA DOS BAIRROS E PONTO DAS CASAS PREVIAMENTE SINALIZADAS COM SEATTLE
# Cria o mapa
fig = go.Figure()
# Adiciona a camada de bairros
fig.add_trace(go.Choroplethmapbox(
    geojson=seattle_map.geometry.__geo_interface__,
    locations=seattle_map.index,
    z=seattle_map.OBJECTID,
    colorscale='Rainbow',
    zmin=0, zmax=94,
    marker_opacity=0.4,
    marker_line_width=1.5,
    hoverinfo='skip',
    showscale=False))

# Adicionar a camada de texto com o nome dos bairros
fig.add_trace(go.Scattermapbox(
    lat=seattle_map.geometry.centroid.y,
    lon=seattle_map.geometry.centroid.x,
    mode='text',
    name='Bairro',      
    text=seattle_map['S_HOOD'],    
    textposition='middle center',
    below='True'))

# Adicionar pontos das casas
df_analise_outros=Fremont[Fremont.id!=id_3]
text_nao_candidato =  ['ID: {} \n Preço: {:,.2f} \n Preço/Área Hab.: {:,.2f} \n Bairro: {}'.format(row['id'], row['price'],row['price_sqft'], row['bairro']) for index, row in df_analise_outros.iterrows()]
#pontos das casas sem bairro definido
fig.add_trace(go.Scattermapbox(
    lat=df_analise_outros['lat'],
    lon=df_analise_outros['long'],
    mode='markers',
    name='Casas fora do requisito',
    marker=go.scattermapbox.Marker(size=8,color='red'),
    text=text_nao_candidato,
    hoverinfo='text'))

# prepara dfs para plot separado das casas
df_candidato=df_candidato_3
text_candidato = ['ID: {} \n Preço: {:,.2f} \n Preço/Área Hab.: {:,.2f} \n Bairro: {}'.format(row['id'], row['price'],row['price_sqft'], row['bairro']) for index, row in df_candidato.iterrows()]

#pontos das casas com bairro definido
fig.add_trace(go.Scattermapbox(
    lat=df_candidato['lat'],
    lon=df_candidato['long'],
    mode='markers',
    name='Imóvel candidato',
    marker=go.scattermapbox.Marker(size=10,color='green'),
    text=text_candidato,
    hoverinfo='text'))

# Configura o layout do mapa
fig.update_layout(
    mapbox_style="open-street-map",
    mapbox_zoom=13,
    hoverdistance=50,
    mapbox_center = {"lat": Fremont.geometry.centroid.y.mean(), "lon": Fremont.geometry.centroid.x.mean()},
    margin={"r":0,"t":0,"l":0,"b":0},
    legend=dict(
        x=0,y=1,
        xanchor='left',
        yanchor='top'
    ))

# Exibe o mapa
fig.show()

In [None]:
cols=['price','price_sqft','bedrooms','bathrooms','sqft_living','sqft_lot','floors','waterfront','view','condition','grade','sqft_above','sqft_basement','yr_built','yr_renovated','sqft_living15','sqft_lot15']
Fremont[cols].describe()

In [None]:
df_candidato_3[cols]

Este imóvel candidato localiza-se no bairro de Fremont e possui um preço de venda de US$ 355.000,00. Com uma área construída de 1.270 pés quadrados, ele conta com 2 quartos, 1 banheiro e 1 vaga de garagem. A sua estrutura apresenta um pavimento, sem frente para a água e vista de rua.

Comparando com as características médias dos imóveis do bairro, este imóvel possui uma área construída abaixo da média, porém apresenta um preço por metro quadrado abaixo da média, o que o torna uma opção interessante para investidores em busca de uma propriedade em uma das regiões mais valorizadas de Seattle. A nota do imóvel na escala de classificação de 1 a 5, tem condição 4, e considerando o seu grau de qualidade no material 7 no máximo de 9 em Fremont.

Além disso, este imóvel possui um ano de construção de 1920 e não apresenta renovações recentes, o que pode influenciar na necessidade de possíveis reformas e manutenções. Porém, a sua localização no bairro de Fremont, conhecido por ser um dos bairros mais charmosos de Seattle, próximo a diversas opções de comércio, lazer e transporte público, pode ser um ponto positivo na avaliação deste imóvel. Em suma, este imóvel pode ser uma boa oportunidade para quem busca um investimento em um bairro com alto potencial de valorização na cidade de Seattle.

Abaixo podemos ver a foto do imóvel extraída do [Street View](https://www.google.com.br/maps/@47.6565282,-122.3479341,3a,90y,102.81h,90.77t/data=!3m6!1e1!3m4!1sfito9TZKdFL8VdPrgaI4bA!2e0!7i16384!8i8192).

![Freemont](https://drive.google.com/uc?export=view&id=16csCB7fx2h6JbRIoBKXYo5axLcuO5x-C)


### **Imóvel 4 - Casa/Apartamento de dois quartos em Columbia City**

Com o objetivo de ampliar a carteira de investimentos em imóveis, foi selecionada uma casa de dois quartos em Columbia City, um bairro em ascensão localizado no sudeste de Seattle, conhecido por sua comunidade vibrante e diversificada, que atrai uma mistura de jovens profissionais, famílias e artistas. Além da localização privilegiada, foram levados em consideração critérios importantes como a qualidade do material de construção, a estrutura física da propriedade e um preço por ft² competitivo. Com base nesses requisitos, o imóvel em questão se destacou como um forte candidato para investimento, e nos próximos tópicos apresentaremos as principais informações e análises sobre esta propriedade.

In [None]:
Columbia_City =geo_df_seattle[(geo_df_seattle.bairro=='Columbia City')].reset_index()

# df de Fremont somente com os requisitos prévios
df_analise_4=Columbia_City[(Columbia_City.bedrooms==2) & (Columbia_City.condition>=3) & (Columbia_City.grade>=7)]

# obtem o imóvel candidato conforme menor preço por ft²
valor_minimo_4=min(df_analise_4.price_sqft)
df_candidato_4=df_analise_4[df_analise_4.price_sqft==valor_minimo_4]
id_4=df_candidato_4.loc[df_candidato_4['price_sqft'] == valor_minimo_4, 'id'].iloc[0]

In [None]:
#MAPA COM ÁREA DOS BAIRROS E PONTO DAS CASAS PREVIAMENTE SINALIZADAS COM SEATTLE
# Cria o mapa
fig = go.Figure()
# Adiciona a camada de bairros
fig.add_trace(go.Choroplethmapbox(
    geojson=seattle_map.geometry.__geo_interface__,
    locations=seattle_map.index,
    z=seattle_map.OBJECTID,
    colorscale='Rainbow',
    zmin=0, zmax=94,
    marker_opacity=0.4,
    marker_line_width=1.5,
    hoverinfo='skip',
    showscale=False))

# Adicionar a camada de texto com o nome dos bairros
fig.add_trace(go.Scattermapbox(
    lat=seattle_map.geometry.centroid.y,
    lon=seattle_map.geometry.centroid.x,
    mode='text',
    name='Bairro',      
    text=seattle_map['S_HOOD'],    
    textposition='middle center',
    below='True'))

# Adicionar pontos das casas
df_analise_outros=Columbia_City[Columbia_City.id!=id_4]
text_nao_candidato =  ['ID: {} \n Preço: {:,.2f} \n Preço/Área Hab.: {:,.2f} \n Bairro: {}'.format(row['id'], row['price'],row['price_sqft'], row['bairro']) for index, row in df_analise_outros.iterrows()]
#pontos das casas sem bairro definido
fig.add_trace(go.Scattermapbox(
    lat=df_analise_outros['lat'],
    lon=df_analise_outros['long'],
    mode='markers',
    name='Casas fora do requisito',
    marker=go.scattermapbox.Marker(size=8,color='red'),
    text=text_nao_candidato,
    hoverinfo='text'))

# prepara dfs para plot separado das casas
df_candidato=df_candidato_4
text_candidato = ['ID: {} \n Preço: {:,.2f} \n Preço/Área Hab.: {:,.2f} \n Bairro: {}'.format(row['id'], row['price'],row['price_sqft'], row['bairro']) for index, row in df_candidato.iterrows()]

#pontos das casas com bairro definido
fig.add_trace(go.Scattermapbox(
    lat=df_candidato['lat'],
    lon=df_candidato['long'],
    mode='markers',
    name='Imóvel candidato',
    marker=go.scattermapbox.Marker(size=10,color='green'),
    text=text_candidato,
    hoverinfo='text'))

# Configura o layout do mapa
fig.update_layout(
    mapbox_style="open-street-map",
    mapbox_zoom=13,
    hoverdistance=50,
    mapbox_center = {"lat": Columbia_City.geometry.centroid.y.mean(), "lon": Columbia_City.geometry.centroid.x.mean()},
    margin={"r":0,"t":0,"l":0,"b":0},
    legend=dict(
        x=0,y=1,
        xanchor='left',
        yanchor='top'
    ))

# Exibe o mapa
fig.show()

In [None]:
cols=['price','price_sqft','bedrooms','bathrooms','sqft_living','sqft_lot','floors','waterfront','view','condition','grade','sqft_above','sqft_basement','yr_built','yr_renovated','sqft_living15','sqft_lot15']
Columbia_City[cols].describe()

In [None]:
df_candidato_4[cols]

Columbia City é um bairro com um perfil predominantemente residencial, mas com uma vibração animada e boêmia, onde jovens profissionais e artistas se reúnem para explorar a cena cultural da região. De acordo com o describe do bairro, o imóvel candidato é um dos poucos disponíveis no mercado, com um preço por ft² competitivo em relação à média do bairro. A casa geminada possui dois quartos e um banheiro e apresenta um piso plano com uma distribuição eficiente dos espaços. A construção recente, em 2014, significa que a propriedade tem uma estrutura moderna e atualizada, além de uma condição de conservação quase impecável. Com uma metragem quadrada de 1110 ft², a casa oferece um espaço confortável para um casal ou uma pequena família. Com base nesses critérios, o imóvel em questão se destaca como um forte candidato para investimento em um bairro animado e em crescimento.

A foto extraída do [Street View](https://www.google.com.br/maps/@47.5647084,-122.2925346,3a,24.9y,256.37h,91.44t/data=!3m9!1e1!3m7!1srjXYybvgn1SFL7Q0ixD9xA!2e0!7i16384!8i8192!9m2!1b1!2i20) nos mostra o design moderno do imóvel com dois pavimentos, além de um pequeno pátio na parte traseira.

![Imóvel 4](https://drive.google.com/uc?export=view&id=16g1jWS_IZ_5wA2IPv56Mz_QbC5aNQlpS)


### **Imóvel 5 - Uma casa de três quartos em Mount Baker**

Para diversificar o portfólio de investimentos em imóveis, foi selecionada uma casa de três quartos em Mount Baker, um bairro charmoso e arborizado, conhecido por sua tranquilidade e qualidade de vida. Com ruas calmas e vizinhança amigável, o bairro atrai principalmente famílias em busca de um estilo de vida mais tranquilo. Além da localização privilegiada, foram considerados critérios importantes como a qualidade do material de construção, as condições estruturais da propriedade e um preço por ft² competitivo. Com base nesses requisitos, o imóvel em questão se destacou como um forte candidato para investimento, e nos próximos tópicos apresentaremos as principais informações e análises sobre esta propriedade.

In [None]:
Mount_Baker =geo_df_seattle[(geo_df_seattle.bairro=='Mount Baker')].reset_index()

# df de Fremont somente com os requisitos prévios
df_analise_5=Mount_Baker[(Mount_Baker.bedrooms==3) & (Mount_Baker.condition>=3) & (Mount_Baker.grade>=7)]

# obtem o imóvel candidato conforme menor preço por ft²
valor_minimo_5=min(df_analise_5.price_sqft)
df_candidato_5=df_analise_5[df_analise_5.price_sqft==valor_minimo_5]
id_5=df_candidato_5.loc[df_candidato_5['price_sqft'] == valor_minimo_5, 'id'].iloc[0]

In [None]:
#MAPA COM ÁREA DOS BAIRROS E PONTO DAS CASAS PREVIAMENTE SINALIZADAS COM SEATTLE
# Cria o mapa
fig = go.Figure()
# Adiciona a camada de bairros
fig.add_trace(go.Choroplethmapbox(
    geojson=seattle_map.geometry.__geo_interface__,
    locations=seattle_map.index,
    z=seattle_map.OBJECTID,
    colorscale='Rainbow',
    zmin=0, zmax=94,
    marker_opacity=0.4,
    marker_line_width=1.5,
    hoverinfo='skip',
    showscale=False))

# Adicionar a camada de texto com o nome dos bairros
fig.add_trace(go.Scattermapbox(
    lat=seattle_map.geometry.centroid.y,
    lon=seattle_map.geometry.centroid.x,
    mode='text',
    name='Bairro',      
    text=seattle_map['S_HOOD'],    
    textposition='middle center',
    below='True'))

# Adicionar pontos das casas
df_analise_outros=Mount_Baker[Mount_Baker.id!=id_5]
text_nao_candidato =  ['ID: {} \n Preço: {:,.2f} \n Preço/Área Hab.: {:,.2f} \n Bairro: {}'.format(row['id'], row['price'],row['price_sqft'], row['bairro']) for index, row in df_analise_outros.iterrows()]
#pontos das casas sem bairro definido
fig.add_trace(go.Scattermapbox(
    lat=df_analise_outros['lat'],
    lon=df_analise_outros['long'],
    mode='markers',
    name='Casas fora do requisito',
    marker=go.scattermapbox.Marker(size=8,color='red'),
    text=text_nao_candidato,
    hoverinfo='text'))

# prepara dfs para plot separado das casas
df_candidato=df_candidato_5
text_candidato = ['ID: {} \n Preço: {:,.2f} \n Preço/Área Hab.: {:,.2f} \n Bairro: {}'.format(row['id'], row['price'],row['price_sqft'], row['bairro']) for index, row in df_candidato.iterrows()]

#pontos das casas com bairro definido
fig.add_trace(go.Scattermapbox(
    lat=df_candidato['lat'],
    lon=df_candidato['long'],
    mode='markers',
    name='Imóvel candidato',
    marker=go.scattermapbox.Marker(size=10,color='green'),
    text=text_candidato,
    hoverinfo='text'))

# Configura o layout do mapa
fig.update_layout(
    mapbox_style="open-street-map",
    mapbox_zoom=13,
    hoverdistance=50,
    mapbox_center = {"lat": Mount_Baker.geometry.centroid.y.mean(), "lon": Mount_Baker.geometry.centroid.x.mean()},
    margin={"r":0,"t":0,"l":0,"b":0},
    legend=dict(
        x=0,y=1,
        xanchor='left',
        yanchor='top'
    ))

# Exibe o mapa
fig.show()

In [None]:
cols=['price','price_sqft','bedrooms','bathrooms','sqft_living','sqft_lot','floors','waterfront','view','condition','grade','sqft_above','sqft_basement','yr_built','yr_renovated','sqft_living15','sqft_lot15']
Mount_Baker[cols].describe()

In [None]:
df_candidato_5[cols]

Mount Baker é um bairro bastante procurado por quem busca uma área residencial tranquila e familiar, com fácil acesso ao centro da cidade de Seattle. De acordo com o conjunto de dados do bairro, a maioria dos imóveis possui em média 3,5 quartos e 2 banheiros, com uma área útil de cerca de 2.331 pés quadrados e um preço médio de US$ 747.792. A casa em questão, localizada neste bairro, apresenta características bastante atraentes, como uma área útil de 3.000 pés quadrados, três quartos, dois banheiros e um lavabo, além de um terreno com 5.000 pés quadrados. O preço por pé quadrado do imóvel, de US\$222, é relativamente baixo em comparação à média do bairro, o que sugere um bom custo-benefício. Além disso, a casa foi construída em 1918, o que lhe confere um charme e uma personalidade própria, embora não tenha sido renovada recentemente. Com uma classificação de condição 4 e grau 7, a propriedade parece estar em boas condições estruturais e com uma qualidade de construção satisfatória, que também pode ser visto pelo [Street View](https://www.google.com.br/maps/@47.5782605,-122.2930258,3a,36.5y,240.99h,84.31t/data=!3m6!1e1!3m4!1sEBrZwGveMDbeLQS5FkC1Gg!2e0!7i16384!8i8192).

![Imovel 5](https://drive.google.com/uc?export=view&id=16n9P_b8sQq3G5jKF3c1Nn4QA9Ia-AjI6)





### NÃO INDICADOS PARA INVESTIR

- **Seleção dos Imóveis - 5 imóveis sem potencial de retorno:**
Para a seleção de imóveis sem potencial de investimento em Seattle, levando em consideração apenas imóveis residenciais para moradia, podemos considerar os seguintes exemplos de propriedades:

Uma casa localizada em Rainier Valley, um bairro de baixa renda e com altos índices de criminalidade. Além disso, a infraestrutura do bairro é precária e há poucas opções de lazer e serviços disponíveis para os moradores.

Um apartamento em University District, um bairro que está sofrendo com o excesso de oferta de imóveis devido à construção de vários prédios residenciais nos últimos anos. Isso tem levado a uma queda nos preços dos imóveis na região e a dificuldades em encontrar inquilinos.

Uma casa em Georgetown, um bairro industrializado que está passando por um processo de gentrificação, mas ainda possui problemas relacionados à segurança e falta de serviços básicos.

Um apartamento em High Point, um bairro que foi construído recentemente para substituir uma antiga área de habitação pública. Apesar dos investimentos em infraestrutura, o bairro ainda enfrenta desafios sociais e econômicos que podem afetar o valor dos imóveis.

Uma casa em Lake City, um bairro que historicamente tem sido menos valorizado pelos investidores devido à sua localização periférica e falta de comodidades. Apesar de estar passando por um processo de revitalização, ainda pode ser considerado um investimento de risco.

## plotar no folium os 10 imoveis com tips