### Novas perguntas de negócios

1. Qual a data do imóvel mais antigo no portfólio?
2. Quantos imóveis possuem o número máximo de andares?
3. Criar uma classificação para o imóveis, separando-os em baixo e alto padrão, de acordo com preço. Acima de 540.000 reais é alto padrão e abaixo de 540.000 reais é baixo padrão.
4. Gostaria de um relatório ordenado pelo preço e contento as seguintes informações: id do imóvel; data que o imóvel ficou disponível para compra; o número de quartos; o tamanho total do terreno; o preço; a classificação do imóvel (alto e baixo padrão).
5. Gostaria de um Mapa indicando onde as casas estão localizadas geograficamente.

Os dados para análise são encontrados em: https://www.kaggle.com/harlfoxem/housesalesprediction/version/1?select=kc_house_data.csv

# Análise de dados

In [210]:
import pandas as pd
import numpy as np

In [211]:
data = pd.read_csv('datasets/kc_house_data.csv')
data.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


### 1. Qual a data do imóvel mais antigo no portfólio?

In [212]:
data['date']
data.dtypes

id                 int64
date              object
price            float64
bedrooms           int64
bathrooms        float64
sqft_living        int64
sqft_lot           int64
floors           float64
waterfront         int64
view               int64
condition          int64
grade              int64
sqft_above         int64
sqft_basement      int64
yr_built           int64
yr_renovated       int64
zipcode            int64
lat              float64
long             float64
sqft_living15      int64
sqft_lot15         int64
dtype: object

In [213]:
# A coluna date não está na forma de datetime e sim de object, então tem que transformar para datetime para conseguir colocar em ordem.
data['date'] = pd.to_datetime(data['date'])

data.dtypes

id                        int64
date             datetime64[ns]
price                   float64
bedrooms                  int64
bathrooms               float64
sqft_living               int64
sqft_lot                  int64
floors                  float64
waterfront                int64
view                      int64
condition                 int64
grade                     int64
sqft_above                int64
sqft_basement             int64
yr_built                  int64
yr_renovated              int64
zipcode                   int64
lat                     float64
long                    float64
sqft_living15             int64
sqft_lot15                int64
dtype: object

In [214]:
#colocando a coluna date em ordem crescente

data_1 = data.sort_values('date').reset_index()
data_1.head()

Unnamed: 0,index,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,16768,5561000190,2014-05-02,437500.0,3,2.25,1970,35100,2.0,0,...,9,1970,0,1977,0,98027,47.4635,-121.991,2340,35100
1,9596,472000620,2014-05-02,790000.0,3,2.5,2600,4750,1.0,0,...,9,1700,900,1951,0,98117,47.6833,-122.4,2380,4750
2,9587,1024069009,2014-05-02,675000.0,5,2.5,2820,67518,2.0,0,...,8,2820,0,1979,0,98029,47.5794,-122.025,2820,48351
3,20602,7853361370,2014-05-02,555000.0,4,2.5,3310,6500,2.0,0,...,8,3310,0,2012,0,98065,47.515,-121.87,2380,5000
4,11577,5056500260,2014-05-02,440000.0,4,2.25,2160,8119,1.0,0,...,8,1080,1080,1966,0,98006,47.5443,-122.177,1850,9000


In [215]:
e1 = data_1.loc[0,'date']

print(f'O imóvel mais antigo do DataFrame é de {e1}')

O imóvel mais antigo do DataFrame é de 2014-05-02 00:00:00


### 2. Quantos imóveis possuem o número máximo de andares?

In [216]:
#encontrando quais linhas tem o valor da coluna floors máximo

data_2 = data[data['floors'] == data['floors'].max()]
data_2

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
875,6306400140,2014-06-12,1095000.0,0,0.0,3064,4764,3.5,0,2,...,7,3064,0,1990,0,98102,47.6362,-122.322,2360,4000
10077,1972202010,2014-08-01,435000.0,3,3.0,1440,1350,3.5,0,2,...,8,1440,0,2005,0,98103,47.6525,-122.345,1440,1350
11594,3180100023,2015-01-30,544000.0,3,2.5,1760,1755,3.5,0,0,...,8,1760,0,1998,0,98105,47.6688,-122.279,1700,1721
14885,8673400177,2015-04-02,525000.0,3,3.0,1730,1074,3.5,0,0,...,8,1730,0,2006,0,98107,47.6692,-122.392,1370,1185
15424,1702900664,2015-04-16,479000.0,2,2.5,1730,1037,3.5,0,0,...,8,1730,0,2008,0,98118,47.5594,-122.285,1280,1026
18477,1346300150,2014-10-20,3300000.0,8,4.0,7710,11750,3.5,0,0,...,12,6090,1620,1904,0,98112,47.6263,-122.314,4210,8325
20308,1972200426,2014-09-18,525000.0,2,2.75,1310,1268,3.5,0,0,...,8,1310,0,2007,0,98103,47.6534,-122.355,1350,1288
20772,1972200428,2014-06-25,563500.0,3,2.5,1400,1312,3.5,0,0,...,8,1400,0,2007,0,98103,47.6534,-122.355,1350,1312


In [217]:
tam = len(data_2)
print(f'Existem {tam} imóveis com o número máximo de andares.')

Existem 8 imóveis com o número máximo de andares.


### 3. Criar uma classificação para o imóveis, separando-os em baixo e alto padrão, de acordo com preço. Acima de 540.000 reais é alto padrão e abaixo de 540.000 reais é baixo padrão.

In [218]:
#criando uma nova coluna para adicionar os valores
data['standard'] = 'standard'

In [219]:
#linhas em que o preço é maior que 540000
maior = data['price'] > 540000

#para encontrar onde na linha o preço é maior que 540000 e substituir na coluna 'standard' o valor 'high_standard'
data.loc[maior, 'standard'] = 'high_standard'

In [220]:
#linhas em que o preço é menor que 540000
menor = data['price'] < 540000

#para encontrar onde na linha o preço é menor que 540000 e substituir na coluna 'standard' o valor 'low_standard'
data.loc[menor, 'standard'] = 'low_standard'

In [221]:
data

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15,standard
0,7129300520,2014-10-13,221900.0,3,1.00,1180,5650,1.0,0,0,...,1180,0,1955,0,98178,47.5112,-122.257,1340,5650,low_standard
1,6414100192,2014-12-09,538000.0,3,2.25,2570,7242,2.0,0,0,...,2170,400,1951,1991,98125,47.7210,-122.319,1690,7639,low_standard
2,5631500400,2015-02-25,180000.0,2,1.00,770,10000,1.0,0,0,...,770,0,1933,0,98028,47.7379,-122.233,2720,8062,low_standard
3,2487200875,2014-12-09,604000.0,4,3.00,1960,5000,1.0,0,0,...,1050,910,1965,0,98136,47.5208,-122.393,1360,5000,high_standard
4,1954400510,2015-02-18,510000.0,3,2.00,1680,8080,1.0,0,0,...,1680,0,1987,0,98074,47.6168,-122.045,1800,7503,low_standard
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21608,263000018,2014-05-21,360000.0,3,2.50,1530,1131,3.0,0,0,...,1530,0,2009,0,98103,47.6993,-122.346,1530,1509,low_standard
21609,6600060120,2015-02-23,400000.0,4,2.50,2310,5813,2.0,0,0,...,2310,0,2014,0,98146,47.5107,-122.362,1830,7200,low_standard
21610,1523300141,2014-06-23,402101.0,2,0.75,1020,1350,2.0,0,0,...,1020,0,2009,0,98144,47.5944,-122.299,1020,2007,low_standard
21611,291310100,2015-01-16,400000.0,3,2.50,1600,2388,2.0,0,0,...,1600,0,2004,0,98027,47.5345,-122.069,1410,1287,low_standard


### 4. Gostaria de um relatório ordenado pelo preço e contento as seguintes informações: id do imóvel; data que o imóvel ficou disponível para compra; o número de quartos; o tamanho total do terreno; o preço; a classificação do imóvel (alto e baixo padrão).

In [204]:
#ordenando pela coluna de preço
data = data.sort_values('price')

#selecionando as colunas que quero no relatorio
col = ['id','date','bedrooms','price','standard','sqft_lot']
report = data[col]
print(report)

               id       date  bedrooms      price       standard  sqft_lot
1149   3421079032 2015-02-17         1    75000.0   low_standard     43377
15293    40000362 2014-05-06         2    78000.0   low_standard     16344
465    8658300340 2014-05-23         1    80000.0   low_standard      5050
16198  3028200080 2015-03-24         2    81000.0   low_standard      9975
8274   3883800011 2014-11-05         3    82000.0   low_standard     10426
...           ...        ...       ...        ...            ...       ...
1448   8907500070 2015-04-13         5  5350000.0  high_standard     23985
4411   2470100110 2014-08-04         5  5570000.0  high_standard     35069
9254   9208900037 2014-09-19         6  6885000.0  high_standard     31374
3914   9808700762 2014-06-11         5  7062500.0  high_standard     37325
7252   6762700020 2014-10-13         6  7700000.0  high_standard     27600

[21613 rows x 6 columns]


In [205]:
#para salvar com um arquivo usa to_csv, o parametro de index falso é para zerar o index
report.to_csv('datasets/report_aula2.csv', index=False)

### 5. Gostaria de um Mapa indicando onde as casas estão localizadas geograficamente.

In [None]:
#biblioteca para criação de mapas
import plotly.express as px

data_mapa = data[['id','lat','long','price']]

mapa = px.scatter_mapbox(data_mapa, lat='lat',lon='long',
                         hover_name='id',
                         hover_data=['price'],
                         color_discrete_sequence=['fuchsia'],
                         zoom=3,height=300)

mapa.show()
#função para salvar o arquivo em html
mapa.write_html('datasets/mapa_house_rocket.html')