# 0. Loading data

In [1]:
import pandas as pd
import statistics
import math
from scipy import stats
import numpy as np
from collections import Counter

In [2]:
data = pd.read_csv(r'C:\Users\ferki\repos\python_zero_ao_ds\datasets\kc_house_data.csv')

## 1. Quantas casas estão disponíveis para compra?

In [3]:
data.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180.0,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170.0,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770.0,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050.0,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680.0,0,1987,0,98074,47.6168,-122.045,1800,7503


In [4]:
len( data['id'].unique() ) # ou len( data['id'].drop_duplicates() )

21436

In [5]:
# Estratégia:
# 1. Selecionar a coluna "id"
# 2. Contar o numero de valores unicos

houses = len( data['id'].unique() )
print( 'O número de cadas disponíveis é de {}'. format ( houses ) )

O número de cadas disponíveis é de 21436


## 2. Quantos atributos as casas possuem? ( Tamanho, preço, m2, quartos, … )?

In [6]:
len( data.columns )

21

In [7]:
# Estratégia:
# 1. Transformar em uma lista
# 2. Contar atributos
# A coluna id e date não são atributos das casas

len( data.drop( ['id','date'], axis=1 ).columns )

19

## 3. Quais são os atributos das casas?

In [8]:
# Assumptions
# A coluna id e date não sçao atributos das casas
#data.drop( ['id','date'], axis=1 ).columns.tolist()
data.drop( ['id','date'], axis=1 ).columns

Index(['price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors',
       'waterfront', 'view', 'condition', 'grade', 'sqft_above',
       'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode', 'lat', 'long',
       'sqft_living15', 'sqft_lot15'],
      dtype='object')

## 4. Qual a casa mais cara ( casa com o maior valor de venda )?

In [9]:
# Ordena do maior para o menor 
#data[['id','price']].sort_values('price', ascending=False ).loc[0, 'id']

In [10]:
# Ordena pelo preço mais caro e reseta o index
#data[['id','price']].sort_values('price', ascending=False ).reset_index( drop=True ).head()

In [11]:
# Retorna o index anterior 
data[['id','price']].sort_values('price', ascending=False ).reset_index( drop=True ).loc[0, 'id']

6762700020

## 5. Qual a casa com o maior número de quartos?

In [12]:
# Mostra o index da casa com maior número de quartos 
data[['id', 'bedrooms']].sort_values( 'bedrooms', ascending=False ).reset_index( drop=True ).loc[0, 'id']

2402100895

## 6. Qual a soma total de quartos do conjunto de dados?

In [13]:
data['bedrooms'].sum()

72854

## 7. Quantas casas possuem 2 banheiros?

In [14]:
# Estratégia:
# 1. Filtrar somente os 'id' cujo valor da coluna 'bathroom' é igual a 2
# 2. Selecionar as colunas 'id' e bathroom'
# 3. Contar o numero de valores da coluna 'id'

houses = len( data.loc[data['bathrooms'] == 2, ['id', 'bathrooms']] )
print( 'O numero de casas que possuem 2 banheiros é de {}'.format( houses) )

O numero de casas que possuem 2 banheiros é de 1930


## 8. Qual o preço médio de todas as casas no conjunto de dados?

In [15]:
#print(data[['id','price']].statistics.meam('price'))
np.round( data['price'].mean(), 2 )

540088.14

## 9. Qual o preço médio de casas com 2 banheiros?

In [16]:
np.round( data.loc[data['bathrooms'] == 2, 'price'].mean(), 2 )

457889.72

## 10. Qual o preço mínimo entre as casas com 3 quartos?

In [17]:
data.loc[data['bedrooms'] == 3, 'price'].min()

82000.0

In [18]:
# outra maneira de fazer
data.loc[data['bedrooms'] == 3, ['id', 'price']].sort_values('price', ascending=True ).head()

Unnamed: 0,id,price
8274,3883800011,82000.0
13756,1788900230,86500.0
5866,9320900420,89000.0
18939,4239400300,90000.0
5723,1788800630,96500.0


## 11. Quantas casas possuem mais de 300 metros quadrados na sala de estar?

In [19]:
data['m²'] = data['sqft_living'] * 0.093

len( data.loc[data['m²'] > 300, 'id'] )


2258

## 12. Quantas casas tem mais de 2 andares?

In [20]:
data.loc[data['floors'] > 2, 'id'].size

782

In [21]:
# outra maneira de fazer
len( data.loc[data['floors'] > 2, 'id'] )

782

## 13. Quantas casas tem vista para o mar?

In [22]:
len( data.loc[data['waterfront'] == 1, 'id'] )

163

## 14. Das casas com vista para o mar, quantas tem 3 quartos?

In [23]:
len( data.loc[ (data['waterfront'] == 1 ) & ( data['bedrooms'] ==3 ), 'id'] )

64

## 15. Das casas com mais de 300 metros quadrados de sala de estar, quantas tem mais de 2 banheiros?

In [24]:
len(data.loc[(data['m²'] > 300) & ( data['bathrooms'] > 2 ), 'id'] )

2201