# 0. Carregando bibliotecas e dados

In [2]:
import pandas as pd
import numpy as np

In [3]:
data = pd.read_csv('datasets/kc_house_data.csv')

# 1. Analisando os tipos de dados do conjunto

## 1.1 Mostra na tela os tipos de variáveis do conjunto

In [11]:
 data.dtypes

id                 int64
date              object
price            float64
bedrooms           int64
bathrooms        float64
sqft_living        int64
sqft_lot           int64
floors           float64
waterfront         int64
view               int64
condition          int64
grade              int64
sqft_above       float64
sqft_basement      int64
yr_built           int64
yr_renovated       int64
zipcode            int64
lat              float64
long             float64
sqft_living15      int64
sqft_lot15         int64
dtype: object

## 1.2 Converção de variáveis


### O pandas lê data e não classifica como tipo "date" e sim "object", isso pode influenciar em manipulações futuras com o atributo date.

In [18]:
# Antes da conversão
data['date']

0       2014-10-13
1       2014-12-09
2       2015-02-25
3       2014-12-09
4       2015-02-18
           ...    
21608   2014-05-21
21609   2015-02-23
21610   2014-06-23
21611   2015-01-16
21612   2014-10-15
Name: date, Length: 21613, dtype: datetime64[ns]

In [17]:
#Converter o tipo de dado da coluna "date" para o tipo data
data['date'] = pd.to_datetime( data['date'] )
data['date']

0       2014-10-13
1       2014-12-09
2       2015-02-25
3       2014-12-09
4       2015-02-18
           ...    
21608   2014-05-21
21609   2015-02-23
21610   2014-06-23
21611   2015-01-16
21612   2014-10-15
Name: date, Length: 21613, dtype: datetime64[ns]

### Converter outros tipos de dados

In [22]:
# Converter outros tipos de dados
#Inteiro -> Float
data['bedrooms'] = data['bedrooms'].astype( float )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

           id  bedrooms
0  7129300520       3.0
1  6414100192       3.0
2  5631500400       2.0
3  2487200875       4.0
4  1954400510       3.0
bedrooms    float64
dtype: object


In [21]:
#Float -> Inteiro
data['bedrooms'] = data['bedrooms'].astype( int )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

           id  bedrooms
0  7129300520         3
1  6414100192         3
2  5631500400         2
3  2487200875         4
4  1954400510         3
bedrooms    int32
dtype: object


In [20]:
#No caso acima a conversão ficou int32, daí temos que deixar em int64, porque os outros ints estão como 64 e não dá ceto comprar um int32 com um int64
#A função que converte para int64 vem da biblioteca numpy
##Int32 -> Int64
data['bedrooms'] = data['bedrooms'].astype( np.int64 )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

           id  bedrooms
0  7129300520         3
1  6414100192         3
2  5631500400         2
3  2487200875         4
4  1954400510         3
bedrooms    int64
dtype: object


In [19]:
#Inteiro -> String
data['bedrooms'] = data['bedrooms'].astype( str )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

           id bedrooms
0  7129300520        3
1  6414100192        3
2  5631500400        2
3  2487200875        4
4  1954400510        3
id                 int64
date              object
price            float64
bedrooms          object
bathrooms        float64
sqft_living        int64
sqft_lot           int64
floors           float64
waterfront         int64
view               int64
condition          int64
grade              int64
sqft_above       float64
sqft_basement      int64
yr_built           int64
yr_renovated       int64
zipcode            int64
lat              float64
long             float64
sqft_living15      int64
sqft_lot15         int64
dtype: object


In [4]:
#String -> Inteiro
data['bedrooms'] = data['bedrooms'].astype( np.int64 )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

           id  bedrooms
0  7129300520         3
1  6414100192         3
2  5631500400         2
3  2487200875         4
4  1954400510         3
bedrooms    int64
dtype: object


In [5]:
#Inteiro -> Data
data['date'] = pd.to_datetime( data['date'] )
print( data[['id', 'date']].head() )
print( data[['date']].dtypes )

           id       date
0  7129300520 2014-10-13
1  6414100192 2014-12-09
2  5631500400 2015-02-25
3  2487200875 2014-12-09
4  1954400510 2015-02-18
date    datetime64[ns]
dtype: object


# Exercícios

## 1. Quantas casas estão disponíveis para compra?
### R: 21 613 casas

## 2.Quantos atributos as casas possuem?
### R: 21 atributos totais (19 específicos das casas)

In [None]:
# A propriedade shape retorna respectivamente a quantidade de linhas e colunas do conjunto de dados
#Sendo assim, o total de atributos das casas corresponde a 21
data.shape

In [None]:
# Considerando que ID e Data não são atributos das casas, então o total são de 19 atributos:
len ( data.drop( ['id','date'] , axis = 1).columns )

## 3.Quais são os atributos das casas?
### R: listado no resultado abaixo

In [None]:
#Para converter a série do resultado em lista, pode-se usar o tolist
# 21 atributos
data.columns.tolist()

In [None]:
# 19 atributos 
data.drop( ['id','date'] , axis = 1).columns.tolist() 

## 4.Qual a casa mais cara ( casa com o maior valor de venda )?
### R: A casa de ID 6762700020	com o custo de  7.700.000 

In [None]:
#Mostra o conjunto de dados ordenado pela coluna price do maior para o menor
print(data[['id','price']].sort_values('price', ascending = False ).head())


#Para mostrar apenas o ID da casa mais cara
#Estratégia:
# 1) Selectionar apenas as colunas de ID e preço
# 2) Ordenar de forma descendente
# 3) Resetar o índice do data frame, para a nova ordem descendente
    #para entender melhor o porquê do reset, execute:
    #data[['id','price']].sort_values('price', ascending = False ).loc[0, 'id'] (lembre de ctirar a identação)
    # O resultado desse código é a cada de ID 7129300520 que no dataframe original ocupa a linha 0  
print(data[['id','price']].sort_values('price', ascending = False ).reset_index(drop = True).loc[0, 'id'])


## 5.Qual a casa com o maior número de quartos?
### R: A casa de ID 2402100895	com 33 quartos

In [None]:
#Mostra o conjunto de dados ordenado pela coluna price do maior para o menor
print( data[['id','bedrooms']].sort_values('bedrooms', ascending = False ))

#Para mostrar apenas o ID da casa com mais quartos
#Estratégia:
# 1) Selectionar apenas as colunas de ID e quartos
# 2) Ordenar de forma descendente
# 3) Resetar o índice do data frame, para a nova ordem descendente
print(data[['id','bedrooms']].sort_values('bedrooms', ascending = False ).reset_index(drop = True).loc[0, 'id'])


## 6.Qual a soma total de quartos do conjunto de dados?
### R: Total de 72.854 quartos

In [None]:
#Mfaz o somatório de todos os dados da coluna de quartos
data[['bedrooms']].sum()

## 7.Quantas casas possuem 2 banheiros?
### R: Total de 1930 casas

In [None]:
# Primeiro modo

# 1. cria uma variável para filtrar apenas as casas com dois banheiros
data_mask = data['bathrooms'] == 2
# 2 mostra o conjunto de dados filtrado de acordo com a variável
df_filtrado = data[data_mask]
print( df_filtrado[['id']].count() )                       

In [None]:
#Segundo modo (mais simples)
print((data[['bathrooms']] == 2).sum())

In [None]:
#Terceiro modo (com texto)
casa_2banheiros = len ( data.loc[ data['bathrooms'] == 2, ['id','bathrooms']] )
print ( 'O total de casas com dois banheiros é {}'.format( casa_2banheiros ) )

## 8.Qual o preço médio de todas as casas no conjunto de dados?
### R: Em média 540.088,14

In [None]:
# Calcula a média da coluna price

media_preco = data[['price']].mean()
np.round( media_preco, 2 )



## 9.Qual o preço médio de casas com 2 banheiros?
### R: Em média  457.889,7

In [None]:
# Primeiro modo (mostra média de todo dataset)
#estratégia:
# 1) cria uma variável para filtrar apenas as casas com dois banheiros
data_mask = data['bathrooms'] == 2
# 2) mostra a média do conjunto de dados filtrado de acordo com a variável
df_filtrado = data[data_mask].mean()
df_filtrado

In [None]:
#Segundo modo
np.round( data.loc[ data[ 'bathrooms' ] == 2, 'price'].mean() ,2)

## 10.Qual o preço mínimo entre as casas com 3 quartos?
### R: 82.000

In [None]:
# Primeiro modo (mostra o valor mínimo de todo dataset)
#estratégia:
# 1) cria uma variável para filtrar apenas as casas com três quartos
data_mask = data['bedrooms'] == 3
# 2) mostra o mínimo valor do conjunto de dados filtrado de acordo com a variável 
df_filtrado = data[data_mask].min()
df_filtrado

In [None]:
#Segundo modo
data.loc[ data[ 'bedrooms' ] == 3, 'price' ].min()

## 11.Quantas casas possuem mais de 300 metros quadrados na sala de estar?
### R: 2258

In [None]:
#Estatégia
# 1) Converter pés quadrados para metros quadrados, criando um novo atributo
data['m2'] = data['sqft_living'] * 0.093
# 2) Contar o tamanho do dataset com o filtro
len( data.loc[ data['m2'] > 300 , 'id'] )

## EM RESOLUÇÃO. Não entendi pq tem que usar o sum

## 12.Quantas casas tem mais de 2 andares?
### R: 782 casas

In [None]:
#Primeiro modo
(data['floors'] > 2 ).sum()

In [None]:
#Segundo modo
len( data.loc[ data['floors'] > 2, 'id'] )

## 13.Quantas casas tem vista para o mar?
### R: Em média 163

In [None]:
#Primeiro modo
data['waterfront'].sum()
#Por ser um atributo do tipo booleano, usei SUM

In [None]:
#Segundo modo
len( data.loc[ data[ 'waterfront' ] == 1, 'id' ] )

## 14.Das casas com vista para o mar, quantas tem 3 quartos?
### R: 64 casas

In [None]:
# Primeiro modo
data_mask = data[(data['waterfront'] == 1) & (data['bedrooms'] == 3)]
data_mask['id'].count()

In [None]:
#Segundo modo
len ( data.loc[ (data['waterfront'] == 1) & (data['bedrooms'] == 3), 'id' ] )

## 15. Das casas com mais de 300 metros quadrados de sala de estar, quantas tem mais de 2 banheiros?
### R: 2012 casas

In [61]:
#Primeiro modo
data_mask = data[ (data['m2'] > 300) & (data['bathrooms'] > 2)]
data_mask['id'].count()

2201

In [62]:
#Segundo modo
len ( data.loc[ (data['m2'] > 300) & (data['bathrooms'] > 2), 'id' ] )

2201

# Links Úteis

### Documentação do pandas
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.shape.html