# 0. Carregando bibliotecas e dados

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
import matplotlib.pyplot as plt

In [None]:
data = pd.read_csv('datasets/kc_house_data.csv')

In [None]:
data

# 1. Analisando os tipos de dados do conjunto

## 1.1 Mostra na tela os tipos de variáveis do conjunto

In [None]:
data.dtypes

## 1.2 Converção de variáveis


### O pandas lê data e não classifica como tipo "date" e sim "object", isso pode influenciar em manipulações futuras com o atributo date.

In [None]:
# Antes da conversão
data['date']

In [None]:
#Converter o tipo de dado da coluna "date" para o tipo data
data['date'] = pd.to_datetime( data['date'] )
data['date']

### Converter outros tipos de dados

In [None]:
# Converter outros tipos de dados
#Inteiro -> Float
data['bedrooms'] = data['bedrooms'].astype( float )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

In [None]:
#Float -> Inteiro
data['bedrooms'] = data['bedrooms'].astype( int )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

In [None]:
#No caso acima a conversão ficou int32, daí temos que deixar em int64, porque os outros ints estão como 64 e não dá ceto comprar um int32 com um int64
#A função que converte para int64 vem da biblioteca numpy
##Int32 -> Int64
data['bedrooms'] = data['bedrooms'].astype( np.int64 )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

In [None]:
#Inteiro -> String
data['bedrooms'] = data['bedrooms'].astype( str )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

In [None]:
#String -> Inteiro
data['bedrooms'] = data['bedrooms'].astype( np.int64 )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

In [None]:
#Inteiro -> Data
data['date'] = pd.to_datetime( data['date'] )
print( data[['id', 'date']].head() )
print( data[['date']].dtypes )

# 2. Manipulando os dados

## 2.1 Criar variáveis

In [None]:
#Cria uma nova coluna e popula com uma string
data['nome_luci'] = "Luciana"
print( data.columns )

#Cria novas colunas com novos tipos de dados 
data['idade'] = 11
data['data_string'] = '2021-10-06'
data['data_date'] = pd.to_datetime( '2021-10-06' )
#Mostra na tela as colunas criadas e o tipo de dados do conjunto
print( data[[ 'id',  'idade', 'data_string', 'data_date']] )
print( data.dtypes )

## 2.2 Deletar uma coluna

In [None]:
# Mostra o dataset antes do drop
print ( data.columns )
#Retira a coluna "nome_luci"
data = data.drop ( 'nome_luci', axis=1 )
#Mostra o dataset sem a coluna
print ( data.columns )

## 2.2.1 Deletar várias colunas (primeiro modo)

In [None]:
# Mostra o dataset antes do drop
print ( data.columns )
#Retira a coluna "nome_luci"
data = data.drop ( ['idade', 'data_date'], axis=1 )
#Mostra o dataset sem a coluna
print ( data.columns )

## 2.2.2 Deletar várias colunas (segundo modo)

In [None]:
# Mostra o dataset antes do drop
print ( data.columns )
#Retira a coluna "nome_luci"
col = ['idade', 'data_date']
data = data.drop (col , axis=1 )
#Mostra o dataset sem a coluna
print ( data.columns )

## 2.3 Seleção de dados
### Existem quatro formas de selecionar dados 1)Direto pelo nome das colunas , 2)pelos índices das linhas e das colunas , 3) , 4)  



## 2.3.1 Selecionar dados direto pelo nome das colunas

In [None]:
# Seleciona uma única variável
print( data['price'] )
# Seleciona uma lista de variáveis
print( data[[ 'id','price','date' ]] )

#Na seleção de n variáveis, o duplo colchetes é necessário porque é passado uma lista de variáveis. 

## 2.3.2 Selecionar dados pelos índices das linhas e das colunas
#### Sintaxe: <nome_do_dataframe>.iloc[linhas, colunas]

In [None]:
# Selecionar uma parte das linhas e colunas
data.iloc[0:10, 0:3]

In [None]:
# Selecionar todas as linhas e parte das colunas
data.iloc[:, 0:3]

In [None]:
# Selecionar todas as linhas e parte das colunas

data.iloc[0:5, :]

## 2.3.3 Selecionar dados pelos índices das linhas e nome das colunas
#### Sintaxe: <nome_do_dataframe>.loc[linhas, colunas]

In [None]:
# Selecionar uma parte das linhas e colunas
data.loc[0:10, ['id', 'price']]

## 2.3.4 Selecionar dados pelos índices booleanos
#### Índices booleanos: True ou False
#### Coloca "True" para as colunas que serão selecionadas e "False" para as que não serão
#### Todas as colunas devem ter valor True ou False

In [None]:
col = [True, True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False,False]

data.loc[0:10, col]

# 3. Respondendo as perguntas de negócio

## 3.1 Qual a data do imóvel mais antigo?
### R: 2014-05-02

In [None]:
data['date'] = pd.to_datetime( data['date'] )

data.sort_values('date', ascending = True)

## 3.2 Quantos imóveis possuem o número máximo de andares?
### R: 8 imóveis

In [None]:
len ( data[data['floors'] == 3.5] )

## 3.3 Classifique os imóveis em baixo e alto padrão de acordo com o preço
#### >= R$ 540.000 -> alto padrão (high_standard)
#### < R$ 540.000 -> alto padrão (low_standard)

In [None]:
# 1) Criar uma coluna com valor standard
data['level'] = 'standard'

# 2) Selecionar as casas cujo valor é >= 540.000 e mudar valor de standard para high level
data.loc[data['price'] >= 540000, 'level'] = 'high_standard'

# 3) Selecionar as casas cujo valor é >= 540.000 e mudar valor de standard para low level
data.loc[data['price'] < 540000, 'level'] = 'low_standard'

# Mostra id e level na tela
data[['id', 'level']]

## 3.4 Gerar um relatório ordenado pelo preço com as seguintes informações: id, data, número de quartos, tamanho total do terreno, preço, classificação do imóvel

### Modo 1 
#### Esse modo é melhor caso a coluna price não precisasse aparecer na tela

In [None]:
report1 = data.sort_values('price', ascending = False)[['id','date', 'bedrooms', 'sqft_lot', 'price', 'level']]

### Modo 2
#### Nesse modo, a coluna price tem que aparecer na lista das variáveis, se não ocorre erro

In [None]:
report2 = data[['id','date', 'bedrooms', 'sqft_lot', 'price' ,'level']].sort_values( 'price', ascending = False )

### Salvar o dataset em CSV


In [None]:
report1.to_csv( 'datasets/reportCEO_aula2_modo1.csv', index = False)
report2.to_csv( 'datasets/reportCEO_aula2_modo2.csv', index = False)

#Index False para resetar os índices antes de salvar

## 3.5 Criar um mapa indicando onde as casas estão localizadas

In [None]:
data_mapa = data[['id', 'lat', 'long', 'price']]

mapa = px.scatter_mapbox( data_mapa,
                          lat = 'lat',
                          lon = 'long' ,
                          hover_name = 'id',
                          hover_data = ['price'], #aqui passa como lista por exigÊncia da função
                          color_discrete_sequence = ['fuchsia'],
                          zoom = 8,
                          height = 300 )

mapa.update_layout( mapbox_style = 'open-street-map' )
mapa.update_layout( height=600, margin = {'r':0, 't':0, 'l':0, 'b':0} )
mapa.show()

In [None]:
#Salvar essa imagem em HTML
mapa.write_html('datasets/msps_house_rocket.html')

# 4. Exercícios

## 4.1 Crie uma nova coluna chamada: “house_age”
#### - Se o valor da coluna “date” for maior que 2014-01-01 => ‘new_house’
#### - Se o valor da coluna “date” for menor que 2014-01-01 => ‘old_house’

In [None]:
data['house_age'] = 'string'
data.loc[data['date'] >= '2014-01-01', 'house_age'] = 'new_house'
data.loc[data['date'] < '2014-01-01', 'house_age'] = 'old_house'

#De acordo com essas especificações não há casas classificadas como old

## 4.2 Crie uma nova coluna chamada: “dormitory_type”
####      Se o valor da coluna “bedrooms” for menor ou igual a 1 => ‘studio’
####      Se o valor da coluna “bedrooms” for igual a 2 => ‘apartament’
####      Se o valor da coluna “bedrooms” for maior que 2 => ‘house’

In [None]:
data['dormitory_type'] = 'string'
data.loc[data['bedrooms'] <= 1, 'dormitory_type'] = 'studio'
data.loc[data['bedrooms'] == 2, 'dormitory_type'] = 'apartment'
data.loc[data['bedrooms'] > 2, 'dormitory_type'] = 'house'

## 4.3 Crie uma nova coluna chamada: “condition_type”
####  Se o valor da coluna “condition” for menor ou igual à 2 => ‘bad’
####  Se o valor da coluna “condition” for igual à 3 ou 4 => ‘regular’
####  Se o valor da coluna “condition” for igual à 5 => ‘good’

In [None]:
data['condition_type'] = 'string'
data.loc[data['condition'] <= 2, 'condition_type'] = 'bad'
data.loc[(data['condition'] == 3) | (data['condition'] == 4), 'condition_type'] = 'regular'
data.loc[data['condition'] >= 5, 'condition_type'] = 'good'

data

#Referência: https://www.ti-enxame.com/pt/python/usando-condicional-para-gerar-nova-coluna-no-dataframe-do-pandas/1050698416/

## 4.4 Modifique o TIPO da coluna “condition” para STRING


In [None]:
data['condition'] = data['condition'].astype(str)
data.dtypes

## 4.5 Delete as colunas: “sqft_living15” e “sqft_lot15”


In [None]:
print( data.columns )
data = data.drop('sqft_living15', axis=1)
print( data.columns )
data = data.drop('sqft_lot15', axis=1)
print( data.columns.to_list())

## 4.6 Modifique o TIPO da coluna “yr_built” para DATE (deu ruim)


In [None]:
data['yr_built'] = pd.to_datetime( data['yr_built'] )
data.dtypes

## 4.7 Modifique o TIPO a Coluna “yr_renovated” para DATE (deu ruim)


In [None]:
data['yr_renovated'] = pd.to_datetime( data['yr_renovated'] )
data.dtypes

In [None]:
data['yr_built'] = pd.to_datetime( data['yr_built'], format='%Y%m%d' )
data.dtypes

## 4.8 Qual a data mais antiga de construção de um imóvel?

#### R:  2014-05-02


In [None]:
data.sort_values('date', ascending=True)

## 4.8 Qual a data mais antiga de renovação de um imóvel?

#### R:  2014-05-02


In [43]:
data.loc[data['yr_renovated'] != '1970-01-01'].sort_values('yr_renovated', ascending=True).head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,yr_built,yr_renovated,zipcode,lat,long,data_string,level,house_age,dormitory_type,condition_type
13736,4475800065,2014-06-13,459950.0,3,1.75,1850,6869,1.0,0,2,...,1970-01-01 00:00:00.000001919,1970-01-01 00:00:00.000001934,98166,47.4648,-122.363,2021-10-06,low_standard,new_house,house,good
7157,2754700170,2014-08-04,443500.0,2,1.0,1330,4140,1.0,0,0,...,1970-01-01 00:00:00.000001919,1970-01-01 00:00:00.000001940,98115,47.6802,-122.306,2021-10-06,low_standard,new_house,apartment,regular
6461,148000440,2014-08-18,313300.0,2,1.0,970,4800,1.0,0,0,...,1970-01-01 00:00:00.000001911,1970-01-01 00:00:00.000001940,98116,47.5754,-122.414,2021-10-06,low_standard,new_house,apartment,regular
14860,7625701830,2014-10-23,521000.0,3,2.0,1840,6000,1.0,0,0,...,1970-01-01 00:00:00.000001908,1970-01-01 00:00:00.000001944,98136,47.5508,-122.392,2021-10-06,low_standard,new_house,house,regular
1788,7211400990,2015-03-03,256000.0,2,1.0,860,5000,1.0,0,0,...,1970-01-01 00:00:00.000001915,1970-01-01 00:00:00.000001945,98146,47.5133,-122.356,2021-10-06,low_standard,new_house,apartment,regular


In [41]:
data.dtypes

id                         int64
date              datetime64[ns]
price                    float64
bedrooms                   int64
bathrooms                float64
sqft_living                int64
sqft_lot                   int64
floors                   float64
waterfront                 int64
view                       int64
condition                 object
grade                      int64
sqft_above               float64
sqft_basement              int64
yr_built          datetime64[ns]
yr_renovated      datetime64[ns]
zipcode                    int64
lat                      float64
long                     float64
data_string               object
level                     object
house_age                 object
dormitory_type            object
condition_type            object
dtype: object

# Links Úteis

### Documentação do pandas
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.shape.html