# 0. Carregando bibliotecas e dados

In [3]:
import pandas as pd
import numpy as np
#

In [4]:
data = pd.read_csv('datasets/kc_house_data.csv')

# 1. Analisando os tipos de dados do conjunto

## 1.1 Mostra na tela os tipos de variáveis do conjunto

In [11]:
 data.dtypes

id                 int64
date              object
price            float64
bedrooms           int64
bathrooms        float64
sqft_living        int64
sqft_lot           int64
floors           float64
waterfront         int64
view               int64
condition          int64
grade              int64
sqft_above       float64
sqft_basement      int64
yr_built           int64
yr_renovated       int64
zipcode            int64
lat              float64
long             float64
sqft_living15      int64
sqft_lot15         int64
dtype: object

## 1.2 Converção de variáveis


### O pandas lê data e não classifica como tipo "date" e sim "object", isso pode influenciar em manipulações futuras com o atributo date.

In [18]:
# Antes da conversão
data['date']

0       2014-10-13
1       2014-12-09
2       2015-02-25
3       2014-12-09
4       2015-02-18
           ...    
21608   2014-05-21
21609   2015-02-23
21610   2014-06-23
21611   2015-01-16
21612   2014-10-15
Name: date, Length: 21613, dtype: datetime64[ns]

In [17]:
#Converter o tipo de dado da coluna "date" para o tipo data
data['date'] = pd.to_datetime( data['date'] )
data['date']

0       2014-10-13
1       2014-12-09
2       2015-02-25
3       2014-12-09
4       2015-02-18
           ...    
21608   2014-05-21
21609   2015-02-23
21610   2014-06-23
21611   2015-01-16
21612   2014-10-15
Name: date, Length: 21613, dtype: datetime64[ns]

### Converter outros tipos de dados

In [22]:
# Converter outros tipos de dados
#Inteiro -> Float
data['bedrooms'] = data['bedrooms'].astype( float )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

           id  bedrooms
0  7129300520       3.0
1  6414100192       3.0
2  5631500400       2.0
3  2487200875       4.0
4  1954400510       3.0
bedrooms    float64
dtype: object


In [21]:
#Float -> Inteiro
data['bedrooms'] = data['bedrooms'].astype( int )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

           id  bedrooms
0  7129300520         3
1  6414100192         3
2  5631500400         2
3  2487200875         4
4  1954400510         3
bedrooms    int32
dtype: object


In [20]:
#No caso acima a conversão ficou int32, daí temos que deixar em int64, porque os outros ints estão como 64 e não dá ceto comprar um int32 com um int64
#A função que converte para int64 vem da biblioteca numpy
##Int32 -> Int64
data['bedrooms'] = data['bedrooms'].astype( np.int64 )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

           id  bedrooms
0  7129300520         3
1  6414100192         3
2  5631500400         2
3  2487200875         4
4  1954400510         3
bedrooms    int64
dtype: object


In [19]:
#Inteiro -> String
data['bedrooms'] = data['bedrooms'].astype( str )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

           id bedrooms
0  7129300520        3
1  6414100192        3
2  5631500400        2
3  2487200875        4
4  1954400510        3
id                 int64
date              object
price            float64
bedrooms          object
bathrooms        float64
sqft_living        int64
sqft_lot           int64
floors           float64
waterfront         int64
view               int64
condition          int64
grade              int64
sqft_above       float64
sqft_basement      int64
yr_built           int64
yr_renovated       int64
zipcode            int64
lat              float64
long             float64
sqft_living15      int64
sqft_lot15         int64
dtype: object


In [4]:
#String -> Inteiro
data['bedrooms'] = data['bedrooms'].astype( np.int64 )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

           id  bedrooms
0  7129300520         3
1  6414100192         3
2  5631500400         2
3  2487200875         4
4  1954400510         3
bedrooms    int64
dtype: object


In [5]:
#Inteiro -> Data
data['date'] = pd.to_datetime( data['date'] )
print( data[['id', 'date']].head() )
print( data[['date']].dtypes )

           id       date
0  7129300520 2014-10-13
1  6414100192 2014-12-09
2  5631500400 2015-02-25
3  2487200875 2014-12-09
4  1954400510 2015-02-18
date    datetime64[ns]
dtype: object


# 2. Manipulando os dados

## 2.1 Criar variáveis

In [12]:
#Cria uma nova coluna e popula com uma string
data['nome_luci'] = "Luciana"
print( data.columns )

#Cria novas colunas com novos tipos de dados 
data['idade'] = 11
data['data_string'] = '2021-10-06'
data['data_date'] = pd.to_datetime( '2021-10-06' )
#Mostra na tela as colunas criadas e o tipo de dados do conjunto
print( data[[ 'id',  'idade', 'data_string', 'data_date']] )
print( data.dtypes )

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15', 'data_string',
       'nome_luci'],
      dtype='object')
               id  idade data_string  data_date
0      7129300520     11  2021-10-06 2021-10-06
1      6414100192     11  2021-10-06 2021-10-06
2      5631500400     11  2021-10-06 2021-10-06
3      2487200875     11  2021-10-06 2021-10-06
4      1954400510     11  2021-10-06 2021-10-06
...           ...    ...         ...        ...
21608   263000018     11  2021-10-06 2021-10-06
21609  6600060120     11  2021-10-06 2021-10-06
21610  1523300141     11  2021-10-06 2021-10-06
21611   291310100     11  2021-10-06 2021-10-06
21612  1523300157     11  2021-10-06 2021-10-06

[21613 rows x 4 columns]
id                        int64
date             datetime64[ns]
pri

## 2.2 Deletar uma coluna

In [9]:
# Mostra o dataset antes do drop
print ( data.columns )
#Retira a coluna "nome_luci"
data = data.drop ( 'nome_luci', axis=1 )
#Mostra o dataset sem a coluna
print ( data.columns )

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15', 'nome_luci', 'idade',
       'data_string', 'data_date'],
      dtype='object')
Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15', 'idade', 'data_string',
       'data_date'],
      dtype='object')


## 2.2.1 Deletar várias colunas (primeiro modo)

In [10]:
# Mostra o dataset antes do drop
print ( data.columns )
#Retira a coluna "nome_luci"
data = data.drop ( ['idade', 'data_date'], axis=1 )
#Mostra o dataset sem a coluna
print ( data.columns )

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15', 'idade', 'data_string',
       'data_date'],
      dtype='object')
Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15', 'data_string'],
      dtype='object')


## 2.2.2 Deletar várias colunas (segundo modo)

In [13]:
# Mostra o dataset antes do drop
print ( data.columns )
#Retira a coluna "nome_luci"
col = ['idade', 'data_date']
data = data.drop (col , axis=1 )
#Mostra o dataset sem a coluna
print ( data.columns )

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15', 'data_string',
       'nome_luci', 'idade', 'data_date'],
      dtype='object')
Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15', 'data_string',
       'nome_luci'],
      dtype='object')


## 2.3 Seleção de dados
### Existem quatro formas de selecionar dados 1)Direto pelo nome das colunas , 2)pelos índices das linhas e das colunas , 3) , 4)  



## 2.3.1 Selecionar dados direto pelo nome das colunas

In [16]:
# Seleciona uma única variável
print( data['price'] )
# Seleciona uma lista de variáveis
print( data[[ 'id','price','date' ]] )

#Na seleção de n variáveis, o duplo colchetes é necessário porque é passado uma lista de variáveis. 

0        221900.0
1        538000.0
2        180000.0
3        604000.0
4        510000.0
           ...   
21608    360000.0
21609    400000.0
21610    402101.0
21611    400000.0
21612    325000.0
Name: price, Length: 21613, dtype: float64
               id     price       date
0      7129300520  221900.0 2014-10-13
1      6414100192  538000.0 2014-12-09
2      5631500400  180000.0 2015-02-25
3      2487200875  604000.0 2014-12-09
4      1954400510  510000.0 2015-02-18
...           ...       ...        ...
21608   263000018  360000.0 2014-05-21
21609  6600060120  400000.0 2015-02-23
21610  1523300141  402101.0 2014-06-23
21611   291310100  400000.0 2015-01-16
21612  1523300157  325000.0 2014-10-15

[21613 rows x 3 columns]


## 2.3.2 Selecionar dados pelos índices das linhas e das colunas
### Sintaxe: <nome_do_dataframe>.iloc[linhas, colunas]

In [None]:
# Selecionar uma parte das linhas e colunas
data.iloc[0:10, 0:3]

In [9]:
# Selecionar todas as linhas e parte das colunas
data.iloc[:, 0:3]

Unnamed: 0,id,date,price
0,7129300520,20141013T000000,221900.0
1,6414100192,20141209T000000,538000.0
2,5631500400,20150225T000000,180000.0
3,2487200875,20141209T000000,604000.0
4,1954400510,20150218T000000,510000.0
...,...,...,...
21608,263000018,20140521T000000,360000.0
21609,6600060120,20150223T000000,400000.0
21610,1523300141,20140623T000000,402101.0
21611,291310100,20150116T000000,400000.0


In [10]:
# Selecionar todas as linhas e parte das colunas

data.iloc[0:5, :]

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180.0,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170.0,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770.0,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050.0,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680.0,0,1987,0,98074,47.6168,-122.045,1800,7503


## 2.3.3 Selecionar dados pelos índices das linhas e nome das colunas
### Sintaxe: <nome_do_dataframe>.loc[linhas, colunas]

In [14]:
# Selecionar uma parte das linhas e colunas
data.loc[0:10, ['id', 'price']]

Unnamed: 0,id,price
0,7129300520,221900.0
1,6414100192,538000.0
2,5631500400,180000.0
3,2487200875,604000.0
4,1954400510,510000.0
5,7237550310,1225000.0
6,1321400060,257500.0
7,2008000270,291850.0
8,2414600126,229500.0
9,3793500160,323000.0


## 2.3.4 Selecionar dados pelos índices booleanos
### Índices booleanos: True ou False
### Coloca "True" para as colunas que serão selecionadas e "False" para as que não serão
### Todas as colunas devem ter valor True ou False

In [21]:
col = [True, True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]

data.loc[0:10, col]

Unnamed: 0,id,date
0,7129300520,20141013T000000
1,6414100192,20141209T000000
2,5631500400,20150225T000000
3,2487200875,20141209T000000
4,1954400510,20150218T000000
5,7237550310,20140512T000000
6,1321400060,20140627T000000
7,2008000270,20150115T000000
8,2414600126,20150415T000000
9,3793500160,20150312T000000


# 3. Respondendo as perguntas de negócio

## 3.1 Qual a data do imóvel mais antigo?
## R: 2014-05-02

In [None]:
data['date'] = pd.to_datetime( data['date'] )

data.sort_values('date', ascending = True)

## 3.2 Quantos imóveis possuem o número máximo de andares?
## R: 8 imóveis

In [49]:
len ( data[data['floors'] == 3.5] )

8

## 3.3 Classifique os imóveis em baixo e alto padrão de acordo com o preço
### >= R$ 540.000 -> alto padrão (high_standard)
### < R$ 540.000 -> alto padrão (low_standard)

In [70]:
# 1) Criar uma coluna com valor standard
data['level'] = 'standard'

# 2) Selecionar as casas cujo valor é >= 540.000 e mudar valor de standard para high level
data.loc[data['price'] >= 540000, 'level'] = 'high_standard'

# 3) Selecionar as casas cujo valor é >= 540.000 e mudar valor de standard para low level
data.loc[data['price'] < 540000, 'level'] = 'low_standard'

# Mostra id e level na tela
data[['id', 'level']]

Unnamed: 0,id,level
0,7129300520,low_standard
1,6414100192,low_standard
2,5631500400,low_standard
3,2487200875,high_standard
4,1954400510,low_standard
...,...,...
21608,263000018,low_standard
21609,6600060120,low_standard
21610,1523300141,low_standard
21611,291310100,low_standard


## 3.4 Gerar um relatório ordenado pelo preço com as seguintes informações: id, data, número de quartos, tamanho total do terreno, preço, classificação do imóvel

### Modo 1 
#### Esse modo é melhor caso a coluna price não precisasse aparecer na tela

In [80]:
report1 = data.sort_values('price', ascending = False)[['id','date', 'bedrooms', 'sqft_lot', 'price', 'level']]

### Modo 2
#### Nesse modo, a coluna price tem que aparecer na lista das variáveis, se não ocorre erro

In [79]:
report2 = data[['id','date', 'bedrooms', 'sqft_lot', 'price' ,'level']].sort_values( 'price', ascending = False )

### Salvar o dataset em CSV


In [82]:
report.to_csv( 'datasets/reportCEO_aula2.csv', index = False)
#Index False para resetar os índices antes de salvar

# Exercícios

# Links Úteis

### Documentação do pandas
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.shape.html