# 0. Carregando bibliotecas e dados

In [2]:
import pandas as pd
import numpy as np

In [3]:
data = pd.read_csv('datasets/kc_house_data.csv')

# 1. Analisando os tipos de dados do conjunto

## 1.1 Mostra na tela os tipos de variáveis do conjunto

In [11]:
 data.dtypes

id                 int64
date              object
price            float64
bedrooms           int64
bathrooms        float64
sqft_living        int64
sqft_lot           int64
floors           float64
waterfront         int64
view               int64
condition          int64
grade              int64
sqft_above       float64
sqft_basement      int64
yr_built           int64
yr_renovated       int64
zipcode            int64
lat              float64
long             float64
sqft_living15      int64
sqft_lot15         int64
dtype: object

## 1.2 Converção de variáveis


### O pandas lê data e não classifica como tipo "date" e sim "object", isso pode influenciar em manipulações futuras com o atributo date.

In [18]:
# Antes da conversão
data['date']

0       2014-10-13
1       2014-12-09
2       2015-02-25
3       2014-12-09
4       2015-02-18
           ...    
21608   2014-05-21
21609   2015-02-23
21610   2014-06-23
21611   2015-01-16
21612   2014-10-15
Name: date, Length: 21613, dtype: datetime64[ns]

In [17]:
#Converter o tipo de dado da coluna "date" para o tipo data
data['date'] = pd.to_datetime( data['date'] )
data['date']

0       2014-10-13
1       2014-12-09
2       2015-02-25
3       2014-12-09
4       2015-02-18
           ...    
21608   2014-05-21
21609   2015-02-23
21610   2014-06-23
21611   2015-01-16
21612   2014-10-15
Name: date, Length: 21613, dtype: datetime64[ns]

### Converter outros tipos de dados

In [22]:
# Converter outros tipos de dados
#Inteiro -> Float
data['bedrooms'] = data['bedrooms'].astype( float )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

           id  bedrooms
0  7129300520       3.0
1  6414100192       3.0
2  5631500400       2.0
3  2487200875       4.0
4  1954400510       3.0
bedrooms    float64
dtype: object


In [21]:
#Float -> Inteiro
data['bedrooms'] = data['bedrooms'].astype( int )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

           id  bedrooms
0  7129300520         3
1  6414100192         3
2  5631500400         2
3  2487200875         4
4  1954400510         3
bedrooms    int32
dtype: object


In [20]:
#No caso acima a conversão ficou int32, daí temos que deixar em int64, porque os outros ints estão como 64 e não dá ceto comprar um int32 com um int64
#A função que converte para int64 vem da biblioteca numpy
##Int32 -> Int64
data['bedrooms'] = data['bedrooms'].astype( np.int64 )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

           id  bedrooms
0  7129300520         3
1  6414100192         3
2  5631500400         2
3  2487200875         4
4  1954400510         3
bedrooms    int64
dtype: object


In [19]:
#Inteiro -> String
data['bedrooms'] = data['bedrooms'].astype( str )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

           id bedrooms
0  7129300520        3
1  6414100192        3
2  5631500400        2
3  2487200875        4
4  1954400510        3
id                 int64
date              object
price            float64
bedrooms          object
bathrooms        float64
sqft_living        int64
sqft_lot           int64
floors           float64
waterfront         int64
view               int64
condition          int64
grade              int64
sqft_above       float64
sqft_basement      int64
yr_built           int64
yr_renovated       int64
zipcode            int64
lat              float64
long             float64
sqft_living15      int64
sqft_lot15         int64
dtype: object


In [4]:
#String -> Inteiro
data['bedrooms'] = data['bedrooms'].astype( np.int64 )
print( data[['id', 'bedrooms']].head() )
print( data[['bedrooms']].dtypes )

           id  bedrooms
0  7129300520         3
1  6414100192         3
2  5631500400         2
3  2487200875         4
4  1954400510         3
bedrooms    int64
dtype: object


In [5]:
#Inteiro -> Data
data['date'] = pd.to_datetime( data['date'] )
print( data[['id', 'date']].head() )
print( data[['date']].dtypes )

           id       date
0  7129300520 2014-10-13
1  6414100192 2014-12-09
2  5631500400 2015-02-25
3  2487200875 2014-12-09
4  1954400510 2015-02-18
date    datetime64[ns]
dtype: object


# 2. Manipulando os dados

## 2.1 Criar variáveis

In [12]:
#Cria uma nova coluna e popula com uma string
data['nome_luci'] = "Luciana"
print( data.columns )

#Cria novas colunas com novos tipos de dados 
data['idade'] = 11
data['data_string'] = '2021-10-06'
data['data_date'] = pd.to_datetime( '2021-10-06' )
#Mostra na tela as colunas criadas e o tipo de dados do conjunto
print( data[[ 'id',  'idade', 'data_string', 'data_date']] )
print( data.dtypes )

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15', 'data_string',
       'nome_luci'],
      dtype='object')
               id  idade data_string  data_date
0      7129300520     11  2021-10-06 2021-10-06
1      6414100192     11  2021-10-06 2021-10-06
2      5631500400     11  2021-10-06 2021-10-06
3      2487200875     11  2021-10-06 2021-10-06
4      1954400510     11  2021-10-06 2021-10-06
...           ...    ...         ...        ...
21608   263000018     11  2021-10-06 2021-10-06
21609  6600060120     11  2021-10-06 2021-10-06
21610  1523300141     11  2021-10-06 2021-10-06
21611   291310100     11  2021-10-06 2021-10-06
21612  1523300157     11  2021-10-06 2021-10-06

[21613 rows x 4 columns]
id                        int64
date             datetime64[ns]
pri

## 2.2 Deletar uma coluna

In [9]:
# Mostra o dataset antes do drop
print ( data.columns )
#Retira a coluna "nome_luci"
data = data.drop ( 'nome_luci', axis=1 )
#Mostra o dataset sem a coluna
print ( data.columns )

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15', 'nome_luci', 'idade',
       'data_string', 'data_date'],
      dtype='object')
Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15', 'idade', 'data_string',
       'data_date'],
      dtype='object')


## 2.2.1 Deletar várias colunas (primeiro modo)

In [10]:
# Mostra o dataset antes do drop
print ( data.columns )
#Retira a coluna "nome_luci"
data = data.drop ( ['idade', 'data_date'], axis=1 )
#Mostra o dataset sem a coluna
print ( data.columns )

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15', 'idade', 'data_string',
       'data_date'],
      dtype='object')
Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15', 'data_string'],
      dtype='object')


## 2.2.2 Deletar várias colunas (segundo modo)

In [13]:
# Mostra o dataset antes do drop
print ( data.columns )
#Retira a coluna "nome_luci"
col = ['idade', 'data_date']
data = data.drop (col , axis=1 )
#Mostra o dataset sem a coluna
print ( data.columns )

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15', 'data_string',
       'nome_luci', 'idade', 'data_date'],
      dtype='object')
Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15', 'data_string',
       'nome_luci'],
      dtype='object')


## 2.3 Seleção de dados
### Existem quatro formas de selecionar dados 1)Direto pelo nome das colunas , 2)pelos índices das linhas e das colunas , 3) , 4)  



## 2.3.1 Selecionar dados direto pelo nome das colunas

In [16]:
# Seleciona uma única variável
print( data['price'] )
# Seleciona uma lista de variáveis
print( data[[ 'id','price','date' ]] )

#Na seleção de n variáveis, o duplo colchetes é necessário porque é passado uma lista de variáveis. 

0        221900.0
1        538000.0
2        180000.0
3        604000.0
4        510000.0
           ...   
21608    360000.0
21609    400000.0
21610    402101.0
21611    400000.0
21612    325000.0
Name: price, Length: 21613, dtype: float64
               id     price       date
0      7129300520  221900.0 2014-10-13
1      6414100192  538000.0 2014-12-09
2      5631500400  180000.0 2015-02-25
3      2487200875  604000.0 2014-12-09
4      1954400510  510000.0 2015-02-18
...           ...       ...        ...
21608   263000018  360000.0 2014-05-21
21609  6600060120  400000.0 2015-02-23
21610  1523300141  402101.0 2014-06-23
21611   291310100  400000.0 2015-01-16
21612  1523300157  325000.0 2014-10-15

[21613 rows x 3 columns]


## 2.3.2 Selecionar dados pelos índices das linhas e das colunas

In [None]:
# Seleciona uma única variável
print( data['price'] )
# Seleciona uma lista de variáveis
print( data[[ 'id','price','date' ]] )

#Na seleção de n variáveis, o duplo colchetes é necessário porque é passado uma lista de variáveis. 

0        221900.0
1        538000.0
2        180000.0
3        604000.0
4        510000.0
           ...   
21608    360000.0
21609    400000.0
21610    402101.0
21611    400000.0
21612    325000.0
Name: price, Length: 21613, dtype: float64
               id     price       date
0      7129300520  221900.0 2014-10-13
1      6414100192  538000.0 2014-12-09
2      5631500400  180000.0 2015-02-25
3      2487200875  604000.0 2014-12-09
4      1954400510  510000.0 2015-02-18
...           ...       ...        ...
21608   263000018  360000.0 2014-05-21
21609  6600060120  400000.0 2015-02-23
21610  1523300141  402101.0 2014-06-23
21611   291310100  400000.0 2015-01-16
21612  1523300157  325000.0 2014-10-15

[21613 rows x 3 columns]


# Exercícios

# Links Úteis

### Documentação do pandas
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.shape.html