<a href="https://colab.research.google.com/github/VittoriaDespo/Pipeline-Etl-Santander-Bootcamp/blob/master/ETL_Aluguel_2023.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ETL Pipelines | Alugueis Rio de Janeiro

**Contexto**: nesse projeto de ETL foi analisado o dataset *aluguel.csv* com o objetivo de calcular o valor bruto, o valor por m2, e o valor bruto por m2 dos alugueis.

**Base de dados** : O database contém as seguintes informações:  

*   Tipo de imóvel
*   Bairro onde está localizado o imóvel
*   Quantidade de quartos
*   Numero de vagas
*   Quantidade de suites
*   Area do imóvel
*   Valor do imóvel
*   Valor do condominio
*   Valor do IPTU
















# Extract


Extraindo base de dados a partir de uma arquivo csv

In [125]:
import pandas as pd


In [126]:
dados = pd.read_csv('aluguel.csv', sep=';')


In [127]:
dados.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,


#Transform



### Data Cleansing

Analisando a base de dados


In [128]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32960 entries, 0 to 32959
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        32960 non-null  object 
 1   Bairro      32960 non-null  object 
 2   Quartos     32960 non-null  int64  
 3   Vagas       32960 non-null  int64  
 4   Suites      32960 non-null  int64  
 5   Area        32960 non-null  int64  
 6   Valor       32943 non-null  float64
 7   Condominio  28867 non-null  float64
 8   IPTU        22723 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.3+ MB


Verificando a quantidade de valores nulos
que existem na coluna "Valor"

In [129]:
dados[dados['Valor'].isnull()].shape

(17, 9)

Descartando as linhas que contêm valor nulo(NaN) na coluna "Valor"

In [130]:
dados.dropna(subset = ['Valor'], inplace = True)

In [131]:
dados.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 32943 entries, 0 to 32959
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        32943 non-null  object 
 1   Bairro      32943 non-null  object 
 2   Quartos     32943 non-null  int64  
 3   Vagas       32943 non-null  int64  
 4   Suites      32943 non-null  int64  
 5   Area        32943 non-null  int64  
 6   Valor       32943 non-null  float64
 7   Condominio  28854 non-null  float64
 8   IPTU        22716 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.5+ MB


Analisando a coluna "Tipo"


In [132]:
dados.drop_duplicates(subset=['Tipo'])


Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
7,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
16,Prédio Inteiro,Botafogo,0,0,0,536,28000.0,,3563.0
17,Flat,Botafogo,3,1,1,80,3800.0,1040.0,
29,Loja/Salão,Campo Grande,0,1,0,35,1300.0,950.0,
80,Galpão/Depósito/Armazém,Vargem Grande,0,6,0,2236,40000.0,,
83,Casa Comercial,Botafogo,0,0,0,140,7000.0,,137.0


Verificando a quantidade de valores nulos que existem na coluna "Condominio"

In [133]:
dados[dados['Condominio'].isnull()].shape

(4089, 9)

Selecionando as *Casas de Condomínio*	com o valor de condomínio nulo

In [134]:
select_casa_condominio = (dados['Tipo'] == 'Casa de Condomínio') & (dados['Condominio'].isnull())
dados[select_casa_condominio]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
7,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
8,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
18,Casa de Condomínio,Taquara,3,1,1,115,2000.0,,
916,Casa de Condomínio,Joá,6,4,6,550,25000.0,,672.0
1625,Casa de Condomínio,Barra da Tijuca,5,3,5,700,25000.0,,
...,...,...,...,...,...,...,...,...,...
31363,Casa de Condomínio,Guaratiba,2,0,0,70,1000.0,,
31375,Casa de Condomínio,Guaratiba,2,1,2,75,1700.0,,
31453,Casa de Condomínio,Barra da Tijuca,5,0,5,850,28000.0,,
31766,Casa de Condomínio,Barra da Tijuca,5,6,5,1300,34009.0,,


Descartando as *Casas de Condomínio*	com o valor de condomínio nulo

In [135]:
dados = dados[~select_casa_condominio]
dados


Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
...,...,...,...,...,...,...,...,...,...
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,


In [136]:
dados[dados['Tipo']=='Casa de Condomínio']

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
22,Casa de Condomínio,Barra da Tijuca,4,3,2,466,7500.0,2695.0,
59,Casa de Condomínio,Barra da Tijuca,5,10,5,1600,25000.0,1600.0,
85,Casa de Condomínio,Freguesia (Jacarepaguá),5,3,1,140,2500.0,1200.0,
248,Casa de Condomínio,Barra da Tijuca,4,2,4,595,30000.0,2500.0,2510.0
253,Casa de Condomínio,Recreio dos Bandeirantes,4,4,4,267,6500.0,700.0,3308.0
...,...,...,...,...,...,...,...,...,...
32869,Casa de Condomínio,Barra da Tijuca,4,3,4,460,12000.0,1000.0,1200.0
32898,Casa de Condomínio,Barra da Tijuca,5,2,5,554,20000.0,1892.0,1743.0
32908,Casa de Condomínio,Freguesia (Jacarepaguá),3,3,1,155,2000.0,530.0,1250.0
32924,Casa de Condomínio,Barra da Tijuca,3,5,3,1000,20000.0,3000.0,


Selecionando todos os apartamentos com o valor de condominio nulo

In [137]:
select_apartamento = (dados['Tipo'] == 'Apartamento') & (dados['Condominio'].isnull())
dados[select_apartamento]


Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
5,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
10,Apartamento,Centro,1,0,0,36,1200.0,,
113,Apartamento,Praça Seca,2,0,0,80,1000.0,,
166,Apartamento,Rocha Miranda,2,1,0,50,1100.0,,
194,Apartamento,Barra da Tijuca,1,1,1,65,2350.0,,
...,...,...,...,...,...,...,...,...,...
32609,Apartamento,Copacabana,3,0,0,130,4600.0,,
32643,Apartamento,Guadalupe,1,0,0,40,550.0,,
32666,Apartamento,Bonsucesso,1,0,0,60,1000.0,,
32708,Apartamento,Flamengo,2,0,0,59,3500.0,,


Descartando os apartamentos com o valor de condominio nulo

In [138]:
dados = dados[~select_apartamento]
dados


Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
...,...,...,...,...,...,...,...,...,...
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,


In [139]:
dados[dados["Condominio"].isnull()].shape[0]


3249

Sobstituindo os valores faltantes (NaN) por 0

In [140]:
dados.fillna({'Condominio': 0, 'IPTU': 0}, inplace = True)
dados

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dados.fillna({'Condominio': 0, 'IPTU': 0}, inplace = True)


Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0
...,...,...,...,...,...,...,...,...,...
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,0.0


Verificando se os valores foram substituidos corretamente.

In [141]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 32103 entries, 0 to 32959
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        32103 non-null  object 
 1   Bairro      32103 non-null  object 
 2   Quartos     32103 non-null  int64  
 3   Vagas       32103 non-null  int64  
 4   Suites      32103 non-null  int64  
 5   Area        32103 non-null  int64  
 6   Valor       32103 non-null  float64
 7   Condominio  32103 non-null  float64
 8   IPTU        32103 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.4+ MB


In [142]:
dados[dados["Condominio"].isnull()].shape[0]

0

In [143]:
dados[dados["IPTU"].isnull()].shape[0]

0

### Adicionando novas colunas na base de dados

In [144]:
dados['Valor Bruto'] = dados['Valor'] + dados['Condominio'] + dados['IPTU']

dados

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dados['Valor Bruto'] = dados['Valor'] + dados['Condominio'] + dados['IPTU']


Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor Bruto
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0,2260.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0,7000.0
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0,10331.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,1210.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0,1030.0
...,...,...,...,...,...,...,...,...,...,...
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0,1175.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0,2640.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0,1946.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,0.0,3760.0


In [145]:
dados['Valor m2'] = (dados['Valor']/dados['Area']).round(2)
dados

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dados['Valor m2'] = (dados['Valor']/dados['Area']).round(2)


Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor Bruto,Valor m2
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0,2260.0,42.50
1,Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0,7000.0,70.00
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0,10331.0,34.67
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,1210.0,53.33
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0,1030.0,16.67
...,...,...,...,...,...,...,...,...,...,...,...
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0,1175.0,29.63
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0,2640.0,23.08
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0,1946.0,29.17
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,0.0,3760.0,42.86


In [146]:
dados['Valor Bruto m2'] = (dados['Valor Bruto']/dados['Area']).round(2)
dados

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dados['Valor Bruto m2'] = (dados['Valor Bruto']/dados['Area']).round(2)


Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor Bruto,Valor m2,Valor Bruto m2
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0,2260.0,42.50,56.50
1,Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0,7000.0,70.00,70.00
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0,10331.0,34.67,68.87
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,1210.0,53.33,80.67
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0,1030.0,16.67,21.46
...,...,...,...,...,...,...,...,...,...,...,...,...
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0,1175.0,29.63,43.52
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0,2640.0,23.08,33.85
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0,1946.0,29.17,40.54
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,0.0,3760.0,42.86,53.71


#Load

Exportando base de dados para um arquivo csv

In [147]:
dados.to_csv('aluguel_depois_tratamento.csv', sep = ';', index = False)