# Imóveis Residenciais
Temos uma nova tarefa solicitada pela seguradora que contratou nossos serviços: com base no último relatório que entregamos, a empresa decidiu criar produtos apenas para imóveis residenciais. Dessa forma, precisamos criar uma nova base de dados que contenha somente imóveis dessa categoria.

In [None]:
import pandas as pd 
dados = pd.read_csv('aluguel.csv', sep = ';')
#dados.head(10) #Descomente essa linha se quiser conferir se importou corretamente a base de dados


Trabalharemos, por enquanto, somente com os tipos de imóveis e então usaremos o drop_duplicates() para nos ajudar a selecionar os imoveis e saber quantos deles se repetem na tabela. Para agrupar todas as informações criaremos uma lista com as condições expostas acima e armazenaremos ela na variável: residencial. 

In [None]:
list(dados['Tipo'].drop_duplicates())

Do resultado acima, selecionaremos apenas os imóveis residenciais, logo:

In [7]:
#Iremos pegar a lista gerada acima e apagaremos os imóveis que não são residenciais o que nos sobra os seguintes itens:
residencial = ['Quitinete', 
'Casa',
'Apartamento',
'Casa de Condomínio',
'Casa de Vila']
#residencial #Descomente a variável para conferir se foi exatamente o que você quer para a variável

['Quitinete', 'Casa', 'Apartamento', 'Casa de Condomínio', 'Casa de Vila']

Usaremos agora um novo método chamado isin() ele fará com que ao passarmos a listagem residecial que desejamos, será verificado dentro do DataFrame se os elementos da nossa lista existem de fato, assinalando True ou False.

In [8]:
dados['Tipo'].isin(residencial).head(10)

0     True
1     True
2    False
3     True
4     True
5     True
6     True
7     True
8     True
9    False
Name: Tipo, dtype: bool

O que isso significa pra gente? Observe a nossa tabela original:

In [9]:
dados.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
6,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
7,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
8,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
9,Conjunto Comercial/Sala,Centro,0,3,0,695,35000.0,19193.0,3030.0


Quando utilizamos o isin ele trouxe um conjunto de resultados enumerados de 1 a 9 com os valores True e False. Os valores 2 e 9 ficaram marcados como falso, pois como usamos o isin junto com a listagem que criamos chamada residencial então, como esses imoveis não são residenciais o isin retorna falso. 

In [10]:
#Atribuiremos a nossa lista de imóveis residenciais a variável selecao.
selecao = dados['Tipo'].isin(residencial) #Obeserve que aqui eu retirei .head(10) pois quero todos os dados contidos no arquivo


Usaremos um método de seleção no DataFrame, de maneira que só tenhamos os registros que possuem a marcação True. Criaremos um novo DataFrame, dados_residencial. Em seguida, acionaremos nossa base de dados selecionada.

In [None]:
dados_residencial = dados[selecao]
#dados_residencial #Retire o simbolo de comentário para conferir o seu resultado.

In [14]:
list(dados_residencial['Tipo'].drop_duplicates()) #Rode esse código para conferir se as variáveis presentes são as que você escolheu.

['Quitinete', 'Casa', 'Apartamento', 'Casa de Condomínio', 'Casa de Vila']

In [16]:
print(f' Temos {dados_residencial.shape[0]} dados na lista dados_residencial e {dados.shape[0]} dados no arquivo')

 Temos 22580 dados na lista dados_residencial e 32960 dados no arquivo


Teremos como resultado o número 22580 elementos. Se fizermos a mesma verificação em dados, teremos um total de 32960 elementos, isto é, estamos com um conjunto de dados reduzido. 

# Tratamento da nova base de dados
O próximo passo será realizar reconstrução do índice de dados_residencial.

In [18]:
dados_residencial.index = range(dados_residencial.shape[0]) #Teremos um DataFrame com 22589 registros indexados corretamente.
#dados_residencial #Descomente essa linha para verificar se a reindexação foi feita corretamente.

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


# Exportando a base de dados 
Temos o método read_csv() para importação, para exportação de dados utilizaremos to_csv(). Escreveremos o nome do nosso banco de dadosdados_residencial, e evocaremos o método de exportação que receberá a pasta de destino e o nome a ser dado para o arquivo csv gerado. No caso, chamaremos o novo arquivo de aluguel_residencial.csv. Precisaremos, ainda, especificar o tipo de separador utilizado no banco de dados, o ;

In [23]:
dados_residencial.to_csv('sample_data/aluguel_residencial.csv', sep = ';') #Caminho para quem está utilizando o Colab

Agora, aprenderemos como realizar a importação desse mesmo arquivo, para que ele seja utilizado em projetos futuros. Faremos um pequeno teste ainda no notebook Imóveis Residenciais. Chamaremos o DataFrame importado de dados_residencial_2, e evocaremos o método read_csv() que receberá como parâmetro o endereço do arquivo e a especificação do separador usado.

In [26]:
dados_residencial_2 = pd.read_csv('aluguel_residencial.csv', sep =';')
dados_residencial_2

Unnamed: 0.1,Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...,...
22575,22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


Observe que ao trazermos de volta os dados, ele criou uma nova coluna com o index que criamos anteriormente e isso atrapalhará futuras análises, então devemos corrigir esse problema fazendo o seguinte: 

In [30]:
dados_residencial.to_csv('aluguel_residencial.csv', sep=';', index = False) 
#Note que aqui, sobrescreveremos o arquivo dados_residencial.csv, de forma que as alterações já estão vigentes.

In [33]:
dados_residencial.to_csv('sample_data/aluguel_residencial.csv', sep = ';')
dados_residencial_2 = pd.read_csv('aluguel_residencial.csv', sep =';')
dados_residencial_2 #De tal forma que se rodarmos as linhas anteriores a esse tratamento teremos o problema resolvido. Compare as duas tabelas
#e observe a diferenç entre elas

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
