## Construtora de Casas e Apartamentos

### Objetivos:

##### - Verificar valores duplicados
##### - Verificar valores ausentes
##### - Tratar valores duplicados 
##### - Verificar valores ausentes
##### - Tratando valores ausentes do dataset "moveis" com fillna()
##### - Merge entre as tabelas vendas e imóveis para ver as vendas por imovel (casas  e apartamentos)

In [1]:
import numpy as np
import pandas as pd

In [2]:
# Carregar os datasets
df_imoveis = pd.read_csv('imoveis.csv')
df_clientes = pd.read_csv('clientes.csv')
df_vendas = pd.read_csv('vendas.csv')

In [3]:
# Contando os registros duplicados em cada DataFrame
duplicados_imoveis_count = df_imoveis.duplicated().sum()
print(f"Quantidade de registros duplicados em Imóveis: {duplicados_imoveis_count}")

duplicados_clientes_count = df_clientes.duplicated().sum()
print(f"Quantidade de registros duplicados em Clientes: {duplicados_clientes_count}")

duplicados_vendas_count = df_vendas.duplicated().sum()
print(f"Quantidade de registros duplicados em Vendas: {duplicados_vendas_count}")

Quantidade de registros duplicados em Imóveis: 0
Quantidade de registros duplicados em Clientes: 0
Quantidade de registros duplicados em Vendas: 0


In [4]:
# Contar valores ausentes em cada Dataframe
ausentes_imoveis = df_imoveis.isna().sum()
print("Quantidade de valores ausentes em Imóveis:")
print(ausentes_imoveis)

ausentes_clientes = df_clientes.isna().sum()
print("\nQuantidade de valores ausentes em Clientes:")
print(ausentes_clientes)

ausentes_vendas = df_vendas.isna().sum()
print("\nQuantidade de valores ausentes em Vendas:")
print(ausentes_vendas)

Quantidade de valores ausentes em Imóveis:
imovel_id          0
tipo_imovel        8
preco              2
bairro             7
data_construcao    0
dtype: int64

Quantidade de valores ausentes em Clientes:
id_cliente         0
nome_cliente       0
cpf                0
data_nascimento    0
dtype: int64

Quantidade de valores ausentes em Vendas:
venda_id      0
imovel_id     0
data_venda    0
dtype: int64


## Merge

In [5]:
# Merge entre vendas e imóveis, usando 'imovel_id' como chave de relacionamento
df_vendas_imoveis = pd.merge(df_vendas, df_imoveis, on='imovel_id', how='inner')
df_vendas_imoveis.head()

Unnamed: 0,venda_id,imovel_id,data_venda,tipo_imovel,preco,bairro,data_construcao
0,1,82,2023-10-17,Apartamento,193163.08,Moinhos de Vento,2016-09-03
1,2,82,2021-05-26,Apartamento,193163.08,Moinhos de Vento,2016-09-03
2,3,92,2019-08-19,Casa,202969.24,Ponta Grossa,2017-04-04
3,4,73,2021-10-09,Casa,304024.04,Ponta Grossa,2020-05-15
4,5,11,2020-02-21,Apartamento,395038.51,Vila Flores,2018-09-03


In [6]:
# Salvar em um novo dataset
df_vendas_imoveis.to_csv('vendas_imoveis.csv', index = False)

In [7]:
# Tratar os valores ausentes das colunas 'preco' e 'bairro' da coluna 'imoveis'

# Preencher valores ausentes em 'preco' com a média da coluna
df_imoveis['preco'] = df_imoveis['preco'].fillna(df_imoveis['preco'].mean())

# Preencher valores ausentes em 'bairro' com uma string
df_imoveis['bairro'] = df_imoveis['bairro'].fillna('Não especificado')

In [8]:
# Preencher 'tipo_imovel' com a moda (valor mais comum)
df_imoveis['tipo_imovel'] = df_imoveis['tipo_imovel'].fillna(df_imoveis['tipo_imovel'].mode()[0])

In [9]:
# Contar valores ausentes em cada Dataframe
ausentes_imoveis = df_imoveis.isna().sum()
print("Quantidade de valores ausentes em Imóveis:")
print(ausentes_imoveis)

Quantidade de valores ausentes em Imóveis:
imovel_id          0
tipo_imovel        0
preco              0
bairro             0
data_construcao    0
dtype: int64


In [10]:
df_imoveis.head(10)

Unnamed: 0,imovel_id,tipo_imovel,preco,bairro,data_construcao
0,1,Apartamento,395437.81,Petrópolis,2015-01-13
1,2,Casa,602374.77,Vila Flores,2016-07-24
2,3,Casa,419592.43,Campo Bom,2015-12-11
3,4,Casa,720023.6,Vila Flores,2016-10-20
4,5,Apartamento,609305.69,Centro,2018-03-24
5,6,Casa,449770.94551,Vila Flores,2016-06-01
6,7,Casa,249231.72,Centro,2018-12-07
7,8,Casa,490808.01,Petrópolis,2015-06-09
8,9,Apartamento,513835.08,Moinhos de Vento,2018-08-17
9,10,Apartamento,697649.9,Vila Flores,2016-10-13


In [11]:
# Salvar os resultados tratados
df_imoveis.to_csv('imoveis_modificado.csv', index=False)
df_clientes.to_csv('clientes.csv', index = False)
df_vendas.to_csv('vendas.csv', index = False)