<h1>Data Quality Report e Detecção de Fraudes em Transações Imobiliárias</h1></br>
<h2>Etapa 1 - Data Quality Report (DQR)</h2>
</br><p>O DQR é um relatório analítico com o objetivo de compreender a organização dos dados, se estão coerentes, se há alguma anomalia amplamente visível e resumir os dados (ou pelo menos as variáveis mais importantes) com base na compreensão do problema de negócio.</p>
</br>
<p>Para o projeto, foi utilizado uma base de dados fornecida pelo portal de dados abertos da cidade de Nova Yorque.</p>
</br><p>Você pode acessar o Dicionário de Dados e fazer download do dataset clicando <a href="https://data.cityofnewyork.us/Housing-Development/Property-Valuation-and-Assessment-Data/rgy2-tti8" title="download" target="_blank">aqui</a>.</p>



In [1]:
# Versão da linguagem Python
from platform import python_version
print('Versão da linguagem Python usada neste Jupyter Notebook:', python_version())

Versão da linguagem Python usada neste Jupyter Notebook: 3.8.3


<h3>Instalando e Carregando os Pacotes</h3>

In [2]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou no prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou no prompt de comando:
# !pip install nome_pacote==versão

# Depois de instalar ou atualizar o pacote, reinicie o Jupyter Notebook.

# Instala o pacote watermark.
# Esse pacote é usado para gravar as versões de outros pacotes usados neste Jupyter Notebook.
!pip install -q -U watermark

In [3]:
# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.pyplot as pyplot
import seaborn as sns
import warnings
warnings.filterwarnings('ignore') #ignorando possíveis warnings
pd.set_option('display.float_format', lambda x : '%.2f' % x) #configurando o formato dos números decimais para os gráficos
%matplotlib inline 

In [4]:
# Versões dos pacotes usados neste Jupyter notebook
%reload_ext watermark
%watermark -a "Philip Martins" --iversion

Author: Philip Martins

matplotlib: 3.2.2
seaborn   : 0.11.1
pandas    : 1.0.5
numpy     : 1.18.5



<h3>Resumo dos Dados</h3>

In [5]:
# Carregando os dados

dados = pd.read_csv('/pyprojects/data/dataset.csv', index_col = 0)

In [6]:
# Shape
dados.shape

(1070994, 31)

In [7]:
# vendo as primeiras linhas do dataset

dados.head()

Unnamed: 0_level_0,BBLE,B,BLOCK,LOT,EASEMENT,OWNER,BLDGCL,TAXCLASS,LTFRONT,LTDEPTH,...,BLDFRONT,BLDDEPTH,AVLAND2,AVTOT2,EXLAND2,EXTOT2,EXCD2,PERIOD,YEAR,VALTYPE
RECORD,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,1000010101,1,1,101,,U S GOVT LAND & BLDGS,P7,4,500,1046,...,0,0,3775500.0,8613000.0,3775500.0,8613000.0,,FINAL,2010/11,AC-TR
2,1000010201,1,1,201,,U S GOVT LAND & BLDGS,Z9,4,27,0,...,0,0,11111400.0,80690400.0,11111400.0,80690400.0,,FINAL,2010/11,AC-TR
3,1000020001,1,2,1,,DEPT OF GENERAL SERVI,Y7,4,709,564,...,709,564,32321790.0,40179510.0,32321790.0,40179510.0,,FINAL,2010/11,AC-TR
4,1000020023,1,2,23,,DEPARTMENT OF BUSINES,T2,4,793,551,...,85,551,13644000.0,15750000.0,13644000.0,15750000.0,,FINAL,2010/11,AC-TR
5,1000030001,1,3,1,,PARKS AND RECREATION,Q1,4,323,1260,...,89,57,106348680.0,107758350.0,106348680.0,107758350.0,,FINAL,2010/11,AC-TR


In [8]:
# Resumo 
print("Linhas: ",dados.shape[0])
print("Colunas: ",dados.shape[1])
print("\nVariáveis: \n", dados.columns.tolist())
print("\nValores Ausentes: \n", dados.isnull().sum())
print("\nValores Únicos: \n", dados.nunique()) 

Linhas:  1070994
Colunas:  31

Variáveis: 
 ['BBLE', 'B', 'BLOCK', 'LOT', 'EASEMENT', 'OWNER', 'BLDGCL', 'TAXCLASS', 'LTFRONT', 'LTDEPTH', 'EXT', 'STORIES', 'FULLVAL', 'AVLAND', 'AVTOT', 'EXLAND', 'EXTOT', 'EXCD1', 'STADDR', 'ZIP', 'EXMPTCL', 'BLDFRONT', 'BLDDEPTH', 'AVLAND2', 'AVTOT2', 'EXLAND2', 'EXTOT2', 'EXCD2', 'PERIOD', 'YEAR', 'VALTYPE']

Valores Ausentes: 
 BBLE              0
B                 0
BLOCK             0
LOT               0
EASEMENT    1066358
OWNER         31745
BLDGCL            0
TAXCLASS          0
LTFRONT           0
LTDEPTH           0
EXT          716689
STORIES       56264
FULLVAL           0
AVLAND            0
AVTOT             0
EXLAND            0
EXTOT             0
EXCD1        432506
STADDR          676
ZIP           29890
EXMPTCL     1055415
BLDFRONT          0
BLDDEPTH          0
AVLAND2      788268
AVTOT2       788262
EXLAND2      983545
EXTOT2       940166
EXCD2        978046
PERIOD            0
YEAR              0
VALTYPE           0
dtype: int64

In [9]:
# info
dados.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1070994 entries, 1 to 1070994
Data columns (total 31 columns):
 #   Column    Non-Null Count    Dtype  
---  ------    --------------    -----  
 0   BBLE      1070994 non-null  object 
 1   B         1070994 non-null  int64  
 2   BLOCK     1070994 non-null  int64  
 3   LOT       1070994 non-null  int64  
 4   EASEMENT  4636 non-null     object 
 5   OWNER     1039249 non-null  object 
 6   BLDGCL    1070994 non-null  object 
 7   TAXCLASS  1070994 non-null  object 
 8   LTFRONT   1070994 non-null  int64  
 9   LTDEPTH   1070994 non-null  int64  
 10  EXT       354305 non-null   object 
 11  STORIES   1014730 non-null  float64
 12  FULLVAL   1070994 non-null  float64
 13  AVLAND    1070994 non-null  float64
 14  AVTOT     1070994 non-null  float64
 15  EXLAND    1070994 non-null  float64
 16  EXTOT     1070994 non-null  float64
 17  EXCD1     638488 non-null   float64
 18  STADDR    1070318 non-null  object 
 19  ZIP       1041104 non

In [10]:
# Colunas numéricas (quantitativas)
num_cols = ['LTFRONT', 'LTDEPTH', 'STORIES', 'FULLVAL', 'AVLAND', 'AVTOT', 'EXLAND', 'EXTOT', 'BLDFRONT', 'BLDDEPTH',\
           'AVLAND2', 'AVTOT2', 'EXLAND2', 'EXTOT2']

In [11]:
# Colunas Categóricas
cat_cols = ['BBLE', 'B', 'BLOCK', 'LOT', 'EASEMENT', 'OWNER', 'BLDGCL', 'TAXCLASS', 'EXT', 'EXCD1', 'STADDR', 'ZIP', \
           'EXMPTCL', 'EXCD2', 'PERIOD', 'YEAR', 'VALTYPE']

In [None]:
# Verificando se separamos todas as colunas
len(num_cols) + len(cat_cols) == 31

In [None]:
#Separando o dataset entre variáveis numéricas e categóricas
df_num = dados[num_cols]
df_cat = dados[cat_cols]

In [None]:
# Sumário estatístico das variáveis numéricas
summ_num = pd.DataFrame(index = df_num.columns)
summ_num['Tipo de Dado'] = df_num.dtypes.values
summ_num['# Registros Não Nulos'] = df_num.count().values
summ_num['# Registros Não Zero'] = df_num.astype(bool).sum(axis = 0)
summ_num['% Populado'] = round(summ_num['# Registros Não Nulos'] / df_num.shape[0]*100,2)
summ_num['# Valores Únicos'] = df_num.nunique().values
summ_num['Mean'] = round(df_num.mean(),2)
summ_num['Std'] = round(df_num.std(),2)
summ_num['Min'] = round(df_num.min(),2)
summ_num['Max'] = round(df_num.max(),2)
summ_num

In [None]:
# Sumário estatístico das variáveis categóricas
summ_cat = pd.DataFrame(index = df_cat.columns)
summ_cat['Tipo de Dado'] = df_cat.dtypes.values
summ_cat['# Registros Não Nulos'] = df_cat.count().values
summ_cat['% Populado'] = round(summ_cat['# Registros Não Nulos'] / df_cat.shape[0]*100,2)
summ_cat['# Valores Únicos'] = df_cat.nunique().values
summ_cat

In [None]:
# Adiciona mais uma coluna com valores mais comuns
temp = []
for col in cat_cols:
    temp.append(df_cat[col].value_counts().idxmax())
summ_cat['Valores Mais Comuns'] = temp

In [None]:
summ_cat

<h3>Identificação, Exploração e Visualização das Variáveis</h3>

In [None]:
# Variáveis
dados.columns

In [None]:
# Visualiza
dados.head()

**Variável 1** \
Nome da Variável: BBLE \
Descrição: Concatenação de código Borough, código de bloco, código LOT; um número exclusivo para cada registro.

**Variável 2** \
Nome da Variável: B \
Descrição: Códigos Borough 

In [None]:
# Visualização da variável 2
sns.set_theme(style = 'whitegrid')
plt.figure(figsize = (12, 6))
fig1 = sns.countplot(x = 'B', data = dados, order = dados['B'].value_counts().index)
plt.title("Número de Propriedades em Diferentes Bairros")

In [None]:
# Contagem
BLOCK = df_cat['BLOCK'].value_counts().rename_axis('Unique_values_BLOCK').reset_index(name = 'Counts')
BLOCK[:15]

**Variável 4** \
Nome da Variável: LOT \
Descrição: Número de até 4 dígitos que representam códigos de lote em diferentes Borough & Block

In [None]:
# Contagem
LOT = df_cat['LOT'].value_counts().rename_axis('Unique_values_LOT').reset_index(name = 'Counts')[:15]
LOT[:15]

**Variável 5** \
Nome da Variável: EASEMENT  \
Descrição: Tipos de easement

In [None]:
# Visualização da variável 5
sns.set_theme(style = 'whitegrid')
plt.figure(figsize = (12, 6))
fig2 = sns.countplot(x = 'EASEMENT', data = dados, order = dados['EASEMENT'].value_counts().index)
fig2.set_yscale("log")
fig2.set_title('Quantidade de Imóveis com Diversos Tipos de Easement')

**Variável 6** \
Nome da Variável: OWNER \
Descrição: Proprietários dos imóveis

In [None]:
# Contagem
OWNER = df_cat['OWNER'].value_counts().rename_axis('Unique_values_OWNER').reset_index(name = 'Counts')

In [None]:
OWNER.head()

In [None]:
OWNER.tail()

**Variável 7** \
Nome da Variável: BLDGCL \
Descrição: Classe do imóvel

In [None]:
# Contagem
BLDGCL = df_cat['BLDGCL'].value_counts().rename_axis('Unique_values_BLDCGL').reset_index(name = 'Counts')

In [None]:
BLDGCL.tail()

In [None]:
BLDGCL.head()

**Variável 9** \
Nome da Variável: LTFRONT \
Descrição: Frente do lote em pés (feet)

In [None]:
# Divide em percentis
dados['LTFRONT'].describe(percentiles = [0.5,0.75,0.995])

In [None]:
# Filtra por valores iguais ou menores que 375
tmp = dados[dados['LTFRONT'] <= 375]

In [None]:
# Visualização da variável 9
sns.set_theme(style = 'whitegrid')
plt.figure(figsize = (10, 5))
fig4 = sns.distplot(tmp.LTFRONT, bins = 50)
fig4.set_title('Distribuição da Variável LTFRONT')