# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Business Analytics</font>

# <font color='blue'>Capítulo 11 - Fraud Analytics</font>
## <font color='blue'>Mini-Projeto 3</font>
### <font color='blue'>Data Quality Report e Detecção de Fraudes em Transações Imobiliárias</font>

## Etapa 1 - Data Quality Report (DQR)

O DQR é um relatório analítico com o objetivo de compreender a organização dos dados, se estão coerentes, se há alguma anomalia amplamente visível e resumir os dados (ou pelo menos as variáveis mais importantes) com base na compreensão do problema de negócio.

A descrição do que representa cada variável está disponível no Dicionário de Dados e no material complementar no link abaixo:

https://www1.nyc.gov/site/finance/taxes/definitions-of-property-assessment-terms.page

![title](imagens/mini-projeto3.png)

In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

## Instalando e Carregando os Pacotes

In [None]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# !pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
!pip install -q -U watermark

In [None]:
# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.pyplot as pyplot
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")
pd.set_option('display.float_format', lambda x : '%.2f' % x)
%matplotlib inline

In [None]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

## Resumo dos Dados

In [None]:
# Carrega os dados
dados = pd.read_csv('dados/dataset.csv', index_col = 0)

In [None]:
# Shape
dados.shape

In [None]:
# Visualiza
dados.head()

In [None]:
# Resumo
print("Linhas: ", dados.shape[0])
print("Colunas: ", dados.shape[1])
print("\nVariáveis: \n", dados.columns.tolist())
print("\nValores Ausentes: \n" , dados.isnull().sum())
print("\nValores Únicos: \n", dados.nunique())

In [None]:
# Info
dados.info()

In [None]:
# Colunas numéricas (quantitativas)
num_cols = ['LTFRONT', 'LTDEPTH', 'STORIES', 'FULLVAL', 'AVLAND', 'AVTOT', 'EXLAND', 'EXTOT', 'BLDFRONT', 'BLDDEPTH', \
            'AVLAND2', 'AVTOT2', 'EXLAND2', 'EXTOT2']

In [None]:
# Colunas categóricas
cat_cols = ['BBLE', 'B', 'BLOCK', 'LOT', 'EASEMENT', 'OWNER', 'BLDGCL', 'TAXCLASS', 'EXT', 'EXCD1', 'STADDR', 'ZIP',\
            'EXMPTCL', 'EXCD2', 'PERIOD', 'YEAR', 'VALTYPE']

In [None]:
# Verifica se o total de variáveis está coberto nos objetos anteriores
len(num_cols) + len(cat_cols) == 31

In [None]:
# Dataframes com os tipos diferentes de variáveis
df_num = dados[num_cols]
df_cat = dados[cat_cols]

In [None]:
# Sumário estatístico das variáveis numéricas
summ_num = pd.DataFrame(index = df_num.columns)
summ_num['Tipo de Dado'] = df_num.dtypes.values
summ_num['# Registros Não Nulos'] = df_num.count().values
summ_num['# Registros Não Zero'] = df_num.astype(bool).sum(axis = 0)
summ_num['% Populado'] = round(summ_num['# Registros Não Nulos'] / df_num.shape[0]*100,2)
summ_num['# Valores Únicos'] = df_num.nunique().values
summ_num['Mean'] = round(df_num.mean(),2)
summ_num['Std'] = round(df_num.std(),2)
summ_num['Min'] = round(df_num.min(),2)
summ_num['Max'] = round(df_num.max(),2)
summ_num

In [None]:
# Sumário estatístico das variáveis categóricas
summ_cat = pd.DataFrame(index = df_cat.columns)
summ_cat['Tipo de Dado'] = df_cat.dtypes.values
summ_cat['# Registros Não Nulos'] = df_cat.count().values
summ_cat['% Populado'] = round(summ_cat['# Registros Não Nulos'] / df_cat.shape[0]*100,2)
summ_cat['# Valores Únicos'] = df_cat.nunique().values

In [None]:
# Adiciona mais uma coluna com valores mais comuns
temp = []
for col in cat_cols:
    temp.append(df_cat[col].value_counts().idxmax())
summ_cat['Valores Mais Comuns'] = temp

In [None]:
summ_cat

## Identificação, Exploração e Visualização das Variáveis

In [None]:
# Variáveis
dados.columns

In [None]:
# Visualiza
dados.head()

**Variável 1** \
Nome da Variável: BBLE \
Descrição: Concatenação de código Borough, código de bloco, código LOT; um número exclusivo para cada registro.

**Variável 2** \
Nome da Variável: B \
Descrição: Códigos Borough 

In [None]:
# Visualização da variável 2
sns.set_theme(style = 'whitegrid')
plt.figure(figsize = (12, 6))
fig1 = sns.countplot(x = 'B', data = dados, order = dados['B'].value_counts().index)
plt.title("Número de Propriedades em Diferentes Bairros")

**Variável 3** \
Nome da Variável: BLOCK \
Descrição: Número de até 5 dígitos que representam códigos de bloco em diferentes bairros

In [None]:
# Contagem
BLOCK = df_cat['BLOCK'].value_counts().rename_axis('Unique_values_BLOCK').reset_index(name = 'Counts')
BLOCK[:15]

**Variável 4** \
Nome da Variável: LOT \
Descrição: Número de até 4 dígitos que representam códigos de lote em diferentes Borough & Block

In [None]:
# Contagem
LOT = df_cat['LOT'].value_counts().rename_axis('Unique_values_LOT').reset_index(name = 'Counts')[:15]
LOT[:15]

**Variável 5** \
Nome da Variável: EASEMENT  \
Descrição: Tipos de easement

In [None]:
# Visualização da variável 5
sns.set_theme(style = 'whitegrid')
plt.figure(figsize = (12, 6))
fig2 = sns.countplot(x = 'EASEMENT', data = dados, order = dados['EASEMENT'].value_counts().index)
fig2.set_yscale("log")
fig2.set_title('Quantidade de Imóveis com Diversos Tipos de Easement')

**Variável 6** \
Nome da Variável: OWNER \
Descrição: Proprietários dos imóveis

In [None]:
# Contagem
OWNER = df_cat['OWNER'].value_counts().rename_axis('Unique_values_OWNER').reset_index(name = 'Counts')

In [None]:
OWNER.head()

In [None]:
OWNER.tail()

**Variável 7** \
Nome da Variável: BLDGCL \
Descrição: Classe do imóvel

In [None]:
# Contagem
BLDGCL = df_cat['BLDGCL'].value_counts().rename_axis('Unique_values_BLDCGL').reset_index(name = 'Counts')

In [None]:
BLDGCL.tail()

In [None]:
BLDGCL.head()

**Variável 8** \
Nome da Variável: TAXCLASS \
Descrição: Código de classe de imposto de propriedade

In [None]:
# Visualização da variável 8
sns.set_theme(style = 'darkgrid')
plt.figure(figsize = (14, 6))
fig3 = sns.countplot(x = 'TAXCLASS', data = dados, order = dados['TAXCLASS'].value_counts().index)
fig3.set_yscale("log")
fig3.set_title('Número de Propriedades com Vários Tipos de Classe')

**Variável 9** \
Nome da Variável: LTFRONT \
Descrição: Frente do lote em pés (feet)

In [None]:
# Divide em percentis
dados['LTFRONT'].describe(percentiles = [0.5,0.75,0.995])

In [None]:
# Filtra por valores iguais ou menores que 375
tmp = dados[dados['LTFRONT'] <= 375]

In [None]:
# Visualização da variável 9
sns.set_theme(style = 'whitegrid')
plt.figure(figsize = (10, 5))
fig4 = sns.distplot(tmp.LTFRONT, bins = 50)
fig4.set_title('Distribuição da Variável LTFRONT')

**Variável 10** \
Nome da Variável: LTDEPTH \
Descrição: Profundidade do lote em pés (feet)

In [None]:
# Divide em percentis
dados['LTDEPTH'].describe(percentiles = [0.18,0.25,0.4,0.83,0.98,0.9995])

In [None]:
# Filtra por valores iguais ou menores que 425
tmp = dados[dados['LTDEPTH'] <= 425]

In [None]:
# Visualização da variável 10
sns.set_theme(style = 'whitegrid')
plt.figure(figsize = (12, 6))
fig5 = sns.distplot(tmp.LTDEPTH, bins = 50)
fig5.set_yscale("log")
fig5.set_title('Distribuição da Variável LTDEPTH')

**Variável 11** \
Nome da Variável: EXT \
Descrição: E- Extension, G- Garage, EG- Extension e Garage 

In [None]:
# Visualização da variável 11
sns.set_theme(style = 'whitegrid')
plt.figure(figsize = (12, 6))
fig6 = sns.countplot(x = 'EXT', data = dados, order = dados['EXT'].value_counts().index)
fig6.set_title('Número de Propriedades com Vários Tipos de Extensões / Garagem')

**Variável 12**  \
Nome da Variável: STORIES \
Descrição: Número de andares do edifício

In [None]:
# Divide em percentis
dados['STORIES'].describe(percentiles = [0.5,0.75,0.995])

In [None]:
# Filtra 
tmp = dados[dados['STORIES'] <= 50]

In [None]:
# Visualização da variável 12
sns.set_theme(style = 'whitegrid')
plt.figure(figsize = (12, 6))
fig7 = sns.distplot(tmp['STORIES'], kde = False, bins = 50)
fig7.set_yscale('log', basey = 2)
fig7.set_title('Distribuição de Andares das Propriedades')

**Variável 13** \
Nome da Variável: FULLVAL \
Descrição: Valor de Mercado Total

In [None]:
# Divide em percentis
dados['FULLVAL'].describe(percentiles = [0.5,0.75,0.95])

In [None]:
# Visualiza os dados
dados['FULLVAL'].head()

In [None]:
# Filtra os dados para simplificar a visualização e evitar valores extremos
tmp = dados[dados['FULLVAL'] <= 3000000]

In [None]:
# Visualização da variável 13
dimensoes = (12, 8)
fig, ax = pyplot.subplots(figsize = dimensoes)
fig8 = sns.distplot(tmp.FULLVAL, kde = False, bins = 70)
fig8.set_title('Distribuição do Valor de Mercado Total das Propriedades')

**Variável 14** \
Nome da Variável: AVLAND \
Descrição: Valor de mercado do terreno

In [None]:
# Divide em percentis
dados['AVLAND'].describe(percentiles = [0.5,0.75,0.95])

In [None]:
# Filtra os dados
tmp = dados[dados['AVLAND'] <= 50000]

In [None]:
# Visualização da variável 14
dimensoes = (12, 8)
fig, ax = pyplot.subplots(figsize = dimensoes)
fig9 = sns.distplot(tmp.AVLAND, kde = False, bins = 80)
fig9.set_title('Distribuição do Valor de Mercado do Terreno das Propriedades')

**Variável 15** \
Nome da Variável: EXLAND \
Descrição: Valor provisório do terreno com isenção temporária

In [None]:
# Divide em percentis
dados['EXLAND'].describe(percentiles = [0.5,0.75,0.95])

In [None]:
# Filtro
tmp = dados[dados['EXLAND'] <= 20000]

In [None]:
# Visualização da variável 15
dimensoes = (14, 8)
fig, ax = pyplot.subplots(figsize = dimensoes)
fig11 = sns.distplot(tmp.EXLAND, kde = False, bins = 100)
fig11.set_yscale('log', basey = 2)
fig11.set_title('Valor Provisório do Terreno com Isenção Temporária')

# Fim