# Data Quality Report (DQR)
### Vítor Moura - Data Scientist

* DQR é um relatório analítico com o objetivo de compreender a organização dos dados, se estão coerentes e se estão consistentes. 
* Possibilitando identificar problemas e corrigi-los, encontrar anomalias e resumir os dados com base no problema de negócio.

In [8]:
#!pip install -q -U watermark

In [3]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

In [4]:
%reload_ext watermark
%watermark -a "Vítor Moura" --iversions

Author: Vítor Moura

seaborn   : 0.11.2
sys       : 3.9.12 (main, Apr  5 2022, 06:56:58) 
[GCC 7.5.0]
pandas    : 1.4.2
matplotlib: 3.5.1
numpy     : 1.21.5



In [5]:
# Load data
df_unique = pd.read_csv('desafio-ds/individuos_espec.csv', sep = ';')
df_connections = pd.read_csv('desafio-ds/conexoes_espec.csv', sep=';')

### Shape dos Dados

In [6]:
df_unique.shape

(1000000, 9)

In [7]:
df_connections.shape

(999999, 5)

### Visualização dos Dados

In [9]:
df_unique.head()

Unnamed: 0,name,idade,estado_civil,qt_filhos,estuda,trabalha,pratica_esportes,transporte_mais_utilizado,IMC
0,1,44.0,divorciado,1.0,1.0,0.0,1.0,publico,22.200956
1,2,24.0,casado,0.0,0.0,0.0,1.0,publico,25.37872
2,3,35.0,solteiro,1.0,0.0,0.0,1.0,particular,19.952393
3,4,50.0,casado,1.0,1.0,1.0,0.0,publico,26.732053
4,5,30.0,solteiro,2.0,1.0,0.0,1.0,publico,15.295668


In [10]:
df_connections.head()

Unnamed: 0,V1,V2,grau,proximidade,prob_V1_V2
0,1,2,trabalho,visita_frequente,0.589462
1,1,3,trabalho,visita_rara,0.708465
2,2,4,trabalho,visita_casual,
3,2,5,trabalho,visita_rara,0.638842
4,3,6,amigos,mora_junto,


### Resumo dos dados

In [15]:
# Resumo dos Indivíduos
print("Linhas: ", df_unique.shape[0])
print("Colunas: ", df_unique.shape[1])
print("\nVariáveis: ", df_unique.columns.tolist())
print("\nValores Ausentes: \n", df_unique.isnull().sum())
print("\nValores Únicos: \n", df_unique.nunique())

Linhas:  1000000
Colunas:  9

Variáveis:  ['name', 'idade', 'estado_civil', 'qt_filhos', 'estuda', 'trabalha', 'pratica_esportes', 'transporte_mais_utilizado', 'IMC']

Valores Ausentes: 
 name                              0
idade                         95937
estado_civil                  50073
qt_filhos                     28867
estuda                        40130
trabalha                       6353
pratica_esportes             149124
transporte_mais_utilizado     43033
IMC                          113870
dtype: int64

Valores Únicos: 
 name                         1000000
idade                            105
estado_civil                       4
qt_filhos                         10
estuda                             2
trabalha                           2
pratica_esportes                   2
transporte_mais_utilizado          3
IMC                           886130
dtype: int64


In [16]:
df_unique.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 9 columns):
 #   Column                     Non-Null Count    Dtype  
---  ------                     --------------    -----  
 0   name                       1000000 non-null  int64  
 1   idade                      904063 non-null   float64
 2   estado_civil               949927 non-null   object 
 3   qt_filhos                  971133 non-null   float64
 4   estuda                     959870 non-null   float64
 5   trabalha                   993647 non-null   float64
 6   pratica_esportes           850876 non-null   float64
 7   transporte_mais_utilizado  956967 non-null   object 
 8   IMC                        886130 non-null   float64
dtypes: float64(6), int64(1), object(2)
memory usage: 68.7+ MB


In [25]:
# Colunas Numéricas (Quantitativas)
num_col1 = ['idade', 'qt_filhos', 'IMC']

# Colunas Categóricas (Qualitativas)
cat_col1 = ['name','estado_civil', 'estuda', 'trabalha', 'pratica_esportes', 'transporte_mais_utilizado']

In [26]:
# Confirma a quantidade de colunas
len(num_col) + len(cat_col) == df_unique.shape[1]

True

In [38]:
# Criação do Dataframe com os tipos diferentes de variáveis (Quantitativas e Qualitativas)
df_num1 = df_unique[num_col]
df_cat1 = df_unique[cat_col]

In [36]:
# Sumário Estatístico dos Dados Numé
summary_num = pd.DataFrame(index = df_num1.columns)
summary_num['Tipo de Dado '] = df_num1.dtypes.values
summary_num['# Registros Não Nulos'] = df_num1.count().values
summary_num['# Registros Não Zeros'] = df_num1.astype(bool).sum(axis = 0)
summary_num['% Populado'] = round(summary_num['# Registros Não Nulos'] / df_num1.shape[0] * 100, 2)
summary_num['# Valores Únicos'] = df_num1.nunique().values
summary_num['Mean'] = df_num1.mean().values
summary_num['Std'] = df_num1.std().values
summary_num['Min'] = df_num1.min().values
summary_num['Max'] = df_num1.max().values
summary_num

Unnamed: 0,Tipo de Dado,# Registros Não Nulos,# Registros Não Zeros,% Populado,# Valores Únicos,Mean,Std,Min,Max
idade,float64,904063,999997,90.41,105,30.008431,10.951566,0.0,124.0
qt_filhos,float64,971133,598599,97.11,10,0.928406,0.997289,0.0,9.0
IMC,float64,886130,1000000,88.61,886130,22.472079,7.073692,4.852828,89.158204


In [40]:
# Sumário Estatístico dos Dados Categóricos
summary_cat = pd.DataFrame(index = df_cat1.columns)
summary_cat['Tipo de Dado '] = df_cat1.dtypes.values
summary_cat['# Registros Não Nulos'] = df_cat1.count().values
summary_cat['% Populado'] = round(summary_cat['# Registros Não Nulos'] / df_cat1.shape[0] * 100, 2)
summary_cat['# Valores Únicos'] = df_cat1.nunique().values

summary_cat

Unnamed: 0,Tipo de Dado,# Registros Não Nulos,% Populado,# Valores Únicos
name,int64,1000000,100.0,1000000
estado_civil,object,949927,94.99,4
estuda,float64,959870,95.99,2
trabalha,float64,993647,99.36,2
pratica_esportes,float64,850876,85.09,2
transporte_mais_utilizado,object,956967,95.7,3


In [41]:
# Adiciona os valores mais comuns às colunas categóricas
col = []
for i in cat_col:
    col.append(df_cat1[i].value_counts().idxmax())
summary_cat['Mais Comum'] = col
summary_cat

Unnamed: 0,Tipo de Dado,# Registros Não Nulos,% Populado,# Valores Únicos,Mais Comum
name,int64,1000000,100.0,1000000,1
estado_civil,object,949927,94.99,4,solteiro
estuda,float64,959870,95.99,2,0.0
trabalha,float64,993647,99.36,2,1.0
pratica_esportes,float64,850876,85.09,2,1.0
transporte_mais_utilizado,object,956967,95.7,3,publico


In [42]:
# Resumo das Conexões
print("Linhas: ", df_connections.shape[0])
print("Colunas: ", df_connections.shape[1])
print("\nVariáveis: ", df_connections.columns.tolist())
print("\nValores Ausentes: \n", df_connections.isnull().sum())
print("\nValores Únicos: \n", df_connections.nunique())

Linhas:  999999
Colunas:  5

Variáveis:  ['V1', 'V2', 'grau', 'proximidade', 'prob_V1_V2']

Valores Ausentes: 
 V1                  0
V2                  0
grau                0
proximidade         0
prob_V1_V2     500000
dtype: int64

Valores Únicos: 
 V1             500000
V2             999999
grau                3
proximidade         4
prob_V1_V2     499999
dtype: int64


In [43]:
df_connections.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999999 entries, 0 to 999998
Data columns (total 5 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   V1           999999 non-null  int64  
 1   V2           999999 non-null  int64  
 2   grau         999999 non-null  object 
 3   proximidade  999999 non-null  object 
 4   prob_V1_V2   499999 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 38.1+ MB


In [51]:
# Colunas Numéricas (Quantitativas)
num_col2 = ['prob_V1_V2']

# Colunas Categóricas (Qualitativas)
cat_col2 = ['V1', 'V2','grau', 'proximidade']

In [52]:
# Confirma a quantidade de colunas categóricas
len(num_col2) + len(cat_col2) == df_connections.shape[1]

True

In [53]:
# Criação do Dataframe com os tipos diferentes de variáveis (Quantitativas e Qualitativas)
df_num2 = df_connections[num_col2]
df_cat2 = df_connections[cat_col2]

In [55]:
# Sumário Estatístico dos Dados Numéricos
summary_num2 = pd.DataFrame(index = df_num2.columns)
summary_num2['Tipo de Dado '] = df_num2.dtypes.values
summary_num2['# Registros Não Nulos'] = df_num2.count().values
summary_num2['# Registros Não Zeros'] = df_num2.astype(bool).sum(axis = 0)
summary_num2['% Populado'] = round(summary_num2['# Registros Não Nulos'] / df_num2.shape[0] * 100, 2)
summary_num2['# Valores Únicos'] = df_num2.nunique().values
summary_num2['Mean'] = df_num2.mean().values
summary_num2['Std'] = df_num2.std().values
summary_num2['Min'] = df_num2.min().values
summary_num2['Max'] = df_num2.max().values
summary_num2

Unnamed: 0,Tipo de Dado,# Registros Não Nulos,# Registros Não Zeros,% Populado,# Valores Únicos,Mean,Std,Min,Max
prob_V1_V2,float64,499999,999999,50.0,499999,0.485162,0.173963,0.074462,0.942245


In [56]:
# Sumário Estatístico dos Dados Categóricos
summary_cat2 = pd.DataFrame(index = df_cat2.columns)
summary_cat2['Tipo de Dado '] = df_cat2.dtypes.values
summary_cat2['# Registros Não Nulos'] = df_cat2.count().values
summary_cat2['% Populado'] = round(summary_cat2['# Registros Não Nulos'] / df_cat2.shape[0] * 100, 2)
summary_cat2['# Valores Únicos'] = df_cat2.nunique().values

summary_cat2

Unnamed: 0,Tipo de Dado,# Registros Não Nulos,% Populado,# Valores Únicos
V1,int64,999999,100.0,500000
V2,int64,999999,100.0,999999
grau,object,999999,100.0,3
proximidade,object,999999,100.0,4


In [59]:
# Adiciona os valores mais comuns às colunas categóricas
col2 = []
for i in cat_col2:
    col2.append(df_cat2[i].value_counts().idxmax())
summary_cat2['Mais Comum'] = col2
summary_cat2

Unnamed: 0,Tipo de Dado,# Registros Não Nulos,% Populado,# Valores Únicos,Mais Comum
V1,int64,999999,100.0,500000,1
V2,int64,999999,100.0,999999,2
grau,object,999999,100.0,3,trabalho
proximidade,object,999999,100.0,4,visita_rara


In [71]:
# Merge das tabelas de dados por meio da V2 e Name
dataset = df_unique.merge(df_connections, left_on='name', right_on='V2')
dataset

Unnamed: 0,name,idade,estado_civil,qt_filhos,estuda,trabalha,pratica_esportes,transporte_mais_utilizado,IMC,V1,V2,grau,proximidade,prob_V1_V2
0,2,24.0,casado,0.0,0.0,0.0,1.0,publico,25.378720,1,2,trabalho,visita_frequente,0.589462
1,3,35.0,solteiro,1.0,0.0,0.0,1.0,particular,19.952393,1,3,trabalho,visita_rara,0.708465
2,4,50.0,casado,1.0,1.0,1.0,0.0,publico,26.732053,2,4,trabalho,visita_casual,
3,5,30.0,solteiro,2.0,1.0,0.0,1.0,publico,15.295668,2,5,trabalho,visita_rara,0.638842
4,6,20.0,,1.0,0.0,1.0,0.0,publico,20.412942,3,6,amigos,mora_junto,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
999994,999996,34.0,casado,1.0,0.0,1.0,1.0,publico,17.556771,499998,999996,trabalho,visita_rara,
999995,999997,40.0,casado,1.0,0.0,1.0,1.0,particular,24.848402,499998,999997,trabalho,visita_rara,
999996,999998,30.0,divorciado,1.0,0.0,0.0,1.0,publico,,499999,999998,familia,visita_casual,0.451662
999997,999999,33.0,casado,0.0,1.0,1.0,1.0,publico,16.979569,499999,999999,familia,visita_rara,0.186973
