# Qualidade de Dados

### Verificar dados faltantes, quantificar por variavel (%). Avaliar a faixa dinâmica de cada variável.

## Definição de pronto

### Dados preparados no ambiente

## Definição de entregue

### Notebook fazendo a avaliação

In [4]:
import pandas as pd

pd.set_option("display.precision", 3)

df_wine = pd.read_parquet("../../Data/Processed/wine/df_wine.parquet") 

if (df_wine.isnull().values.any()): 
    print("Existem dados faltantes na tabela de vinhos") 
else: 
    print("Sem dados faltantes para a tabela de vinhos")


Sem dados faltantes para a tabela de vinhos


In [5]:
#Visão geral dos dados

print('Data shape:', df_wine.shape)
print('Data columns:', df_wine.columns.tolist())
df_wine.head()

Data shape: (6497, 13)
Data columns: ['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol', 'quality', 'type']


Unnamed: 0_level_0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,type
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.998,3.51,0.56,9.4,5,1
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.997,3.2,0.68,9.8,5,1
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5,1
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6,1
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.998,3.51,0.56,9.4,5,1


In [6]:
#Estatísticas Gerais

df_wine.describe()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,type
count,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0
mean,7.215,0.34,0.319,5.443,0.056,30.525,115.745,0.995,3.219,0.531,10.492,5.818,0.246
std,1.296,0.165,0.145,4.758,0.035,17.749,56.522,0.003,0.161,0.149,1.193,0.873,0.431
min,3.8,0.08,0.0,0.6,0.009,1.0,6.0,0.987,2.72,0.22,8.0,3.0,0.0
25%,6.4,0.23,0.25,1.8,0.038,17.0,77.0,0.992,3.11,0.43,9.5,5.0,0.0
50%,7.0,0.29,0.31,3.0,0.047,29.0,118.0,0.995,3.21,0.51,10.3,6.0,0.0
75%,7.7,0.4,0.39,8.1,0.065,41.0,156.0,0.997,3.32,0.6,11.3,6.0,0.0
max,15.9,1.58,1.66,65.8,0.611,289.0,440.0,1.039,4.01,2.0,14.9,9.0,1.0


**Como informado antes podemos verificar que não existem dados faltantes para nenhum dos arquivos já que todas as variáveis contam com as mesmas quantidades da contagem de linhas da soma dos arquivos.**

**Não percebemos nenhuma anomalia em relação ao desvios padrão das variáveis. Algumas variáveis com baixa distribuição e outras com distribuições razoáveis.**

**Não percebemos nenhuma anomalia em relação aos quartis. Uma análise mais detalhada do tipo box plot pode trazer mais informações de interesse.**

**Os mínimos e máximos indicam a possibilidade de variação de até 4 ordens de grandeza entre os valores das variáveis. Dependendo das variáveis escolhidas para a análise e seu tratamento pode ser necessário algum tipo de normalização dos dados.**

In [26]:
#Quantificação por variável (%)

for (column, _ ) in df_wine.items():
    print(f'{column}: {"{:.2f}".format(df_wine[column].count()/len(df_wine) * 100)}%')
    

fixed acidity: 100.00%
volatile acidity: 100.00%
citric acid: 100.00%
residual sugar: 100.00%
chlorides: 100.00%
free sulfur dioxide: 100.00%
total sulfur dioxide: 100.00%
density: 100.00%
pH: 100.00%
sulphates: 100.00%
alcohol: 100.00%
quality: 100.00%
type: 100.00%


In [24]:
#Avaliar a faixa dimâmica por variável

for (column, _ ) in df_wine.items():
    print(f'{column} \t faixa dinâmica: {"{:.2f}".format(df_wine[column].max() - df_wine[column].min())}')

fixed acidity 	 faixa dinâmica: 12.10
volatile acidity 	 faixa dinâmica: 1.50
citric acid 	 faixa dinâmica: 1.66
residual sugar 	 faixa dinâmica: 65.20
chlorides 	 faixa dinâmica: 0.60
free sulfur dioxide 	 faixa dinâmica: 288.00
total sulfur dioxide 	 faixa dinâmica: 434.00
density 	 faixa dinâmica: 0.05
pH 	 faixa dinâmica: 1.29
sulphates 	 faixa dinâmica: 1.78
alcohol 	 faixa dinâmica: 6.90
quality 	 faixa dinâmica: 6.00
type 	 faixa dinâmica: 1.00


**Novamente fica claro que o uso de variáveis como free sulfur dioxide ou total sulfur dioxide isoladamente com outras do tipo densidade ou chlorides, pode trazer instabilidade ao modelo escolhido caso não sejam feitas suas normalizações.**