In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pandas.api.types import is_numeric_dtype
import seaborn as sns

In [None]:
data = pd.read_csv("wine/wine.data", sep=",")

In [None]:
data.shape

In [None]:
data.columns = ["Class", "Alcohol", "Malic acid", "Ash", "Alcalinity of ash", "Magnesium", 
 "Total phenols", "Flavanoids", "Nonflavanoid phenols", "Proanthocyanins", 
 "Color intensity", "Hue", "OD280/OD315 of diluted wines", "Proline"]
data.head()

# Exercícios

 1. Escolha um novo dataset e construa um programa que calcule as medidas estatísticas. Procure usar as funções apresentadas nessa atividade, assim como, outras que estão disponíveis nas bibliotecas do Python (https://www.scaler.com/topics/pandas/statistical-functions-in-pandas/).

In [None]:
for col in data.columns:
    if is_numeric_dtype(data[col]):
        print('%s:' % (col))
        # medidas de tendência central
        print('\t Média = %.2f' % data[col].mean())
        print('\t Mediana = %.2f' % data[col].median())

        print('\t Desvio padrão = %.2f' % data[col].std())
        print('\t Variância = %.2f' % data[col].var())
        print('\t Mínimo = %.2f' % data[col].min())
        print('\t Máximo = %.2f' % data[col].max())

2. Use o dataset escolhido e mostre por meio das representações gráficas (histogramas) as principais características. Procure usar as funções apresentadas nesta atividade.

In [None]:
classes = data['Class'].unique() 
cores = ['#4682B4', '#9370DB', '#3CB371']

for col in data.columns[1:]:
    fig, axes = plt.subplots(1, len(classes), figsize=(5 * len(classes), 4), sharey=True) 
    fig.suptitle(f'Histograma {col}', fontsize=14)

    for i, classe in enumerate(classes):
        selecao_classe = data[data['Class'] == classe]
        sns.histplot(data=selecao_classe, x=col, bins=20,kde=True, ax=axes[i], color=cores[i]) # kre(Kernel Density Estimate) -- adiciona curva de densidade
        axes[i].set_title(f'Classe {classe}')
        axes[i].set_xlabel(col)
        axes[i].set_ylabel('Frequência')

    plt.tight_layout()
    plt.show()


3. O dataset Iris não possui valores ausentes. A base escolhida também pode conter todos os descritores por cada amostra. Use um dataset e sobre as amostras impute valores ausentes usando a média, mediana ou outras medidas.

In [None]:
# O dataset não possui valores ausentes (NaN)

#Resumo de todos os atributos. Se um atributo for quantitativo, ele exibirá sua média, desvio padrão e vários valores de quantis (incluindo mínimo, mediano e máximo).
#Se um atributo for qualitativo, ele exibirá seu número de valores exclusivos e os valores principais (mais frequentes).

data.describe(include='all')
    

In [None]:
# Para verificar se há valores ausentes:

data.isnull().sum()

In [None]:
# Examina linhas com valores ausentes em qualquer coluna:

data.loc[data.isnull().any(axis=1)]

In [None]:
# Sustitui os valores NaN por valores zeros (0s):
data.fillna(0)

# Sustitui os valores NaN pela média da coluna:
data.fillna(data.mean())

# Sustitui os valores NaN pela mediana da coluna:
data.fillna(data.median())


4. Após aplicação das operações, faça a representação gráfica com histogramas das novas características dos dados analisados.

Como o dataset não possui valores ausentes, a representação gráfica, com histogramas, segue a mesma que demonstrada no exercício 2

5. Compare os resultados obtidos usando um gráfico box plot. Que atributos possuem distribuições mais simétricas? Há a presença de valores extremos, denominados de outliers, para os atributos?

In [None]:
classes = data['Class'].unique() 
cores = ["#51A6EC", '#9370DB', '#3CB371']

for col in data.columns[1:]:
    fig, axes = plt.subplots(1, len(classes), figsize=(5 *len(classes), 6)) 
    fig.suptitle(f'Boxplot {col}', fontsize=14)

    for i, classe in enumerate(classes):
        selecao_classe = data[data['Class'] == classe]
        sns.boxplot(data=selecao_classe, y=col, ax=axes[i], color=cores[i])
        axes[i].set_title(f'Classe {classe}')
        axes[i].set_ylabel("")

    plt.tight_layout()
    plt.show()

In [None]:
cores = ["#51A6EC", '#9370DB', '#3CB371']

fig, axes = plt.subplots(5, 3, figsize=(10, 12)) 

for i, col in enumerate(data.columns[1:]):
    ax=axes[i // 3, i % 3]
    sns.boxplot(data=data, y=col, color=cores[i % len(cores)], ax=ax)
    ax.set_title(f'Boxplot {col}', fontsize=12)
    ax.set_ylabel("")
    plt.tight_layout()

axes[4, 1].set_visible(False)
axes[4, 2].set_visible(False)


plt.show()

Entre os atributos, o álcool é o que possui a maior simetria de atributos.
É possível observar diversos outliers - indicados por símbolos circulares no gráfico - em atributos como, por exemplo, 'Malic Acid', 'Ash' e 'Magnesium'.

6. No dataset escolhido selecione intervalos de amostragem (10%, 30% e 50% - Progressiva) e faça análises sobre os dados em relação as métricas estatísticas. O que você pode observar sobre os subconjuntos em relação as métricas estatísticas com a nova composição dos dados?

In [None]:
amostragem = [0.1, 0.3, 0.5, 0.7, 1]

for p in amostragem:
    print(50*'=',f'\nAnálise estatística de {p*100:.0f}% dos dados\n' + 50*'=')
    
    n_primeiras = int(len(data) * p)
    amostra = data.iloc[:n_primeiras]

    print(amostra.describe())
    print("")

Com o aumento da amostra, as métricas estatísticas tornam-se mais estáveis e mais próximas das do dataset completo. Enquanto isso, amostras pequenas são mais sensíveis a variações excepcionais, como outliers, podendo distorcer a percepção da real distribuição dos dados.