## **Probabilidade e Inferência - Análise e Amostra de Dados**
### *João Eduardo Braga*
### *Arthur Ferreira de Holanda*

## Etapa 1 - Análise Geral

### 1.   **Introdução**


##### O conjunto de dados Wine é um conjunto de dados clássico disponível no [UCI Machine Learning Repository](https://archive.ics.uci.edu).

##### Ele contém informações principalmente químicas e sensoriais de vinhos.

#### Informações sobre o conjunto de dados Wine:

* Origem: O conjunto de dados Wine foi obtido a partir de uma pesquisa realizada em um laboratório de análise química na Itália.
* Descrição: O conjunto de dados contém 178 amostras de vinhos, onde cada amostra é descrita por 13 atributos químicos. Os atributos incluem teor alcoólico, acidez, concentração de compostos fenólicos, intensidade de cor, entre outros. Além disso, cada amostra é rotulada com uma classe, indicando a variedade do vinho (1, 2 ou 3).
* Objetivo: O objetivo do conjunto de dados é classificar as amostras de vinho em suas respectivas variedades com base nas informações químicas fornecidas.
* Atributos: Os atributos do conjunto de dados Wine são:
  * Alcohol: Teor alcoólico do vinho.
  * Malic Acid: Ácido málico presente no vinho.
  * Ash: Cinzas resultantes da queima.
  * Alcalinity of Ash: Alcalinidade das cinzas.
  * Magnesium: Quantidade de magnésio presente.
  * Total Phenols: Concentração total de compostos fenólicos.
  * Flavanoids: Concentração de flavonoides.
  * Nonflavanoid Phenols: Concentração de fenóis não flavonoides.
  * Proanthocyanins: Concentração de proantocianidinas.
  * Color Intensity: Intensidade de cor.
  * Hue: Matiz (tom) do vinho.
  * OD280/OD315 of Diluted Wines: Razão entre a absorvância de 280 nm e 315 nm.
  * Proline: Concentração de proline (aminoácido).
  * Classes: O conjunto de dados Wine possui três classes, que representam as três variedades de vinho: 1, 2 e 3.

O conjunto de dados Wine é frequentemente utilizado para tarefas de classificação, onde algoritmos de aprendizado de máquina são aplicados para prever a variedade do vinho com base em suas características químicas.

####  *Adições Unidade 3*:
-  **Nessa unidade, em cada etapa houve uma melhora nos dados anteriormente apresentados e foram acrescentadas as seguintes análises:**

   - **Etapa 2: Histograma para cada atributo**: Foi plotado histograma para o atributo "alcohol", a fim de visualizar a distribuição dos valores presentes. No intuito de ajudar a identificar a assimetria nos dados e entender melhor sua distribuição, podendo ser feito em qualquer atributo presente no conjunto de dados.
   
   - **Etapa 3: Amostragem estratificada**: Além da amostra aleatória simples e amostra aleatória sistemática já realizada, foi adicionado a amostragem estratificada. Essa técnica garante que as amostras sejam selecionadas proporcionalmente em relação às diferentes classes de vinho (variáveis de resposta). Isso pode ajudar a garantir que todas as classes sejam representadas de forma adequada na amostra.

   - **Etapa 4: Intervalo de confiança para a média de um atributo**: É possível calcular intervalos de confiança para a média de cada atributo do conjunto de dados. Isso fornecerá uma estimativa da faixa em que a média verdadeira do atributo pode estar com um certo nível de confiança.

   - **Etapa 5: Validação cruzada**: Além de ajustar o modelo de regressão linear usando statsmodels, é possível realizar validação cruzada para avaliar o desempenho do modelo. Isso envolve dividir o conjunto de dados em várias partes (folds), treinar e avaliar o modelo em diferentes combinações dessas partes. Isso fornecerá uma estimativa mais robusta do desempenho do modelo.

   - **Etapa 7: Avaliação da qualidade do agrupamento**: Além de plotar os clusters e as médias dos atributos por cluster, é possível avaliar a qualidade do agrupamento usando métricas como o índice de silhueta. Isso ajudará a determinar quão bem os dados foram agrupados e se os clusters são distintos e bem separados. 

### 2.  **Análise Descritiva**

#### Resumo estatístico dos dados:

In [None]:
# Importação das bibliotecas necessárias
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import statsmodels.api as sm
import numpy as np
from scipy import stats
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score

In [None]:
# Carregar o conjunto de dados Wine do UCI Machine Learning Repository
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data"
nomes_colunas = ['class', 'alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 
                 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
dados = pd.read_csv(url, header=None, names=nomes_colunas)

# Exibir as primeiras linhas do conjunto de dados
dados.head()

In [None]:
# Resumo estatístico dos atributos
dados.describe()

In [None]:
# Exibir o número de linhas da quantidade de vinhos
print("Número de linhas:", len(dados))

In [None]:
# Contagem de classes
dados['class'].value_counts()

#### Identificação de valores ausentes ou discrepantes (outliers) nos dados.

In [None]:
# Verificar valores ausentes
print(dados.isnull().sum())

#### Visualização gráfica dos dados:

In [None]:
# Gráfico de barras da contagem de classes
dados['class'].value_counts().plot(kind='bar')
plt.xlabel('Classe')
plt.ylabel('Contagem')
plt.title('Contagem de Classes no Conjunto de Dados Wine')
plt.show()

In [None]:
# Adição Unidade 3
# Histograma do atributo "alcohol" por classe de vinho
plt.figure(figsize=(10, 6))
for class_label in range(1, 4):
    plt.hist(dados[dados['class'] == class_label]['alcohol'], bins=10, alpha=0.5, label=f'Class {class_label}')
plt.xlabel('Alcohol')
plt.ylabel('Frequência')
plt.title('Histograma do Atributo Alcohol por Classe de Vinho')
plt.legend()
plt.show()

In [None]:
# Gráfico de dispersão entre o teor alcoólico e a intensidade de cor
plt.figure(figsize=(8, 6))
sns.scatterplot(data=dados, x='alcohol', y='color_intensity', hue='class')
plt.xlabel('Teor Alcoólico')
plt.ylabel('Intensidade de Cor')
plt.title('Relação entre Teor Alcoólico e Intensidade de Cor')
plt.show()

In [None]:
# Adição Unidade 3
# Gráfico de dispersão entre o atributo "flavanoids" e "color_intensity" por classe de vinho
plt.figure(figsize=(10, 6))
for class_label in range(1, 4):
    class_data = dados[dados['class'] == class_label]
    plt.scatter(class_data['flavanoids'], class_data['color_intensity'], label=f'Class {class_label}')
plt.xlabel('Flavanoids')
plt.ylabel('Color Intensity')
plt.title('Gráfico de Dispersão entre Flavanoids e Color Intensity por Classe de Vinho')
plt.legend()
plt.show()

In [None]:
# Boxplot dos atributos por classe de vinho
plt.figure(figsize=(12, 8))
sns.boxplot(x='class', y='alcohol', data=dados)
plt.xlabel('Classe de Vinho')
plt.ylabel('Teor Alcoólico')
plt.title('Distribuição do Teor Alcoólico por Classe de Vinho')
plt.show()

In [None]:
# Matriz de correlação
plt.figure(figsize=(10, 8))
correlation_matrix = dados.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlação entre os Atributos')
plt.show()


### 3. **Amostragem**

#### Amostra aleatória simples:

* Estima quantidades da variável "classe" do vinho usando amostras aleatórias simples de tamanhos variáveis e compara essas estimativas com o valor real.

In [None]:
# Definir o tamanho das amostras
tamanhos_amostra = [10, 50, 100, 150, 200, 250, 300, 400, 500, 600, 700, 750, 800, 900, 1000]

# Calcular a estimativa da média das classes para cada tamanho de amostra
estimativas = []
for tamanho in tamanhos_amostra:
    amostra = dados.sample(n=tamanho)
    estimativa_media = amostra['class'].mean()
    estimativas.append(estimativa_media)

# Calcular o valor real da média da classe
valor_real = dados['class'].mean()

# Plotar as estimativas e o valor real
plt.figure(figsize=(8, 6))
plt.plot(tamanhos_amostra, estimativas, marker='o', label='Estimativas')
plt.axhline(y=valor_real, color='red', linestyle='--', label='Valor Real')
plt.xlabel('Tamanho da Amostra')
plt.ylabel('Estimativa da Média da Classe')
plt.title('Estimativas da Média da Classe vs Valor Real')
plt.legend()
plt.show()

#### Amostra aleatória sistemática:

Estima quantidades da variável "classe" do vinho usando amostras aleatórias sistemáticas de tamanhos variáveis e compara essas estimativas com o valor real.

In [None]:
# Definir o tamanho das amostras
tamanhos_amostra = [10, 50, 100, 150, 200, 250, 300, 400, 500, 600, 700, 750, 800, 900, 1000]

# Calcular a estimativa da média das classes para cada tamanho de amostra
estimativas = []
for tamanho in tamanhos_amostra:
    # Calcular o passo
    passo = len(dados) // tamanho
    
    # Gerar os índices das amostras sistemáticas
    indices_amostra = np.arange(0, len(dados), passo)
    
    # Obter as amostras sistemáticas
    amostra = dados.loc[indices_amostra]
    
    estimativa_media = amostra['class'].mean()
    estimativas.append(estimativa_media)

# Calcular o valor real da média da classe
valor_real = dados['class'].mean()

# Plotar as estimativas e o valor real
plt.figure(figsize=(8, 6))
plt.plot(tamanhos_amostra, estimativas, marker='o', label='Estimativas')
plt.axhline(y=valor_real, color='red', linestyle='--', label='Valor Real')
plt.xlabel('Tamanho da Amostra')
plt.ylabel('Estimativa da Média da Classe')
plt.title('Estimativas da Média da Classe vs Valor Real')
plt.legend()
plt.show()


#### Amostragem Estratificada:

Nesta etapa, é adicionado uma análise utilizando o método de amostragem estratificada, que é uma forma de amostragem que mantém a proporção das classes no conjunto de dados original.

In [None]:
# Adição Unidade 3
# Realizar amostragem estratificada
amostra_estratificada = dados.groupby('class', group_keys=False).apply(lambda x: x.sample(n=50))

# Exibir as primeiras linhas da amostra estratificada
amostra_estratificada.head()


### 4.  **Estimação**

In [None]:
# Adição Unidade 3
# Calcular a média do atributo "alcohol" por classe de vinho
media_por_classe = dados.groupby('class')['alcohol'].mean()

# Calcular o desvio padrão do atributo "alcohol" por classe de vinho
desvio_padrao_por_classe = dados.groupby('class')['alcohol'].std()

# Exibir as médias e desvios padrão por classe
for class_label in range(1, 4):
    print(f'Classe {class_label}:')
    print(f'Média: {media_por_classe[class_label]:.2f}')
    print(f'Desvio Padrão: {desvio_padrao_por_classe[class_label]:.2f}')
    print()

In [None]:
# Estimativas pontuais
mean_alcohol = np.mean(dados['alcohol'])
proportion_class_1 = len(dados[dados['class'] == 1]) / len(dados)

In [None]:
# Intervalos de confiança
confidence_interval_mean = stats.t.interval(0.95, len(dados)-1, loc=mean_alcohol, scale=stats.sem(dados['alcohol']))
confidence_interval_proportion = stats.proportion_confint(len(dados[dados['class'] == 1]), len(dados))

In [None]:
# Interpretação dos resultados
print('Intervalo de confiança para a média de alcohol:', confidence_interval_mean)
print('Intervalo de confiança para a proporção da classe 1:', confidence_interval_proportion)

In [None]:
# Resumo estatístico
print(dados.describe())

### 5. **Modelagem dos dados**

##### Vamos considerar a tarefa de prever a classe do vinho com base em seus atributos. 
##### Vamos utilizar a regressão linear como modelo para essa análise. 

In [None]:
# Selecionar os atributos para a modelagem
atributos = ['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 
                 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']

In [None]:

# Adicionar a coluna de interceptação
dados['intercept'] = 1

In [None]:
# Definir as variáveis dependentes e independentes
X = dados[atributos]
y = dados['class']

In [None]:
# Ajustar o modelo de regressão linear usando statsmodels
modelo = sm.OLS(y, X)
resultado = modelo.fit()

In [None]:
# Imprimir um resumo dos resultados
print(resultado.summary())

In [None]:
# Calcular o R2
r2 = resultado.rsquared
print("R2:", r2)

In [None]:
# Análise de resíduos
residuos = resultado.resid
plt.figure(figsize=(8, 6))
sns.scatterplot(x=resultado.fittedvalues, y=residuos)
plt.xlabel('Valores ajustados')
plt.ylabel('Resíduos')
plt.title('Análise de Resíduos')
plt.show()

##### Vamos adicionar uma análise utilizando o algoritmo de classificação Random Forest para prever a classe do vinho com base nos atributos.

In [None]:
# Adição Unidade 3
# Separar os atributos e a classe
X = dados.drop('class', axis=1)
y = dados['class']

In [None]:
# Dividir os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

In [None]:
# Criar o modelo de Random Forest
rf = RandomForestClassifier(random_state=1)

In [None]:
# Treinar o modelo
rf.fit(X_train, y_train)

In [None]:
# Fazer previsões no conjunto de teste
y_pred = rf.predict(X_test)

In [None]:
# Avaliar o modelo
print(classification_report(y_test, y_pred))

### 6.  **Conclusão**

#### Resultados Obtidos:
* Em síntese, pode-se hipotetizar que existe uma relação entre os atributos químicos (como teor alcoólico, concentração de compostos fenólicos, acidez, intensidade de cor, entre outros) e a variedade do vinho. Essa relação pode ser utilizada para classificar corretamente as amostras de vinho em suas respectivas variedades.
* As diferentes variedades de vinho (classes 1, 2 e 3) podem apresentar diferenças distintas em termos de suas características químicas. Por exemplo, é possível que uma determinada variedade de vinho tenha um teor alcoólico mais elevado em comparação com as outras variedades, enquanto outra variedade possa ter uma maior concentração de compostos fenólicos. Essas diferenças nas características químicas podem ser exploradas para a classificação das amostras de vinho.
* A alcalinidade das cinzas pode ser um atributo relevante para a classificação das amostras de vinho. Pode-se hipotetizar que determinadas variedades de vinho possuam cinzas com maior alcalinidade, enquanto outras variedades apresentem níveis mais baixos de alcalinidade das cinzas.
* É possível que exista uma correlação entre o teor alcoólico do vinho e a concentração de compostos fenólicos. Por exemplo, amostras de vinho com teor alcoólico mais elevado podem apresentar uma concentração de compostos fenólicos também maior. Essa correlação pode ser investigada para obter informações adicionais sobre as características químicas das amostras de vinho.

#### Possíveis limitações
* Não foi encontrado nenhuma incongruência no conjunto de dados.
* Não aprensentam tantos dados sensoriais, em sua maioria trata apenas de dados quimicos.

#### Sugestões gerais
* Pesquisas em relação ao tratamento do teor alcoólico em detrimento a acidez do produto, para possibilitar bebidas com predominância alcalina mesmo que alcoólica.

#### Sugestões para os dados
* O caso pode ser alimentar o conjunto de dados com conteúdos e colunas que tenham foco no sensorial em relação ao temporal, como por exemplo, quanto maior o tempo, a acidez muda, ou então o gosto em si e a recepção pelas papilas gustativas a partir de pesquisas.

## Etapa 2 - Cluster

In [None]:
# Importando as bibliotecas necessárias
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import statsmodels.api as sm
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import confusion_matrix, classification_report, silhouette_score
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA

In [None]:
# Carregar o conjunto de dados Wine do UCI Machine Learning Repository
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data"
colunas = ['class', 'alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 
                 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
dados = pd.read_csv(url, header=None, names=colunas)

# Exibir as primeiras linhas do conjunto de dados
dados.head()

In [None]:
# Padronizar os dados
scaler = StandardScaler()
dados_padronizados = scaler.fit_transform(dados)

# Determinar o número de clusters
k = 3

# Realizar o agrupamento com o algoritmo K-means
kmeans = KMeans(n_clusters=k, random_state=1)
clusters = kmeans.fit_predict(dados_padronizados)

In [None]:
# Adicionar a coluna de cluster aos dados
dados['cluster'] = clusters

In [None]:
# Adição Unidade 3
# Calcular o índice de silhueta para o agrupamento
silhouette_avg = silhouette_score(dados_padronizados, clusters)
print(f'Índice de Silhueta Médio: {silhouette_avg:.2f}')

In [None]:
# Reduzir a dimensionalidade dos dados para visualização
pca = PCA(n_components=2)
dados_reduzidos = pca.fit_transform(dados_padronizados)

In [None]:
# Plotar os clusters
plt.figure(figsize=(8, 6))
for cluster in range(k):
    cluster_data = dados_reduzidos[dados['cluster'] == cluster]
    plt.scatter(cluster_data[:, 0], cluster_data[:, 1], label=f'Cluster {cluster}')
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.title('Análise de Cluster')
plt.legend()
plt.show()

In [None]:
# Calcular as médias dos atributos por cluster
means = dados.groupby('cluster').mean()

print("\nMédias dos grupos:")
print(means)

In [None]:
# Plotar as médias dos atributos por cluster
plt.figure(figsize=(10, 6))
means_transposed = means.transpose()
means_transposed.plot(kind='bar')
plt.xlabel('Atributo')
plt.ylabel('Média')
plt.title('Médias dos Atributos por Cluster')
plt.legend(title='Cluster')
plt.xticks(rotation=45)
plt.show()

In [None]:
# Plotar os boxplots das médias dos atributos por cluster
plt.figure(figsize=(10, 6))
dados_boxplot = dados.copy()
dados_boxplot['cluster'] = dados_boxplot['cluster'].astype('category')
dados_boxplot = pd.melt(dados_boxplot, id_vars='cluster', value_vars=colunas[:-1], var_name='Atributo', value_name='Valor')
plt.xticks(rotation=45)
plt.title('Boxplots das Médias dos Atributos por Cluster')
plt.xlabel('Atributo')
plt.ylabel('Valor')
plt.ylim(dados[colunas[:-1]].min().min() - 1, dados[colunas[:-1]].max().max() + 1)
plt.grid(axis='y')
plt.boxplot([dados_boxplot[dados_boxplot['cluster'] == c]['Valor'] for c in range(k)], labels=[f'Cluster {c}' for c in range(k)])
plt.show()

In [None]:
# Contar o número de amostras em cada cluster
cluster_counts = dados['cluster'].value_counts()

In [None]:
# Plotar o número de amostras por cluster
plt.figure(figsize=(8, 6))
plt.bar(cluster_counts.index, cluster_counts.values)
plt.xlabel('Cluster')
plt.ylabel('Número de Amostras')
plt.title('Número de Amostras por Cluster')
plt.xticks(cluster_counts.index)
plt.show()