## Probabilidade e Inferência - Análise e Amostra de Dados
### João Eduardo Braga

### 1.   **Introdução**

##### O conjunto de dados Wine é um conjunto de dados clássico disponível no [UCI Machine Learning Repository](https://archive.ics.uci.edu).

##### Ele contém informações principalmente químicas e sensoriais de vinhos.

#### Informações sobre o conjunto de dados Wine:

* Origem: O conjunto de dados Wine foi obtido a partir de uma pesquisa realizada em um laboratório de análise química na Itália.
* Descrição: O conjunto de dados contém 178 amostras de vinhos, onde cada amostra é descrita por 13 atributos químicos. Os atributos incluem teor alcoólico, acidez, concentração de compostos fenólicos, intensidade de cor, entre outros. Além disso, cada amostra é rotulada com uma classe, indicando a variedade do vinho (1, 2 ou 3).
* Objetivo: O objetivo do conjunto de dados é classificar as amostras de vinho em suas respectivas variedades com base nas informações químicas fornecidas.
* Atributos: Os atributos do conjunto de dados Wine são:
  * Alcohol: Teor alcoólico do vinho.
  * Malic Acid: Ácido málico presente no vinho.
  * Ash: Cinzas resultantes da queima.
  * Alcalinity of Ash: Alcalinidade das cinzas.
  * Magnesium: Quantidade de magnésio presente.
  * Total Phenols: Concentração total de compostos fenólicos.
  * Flavanoids: Concentração de flavonoides.
  * Nonflavanoid Phenols: Concentração de fenóis não flavonoides.
  * Proanthocyanins: Concentração de proantocianidinas.
  * Color Intensity: Intensidade de cor.
  * Hue: Matiz (tom) do vinho.
  * OD280/OD315 of Diluted Wines: Razão entre a absorvância de 280 nm e 315 nm.
  * Proline: Concentração de proline (aminoácido).
  * Classes: O conjunto de dados Wine possui três classes, que representam as três variedades de vinho: 1, 2 e 3.

O conjunto de dados Wine é frequentemente utilizado para tarefas de classificação, onde algoritmos de aprendizado de máquina são aplicados para prever a variedade do vinho com base em suas características químicas.

### 2.  **Análise Descritiva**

#### Resumo estatístico dos dados:

In [None]:
# Importação das bibliotecas necessárias
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import statsmodels.api as sm
import numpy as np
from scipy import stats
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score

In [None]:
# Carregar o conjunto de dados Wine do UCI Machine Learning Repository
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data"
nomes_colunas = ['class', 'alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 
                 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
dados = pd.read_csv(url, header=None, names=nomes_colunas)

# Exibir as primeiras linhas do conjunto de dados
dados.head()

In [None]:
# Resumo estatístico dos atributos
dados.describe()

In [None]:
# Exibir o número de linhas da quantidade de vinhos
print("Número de linhas:", len(dados))

In [None]:
# Contagem de classes
dados['class'].value_counts()

#### Identificação de valores ausentes ou discrepantes (outliers) nos dados.

In [None]:
# Verificar valores ausentes
print(dados.isnull().sum())

#### Visualização gráfica dos dados:

In [None]:
# Gráfico de barras da contagem de classes
dados['class'].value_counts().plot(kind='bar')
plt.xlabel('Classe')
plt.ylabel('Contagem')
plt.title('Contagem de Classes no Conjunto de Dados Wine')
plt.show()

In [None]:
# Gráfico de dispersão entre o teor alcoólico e a intensidade de cor
plt.figure(figsize=(8, 6))
sns.scatterplot(data=dados, x='alcohol', y='color_intensity', hue='class')
plt.xlabel('Teor Alcoólico')
plt.ylabel('Intensidade de Cor')
plt.title('Relação entre Teor Alcoólico e Intensidade de Cor')
plt.show()

In [None]:
# Boxplot dos atributos por classe de vinho
plt.figure(figsize=(12, 8))
sns.boxplot(x='class', y='alcohol', data=dados)
plt.xlabel('Classe de Vinho')
plt.ylabel('Teor Alcoólico')
plt.title('Distribuição do Teor Alcoólico por Classe de Vinho')
plt.show()

In [None]:
# Matriz de correlação
plt.figure(figsize=(10, 8))
correlation_matrix = dados.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlação entre os Atributos')
plt.show()


### 3. **Amostragem**

#### Amostra aleatória simples:

* Estima quantidades da variável "classe" do vinho usando amostras aleatórias simples de tamanhos variáveis e compara essas estimativas com o valor real.

In [None]:
# Definir o tamanho das amostras
tamanhos_amostra = [10, 50, 100, 150, 200, 250, 300, 400, 500, 600, 700, 750, 800, 900, 1000]

# Calcular a estimativa da média das classes para cada tamanho de amostra
estimativas = []
for tamanho in tamanhos_amostra:
    amostra = dados.sample(n=tamanho)
    estimativa_media = amostra['class'].mean()
    estimativas.append(estimativa_media)

# Calcular o valor real da média da classe
valor_real = dados['class'].mean()

# Plotar as estimativas e o valor real
plt.figure(figsize=(8, 6))
plt.plot(tamanhos_amostra, estimativas, marker='o', label='Estimativas')
plt.axhline(y=valor_real, color='red', linestyle='--', label='Valor Real')
plt.xlabel('Tamanho da Amostra')
plt.ylabel('Estimativa da Média da Classe')
plt.title('Estimativas da Média da Classe vs Valor Real')
plt.legend()
plt.show()

#### Amostra aleatória sistemática:

Estima quantidades da variável "classe" do vinho usando amostras aleatórias sistemáticas de tamanhos variáveis e compara essas estimativas com o valor real.

In [None]:
# Definir o tamanho das amostras
tamanhos_amostra = [10, 50, 100, 150, 200, 250, 300, 400, 500, 600, 700, 750, 800, 900, 1000]

# Calcular a estimativa da média das classes para cada tamanho de amostra
estimativas = []
for tamanho in tamanhos_amostra:
    # Calcular o passo
    passo = len(dados) // tamanho
    
    # Gerar os índices das amostras sistemáticas
    indices_amostra = np.arange(0, len(dados), passo)
    
    # Obter as amostras sistemáticas
    amostra = dados.loc[indices_amostra]
    
    estimativa_media = amostra['class'].mean()
    estimativas.append(estimativa_media)

# Calcular o valor real da média da classe
valor_real = dados['class'].mean()

# Plotar as estimativas e o valor real
plt.figure(figsize=(8, 6))
plt.plot(tamanhos_amostra, estimativas, marker='o', label='Estimativas')
plt.axhline(y=valor_real, color='red', linestyle='--', label='Valor Real')
plt.xlabel('Tamanho da Amostra')
plt.ylabel('Estimativa da Média da Classe')
plt.title('Estimativas da Média da Classe vs Valor Real')
plt.legend()
plt.show()



### 4.  **Estimação**

In [None]:
# Estimativas pontuais
mean_alcohol = np.mean(dados['alcohol'])
proportion_class_1 = len(dados[dados['class'] == 1]) / len(dados)

In [None]:
# Intervalos de confiança
confidence_interval_mean = stats.t.interval(0.95, len(dados)-1, loc=mean_alcohol, scale=stats.sem(dados['alcohol']))
confidence_interval_proportion = stats.proportion_confint(len(dados[dados['class'] == 1]), len(dados))

In [None]:
# Interpretação dos resultados
print('Intervalo de confiança para a média de alcohol:', confidence_interval_mean)
print('Intervalo de confiança para a proporção da classe 1:', confidence_interval_proportion)

In [None]:
# Resumo estatístico
print(dados.describe())

### 5. **Modelagem dos dados**


* Vamos considerar a tarefa de prever a classe do vinho com base em seus atributos. 
* Vamos utilizar a regressão linear como modelo para essa análise. 

In [None]:
# Selecionar os atributos para a modelagem
atributos = ['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 
                 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']

# Adicionar a coluna de interceptação
dados['intercept'] = 1

# Definir as variáveis dependentes e independentes
X = dados[atributos]
y = dados['class']

# Ajustar o modelo de regressão linear usando statsmodels
modelo = sm.OLS(y, X)
resultado = modelo.fit()

# Imprimir um resumo dos resultados
print(resultado.summary())

# Calcular o R2
r2 = resultado.rsquared
print("R2:", r2)

# Análise de resíduos
residuos = resultado.resid
plt.figure(figsize=(8, 6))
sns.scatterplot(x=resultado.fittedvalues, y=residuos)
plt.xlabel('Valores ajustados')
plt.ylabel('Resíduos')
plt.title('Análise de Resíduos')
plt.show()


### 6.  **Conclusão**

#### Resultados Obtidos:
* Em síntese, foram obtidos em sua maioria relações de cor e alcalinidade com menor teor alcólico e mais acidez conforme maior teor.
* Conforme a classe do vinho aumenta de 1-3 ele aparenta ter uma absorvência e concentração de flavonoides maiores.
* Aminoácidos parecem estar presente conforme a alcalinidade é crescente no vinho.

#### Possíveis limitações
* Não foi encontrado nenhuma incongruência no conjunto de dados.
* Não aprensentam tantos dados sensoriais, em sua maioria trata apenas de dados quimicos.

#### Sugestões gerais
* Pesquisas em relação ao tratamento do teor alcoólico em detrimento a acidez do produto, para possibilitar bebidas com predominância alcalina mesmo que alcoólica.

#### Sugestões para os dados
* O caso pode ser alimentar o conjunto de dados com conteúdos e colunas que tenham foco no sensorial em relação ao temporal, como por exemplo, quanto maior o tempo, a acidez muda, ou então o gosto em si e a recepção pelas papilas gustativas a partir de pesquisas.