In [13]:
# projeto machine learning

# analisando uma base de vinhos para treinar um modelo que identifica o tipo de vinho (tinto ou branco) com base em 12 características

import pandas as pd


# 1. leitura dos dados
# lendo dados de vinhos (kaggle) https://www.kaggle.com/datasets/dell4010/wine-dataset

arquivo = pd.read_csv('https://storage.googleapis.com/kagglesdsdata/datasets/16721/22034/wine_dataset.csv?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20240603%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20240603T020035Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=3bf7a2b231505c7f1a2c8eddd5a9c8e134f72fbfdb898c9699466b58093a72a13cf330e0dbfd5d9c292397db2c002b95818dce4f0895664fcaec7cb2b89078b75584f259c89ca52f64e616a7d04ead885bd2750b33700ca041f4e81a83a9ba1459ff549750f2935ae94ac348c900c6712362b787983ab11f06b9940fd0b0da2043b0857fe5ab3557f2229c0c0fe13e0e7c284f19276eeff491940310586b56c2651ee868e49d506261fbbe525c5ba4ef30ee291e46aee7db59535c4cf20d06a1996f424dc297bc159cd2a869ce2ec949bd7401ff54838c23e398510eb628ebe0be33d02e221cfde14c88930eccd54cab506a876fdcdc2417e3834afed0fea3f1')
#arquivo = pd.read_csv('wine-dataset-metadata.json')
arquivo.head()

# 2. pre-processamento
# vamos usar a propriedade "style" como target, que define se o vinho em questão é tinto ou branco
# para isso transformando os valores "red" e "white" existentes na coluna "style" em numéricos (0 e 1 respectivamente)
# usaremos todas as outras propriedades como variáveis preditoras.

arquivo['style'] = arquivo['style'].replace('red', 0)
arquivo['style'] = arquivo['style'].replace('white', 1)

y = arquivo['style']
x = arquivo.drop('style', axis = 1)

# dividindo aleatoriamente os dados em grupos de teste (30%) e treino (70%)

from sklearn.model_selection import train_test_split

x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.3)
print(arquivo.shape, x_treino.shape, x_teste.shape, y_treino.shape, y_teste.shape)

# 3. machine learning
# vamos usar o algoritmo "ExtraTrees", que cria várias árvores de decisão.
# estamos trabalhando em um problema de classificação então utilizaremos a função "ExtraTreesClassifier()".

# no método "fit" passamos as variáveis preditoras e a variável target, para que ele entenda a relação entre estes dados e chegue ao modelo ideal
# no método "score" passamos os dados de teste, para que possam avaliar seu desempenho

from sklearn.ensemble import ExtraTreesClassifier

modelo = ExtraTreesClassifier()
modelo.fit(x_treino, y_treino)

resultado = modelo.score(x_teste, y_teste)
print("Acurácia:", resultado)

# acurácia superior a 99% indica que praticamente em todos os testes realizados o modelo acertou sua previsão, se é tinto ou branco

# 4. usando o modelo, testando 5 amostras

y_teste[360:365]
print(x_teste[360:365])
print(y_teste[360:365])

previsoes = modelo.predict(x_teste[360:365])
print(previsoes)



(6497, 13) (4547, 12) (1950, 12) (4547,) (1950,)
Acurácia: 0.9984615384615385
      fixed_acidity  volatile_acidity  citric_acid  residual_sugar  chlorides  \
4509            6.1             0.370         0.20             7.6      0.031   
3629            9.5             0.420         0.41             2.3      0.034   
2168            6.5             0.280         0.27             5.2      0.040   
2474            7.1             0.210         0.32             2.2      0.037   
600             8.2             0.915         0.27             2.1      0.088   

      free_sulfur_dioxide  total_sulfur_dioxide  density    pH  sulphates  \
4509                 49.0                 170.0  0.99558  3.22       0.48   
3629                 22.0                 145.0  0.99510  3.06       0.52   
2168                 44.0                 179.0  0.99480  3.19       0.69   
2474                 28.0                 141.0  0.99300  3.20       0.57   
600                   7.0                  23.0  0