# O objetivo dessa tarefa é aprender aplicar vários métodos de classificação sobre os dados de Íris, usando o pacote scikit-learn.

 Obtenha os dados de propriedades de sementes de três variedades diferentes de trigo do site OpenML. Os dados possuem 210 instâncias com 8 atributos cada. Analise os argumentos fornecidos, os tipos deles e classes definidas.

In [17]:
from scipy.io import arff

# Carregar o arquivo ARFF
dados, meta = arff.loadarff('phpPrh7lv.arff')

# Converter para um DataFrame do Pandas
import pandas as pd

df = pd.DataFrame(dados)

# Mostrar as primeiras linhas para verificar se os dados foram carregados corretamente
print(df.head())



      V1     V2      V3     V4     V5     V6     V7 Class
0  15.26  14.84  0.8710  5.763  3.312  2.221  5.220  b'1'
1  14.88  14.57  0.8811  5.554  3.333  1.018  4.956  b'1'
2  14.29  14.09  0.9050  5.291  3.337  2.699  4.825  b'1'
3  13.84  13.94  0.8955  5.324  3.379  2.259  4.805  b'1'
4  16.14  14.99  0.9034  5.658  3.562  1.355  5.175  b'1'


In [19]:
# Listar os nomes das colunas
print("Nomes das colunas:")
print(df.columns)


Nomes das colunas:
Index(['V1', 'V2', 'V3', 'V4', 'V5', 'V6', 'V7', 'Class'], dtype='object')


In [20]:
# Verificar as classes definidas no conjunto de dados
classes_definidas = df['Class'].unique()
print("\nClasses definidas:")
print(classes_definidas)



Classes definidas:
[b'1' b'2' b'3']


In [21]:
# Mostrar informações básicas sobre o DataFrame
print("Informações sobre os dados:")
print(df.info())

# Mostrar estatísticas descritivas dos dados numéricos
print("\nEstatísticas descritivas dos dados:")
print(df.describe())

# Verificar os primeiros registros do DataFrame para entender a estrutura dos dados
print("\nPrimeiras linhas do DataFrame:")
print(df.head())

# Mostrar os tipos de dados de cada coluna
print("\nTipos de dados de cada coluna:")
print(df.dtypes)

# Verificar as classes definidas no conjunto de dados
classes_definidas = df['Class'].unique()
print("\nClasses definidas:")
print(classes_definidas)


Informações sobre os dados:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 210 entries, 0 to 209
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   V1      210 non-null    float64
 1   V2      210 non-null    float64
 2   V3      210 non-null    float64
 3   V4      210 non-null    float64
 4   V5      210 non-null    float64
 5   V6      210 non-null    float64
 6   V7      210 non-null    float64
 7   Class   210 non-null    object 
dtypes: float64(7), object(1)
memory usage: 13.2+ KB
None

Estatísticas descritivas dos dados:
               V1          V2          V3          V4          V5          V6  \
count  210.000000  210.000000  210.000000  210.000000  210.000000  210.000000   
mean    14.847524   14.559286    0.870999    5.628533    3.258605    3.700201   
std      2.909699    1.305959    0.023629    0.443063    0.377714    1.503557   
min     10.590000   12.410000    0.808100    4.899000    2.630000    0.765100  

**Tamanho do conjunto de dados:** Possui 210 entradas e 8 colunas.

**Tipos de dados:** A maioria das colunas contém valores numéricos do tipo float64, exceto a coluna 'Class', que parece conter valores de texto (tipo object).

**Estatísticas descritivas:** As colunas numéricas (V1 a V7) possuem médias, desvios padrão, valores mínimos, valores máximos e quartis variados, indicando diferentes escalas e distribuições entre elas.

**Primeiras linhas do DataFrame:** Apresentam os valores das sete primeiras colunas e a coluna 'Class', que contém as classes identificadas como b'1', b'2' e b'3'.

2. Pré-processamento de dados:
  - Verifique se todas as instâncias possuem valores, e se for o caso remove instâncias com valores ausentes.
  - Realize a normalização de atributos para o mesmo intervalo [0.0, 1.0].


In [24]:
from sklearn.impute import SimpleImputer

# Verificar se há valores ausentes por coluna
print("Valores ausentes por coluna:")
print(df.isnull().sum())

# Não há valores ausentes no conjunto de dados
# Se houvesse, poderíamos usar um SimpleImputer para lidar com valores ausentes

# Separar os atributos e as classes
X = df.drop('Class', axis=1)  # Atributos
y = df['Class']  # Classes



Valores ausentes por coluna:
V1       0
V2       0
V3       0
V4       0
V5       0
V6       0
V7       0
Class    0
dtype: int64


Parece que não há valores ausentes por instância, já que o número de valores ausentes por instância é zero para todas as entradas e o número de instâncias permanece o mesmo (210) após a remoção de valores ausentes. Isso significa que não precisamos remover nenhuma instância devido a valores ausentes, pois todas as instâncias possuem valores completos.

Vamos prosseguir com a normalização dos atributos para o intervalo [0.0, 1.0]:

In [25]:
from sklearn.preprocessing import MinMaxScaler

# Realizar a normalização dos atributos
scaler = MinMaxScaler()
X_normalized = scaler.fit_transform(X)

# Criar um novo DataFrame com os atributos normalizados
df_normalized = pd.DataFrame(X_normalized, columns=X.columns)

# Adicionar a coluna 'Class' ao DataFrame normalizado
df_normalized['Class'] = y.values

# Mostrar as primeiras linhas do DataFrame normalizado
print("\nPrimeiras linhas do DataFrame normalizado:")
print(df_normalized.head())



Primeiras linhas do DataFrame normalizado:
         V1        V2        V3        V4        V5        V6        V7 Class
0  0.440982  0.502066  0.570780  0.486486  0.486101  0.189302  0.345150  b'1'
1  0.405099  0.446281  0.662432  0.368806  0.501069  0.032883  0.215165  b'1'
2  0.349386  0.347107  0.879310  0.220721  0.503920  0.251453  0.150665  b'1'
3  0.306893  0.316116  0.793103  0.239302  0.533856  0.194243  0.140817  b'1'
4  0.524079  0.533058  0.864791  0.427365  0.664291  0.076701  0.322994  b'1'


As primeiras linhas do DataFrame normalizado df_normalized mostram os atributos padronizados dentro do intervalo [0.0, 1.0]. A última coluna, 'Class', parece não ter sido afetada pela normalização, o que é esperado, pois trata-se das classes originais.

Cada linha representa uma instância com os atributos normalizados, enquanto a coluna 'Class' mantém os rótulos originais.

Se precisar de mais alguma etapa ou análise específica, estou à disposição para ajudar!

3. Separe 200 instâncias aleatoriamente como os dados de treino, e últimas 10 como dados de teste.

In [26]:
from sklearn.model_selection import train_test_split

# Separar 200 instâncias aleatórias como dados de treino e as últimas 10 como dados de teste
X_train, X_test, y_train, y_test = train_test_split(X_normalized, y, train_size=200, test_size=10, shuffle=True, random_state=42)

# Mostrar os tamanhos dos conjuntos de treino e teste
print("Tamanho do conjunto de treino:", len(X_train))
print("Tamanho do conjunto de teste:", len(X_test))


Tamanho do conjunto de treino: 200
Tamanho do conjunto de teste: 10


# Método de Árvore de Decisão:

In [28]:
print(type(y_train))


<class 'pandas.core.series.Series'>


In [29]:
y_train = y_train.astype(str)


In [33]:
# Verificar as classes únicas nos conjuntos de treino e teste
print("Classes únicas em y_train:", y_train.unique())
print("Classes únicas em y_test:", y_test.unique())


Classes únicas em y_train: ["b'2'" "b'3'" "b'1'"]
Classes únicas em y_test: [b'1' b'3' b'2']


In [34]:
# Converter os rótulos do conjunto de teste para o mesmo formato das classes no conjunto de treino
y_test = y_test.astype(str)

# Codificar novamente os rótulos para um formato numérico
label_encoder = LabelEncoder()
y_train_encoded = label_encoder.fit_transform(y_train)
y_test_encoded = label_encoder.transform(y_test)

# Treinar o classificador com os rótulos codificados
clf_dt.fit(X_train, y_train_encoded)
y_pred_encoded = clf_dt.predict(X_test)

# Calcular a acurácia usando os rótulos codificados
accuracy_dt_encoded = accuracy_score(y_test_encoded, y_pred_encoded)
print("Acurácia da Árvore de Decisão:", accuracy_dt_encoded)





Acurácia da Árvore de Decisão: 0.9


A acurácia de 90% no modelo de Árvore de Decisão nos dados de teste é um bom sinal. Isso significa que o modelo foi capaz de prever corretamente as classes para a maioria das instâncias no conjunto de teste.

# Metodo Bayesiniado

In [35]:
from sklearn.naive_bayes import GaussianNB

# Inicializar e treinar o classificador Bayesiano
clf_bayes = GaussianNB()
clf_bayes.fit(X_train, y_train_encoded)

# Fazer previsões no conjunto de teste
y_pred_bayes = clf_bayes.predict(X_test)

# Calcular a acurácia do Método Bayesiano
accuracy_bayes = accuracy_score(y_test_encoded, y_pred_bayes)
print("Acurácia do Método Bayesiano:", accuracy_bayes)


Acurácia do Método Bayesiano: 0.7


# Método de Vetores de Suporte (SVM):

In [36]:
from sklearn.svm import SVC

# Inicializar e treinar o classificador SVM
clf_svm = SVC(kernel='linear', random_state=42)
clf_svm.fit(X_train, y_train_encoded)

# Fazer previsões no conjunto de teste
y_pred_svm = clf_svm.predict(X_test)

# Calcular a acurácia do SVM
accuracy_svm = accuracy_score(y_test_encoded, y_pred_svm)
print("Acurácia do SVM:", accuracy_svm)

Acurácia do SVM: 0.8


# Previsões para as 10 instâncias de teste:

**Árvore de Decisão:**

In [37]:
# Previsões usando Árvore de Decisão
predictions_dt = clf_dt.predict(X_test)
print("Previsões da Árvore de Decisão:", predictions_dt)


Previsões da Árvore de Decisão: [0 2 1 0 0 2 0 2 0 2]


**Método Bayesiano:**

In [38]:
# Previsões usando Método Bayesiano
predictions_bayes = clf_bayes.predict(X_test)
print("Previsões do Método Bayesiano:", predictions_bayes)


Previsões do Método Bayesiano: [0 2 1 0 2 2 0 2 1 2]


**Método de Vetores de Suporte (SVM):**

In [39]:
# Previsões usando SVM
predictions_svm = clf_svm.predict(X_test)
print("Previsões do SVM:", predictions_svm)


Previsões do SVM: [0 2 1 0 2 2 0 2 0 2]


# Verifique a acurácia de classificação para os três métodos usando as classes fornecidas junto com os dados medida como o número de instâncias com classes corretas dividido por o número de instâncias de teste.

**Árvore de Decisão:**

In [40]:
accuracy_dt_test = accuracy_score(y_test_encoded, predictions_dt)
print("Acurácia da Árvore de Decisão nos dados de teste:", accuracy_dt_test)


Acurácia da Árvore de Decisão nos dados de teste: 0.9


**Método Bayesiano:**

In [41]:
accuracy_bayes_test = accuracy_score(y_test_encoded, predictions_bayes)
print("Acurácia do Método Bayesiano nos dados de teste:", accuracy_bayes_test)


Acurácia do Método Bayesiano nos dados de teste: 0.7


**Método de Vetores de Suporte (SVM):**

In [42]:
accuracy_svm_test = accuracy_score(y_test_encoded, predictions_svm)
print("Acurácia do SVM nos dados de teste:", accuracy_svm_test)


Acurácia do SVM nos dados de teste: 0.8
