<a href="https://colab.research.google.com/github/arrudacamila/Colab/blob/main/analise_de_dados_iris.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Exploração ou Análise de Dados**
Apoia a aprendizagem de máquina. É possível usar a estatística descritiva resumindo de forma quantitativa as principais características de um conjunto de dados. Informações que podem ser capturadas:
-Visualização em forma de tabela ou gráfico
-Frequência
-Localização ou tendência central
-Dispersão ou espalhamento
-Distribuição ou formato

In [None]:
# Instala a biblioteca apra gerar gráficos.
! pip install plotly --upgrade

In [None]:
#para organização dos dados em um dataframe e manipulação de listas
import pandas as pd
import numpy as np

#para os gráficos
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
#para acesso ao drive
from google.colab import drive

#para preparar os dados
from sklearn.model_selection import train_test_split #divisão dos dados para treinamento e teste
from sklearn.preprocessing import LabelEncoder   #para transformar Strings em números inteiros
from sklearn.preprocessing import StandardScaler #para a padronização dos dados

#para redes neurais
from sklearn.neural_network import MLPClassifier #rede neural
from sklearn.metrics import accuracy_score       #avaliação do modelo
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

#para gravar um modelo gerado por aprendizagem de máquina
from tensorflow.keras.models import load_model

# **Cria o acesso ao drive do google**

In [None]:
drive.mount('/content/drive')

In [None]:
#Abrir o arquivo
base = pd.read_csv('/content/drive/MyDrive/dados/Iris.csv')

In [None]:
#consulta o arquivo
base

In [None]:
base[base['Species']=='Iris-versicolor']

In [None]:
#consultar as 10 primeiras linhas
base.head(10)

In [None]:
#consultar as 10 últimas linhas
base.tail(10)

In [None]:
#consultar indicadores de estatística descritiva
base.describe()

In [None]:
#consultar o título das colunas
colunas = base.columns
colunas

In [None]:
#lista de valores sem repetição para as colunas de dados categóricos que sejam do tipo String
lista_tipo = set(base['Species'])
lista_tipo

In [None]:
#cria lista com variável numérica
sepalLen = base['SepalLengthCm'].tolist()
sepalLen.sort()
sepalLen

In [None]:
#cria lista com variável numérica
sepalWid = base['SepalWidthCm'].tolist()
sepalWid.sort()
sepalWid

In [None]:
#cria lista com variável numérica
petalLen = base['PetalLengthCm'].tolist()
petalLen.sort()
petalLen

In [None]:
#cria lista com variável numérica
petalWid = base['PetalWidthCm'].tolist()
petalWid.sort()
petalWid

O boxplot (gráfico de caixa) é uma representação gráfica que resume a distribuição de um conjunto de dados através de suas estatísticas descritivas principais: limite inferior, primeiro quartil (Q1), mediana (Q2), terceiro quartil (Q3) e limite superior. Durante as análises exploratórias de dados, ele ajuda a identificar padrões, tendências e anomalias, como outliers.

Componentes de um Boxplot
*   Caixa (Box): Representa o intervalo entre o primeiro quartil (Q1) e o terceiro quartil (Q3). A parte inferior da caixa corresponde a Q1 (25% dos dados), e a parte superior corresponde a Q3 (75% dos dados);
*   Mediana (Linha dentro da caixa): A linha no interior da caixa representa a mediana (Q2), que é o valor central dos dados (50%).

*   Bigodes (Whiskers): As linhas horizontais superior e inferior, também conhecidas como "Bigodes" são extensões que saem da caixa e mostram a variação dos dados fora dos quartis.
E os valores acima dos "Bigodes" são considerados outliers.
*   Outliers (Pontos fora dos bigodes): Os pontos que podem aparecer além dos limites dos bigodes são identificados como outliers que representam valores que desviam significativamente do padrão geral.

In [None]:
# Removendo valores NaN (se houver)
dados = [x for x in sepalLen if str(x) != 'nan']

# Plotando o boxplot
plt.figure(figsize=(8, 6))
plt.boxplot(dados)
plt.title('Boxplot dos dados')
plt.xlabel('Conjunto de dados')
plt.ylabel('Valores')
plt.grid(True)
plt.show()

In [None]:
# Removendo valores NaN (se houver)
dados = [x for x in sepalWid if str(x) != 'nan']

# Plotando o boxplot
plt.figure(figsize=(8, 6))
plt.boxplot(dados)
plt.title('Boxplot dos dados')
plt.xlabel('Conjunto de dados')
plt.ylabel('Valores')
plt.grid(True)
plt.show()

In [None]:
# Removendo valores NaN (se houver)
dados = [x for x in petalLen if str(x) != 'nan']

# Plotando o boxplot
plt.figure(figsize=(8, 6))
plt.boxplot(dados)
plt.title('Boxplot dos dados')
plt.xlabel('Conjunto de dados')
plt.ylabel('Valores')
plt.grid(True)
plt.show()

In [None]:
# Removendo valores NaN (se houver)
dados = [x for x in petalWid if str(x) != 'nan']

# Plotando o boxplot
plt.figure(figsize=(8, 6))
plt.boxplot(dados)
plt.title('Boxplot dos dados')
plt.xlabel('Conjunto de dados')
plt.ylabel('Valores')
plt.grid(True)
plt.show()

In [None]:
# Distribuição das variáveis
sns.histplot(base["Species"], kde=True)

In [None]:
# Definindo largura e altura da figura
plt.figure(figsize=(18, 6))
# Criando o countplot com seaborn, ajustando a largura da coluna (width) e ajustando o espaçamento entre as colunas (dodge)
grafico = sns.countplot(x=base['SepalLengthCm'], width=0.5, dodge=3.0)
# Definindo a fonte da legenda do eixo x
grafico.set_xticklabels(grafico.get_xticklabels(), fontdict={'fontsize': 10, 'fontweight': 'bold', 'fontfamily': 'serif'})
# Definindo a fonte da legenda do eixo y
grafico.set_yticklabels(grafico.get_yticklabels(), fontdict={'fontsize': 14, 'fontweight': 'bold', 'fontfamily': 'serif'})


In [None]:
# Definindo largura e altura da figura
plt.figure(figsize=(18, 6))
# Criando o countplot com seaborn, ajustando a largura da coluna (width) e ajustando o espaçamento entre as colunas (dodge)
grafico = sns.countplot(x=base['SepalWidthCm'], width=0.5, dodge=3.0)
# Definindo a fonte da legenda do eixo x
grafico.set_xticklabels(grafico.get_xticklabels(), fontdict={'fontsize': 10, 'fontweight': 'bold', 'fontfamily': 'serif'})
# Definindo a fonte da legenda do eixo y
grafico.set_yticklabels(grafico.get_yticklabels(), fontdict={'fontsize': 14, 'fontweight': 'bold', 'fontfamily': 'serif'})


In [None]:
# Definindo largura e altura da figura
plt.figure(figsize=(18, 6))
# Criando o countplot com seaborn, ajustando a largura da coluna (width) e ajustando o espaçamento entre as colunas (dodge)
grafico = sns.countplot(x=base['PetalLengthCm'], width=0.5, dodge=3.0)
# Definindo a fonte da legenda do eixo x
grafico.set_xticklabels(grafico.get_xticklabels(), fontdict={'fontsize': 10, 'fontweight': 'bold', 'fontfamily': 'serif'})
# Definindo a fonte da legenda do eixo y
grafico.set_yticklabels(grafico.get_yticklabels(), fontdict={'fontsize': 14, 'fontweight': 'bold', 'fontfamily': 'serif'})


In [None]:
# Definindo largura e altura da figura
plt.figure(figsize=(18, 6))
# Criando o countplot com seaborn, ajustando a largura da coluna (width) e ajustando o espaçamento entre as colunas (dodge)
grafico = sns.countplot(x=base['PetalWidthCm'], width=0.5, dodge=3.0)
# Definindo a fonte da legenda do eixo x
grafico.set_xticklabels(grafico.get_xticklabels(), fontdict={'fontsize': 10, 'fontweight': 'bold', 'fontfamily': 'serif'})
# Definindo a fonte da legenda do eixo y
grafico.set_yticklabels(grafico.get_yticklabels(), fontdict={'fontsize': 14, 'fontweight': 'bold', 'fontfamily': 'serif'})


In [None]:
grafico = px.scatter_matrix(base, dimensions=['SepalLengthCm','SepalWidthCm','PetalLengthCm','PetalWidthCm'])
grafico.show()

# Preparação de Dados

In [None]:
base.columns

In [None]:
# Remover a coluna 'Id'
base = base.drop('Id', axis=1)

In [None]:
base[(base['SepalWidthCm'] <= 4) & (base['SepalWidthCm'] >= 2.05)]

In [None]:
#remover outliers
base = base[(base['SepalWidthCm'] <= 4) & (base['SepalWidthCm'] >= 2.05)]

In [None]:
#a partir do dataframe, obtenho as colunas com as medidas
X_previsoras = base.iloc[:,0:4].values
y_saidas = base.iloc[:,4:5].values

In [None]:
X_previsoras

In [None]:
#Padronização
scaler = StandardScaler()
X_previsoras_padroniza = scaler.fit_transform(X_previsoras)

In [None]:
#codifica
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y_saidas)

#Rede Neural

In [None]:
# Dividir os dados em conjuntos de treino e teste
#X_train, X_test, y_train, y_test = train_test_split(X_previsoras_padroniza, y, test_size=0.3, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X_previsoras, y, test_size=0.3, random_state=42)

In [None]:
# Definir o modelo com sklearn
mlp = MLPClassifier(hidden_layer_sizes=(10, 10, 3), activation='relu', solver='adam', max_iter=1000, random_state=42)

# Treinar o modelo
mlp.fit(X_train, y_train)

# Fazer previsões do conjunto de teste
y_pred = mlp.predict(X_train)
# Avaliar o modelo
accuracy = accuracy_score(y_train, y_pred)
print(f'Acurácia no conjunto de treinamento: {accuracy * 100:.2f}%')


# Fazer previsões do conjunto de teste
y_pred = mlp.predict(X_test)
# Avaliar o modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia no conjunto de teste: {accuracy * 100:.2f}%')

# Exibir algumas previsões
print(f'Previsões: {y_pred[:30]}')
print(f'Reais: {y_test[:30]}')

# 3. Reverter a codificação dos valores preditos

# Reverter a codificação dos valores preditos
y_pred_original = label_encoder.inverse_transform(y_pred)

# Reverter a codificação dos valores reais de teste (opcional)
y_test_original = label_encoder.inverse_transform(y_test)

# Exibir previsões e valores reais
print(f'Previsões (decodificadas): {y_pred_original}')
print(f'Reais (decodificados): {y_test_original}')

# **Análise do Desempenho do Algoritmo**
Overfitting quando os modelo tem um desempenho muito bom com os dados de treinamento, mas possui um desempenho muito ruim nos dados de teste. Para resolver reduza a quantidade de neurônios ou camadas.

Underfitting quando o modelo não consegue generalizar os dados de treinamento então ele terá mau desempenho no conjunto de dados de treinamento. Para resolver aumente a quantidade de camadas ou neurônios.

**Ferramentas automatizadas para determinar o número de neurônios e camadas: Grid Search, Random Search e Otimização Bayesiana.**

In [None]:
# Criar a arquitetura da rede neural com tensorflow
model_RN = Sequential([
    Dense(6, input_shape=(4,), activation='relu'),  # Camada oculta com 10 neurônios
    Dense(10, activation='relu'),                    # Outra camada oculta com 10 neurônios
    Dense(3, activation='softmax')                   # Camada de saída com 3 neurônios (uma para cada classe)
])

# Compilar o modelo
model_RN.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# Treinar o modelo
model_RN.fit(X_train, y_train, epochs=100, validation_data=(X_test, y_test))

# Avaliar o modelo
loss, accuracy = model_RN.evaluate(X_train, y_train)
print(f'Acurácia no conjunto de treino: {accuracy * 100:.2f}%')
print(f'Perda no conjunto de treino: {loss * 100:.2f}%')

# Avaliar o modelo
loss, accuracy = model_RN.evaluate(X_test, y_test)
print(f'Acurácia no conjunto de teste: {accuracy * 100:.2f}%')


# Fazer previsões
y_pred = model_RN.predict(X_test)
y_pred_classes = y_pred.argmax(axis=1)

# Exibir algumas previsões
print(f'Previsões: {y_pred_classes[:10]}')
print(f'Reais: {y_test[:10]}')

# Reverter a codificação dos valores preditos
y_pred_original = label_encoder.inverse_transform(y_pred_classes)

# Reverter a codificação dos valores reais de teste (opcional)
y_test_original = label_encoder.inverse_transform(y_test)

# Exibir previsões e valores reais
print(f'Previsões (decodificadas): {y_pred_original}')
print(f'Reais (decodificados): {y_test_original}')

In [None]:
X_entrada = np.array([[6.7,3.0,5.2,2.3]])
y_pred = model_RN.predict(X_entrada)
y_pred_classes = y_pred.argmax(axis=1)

# Exibir algumas previsões
print(f'Previsões: {y_pred_classes[0]}')

# Reverter a codificação dos valores reais de teste (opcional)
saida = label_encoder.inverse_transform(y_pred_classes)

# Exibir previsões e valores reais
print(f'Previsões (decodificadas): {saida}')

In [None]:
#gravar o modelo da Rede Neural
import pickle
meu_arquivo = open('/content/drive/MyDrive/dados/modelo_RN.h5',  'wb')

pickle.dump(model_RN, meu_arquivo)
meu_arquivo.close()

In [None]:
valor1 = float(input('SepalLengthCm'))
valor2 = float(input('SepalWidthCm'))
valor3 = float(input('PetalLengthCm'))
valor4 = float(input('PetalWidthCm'))
X_entrada = np.array([[valor1,valor2,valor3,valor4]])

In [None]:
#abrir o modelo
import pickle
meu_arquivo = open('/content/drive/MyDrive/dados/modelo_RN.h5', 'rb')
modelo_aberto = pickle.load(meu_arquivo)  # carrega o modelo
meu_arquivo.close()

In [None]:
#usar os dados digitados para realizar a predição
y_pred = modelo_aberto.predict(X_entrada)
y_pred_classes = y_pred.argmax(axis=1)
print(f'Previsões: {y_pred_classes[0]}')

# Reverter a codificação dos valores reais de teste (opcional)
saida = label_encoder.inverse_transform(y_pred_classes)

# Exibir previsões e valores reais
print(f'Previsões (decodificadas): {saida}')