# EDA preliminar para clasificación

In [None]:
# Importa las bibliotecas necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris

In [None]:
# Carga el conjunto de datos Iris
iris = load_iris()
data = pd.DataFrame(data=iris.data, columns=iris.feature_names)
data['target'] = iris.target

In [None]:
# Muestra las primeras filas del conjunto de datos
data.head()

In [None]:
# Resumen de estadísticas descriptivas
data.describe()

In [None]:
# Gráfico de pares para ver relaciones entre características
sns.pairplot(data=data, hue='target')
plt.show()

In [None]:
# Histogramas de las características
plt.figure(figsize=(12, 6))
for i, feature in enumerate(iris.feature_names):
    plt.subplot(2, 2, i + 1)
    sns.histplot(data=data, x=feature, hue='target', kde=True)
plt.show()

In [None]:
# Boxplots para visualizar distribución y valores atípicos
plt.figure(figsize=(12, 6))
for i, feature in enumerate(iris.feature_names):
    plt.subplot(2, 2, i + 1)
    sns.boxplot(x='target', y=feature, data=data)
plt.show()


In [None]:
# Correlación entre características
correlation_matrix = data.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlación')
plt.show()

In [None]:
# Comprueba si hay valores faltantes en el conjunto de datos
missing_values = data.isna().sum()

# Muestra la cantidad de valores faltantes por característica
print("Valores faltantes por característica:")
print(missing_values)

In [None]:
# Importa las bibliotecas necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report
from sklearn.model_selection import cross_val_predict

In [None]:
# Divide el conjunto de datos en características (X) y etiquetas (y)
X = data.drop('target', axis=1)
y = data['target']

In [None]:
# Crea un modelo Naive Bayes
naive_bayes_model = GaussianNB()

In [None]:
# Realiza cross-validation con 5-fold
predicted = cross_val_predict(naive_bayes_model, X, y, cv=5)

In [None]:
# Calcula las métricas
accuracy = accuracy_score(y, predicted)
precision = precision_score(y, predicted, average='macro')
recall = recall_score(y, predicted, average='macro')
f1 = f1_score(y, predicted, average='macro')
confusion = confusion_matrix(y, predicted)
report = classification_report(y, predicted)

In [None]:
# Muestra las métricas
print(f"Accuracy: {accuracy}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1 Score: {f1}")

In [None]:
print(confusion)

In [None]:
# Muestra la matriz de confusión
plt.figure(figsize=(8, 6))
sns.heatmap(confusion, annot=True, cmap='Blues', fmt='d')
plt.xlabel('Predicciones')
plt.ylabel('Valores reales')
plt.title('Matriz de Confusión')
plt.show()

In [None]:
# Muestra el informe de clasificación por clase
print("Informe de clasificación por clase:")
print(report)