In [2]:
# Análisis del Dataset Iris (versión Kaggle) con Pandas, NumPy y Visualizaciones

from google.colab import drive
drive.mount('/content/drive')
# Celda 1: Configuración Inicial
# Importamos las librerías necesarias para el análisis
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Estilo de los gráficos
sns.set(style="whitegrid")
print("Librerías importadas correctamente")

# Celda 2: Carga del Dataset
# Cargamos el dataset Iris desde Kaggle (versión hospedada en GitHub)
url = "/content/drive/MyDrive/Datasets/Iris/Iris.csv"
iris = pd.read_csv(url)
print("Dataset cargado correctamente")

# Celda 3: Exploración Inicial
iris.head()

# Celda 4: Estadísticas descriptivas
iris.describe()

# Celda 5: Conteo por especie
iris["species"].value_counts()

# Celda 6: Verificación de datos nulos y duplicados
print("Valores nulos por columna:")
print(iris.isnull().sum())

print("Cantidad de duplicados:", iris.duplicated().sum())

# Eliminamos duplicados si existen
iris = iris.drop_duplicates()

# Celda 7: Agrupación por especie y cálculo de promedios
iris.groupby("species").mean(numeric_only=True)

# Celda 8: Matriz de correlación
correlaciones = iris.corr(numeric_only=True)
correlaciones

# Celda 9: Visualización - Histogramas por especie
for columna in iris.columns[:-1]:
    plt.figure(figsize=(8,4))
    sns.histplot(data=iris, x=columna, hue="species", kde=True)
    plt.title(f"Distribución de {columna} por especie")
    plt.xlabel(columna)
    plt.ylabel("Frecuencia")
    plt.legend(title="Especie")
    plt.show()

# Celda 10: Boxplots comparativos
plt.figure(figsize=(10,6))
iris_melted = iris.melt(id_vars="species", var_name="Característica", value_name="Valor")
sns.boxplot(data=iris_melted, x="Característica", y="Valor", hue="species")
plt.title("Comparación de características por especie")
plt.xticks(rotation=45)
plt.show()

# Celda 11: Scatter Matrix (matriz de dispersiones)
from pandas.plotting import scatter_matrix
plt.figure()
scatter_matrix(iris.iloc[:, :-1], figsize=(10,10), diagonal='kde', c=iris["species"].astype('category').cat.codes, cmap="viridis")
plt.suptitle("Relaciones multivariables entre características")
plt.show()

# Celda 12: Mapa de calor de correlaciones
plt.figure(figsize=(8,6))
sns.heatmap(correlaciones, annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Mapa de calor - Correlación entre variables")
plt.show()

# Celda 13: Conclusiones
print("""
Conclusiones:
- Las especies tienen diferencias claras en largo y ancho de pétalos.
- El largo del pétalo es una variable clave para distinguir especies.
- Alta correlación entre largo y ancho del pétalo.

Aplicaciones:
Este análisis puede ser base para modelos de clasificación en inteligencia artificial,
como k-NN, SVM o árboles de decisión.
""")

iris.head()


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Librerías importadas correctamente
Dataset cargado correctamente


KeyError: 'species'