#Análisis del Dataset Iris con Visualizaciones

## 1. Carga y Exploración Inicial

In [1]:
# Importar librerías necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris

# Cargar dataset
iris = load_iris()
print("Dataset Iris cargado!")
print(f"Características: {iris.feature_names}")
print(f"Etiquetas: {iris.target_names}")

# Crear DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['species'] = iris.target
df['species_name'] = df['species'].map({0: 'setosa', 1: 'versicolor', 2: 'virginica'})

print("\nPrimeras filas del dataset:")
display(df.head())

Dataset Iris cargado!
Características: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
Etiquetas: ['setosa' 'versicolor' 'virginica']

Primeras filas del dataset:


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species,species_name
0,5.1,3.5,1.4,0.2,0,setosa
1,4.9,3.0,1.4,0.2,0,setosa
2,4.7,3.2,1.3,0.2,0,setosa
3,4.6,3.1,1.5,0.2,0,setosa
4,5.0,3.6,1.4,0.2,0,setosa


### EXPLICACIÓN

El código presentado tiene como objetivo cargar el famoso dataset Iris utilizando la librería scikit-learn y organizarlo en un DataFrame de pandas para facilitar su análisis. Primero se importan las librerías necesarias para el manejo de datos, operaciones numéricas y visualización. Luego, con load_iris(), se obtiene el conjunto de datos que contiene medidas de sépalos y pétalos de tres especies de flores: setosa, versicolor y virginica.

Posteriormente, se crea un DataFrame con las características numéricas y se añaden dos columnas: una con las etiquetas numéricas de cada especie y otra con sus nombres correspondientes. Finalmente, se muestran las primeras filas de la tabla, lo que permite verificar que los datos fueron cargados correctamente y están listos para un análisis más profundo.

## 2. Estadísticas Descriptivas

In [3]:
# %%
# Resumen estadístico
print("Resumen estadístico:")
display(df.describe())

# Distribución de especies
print("\nDistribución de especies:")
print(df['species_name'].value_counts())

Resumen estadístico:


NameError: name 'df' is not defined

### EXPLICACIÓN

Este bloque imprime un resumen estadístico de las columnas numéricas del DataFrame usando df.describe() (muestra count, mean, std, min, 25%, 50%, 75% y max) y luego muestra la distribución de especies con value_counts() para ver cuántas filas hay de setosa, versicolor y virginica. Estas salidas dan una visión rápida de la centralidad, dispersión y el balance de clases del dataset.

Es la continuación directa del código anterior: después de cargar y crear df, estas líneas permiten verificar la calidad y la estructura de los datos antes de hacer gráficos o entrenar modelos. Asegúrate de ejecutar ambas celdas en el mismo kernel para evitar el NameError.

##3. Visualizaciones Básicas

In [4]:
# %%
# Histogramas para cada característica
plt.figure(figsize=(12, 8))
df.hist(bins=20, edgecolor='black', grid=False)
plt.suptitle('Distribución de Características', fontsize=16)
plt.tight_layout(rect=[0, 0, 1, 0.96])
plt.show()

# %%
# Boxplots por especie
plt.figure(figsize=(12, 6))
sns.boxplot(data=df, x='species_name', y='petal length (cm)')
plt.title('Longitud de Pétalo por Especie')
plt.show()

# %%
# Pairplot para relaciones entre variables
sns.pairplot(df, hue='species_name', palette='viridis')
plt.suptitle('Relaciones entre Características', y=1.02)
plt.show()

NameError: name 'plt' is not defined

### EXPLICACIÓN

En esta parte del análisis se incorporan gráficas exploratorias para visualizar los datos del dataset Iris. Primero, con df.hist() se generan histogramas de cada característica, lo que permite observar la distribución y la frecuencia de los valores de sépalos y pétalos. Luego, con un boxplot mediante sns.boxplot, se comparan las longitudes de pétalo entre las tres especies, mostrando medianas, rangos y posibles valores atípicos.

Finalmente, se utiliza sns.pairplot() para crear una matriz de diagramas de dispersión que muestra cómo se relacionan las variables entre sí, coloreando los puntos según la especie. Estas visualizaciones complementan el resumen estadístico anterior, ya que facilitan identificar patrones, diferencias claras entre especies y la posible separabilidad de los datos para futuras tareas de clasificación.

## 4. Análisis Avanzado

In [None]:
# Violin plots para comparar distribuciones
plt.figure(figsize=(12, 6))
sns.violinplot(data=df, x='species_name', y='sepal length (cm)', inner='quartile')
plt.title('Distribución de Longitud de Sépalo por Especie')
plt.show()

# %%
# Gráfico 3D interactivo
from mpl_toolkits.mplot3d import Axes3D

fig = plt.figure(figsize=(10, 8))
ax = fig.add_subplot(111, projection='3d')

# Asignar colores a cada especie
colors = {'setosa': 'red', 'versicolor': 'green', 'virginica': 'blue'}
species_colors = df['species_name'].map(colors)

# Graficar
scatter = ax.scatter(df['sepal length (cm)'],
                   df['sepal width (cm)'],
                   df['petal length (cm)'],
                   c=species_colors, s=50)

# Etiquetas y título
ax.set_xlabel('Sepal Length (cm)')
ax.set_ylabel('Sepal Width (cm)')
ax.set_zlabel('Petal Length (cm)')
plt.title('Visualización 3D de las Especies')
plt.legend(handles=scatter.legend_elements()[0],
           labels=iris.target_names)
plt.show()

### EXPLICACIÓN

En este bloque se añaden visualizaciones más avanzadas para comparar las especies del dataset Iris. Primero se emplea un violin plot con sns.violinplot, que combina la información de un boxplot y una curva de densidad. En este caso, permite observar cómo varía la longitud del sépalo en cada especie, mostrando tanto la distribución completa como los valores centrales.

Luego se construye un gráfico 3D interactivo con matplotlib, donde cada punto representa una flor según la longitud y anchura del sépalo y la longitud del pétalo. Se usan colores diferentes para cada especie, lo que facilita distinguirlas visualmente en el espacio tridimensional. Esta representación complementa los gráficos anteriores al ofrecer una vista más intuitiva sobre cómo las características permiten separar a las especies.

## 5. Procesamiento de Datos

In [None]:
# %%
# Normalización de datos
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = scaler.fit_transform(df[iris.feature_names])

# Convertir a DataFrame para visualización
df_scaled = pd.DataFrame(X_scaled, columns=iris.feature_names)
df_scaled['species_name'] = df['species_name']

print("Datos normalizados:")
display(df_scaled.head())

# %%
# Análisis de Componentes Principales (PCA)
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

# Crear DataFrame con componentes principales
df_pca = pd.DataFrame(X_pca, columns=['PC1', 'PC2'])
df_pca['species_name'] = df['species_name']

# Visualizar resultados de PCA
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df_pca, x='PC1', y='PC2', hue='species_name', s=100)
plt.title('Análisis de Componentes Principales (PCA)')
plt.show()

### EXPLICACIÓN

En este último bloque se aplican técnicas de preprocesamiento y reducción de dimensionalidad. Primero, los datos se normalizan con StandardScaler, lo que estandariza cada característica restando la media y dividiendo entre la desviación estándar. Esto asegura que todas las variables estén en la misma escala y evita que unas dominen sobre otras en los análisis posteriores.

A continuación, se utiliza Análisis de Componentes Principales (PCA) para reducir las cuatro características originales a solo dos componentes principales que capturan la mayor parte de la variabilidad del dataset. El resultado se visualiza en un diagrama de dispersión donde los puntos están coloreados por especie, lo que permite observar cómo estas se diferencian en el nuevo espacio reducido. Esta técnica complementa las gráficas anteriores mostrando de manera más clara la separabilidad entre especies.

## 6. Ejercicios Prácticos

In [7]:
### Ejercicio 1:
# Crea una función que identifique las flores con longitudes de pétalo superiores a 5 cm y analice sus características promedio

# %%
def analyze_large_petals(df):
    large_petals = df[df['petal length (cm)'] > 5]
    print(f"Número de flores con pétalos largos: {len(large_petals)}")
    display(large_petals.groupby('species_name').mean())


Explicación:
En este ejercicio se define una función llamada analyze_large_petals, cuyo propósito es identificar las flores del dataset Iris que tienen pétalos con una longitud mayor a 5 cm. Para lograrlo, se filtran únicamente las filas del DataFrame que cumplen esa condición y se guardan en la variable large_petals. Posteriormente, se imprime el número total de flores que cumplen con el criterio.

Además, la función agrupa esas flores por especie con groupby('species_name') y calcula sus valores promedio (mean()), mostrando un resumen de sus características principales. De esta manera, no solo se identifica cuántas flores presentan pétalos largos, sino también cómo se comportan sus medidas en promedio según la especie, lo que facilita comparar diferencias morfológicas entre ellas.



In [8]:
### Ejercicio 2:
# Implementa un modelo de clustering (K-Means) para agrupar las flores y compara con las especies reales

# %%
from sklearn.cluster import KMeans
from sklearn.metrics import confusion_matrix, classification_report

# Aplicar K-Means
kmeans = KMeans(n_clusters=3, random_state=42)
clusters = kmeans.fit_predict(X_scaled)

# Comparar clusters con especies reales
df['cluster'] = clusters

# Matriz de confusión
conf_matrix = confusion_matrix(df['species'], df['cluster'])
print("Matriz de Confusión:")
print(conf_matrix)

# Reporte de clasificación
print("\nReporte de Clasificación:")
print(classification_report(df['species'], df['cluster']))

NameError: name 'X_scaled' is not defined

Explicació:

En este ejercicio se implementa un modelo de clustering no supervisado utilizando el algoritmo K-Means, con el objetivo de agrupar las flores del dataset en tres clústeres, que corresponden al número de especies existentes. El modelo se entrena con los datos previamente normalizados (X_scaled) y asigna a cada flor un número de clúster, el cual se añade como una nueva columna al DataFrame.

Posteriormente, se comparan los clústeres generados con las especies reales del dataset a través de una matriz de confusión y un reporte de clasificación. Esto permite evaluar qué tan bien el algoritmo no supervisado logra aproximarse a las etiquetas verdaderas. Aunque K-Means no utiliza información previa sobre las especies, en el caso del dataset Iris suele conseguir una separación bastante buena, mostrando la utilidad de esta técnica para descubrir patrones ocultos en los datos.

In [None]:
### Ejercicio 3:
# Crea un modelo de regresión logística para predecir la especie de flor basado en sus características

# %%
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Dividir datos
X = df[iris.feature_names]
y = df['species']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Entrenar modelo
logreg = LogisticRegression(max_iter=200)
logreg.fit(X_train, y_train)

# Evaluar
y_pred = logreg.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión del modelo: {accuracy:.2f}")

# Mostrar coeficientes
coef_df = pd.DataFrame(logreg.coef_, columns=iris.feature_names, index=iris.target_names)
print("\nCoeficientes del modelo:")
display(coef_df)

Explicación:

En este último ejercicio se construye un modelo supervisado de clasificación utilizando Regresión Logística. Primero, los datos se dividen en conjunto de entrenamiento y prueba con train_test_split, de manera que el modelo aprende con el 70% de las observaciones y se evalúa con el 30% restante. Luego, el modelo de regresión logística se entrena con las cuatro características de las flores (longitud y anchura de sépalos y pétalos) para predecir la especie correspondiente.

Tras el entrenamiento, se evalúa el desempeño del modelo calculando la precisión (accuracy) sobre los datos de prueba, lo cual indica qué porcentaje de predicciones fueron correctas. Finalmente, se muestran los coeficientes de cada variable en relación con cada especie, lo que permite interpretar la influencia de las características en la clasificación. Con ello, se completa un análisis que abarca desde la exploración visual de datos hasta la aplicación de técnicas de aprendizaje automático para la predicción.