In [7]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

# Cargar los nombres de las columnas
nombres_columnas = pd.read_csv('iris.names', names=['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'species'])

# Cargar los datos numéricos
datos = pd.read_csv('iris.data')

# Combinar datos en un DataFrame
iris = pd.concat([datos, nombres_columnas], axis=1)

iris.head()

# Combinar datos en un DataFrame
iris = pd.concat([datos, nombres_columnas], axis=1)

# Verificar los tipos de datos de cada columna
print(iris.dtypes)

# Si alguna columna numérica es de tipo 'object', convertirla a numérica
for col in ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']:
    if iris[col].dtype == 'object':
        iris[col] = pd.to_numeric(iris[col], errors='coerce')  # 'coerce' convertirá valores no numéricos a NaN

# Cálculo de los promedios por especie
promedios_por_especie = iris.groupby('species').mean()


# Carga del conjunto de datos Iris
#iris = pd.read_csv('iris.csv')


# Cálculo de las distancias Manhattan
distancias_manhattan = []
for especie1 in promedios_por_especie.index:
  for especie2 in promedios_por_especie.index:
    if especie1 != especie2:
      distancia = sum(abs(promedios_por_especie.loc[especie1] - promedios_por_especie.loc[especie2]))
      distancias_manhattan.append((especie1, especie2, distancia))

# Cálculo de las distancias euclidianas
distancias_euclidianas = []
for especie1 in promedios_por_especie.index:
  for especie2 in promedios_por_especie.index:
    if especie1 != especie2:
      distancia = ((promedios_por_especie.loc[especie1] - promedios_por_especie.loc[especie2])**2).sum()**0.5
      distancias_euclidianas.append((especie1, especie2, distancia))

# Graficar las distancias Manhattan
plt.figure(figsize=(10, 6))
plt.bar(
    [distancia[1] + '-' + distancia[2] for distancia in distancias_manhattan],
    [distancia[0] for distancia in distancias_manhattan]
)
plt.xlabel('Par de especies')
plt.ylabel('Distancia Manhattan')
plt.title('Distancias Manhattan entre promedios de especies Iris')
plt.show()

# Graficar las distancias euclidianas
plt.figure(figsize=(10, 6))
plt.bar(
    [distancia[1] + '-' + distancia[2] for distancia in distancias_euclidianas],
    [distancia[0] for distancia in distancias_euclidianas]
)
plt.xlabel('Par de especies')
plt.ylabel('Distancia euclidiana')
plt.title('Distancias euclidianas entre promedios de especies Iris')
plt.show()

# Agrupamiento de datos con k-means (ejemplo con 3 clusters)
kmeans = KMeans(n_clusters=3)
kmeans.fit(iris[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']])

# Asignación de etiquetas de cluster a cada flor
iris['cluster'] = kmeans.labels_

# Análisis de los resultados del agrupamiento
print(iris.groupby('cluster').describe())

# Ejemplo de identificación del número de especies sin etiquetas
# Se agrupa el conjunto de datos sin usar la etiqueta 'species'
kmeans = KMeans(n_clusters=None)
kmeans.fit(iris[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']])

# El número de clusters resultante se puede interpretar como el número de especies
numero_especies_estimado = kmeans.n_clusters_

print(f"Número estimado de especies sin etiquetas: {numero_especies_estimado}")


5.1             float64
3.5             float64
1.4             float64
0.2             float64
Iris-setosa      object
sepal_length     object
sepal_width      object
petal_length     object
petal_width      object
species          object
dtype: object


TypeError: Could not convert Iris-setosaIris-setosa to numeric

Explicación del código:

    Se importan las librerías necesarias: pandas para trabajar con el conjunto de datos, matplotlib.pyplot para crear gráficos y sklearn.cluster para realizar el agrupamiento k-means.
    Se carga el conjunto de datos Iris en un DataFrame de Pandas.
    Se calcula el promedio de cada una de las cuatro medidas para cada una de las tres especies.
    Se calculan las distancias Manhattan y euclidianas entre cada par de promedios de las especies.
    Se crean dos gráficos de barras para visualizar las distancias Manhattan y euclidianas entre las especies.
    Se realiza un ejemplo de agrupamiento de datos con k-means, asignando etiquetas de cluster a cada flor. Se utiliza un número arbitrario de clusters (3 en este caso) para ilustrar el proceso.
    Se muestra un ejemplo de cómo se podría estimar el número de especies sin etiquetas utilizando la técnica de agrupamiento k-means sin especificar el número de clusters. El número de clusters resultante se interpreta como el número de especies presentes en el conjunto de datos.

In [3]:
import pandas as pd
from sklearn.cluster import KMeans, DBSCAN, AgglomerativeClustering
from sklearn.metrics import silhouette_score

# Carga del conjunto de datos Iris
iris = pd.read_csv('iris.csv')

# Datos para el agrupamiento
data = iris[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]


def evaluar_agrupamiento(modelo, nombre_modelo, data):
  modelo.fit(data)
  etiquetas = modelo.labels_
  score_silhouette = silhouette_score(data, etiquetas)
  print(f"Modelo: {nombre_modelo}, Silhouette Score: {score_silhouette:.4f}")


# K-means con diferentes valores de k
for k in [3, 5, 8]:
  modelo = KMeans(n_clusters=k)
  evaluar_agrupamiento(modelo, f"KMeans (k={k})", data)

# DBSCAN con diferentes valores de eps
for eps in [0.5, 1.0, 1.5]:
  modelo = DBSCAN(eps=eps, min_samples=5)
  evaluar_agrupamiento(modelo, f"DBSCAN (eps={eps})", data)

# Clustering jerárquico (aglomerativo) - linkage completo
modelo = AgglomerativeClustering(n_clusters=3, linkage='complete')
evaluar_agrupamiento(modelo, "Clustering Jerárquico (Completo)", data)


# Ejemplo con distancia de similitud coseno en K-means
modelo = KMeans(n_clusters=3, metric='cosine')
evaluar_agrupamiento(modelo, "KMeans (Coseno)", data)


FileNotFoundError: [Errno 2] No such file or directory: 'iris.csv'

Explicación del código:

    Se importan las librerías necesarias: pandas para trabajar con el conjunto de datos, sklearn.cluster para realizar el agrupamiento y sklearn.metrics para calcular el silhouette score (una medida de la calidad del clustering).
    Se carga el conjunto de datos Iris en un DataFrame de Pandas.
    Se seleccionan las columnas con las medidas de las flores para el agrupamiento.
    Se define una función evaluar_agrupamiento que recibe un modelo de clustering, su nombre y los datos, ajusta el modelo, obtiene las etiquetas de cluster y calcula el silhouette score.
    Se aplica el algoritmo K-means con diferentes valores de k (número de clusters) y se evalúa su rendimiento utilizando el silhouette score.
    Se aplica el algoritmo DBSCAN con diferentes valores de eps (parámetro que define el radio de vecindad) y se evalúa su rendimiento.
    Se aplica el algoritmo de clustering jerárquico (aglomerativo) con linkage completo para crear 3 clusters y se evalúa su rendimiento.
    Se muestra un ejemplo utilizando la distancia de similitud coseno como métrica en el algoritmo K-means.