<a href="https://colab.research.google.com/github/manolopajaroborras/soloPython/blob/main/reto_No_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Para este reto utilizare; un dataset diferente al "Iris", en este caso, el dataset de "Wine" que viene integrado en scikit-learn. Es un conjunto de datos clásico con características numéricas y una variable objetivo categórica, lo que lo hace ideal para un análisis similar al de Iris.

Este script realiza un análisis exploratorio y visualización del dataset "Wine" disponible en scikit-learn, siguiendo una metodología similar a la del ejemplo de Iris, pero con un conjunto de datos diferente.

1. Carga y Exploración Inicial del Dataset

In [None]:
"""
Autor: Manolo Pajaro Borras estudiante de Maestria
Fecha: 2023-10-27
Este script realiza un análisis exploratorio y visualización del dataset "Wine"
disponible en scikit-learn, siguiendo una metodología similar a la del ejemplo
de Iris, pero con un conjunto de datos diferente.
"""
# 1. Importar Librerías Necesarias
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.datasets import load_wine # Importamos el dataset de vino

# Configuración para mejorar la visualización de los gráficos
sns.set_style("whitegrid") # Establece el estilo de los gráficos
plt.rcParams['figure.figsize'] = (10, 6) # Tamaño predeterminado de las figuras
plt.rcParams['figure.dpi'] = 100 # Mayor resolución para los gráficos
print("Librerías importadas correctamente."))


2. Mostrando la información general del DataFrame (tipos de datos, valores no nulos)

In [None]:
# --- SECCIÓN 1: Carga y Exploración Inicial del Dataset ---
print("\n--- SECCIÓN 1: Carga y Exploración Inicial del Dataset ---")

# Cargar el dataset de vino
datos_vino = load_wine()

# Crear un DataFrame de Pandas
# datos_vino.data contiene las características (features)
# datos_vino.feature_names contiene los nombres de las características
df_vino = pd.DataFrame(data=datos_vino.data, columns=datos_vino.feature_names)

# Añadir la variable objetivo (target) al DataFrame
# datos_vino.target contiene las etiquetas de clase (0, 1, 2)
df_vino['clase_objetivo'] = datos_vino.target

# Añadir los nombres de las clases (para una mejor comprensión)
# datos_vino.target_names contiene los nombres reales de las clases (e.g., 'class_0')
df_vino['nombre_clase'] = df_vino['clase_objetivo'].apply(lambda x: datos_vino.target_names[x])

print("\nDataset de Vino cargado y convertido a DataFrame de Pandas.")

# Mostrar las primeras 5 filas del DataFrame
print("\nPrimeras 5 filas del dataset:")
print(df_vino.head())

# Mostrar información general del DataFrame (tipos de datos, valores no nulos)
print("\nInformación general del dataset:")
df_vino.info()

# Mostrar estadísticas descriptivas de las columnas numéricas
print("\nEstadísticas descriptivas del dataset:")
print(df_vino.describe())

# Verificar el balance de las clases en la variable objetivo
print("\nConteo de instancias por clase de vino:")
print(df_vino['nombre_clase'].value_counts())

3. Análisis Exploratorio de Datos (EDA) y Visualización ---

In [None]:
print("\n--- SECCIÓN 2: Análisis Exploratorio de Datos (EDA) y Visualización ---")

# 3.1 Se Realiza la distribución de la Variable Objetivo (Clase de Vino)
plt.figure(figsize=(8, 5))
sns.countplot(x='nombre_clase', data=df_vino, palette='viridis')
plt.title('Distribución de las Clases de Vino')
plt.xlabel('Clase de Vino')
plt.ylabel('Número de Instancias')
plt.show()



In [None]:
# 3.2 Se realiza la distribución de las Características Numéricas (Histogramas y KDE)
print("\nVisualizando la distribución de cada característica numérica:")
df_vino.hist(bins=20, figsize=(15, 12), layout=(4, 4), color='skyblue', edgecolor='black')
plt.suptitle('Histogramas de las Características del Dataset de Vino', y=1.02)
plt.tight_layout(rect=[0, 0.03, 1, 0.98]) # Ajustar diseño para evitar solapamiento
plt.show()

In [None]:
# 3.3 Relación entre las Características (Pair Plot / Gráfico de Pares)
print("\nGenerando Gráfico de Pares para visualizar relaciones entre características por clase:")
# Excluimos 'clase_objetivo' para que sns.pairplot solo trabaje con las features y 'hue'
sns.pairplot(df_vino.drop(columns=['clase_objetivo']), hue='nombre_clase', palette='viridis', diag_kind='kde')
plt.suptitle('Gráfico de Pares de las Características del Dataset de Vino por Clase', y=1.02)
plt.show()

In [None]:
# 3.4 Distribución de Características por Clase (Box Plots / Violin Plots)
print("\nVisualizando la distribución de cada característica por clase de vino (Box Plots):")
num_caracteristicas = len(datos_vino.feature_names)
num_filas = int(np.ceil(num_caracteristicas / 3))
fig, ejes = plt.subplots(nrows=num_filas, ncols=3, figsize=(18, 4 * num_filas))
ejes = ejes.flatten()

for i, caracteristica in enumerate(datos_vino.feature_names):
    sns.boxplot(x='nombre_clase', y=caracteristica, data=df_vino, ax=ejes[i], palette='plasma')
    ejes[i].set_title(f'{caracteristica} por Clase de Vino')
    ejes[i].set_xlabel('Clase de Vino')
    ejes[i].set_ylabel(caracteristica)
    ejes[i].tick_params(axis='x', rotation=30) # Rotar etiquetas para mejor lectura

# Ocultar los ejes sobrantes si los hay
for j in range(i + 1, len(ejes)):
    fig.delaxes(ejes[j])

plt.tight_layout(rect=[0, 0.03, 1, 0.98])
plt.suptitle('Box Plots de Características por Clase de Vino', y=1.00)
plt.show()

In [None]:
# 3.5 Matriz de Correlación
print("\nCalculando y visualizando la matriz de correlación entre características:")
# Excluir las columnas 'clase_objetivo' y 'nombre_clase' para la matriz de correlación
matriz_correlacion = df_vino[datos_vino.feature_names].corr()

plt.figure(figsize=(12, 10))
sns.heatmap(matriz_correlacion, annot=True, cmap='coolwarm', fmt=".2f", linewidths=.5)
plt.title('Matriz de Correlación de las Características del Dataset de Vino')
plt.show()

4. Conclusiones del Análisis ---

In [None]:
print("\n--- SECCIÓN 3: Conclusiones del Análisis ---")

print("\nAnálisis General del Dataset 'Wine' (Vino):")
print("1.  **Exploración Inicial**: El dataset 'Wine' contiene 178 instancias y 13 características numéricas, además de una variable objetivo que clasifica el vino en 3 tipos (clases 0, 1, 2). No se encontraron valores nulos, lo que simplifica el preprocesamiento.")
print("2.  **Distribución de Clases**: Las clases no están perfectamente balanceadas, pero tienen un número suficiente de instancias para cada categoría (59, 71, 48), lo cual es razonable para tareas de clasificación.")
print("3.  **Distribución de Características**: Los histogramas y los gráficos KDE muestran que la mayoría de las características tienen una distribución unimodal, algunas con ligera asimetría (sesgo). Por ejemplo, 'magnesium' (magnesio) y 'proanthocyanins' (proantocianinas) parecen tener una cola más larga a la derecha.")
print("4.  **Relación entre Características (Gráfico de Pares)**: El Gráfico de Pares es muy revelador. Permite observar cómo ciertas combinaciones de características separan claramente las clases de vino. Por ejemplo, la combinación de 'alcohol' y 'malic_acid' (ácido málico), o 'proline' (prolina) y 'flavanoids' (flavanoides), muestran una buena separación visual entre las tres clases. Esto sugiere que estas características son buenos predictores para la clasificación.")
print("5.  **Variación por Clase (Box Plots)**: Los Box Plots (Diagramas de Caja) confirman que la mayoría de las características tienen rangos y medianas significativamente diferentes entre las clases de vino. Por ejemplo, 'alcohol' tiende a ser más alto en la clase 0 y más bajo en la clase 2. 'Proline' también muestra una diferencia muy marcada entre las clases, siendo mucho más alta en la clase 0. Esto refuerza la idea de que las clases son distinguibles por sus perfiles químicos.")
print("6.  **Correlación entre Características**: La matriz de correlación revela relaciones interesantes:")
print("    -   Existen correlaciones positivas fuertes, como entre 'flavanoids' y 'total_phenols' (fenoles totales) (0.86), o entre 'alcalinity_of_ash' (alcalinidad de las cenizas) y 'magnesium' (magnesio) (0.28).")
print("    -   También hay correlaciones negativas, como entre 'alcohol' y 'alcalinity_of_ash' (alcalinidad de las cenizas) (-0.37), o 'malic_acid' (ácido málico) y 'flavanoids' (flavanoides) (-0.41).")
print("    -   Características como 'proline' (prolina) muestran una correlación moderada a fuerte con 'alcohol' y 'flavanoids' (flavanoides), lo que indica que estas propiedades químicas pueden estar relacionadas en la composición del vino.")

print("\nEn resumen, el dataset 'Wine'(vino) presenta características bien diferenciadas entre sus clases, lo que lo convierte en un excelente candidato para modelos de aprendizaje automático para clasificación. El análisis visual ha proporcionado una comprensión sólida de la estructura de los datos y las relaciones entre sus variables.")