#01 - Fundamentos de NumPy y Pandas con el dataset WINE

Este notebook explora el dataset Wine utilizando NumPy y Pandas, , dos bibliotecas esenciales para el manejo y análisis de datos en Python.

Aprenderemos a manipular arrays con NumPy y trabajar con datasets usando Pandas, incluyendo ejercicios prácticos para reforzar cada concepto.

**Estudiantes:**  David Francisco Alvarez,  Macerlo Xavier Castillo, Alejandro Sebastian Casto, Lady Anahi Garces
Daniela Estefania Pezantez, María Mercedes Vera.

**Materia:** Inteligencia Artificial  
**Actividad:** 1  
**Docente:** Gladys Villegas, PhD(c)

Conexión a Drive

In [None]:
from google.colab import drive
drive.mount('/content/drive')

# **Configuración del entorno en Google Colab**

Configuración inical en c/notebook

1.   Crear notebook: 01_Fundamentos_NumPy_Pandas.ipynb
2.   Ejercicios de manipulación de arrays con NumPy
3.   Análisis de datos con Pandas usando datasets de ejemplo
4.   Documentar cada celda con markdown explicativo


Instalar e importar librerías necesarias

In [None]:
# Verificar versión de Python y GPU
import sys
print("Versión de Python:", sys.version)

import tensorflow as tf
print("GPU disponible:", tf.config.list_physical_devices('GPU'))

# Instalar librerías necesarias
!pip install seaborn plotly --quiet

# Importar librerías
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report
import warnings
warnings.filterwarnings('ignore')

# Estilo visual
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

print("Entorno configurado correctamente en Google Colab")

Versión de Python: 3.11.13 (main, Jun  4 2025, 08:57:29) [GCC 11.4.0]
GPU disponible: []
Entorno configurado correctamente en Google Colab


## Cargar y explorar el dataset Wine

Este dataset contiene características químicas de vinos y su clasificación en 3 tipos.


In [None]:
# Cargar el dataset
wine = load_wine()

#Convertir a DataFrame
wine_df = pd.DataFrame(wine.data, columns=wine.feature_names)

# Agregar la columna objetivo (clase del vino)
wine_df['target'] = wine.target

# Ver dimensiones del dataset
filas, columnas = wine_df.shape
print(f"El DataFrame tiene {filas} filas y {columnas} columnas.\n")

# Tipos de datos por columna
print("Tipos de datos por columna:\n")
print(wine_df.dtypes)

# Verificar valores nulos
print("\nValores nulos en cada columna:\n")
print(wine_df.isnull().sum())

# Mostrar las primeras filas
wine_df.head()


El DataFrame tiene 178 filas y 14 columnas.

Tipos de datos por columna:

alcohol                         float64
malic_acid                      float64
ash                             float64
alcalinity_of_ash               float64
magnesium                       float64
total_phenols                   float64
flavanoids                      float64
nonflavanoid_phenols            float64
proanthocyanins                 float64
color_intensity                 float64
hue                             float64
od280/od315_of_diluted_wines    float64
proline                         float64
target                            int64
dtype: object

Valores nulos en cada columna:

alcohol                         0
malic_acid                      0
ash                             0
alcalinity_of_ash               0
magnesium                       0
total_phenols                   0
flavanoids                      0
nonflavanoid_phenols            0
proanthocyanins                 0
color_intensi

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0


El dataset wine (vino) es muy usado para practicar clasificación multiclase, especialmente con modelos como KNN, regresión logística, árboles de decisión, etc., y no viene integrado directamente en Seaborn. Pero se lo obtiene fácilmente con scikit-learn, otra librería muy usada en Machine Learning.

Exploración inicial - Análisis con Pandas

In [None]:
#Información General
wine_df.info()

#Estadísticas descriptivas
wine_df.describe()

# Contar vinos por tipo de target (clase)
print("\nConteo por clase de vino:\n", wine_df['target'].value_counts())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 14 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   alcohol                       178 non-null    float64
 1   malic_acid                    178 non-null    float64
 2   ash                           178 non-null    float64
 3   alcalinity_of_ash             178 non-null    float64
 4   magnesium                     178 non-null    float64
 5   total_phenols                 178 non-null    float64
 6   flavanoids                    178 non-null    float64
 7   nonflavanoid_phenols          178 non-null    float64
 8   proanthocyanins               178 non-null    float64
 9   color_intensity               178 non-null    float64
 10  hue                           178 non-null    float64
 11  od280/od315_of_diluted_wines  178 non-null    float64
 12  proline                       178 non-null    float64
 13  targe

# **Ejercicios de manipulación de arrays con NumPy**


NumPy es la biblioteca base para cálculos numéricos en Python. Aquí veremos cómo crear, modificar y aplicar operaciones en arrays, que son estructuras similares a las matrices, muy eficientes para cálculos.

In [None]:
# Extraer datos (X) y etiquetas (y)
X = wine_df.drop('target', axis=1)  # matrix de características (numpy array)
y = wine_df.target         # etiquetas (0, 1, 2)

# Ver las formas
print("Forma de X:", X.shape)
print("Forma de y:", y.shape)

Forma de X: (178, 13)
Forma de y: (178,)


Ver los primeros 5 registros del array de características

In [None]:
print("\nVer los primeros 5 registros del array de características:\n")
print(X[:5])


Ver los primeros 5 registros del array de características:

   alcohol  malic_acid   ash  alcalinity_of_ash  magnesium  total_phenols  \
0    14.23        1.71  2.43               15.6      127.0           2.80   
1    13.20        1.78  2.14               11.2      100.0           2.65   
2    13.16        2.36  2.67               18.6      101.0           2.80   
3    14.37        1.95  2.50               16.8      113.0           3.85   
4    13.24        2.59  2.87               21.0      118.0           2.80   

   flavanoids  nonflavanoid_phenols  proanthocyanins  color_intensity   hue  \
0        3.06                  0.28             2.29             5.64  1.04   
1        2.76                  0.26             1.28             4.38  1.05   
2        3.24                  0.30             2.81             5.68  1.03   
3        3.49                  0.24             2.18             7.80  0.86   
4        2.69                  0.39             1.82             4.32  1.04   

 

¿Cuál es el promedio de cada característica?

In [None]:
print("\nPromedio de cada característica:\n")
media_por_columna = np.mean(X, axis=0)
print(media_por_columna)


Promedio de cada característica:

alcohol                          13.000618
malic_acid                        2.336348
ash                               2.366517
alcalinity_of_ash                19.494944
magnesium                        99.741573
total_phenols                     2.295112
flavanoids                        2.029270
nonflavanoid_phenols              0.361854
proanthocyanins                   1.590899
color_intensity                   5.058090
hue                               0.957449
od280/od315_of_diluted_wines      2.611685
proline                         746.893258
dtype: float64


¿Cuál es la desviación estándar por columna?

In [None]:
print("\nDesviación estándar por columna:\n")
desviacion = np.std(X, axis=0)
print(desviacion)


Desviación estándar por columna:

alcohol                           0.809543
malic_acid                        1.114004
ash                               0.273572
alcalinity_of_ash                 3.330170
magnesium                        14.242308
total_phenols                     0.624091
flavanoids                        0.996049
nonflavanoid_phenols              0.124103
proanthocyanins                   0.570749
color_intensity                   2.311765
hue                               0.227929
od280/od315_of_diluted_wines      0.707993
proline                         314.021657
dtype: float64


Filtrar los vinos que tengan un nivel de alcohol mayor a 14

In [None]:
print("\nFiltrar los vinos que tengan un nivel de alcohol >14:\n")
alcohol = X['alcohol']  # Select the 'alcohol' column using its name
filtro = alcohol > 14
vinos_fuertes = X[filtro]
print(vinos_fuertes.shape)  # cuántos hay


Filtrar los vinos que tengan un nivel de alcohol >14:

(22, 13)


Explicación:

22: hay 22 vinos en el dataset que tienen un nivel de alcohol mayor a 14.

13: cada vino tiene 13 características químicas, que son las columnas del dataset X.

Obtener los registros de la clase 1

In [None]:
print("\nObtener los registros de la clase 1:\n")
vinos_clase_1 = X[y == 1]
print(vinos_clase_1.shape)


Obtener los registros de la clase 1:

(71, 13)


Explicación:

71: Hay 71 vinos en el dataset que pertenecen a la clase 1.

13: Cada vino tiene 13 características químicas, como alcohol, magnesio, flavonoides, etc.

## Conclusiones

- Se usó el dataset Wine para practicar el análisis de datos con Pandas.
- Se aplicaron operaciones estadísticas y normalización con NumPy.
- Se prepararon los datos para su uso en modelos de Machine Learning.