## **Aplicadas a un Dataset Real de Calidad de Vinos**

Tenemos un dataset real que contiene propiedades fisicoquímicas de vinos portugueses 
y una variable objetivo llamada quality, evaluada por expertos.

**Variables de entrada (fisicoquímicas)**
- fixed acidity: Ácidos fijos presentes en el vino (no se evaporan fácilmente).
- volatile acidity: Cantidad de ácidos volátiles; niveles altos pueden generar sabores desagradables.
- citric acid: Ácido cítrico presente; aporta frescura y sabor.
- residual sugar: Azúcar que permanece después de la fermentación.
- chlorides: Cantidad de sal en el vino.
- free sulfur dioxide: Dióxido de azufre libre; ayuda a prevenir oxidación y crecimiento microbiano.
- total sulfur dioxide: Cantidad total de dióxido de azufre (libre + combinado).
- density: Densidad del vino; relacionada con el contenido de alcohol y azúcar.
- pH: Nivel de acidez o alcalinidad del vino.
- sulphates: Sulfatos añadidos; pueden contribuir a la estabilidad y calidad.
- alcohol: Porcentaje de alcohol del vino.
- quality: Calidad del vino evaluada por expertos en una escala de 0 (muy malo) a 10 (excelente).

### Importacion de Librerias

In [2]:
pip install pandas 


Collecting pandas
  Using cached pandas-2.3.3-cp311-cp311-macosx_11_0_arm64.whl.metadata (91 kB)
Collecting numpy>=1.23.2 (from pandas)
  Downloading numpy-2.4.1-cp311-cp311-macosx_14_0_arm64.whl.metadata (6.6 kB)
Collecting pytz>=2020.1 (from pandas)
  Using cached pytz-2025.2-py2.py3-none-any.whl.metadata (22 kB)
Using cached pandas-2.3.3-cp311-cp311-macosx_11_0_arm64.whl (10.8 MB)
Downloading numpy-2.4.1-cp311-cp311-macosx_14_0_arm64.whl (5.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.5/5.5 MB[0m [31m53.5 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hUsing cached pytz-2025.2-py2.py3-none-any.whl (509 kB)
Installing collected packages: pytz, numpy, pandas
Successfully installed numpy-2.4.1 pandas-2.3.3 pytz-2025.2

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m25.3[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrad

In [3]:
pip install numpy


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m25.3[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


---

In [1]:
import pandas as pd
import numpy as np

In [5]:
#Lectura de dataset
df = pd.read_csv("../data/input/winequality-red.csv", sep=";")

In [6]:
df.head(10)

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
5,7.4,0.66,0.0,1.8,0.075,13.0,40.0,0.9978,3.51,0.56,9.4,5
6,7.9,0.6,0.06,1.6,0.069,15.0,59.0,0.9964,3.3,0.46,9.4,5
7,7.3,0.65,0.0,1.2,0.065,15.0,21.0,0.9946,3.39,0.47,10.0,7
8,7.8,0.58,0.02,2.0,0.073,9.0,18.0,0.9968,3.36,0.57,9.5,7
9,7.5,0.5,0.36,6.1,0.071,17.0,102.0,0.9978,3.35,0.8,10.5,5


### **Array**

In [7]:
alcohol_array = np.array(df["alcohol"])

In [8]:
for value in alcohol_array:
    print(value)

9.4
9.8
9.8
9.8
9.4
9.4
9.4
10.0
9.5
10.5
9.2
10.5
9.9
9.1
9.2
9.2
10.5
9.3
9.0
9.2
9.4
9.7
9.5
9.4
9.7
9.3
9.5
9.5
9.4
9.8
10.1
10.6
9.8
9.4
9.2
9.6
10.8
9.7
9.8
10.5
10.5
9.3
10.5
10.3
9.5
13.1
9.2
9.5
9.2
9.2
9.2
9.4
9.4
9.4
10.2
9.5
9.6
9.4
10.0
9.4
9.2
9.3
9.5
9.8
10.9
10.9
9.6
10.7
10.7
10.5
9.5
9.5
9.5
9.2
9.6
10.5
10.5
10.7
10.1
9.1
9.2
9.4
9.1
9.4
10.3
10.1
9.9
9.6
9.5
9.0
9.5
9.9
9.8
9.6
10.5
12.9
10.7
9.2
9.8
9.0
10.2
10.4
9.0
9.2
9.4
9.2
9.3
9.3
9.6
9.3
9.5
9.8
9.8
9.7
9.5
10.5
10.0
9.4
10.9
9.2
9.0
10.9
9.2
9.5
9.5
9.4
10.9
10.9
10.5
9.4
9.4
13.0
13.0
9.8
9.9
9.6
9.5
9.2
9.5
9.5
9.6
9.5
14.0
9.4
14.0
9.4
10.0
9.3
10.2
10.5
10.3
9.4
10.1
10.1
10.5
10.5
10.5
10.5
9.3
9.3
9.6
9.2
10.0
9.4
9.4
9.5
10.2
9.0
10.4
9.5
9.1
9.2
9.2
11.5
9.5
9.5
9.5
10.5
9.6
9.5
9.5
9.3
9.3
9.3
9.3
9.7
9.2
9.7
9.5
9.5
9.4
9.8
9.5
9.7
9.7
9.4
10.2
10.1
13.0
11.4
10.3
9.3
9.5
9.2
9.2
10.8
10.8
9.3
9.4
10.5
12.4
10.0
10.2
10.1
9.8
10.5
11.0
9.1
9.7
9.5
9.4
9.4
9.5
10.0
10.4
10.5
9.5
9.8
10.5
11.0
12.2


In [9]:
for value in alcohol_array[alcohol_array > 10]:
    print(value)

10.5
10.5
10.5
10.1
10.6
10.8
10.5
10.5
10.5
10.3
13.1
10.2
10.9
10.9
10.7
10.7
10.5
10.5
10.5
10.7
10.1
10.3
10.1
10.5
12.9
10.7
10.2
10.4
10.5
10.9
10.9
10.9
10.9
10.5
13.0
13.0
14.0
14.0
10.2
10.5
10.3
10.1
10.1
10.5
10.5
10.5
10.5
10.2
10.4
11.5
10.5
10.2
10.1
13.0
11.4
10.3
10.8
10.8
10.5
12.4
10.2
10.1
10.5
11.0
10.4
10.5
10.5
11.0
12.2
11.0
10.9
10.5
10.5
10.9
10.2
12.8
10.1
10.7
10.1
10.1
10.7
10.1
12.6
10.5
10.5
10.3
10.3
10.6
10.6
10.5
10.3
10.1
10.7
10.1
11.0
11.0
10.1
10.4
11.5
10.4
11.5
11.5
11.5
12.5
12.5
11.0
11.7
12.2
12.5
10.3
11.5
11.3
10.7
12.3
12.0
13.0
11.9
12.8
11.0
11.7
10.4
10.2
11.8
12.0
10.6
10.8
11.8
11.0
12.0
13.3
10.8
12.9
13.0
11.0
11.0
10.8
10.5
10.5
10.1
10.8
10.8
11.3
11.7
11.7
10.5
10.4
11.8
12.3
10.9
11.0
10.9
12.3
11.4
10.6
10.4
11.0
12.8
10.2
11.2
11.3
11.2
11.6
12.5
10.1
10.5
11.2
10.2
10.8
10.8
11.2
11.1
13.4
10.3
11.2
11.3
11.8
11.5
14.0
10.6
11.4
10.4
10.6
10.2
11.0
10.2
10.1
11.7
13.4
10.8
10.2
10.6
13.3
13.4
11.6
12.1
11.0
11.1
11.0
11.6
12.0


In [10]:
alcohol_array.mean()

np.float64(10.422983114446529)

In [11]:
alcohol_array.min()

np.float64(8.4)

In [12]:
alcohol_array.max()

np.float64(14.9)

In [13]:
alcohol_array.sum()

np.float64(16666.35)

In [14]:
alcohol_array > 12

array([False, False, False, ..., False, False, False], shape=(1599,))

In [15]:
#¿Cuántos vinos tienen alcohol mayor a 12%?
np.sum(alcohol_array > 12)
# sum([True, False, True])  #2

np.int64(141)

In [16]:
np.sum(alcohol_array > 12)

np.int64(141)

In [17]:
mask = alcohol_array > 12
indices = np.where(mask)[0]
indices

array([  45,   95,  131,  132,  142,  144,  198,  210,  230,  267,  278,
        330,  331,  335,  336,  346,  353,  355,  378,  390,  395,  421,
        425,  432,  444,  455,  467,  484,  491,  492,  494,  505,  533,
        559,  564,  588,  606,  609,  623,  652,  695,  729,  794,  802,
        805,  806,  807,  821,  828,  840,  887,  896,  898,  910,  912,
        913,  938,  940,  941,  944,  947,  951,  953,  954,  968,  974,
        982,  996,  997,  999, 1003, 1005, 1010, 1016, 1017, 1018, 1023,
       1026, 1036, 1038, 1044, 1052, 1053, 1056, 1059, 1061, 1066, 1079,
       1081, 1098, 1100, 1104, 1105, 1106, 1111, 1114, 1118, 1119, 1120,
       1121, 1122, 1126, 1132, 1150, 1151, 1157, 1167, 1172, 1177, 1186,
       1190, 1192, 1228, 1234, 1237, 1242, 1269, 1270, 1286, 1287, 1292,
       1297, 1298, 1300, 1311, 1316, 1321, 1335, 1377, 1390, 1408, 1417,
       1426, 1471, 1475, 1477, 1490, 1547, 1570, 1573, 1588])

In [18]:
#Crear un nuevo array con vinos que tengan alcohol mayor a 11.
alcohol_mayor_11 = alcohol_array[alcohol_array > 11]
len(alcohol_mayor_11)

408

In [88]:
#Seleccionar vinos con alcohol entre 10 y 12.
alcohol_10_12 = alcohol_array[(alcohol_array >= 10) & (alcohol_array <= 12)]
len(alcohol_10_12)

778

In [89]:
#Primeros 5 elementos
alcohol_array[:5]

array([9.4, 9.8, 9.8, 9.8, 9.4])

In [90]:
#Últimos 5 elementos
alcohol_array[:-5]

array([ 9.4,  9.8,  9.8, ..., 11.6, 11. ,  9.5])

In [91]:
#Vinos con alcohol mayor al promedio
len(alcohol_array[alcohol_array > alcohol_array.mean()])

683

In [92]:
#De los vinos con alcohol mayor al promedio, tomar solo los primeros 5.
alcohol_mean_last_5 = alcohol_array[alcohol_array > alcohol_array.mean()][:5]
alcohol_mean_last_5

array([10.5, 10.5, 10.5, 10.6, 10.8])

In [19]:
#Obtener los valores únicos de alcohol.
alcohol_unique = np.unique(alcohol_array)

In [20]:
#Saber cuántas veces aparece cada nivel de alcohol.
valores, conteos = np.unique(alcohol_array, return_counts=True)
#dict(zip(valores, conteos))

##### **Slicing**
##### array[inicio : fin : paso]
- Si inicio se omite → empieza desde 0 
- Si fin se omite → llega hasta el final
- Si paso se omite → toma de 1 en 1
- Índices negativos cuentan desde el final

In [None]:
# Generamos un nuevo arreglo desde el dataframe: 
sulphates_array = np.array(df["sulphates"])

##### **Problema 1 - Slicing**
Extraer los primeros 5 registros del arreglo.

##### **Problema 2 - Slicing**
Extraer los últimos 5 valores del arreglo.

##### **Problema 3 - Slicing**
Extraer valores desde la posición 3 hasta la 7.

##### **Problema 4 - Slicing**
Extraer todos los valores desde el índice 10 hasta el final.

##### **Problema 5 - Slicing**
Tomar un valor sí y uno no en todo el arreglo.

##### **Problema 6 - Slicing**
Extraer valores del índice 2 al 12, tomando uno cada 3 elementos.

##### **Problema 7 - Slicing**
Extraer una “ventana” de datos del índice 5 al 15.

##### **Problema 8 - Slicing**
Tomar los valores mayores a 0.6 y luego quedarnos con los primeros 5.

---------------------------------------------------------------------------------------------------------------------

### **EJERCICIOS ARRAY**

**Problema 1**

Un laboratorio quiere entender el comportamiento de la acidez fija del vino.

Convertir la columna **fixed acidity** en un arreglo y calcular:

- Promedio
- Valor mínimo
- Valor máximo

**Problema 2**

Se sospecha que la **acidez volátil** influye negativamente en la calidad del vino.

- Crear dos arreglos: 
    - volatile acidity
    - quality

- Y calcular:
    - Promedio de acidez volátil
    - Calidad promedio.

**Problema 3**

La empresa define vinos “premium” como aquellos con:
- Alcohol mayor al promedio
- Sulfatos mayores al promedio

Usando arreglos, identificar los vinos que cumplen ambas condiciones simultáneamente.

**Problema 4**

La gerencia quiere saber cuántos vinos tienen:
- pH menor a 3.3
- quality mayor o igual a 6
Usar arreglos para contar cuántos vinos cumplen ambas condiciones.

**Problema 5**

Se quiere crear un índice químico simple del vino.

Crear un nuevo arreglo definido como:
- indice = alcohol + sulphates − volatile acidity

**Problema 6**

Los vinos se clasifican como:

- Baja calidad: quality ≤ 4
- Media calidad: quality = 5 o 6
- Alta calidad: quality ≥ 7

Usando arreglos, separa los valores de alcohol en tres grupos según la calidad. Adicionalmente cuenta los valores.

------------------------------------------------------------------------------------------------------------------------------------

#### **LISTAS**

In [None]:
alcohol_list = list(df["alcohol"])
quality_list = list(df["quality"])

In [None]:
features_list = df[["alcohol", "pH", "sulphates"]].values.tolist()

In [None]:
#Obtener el primer valor de alcohol.
alcohol_list[0]

In [None]:
#Saber cuántos registros hay.
len(alcohol_list)

In [None]:
#Agregar un nuevo valor.
alcohol_list.append(10.5)

In [None]:
#Eliminar el último elemento.
alcohol_list.pop()

In [None]:
#Calcular el total de alcohol.
total_alcohol = sum(alcohol_list)

In [None]:
#Encontrar el mínimo y máximo nivel de alcohol.
min_alcohol = min(alcohol_list)
max_alcohol = max(alcohol_list)

In [None]:
#Ordenar los valores de alcohol de menor a mayor.
sorted_alcohol = sorted(alcohol_list)

In [None]:
#Ordenar los valores de alcohol de mayor a menor.
sorted_alcohol_desc = sorted(alcohol_list, reverse=True)

In [None]:
#Identificar los valores únicos de calidad.
unique_quality = set(quality_list)

In [None]:
#Imprimir valores mayores a 10.
for value in alcohol_list:
    if value > 10:
        print(value)

In [None]:
#Crear una lista solo con alcohol > 10.

high_alcohol = []

for v in alcohol_list:
    if v > 10:
        high_alcohol.append(v)

In [None]:
#Crear una lista solo con alcohol > 10. (list comprehension)
#Crea una lista llamada high_alcohol con cada valor v que esté en alcohol_list, solo si v es mayor que 10.
high_alcohol = [v for v in alcohol_list if v > 10]

In [None]:
#Convertir alcohol a una escala x100.
scaled_alcohol = [v * 100 for v in alcohol_list]

In [None]:
# Combinar listas (zip)
# Unir alcohol y calidad.
paired = list(zip(alcohol_list, quality_list))

In [None]:
# Usar listas para selección de features.
feature_cols = [
    "alcohol",
    "pH",
    "sulphates",
    "volatile acidity"
]
X = df[feature_cols]

In [None]:
#Clasificar alcohol en alto / bajo.
alcohol_category = [
    "high" if v >= 10 else "low"
    for v in alcohol_list
]

------------------------------------------------------------------------------------------------------------------------------

### **EJERCICIOS LISTAS**

In [None]:
alcohol_list    = list(df["alcohol"])
quality_list    = list(df["quality"])
pH_list         = list(df["pH"])
sulphates_list  = list(df["sulphates"])

**Problema 1**

Identificar los valores de alcohol que son mayores al promedio del dataset y guardarlos en una nueva lista.

**Problema 2**

Contar cuántos vinos tienen pH menor a 3.3.

**Problema 3**

Crear una lista que clasifique el alcohol como "alto" si es mayor o igual a 10, y "bajo" en caso contrario.

**Problema 4**

Construir una lista de pares (alcohol, quality) solo para los vinos cuya calidad sea mayor o igual a 7.

**Problema 5**
Identificar las posiciones (índices) de los vinos que cumplen ambas condiciones:
- Alcohol mayor a 10
- Sulphates mayores a 0.6