# PREPROCESAMIENTO DE DATOS
Abiendo el archivo *.csv*, vimos que el mismo usaba como separadores el punto y coma (;), en lugar de la coma tradicional (,). Por lo tanto, al leer el archivo (usando la función de pandas `pd.read_csv()`), se debe especificar el separador a utilizar. Para esto agregamos el parámetro `sep=';'` y así vemos que el dataframe se muestra correctamente.

In [1]:
import pandas as pd

# Leemos el archivo .csv con separadores ";" y lo guardamos en una variable
raw_df = pd.read_csv("winequality_BDS.csv", sep=';')

# Mostramos las primeras 5 filas del dataset
raw_df.head()

Unnamed: 0,type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,Moscatel,8.1,0.24,0.32,10.5,0.03,34.0,105.0,0.99407,3.11,0.42,11.8,6
1,Moscatel,5.8,0.23,0.2,2.0,0.043,39.0,154.0,0.99226,3.21,0.39,10.2,6
2,Moscatel,7.5,0.33,0.36,2.6,0.051,26.0,126.0,0.99097,3.32,0.53,12.7,6
3,Moscatel,6.6,0.38,0.36,9.2,0.061,42.0,214.0,0.9976,3.31,0.56,9.4,5
4,Moscatel,6.4,0.15,0.29,1.8,0.044,21.0,115.0,0.99166,3.1,0.38,10.2,5


## Informacion de las variables
`raw_df.info()`

###Sobre el conjunto de datos
Este conjunto de datos contiene 3231 muestras de vino obtenidas mediante pruebas fisicoquímicas en la bodega Del Sol, elaboradas a partir de dos tipos de uva.
###Descripción de las variables
- `type`: tipo de uva con la que se elabora el vino.
- `fixed acidity`: cantidad de ácidos no volátiles presentes en el vino, medida en gramos por litro.
- `volatile acidity`: cantidad de ácidos volátiles presentes en el vino, medida en gramos por litro.
- `citric acid`: contenido de ácido cítrico en el vino, medido en gramos por litro.
- `residual sugar`: cantidad de azúcar que queda en el vino después de la fermentación, medida en gramos por litro.
- `chlorides`: concentración de cloruros (sales) en el vino, medida en gramos por litro.
- `free sulfur dioxide`: cantidad de dióxido de azufre que no está ligado químicamente en el vino, medida en miligramos por litro.
- `total sulfur dioxide` : suma del dióxido de azufre libre y el combinado en el vino, medida en miligramos por litro.
- `density`: medida de la masa por unidad de volumen del vino, utilizada para estimar la concentración de sólidos disueltos, medida en gramos por centímetro cúbico.
- `pH`: medida de la acidez o alcalinidad del vino.
- `sulphates`: concentración de sales de sulfato en el vino, medida en gramos por litro.
- `alcohol`: contenido alcohólico del vino, medido en porcentaje de volumen (% vol).
- `quality`: puntuación del vino, con una escala que va de 0 a 10.

In [3]:
raw_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3231 entries, 0 to 3230
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   type                  3231 non-null   object 
 1   fixed acidity         3231 non-null   float64
 2   volatile acidity      3231 non-null   float64
 3   citric acid           3231 non-null   float64
 4   residual sugar        3231 non-null   float64
 5   chlorides             3231 non-null   float64
 6   free sulfur dioxide   3231 non-null   float64
 7   total sulfur dioxide  3231 non-null   float64
 8   density               3231 non-null   float64
 9   pH                    3231 non-null   float64
 10  sulphates             3231 non-null   float64
 11  alcohol               3231 non-null   object 
 12  quality               3231 non-null   int64  
dtypes: float64(10), int64(1), object(2)
memory usage: 328.3+ KB


## Pulir datos

Para comenzar a trabajar sobre los datos, antes que nada hacemos una copia del dataframe en crudo. El dataframe sobre el que haremos modificaciones se llamará `df`.

In [2]:
# Creamos un nuevo dataframe para trabajar en él.
df = raw_df.copy()

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3231 entries, 0 to 3230
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   type                  3231 non-null   object 
 1   fixed acidity         3231 non-null   float64
 2   volatile acidity      3231 non-null   float64
 3   citric acid           3231 non-null   float64
 4   residual sugar        3231 non-null   float64
 5   chlorides             3231 non-null   float64
 6   free sulfur dioxide   3231 non-null   float64
 7   total sulfur dioxide  3231 non-null   float64
 8   density               3231 non-null   float64
 9   pH                    3231 non-null   float64
 10  sulphates             3231 non-null   float64
 11  alcohol               3231 non-null   object 
 12  quality               3231 non-null   int64  
dtypes: float64(10), int64(1), object(2)
memory usage: 328.3+ KB


### Columna *'type'*
Esta variable nos muestra la variedad del vino en cuestion. Es una variable cuantitativa nominal y tiene dos varoles posibles: **"Moscatel"** o **"Syrah"**. No tiene valores nulos.

In [87]:
df['type'].value_counts()

type
Moscatel    1632
Syrah       1599
Name: count, dtype: int64

### Columna *'fixed acidity'*
Esta columna refleja la cantidad de acidos no volatiles presentes en el vino, medida en gramos por litro. Es una variable cuantitativa continua.

In [88]:
print(df['fixed acidity'].describe())

count    3231.000000
mean        7.414082
std         1.598760
min         3.800000
25%         6.400000
50%         7.000000
75%         8.000000
max        15.900000
Name: fixed acidity, dtype: float64


### Columna *'volatile acidity'*
Esta columna da la cantidad de acidos volatiles presentes en el vino, medida en gramos por litro. Es una variable cuantitativa continua.

La acidez volátil (AV) es el conjunto de ácidos grasos de la serie
acética que se hallan en el vino libres o combinados formando sales.
El más importante es el ácido acético.
El olor desagradable a "picado" de algunos vinos es debido principalmente al ácido acético y al acetato de etilo. El nivel sensorial
de estos compuestos es del orden de 0,6 g/L para el ácido acético
y 0,1 g/L para el acetato de etilo. 

*Para mas informacion, visitar:*
- *[Enología - U. de Santiago de Compostela](https://www.usc.gal/caa/MetAnalisisStgo1/enologia.pdf)*
- *[Acidos y acidez en el vino - Aprender de vino](https://www.aprenderdevino.es/acidos-acidez-vino/)*

In [89]:
print(df['volatile acidity'].describe())

count    3231.000000
mean        0.403802
std         0.189421
min         0.085000
25%         0.260000
50%         0.360000
75%         0.530000
max         1.580000
Name: volatile acidity, dtype: float64


### Columna *'citric acid'*
Esta columna muestra la cantidad de acido citrico presente en el vino, medida en gramos por litro. Es una variable cuantitativa continua.

In [94]:
print(df['citric acid'].describe())

count    3231.000000
mean        0.288028
std         0.156842
min         0.000000
25%         0.200000
50%         0.280000
75%         0.370000
max         1.000000
Name: citric acid, dtype: float64


### Columna 'residual sugar'
Esta columna da la cantidad de azúcar residual en gramos por litro de vino. Es una variable cuantitativa continua.

In [5]:
print(df['residual sugar'].describe())

count    3231.000000
mean        4.526339
std         4.143991
min         0.700000
25%         1.900000
50%         2.500000
75%         6.100000
max        26.050000
Name: residual sugar, dtype: float64


### Columna *'chlorides'*
Esta columna nos indica la cantidad de cloruros presentes en el vino, medidos en miligramos por litro (mg/L). Es una variable cuantitativa continua.
Los cloruros (*"chlorides" por su nombre en ingles*) en el vino pueden afectar el sabor y la calidad del mismo, y también pueden ayudar a determinar su origen y las variedades de uva:

- **Sabor:**
      altas concentraciones de cloruro pueden darle al vino un sabor salado indeseable, lo que puede reducir su atractivo en el mercado. Sin embargo, también se cree que la presencia de cloruro es necesaria para que el sabor salado sea percibido.

- **Origen:**
      La concentración de cloruro en el vino puede verse influenciada por las condiciones geográficas, geológicas y climáticas del viñedo, como su distancia de la costa, el tipo de suelo y si se riega con agua salada.

- **Variedades de uva:**
      El tipo de uva utilizado en el vino puede influir en la cantidad de cloruro que contiene.

- **Restricciones legales:**
      La concentración de cloruro en el vino está regulada por diferentes países. Por ejemplo, el nivel máximo legal de cloruro en el vino terminado es de 606 mg/L.

La concentración de cloruro en el vino varía ampliamente, pero raramente supera los 500 mg/L.

In [3]:
df['chlorides'].describe()

count    3231.000000
mean        0.066149
std         0.041908
min         0.009000
25%         0.042000
50%         0.058000
75%         0.080000
max         0.611000
Name: chlorides, dtype: float64

### Columna *'free sulfur dioxide'*
Esta columna nos indica la cantidad de dióxido de azufre (SO<sub>2</sub>) libre presente en el vino, medido en miligramos por litro (mg/L). Es una variable cuantitativa continua.
El anhídrido sulfuroso se obtiene por oxidación del azufre donde por una combustión del azufre con el oxígeno genera el dióxido de azufre.
Es considerado como el primer aditivo de uso enológico, el cual desde los comienzos del tiempo de la enología fue muy útil ya que a partir de su uso, se determinaron menos alteraciones durante las etapas de conservación. Esto se explica gracias a la fuerte acción bactericida que tiene, actualmente se lo sigue considerando como algo indispensable en la enología de nuestros días.
En el vino, lo vamos a tener bajo tres formas:
- anhídrido sulfuro libre
- anhídrido sulfuroso combinado
- anhídrido sulfuroso total (que es la suma de los dos anteriores).

El anhídrido sulfuroso libre tiene distintas formas, una de ellas es la forma gaseosa, como dióxido de azufre que es soluble en el agua del vino; el ácido sulfuroso; el anión sulfito ácido que proviene de la disociación del ácido sulfuroso; y también en anión sulfito. 

> *Para mas información, visitar:*
>    - *[El Consejo de Enólogos](http://www.consejodeenologos.com.ar/panel/upload/contenidos/pdf/Microsoft_Word___ANHDRIDO_SULFUROSO_1.pdf)*
>    - *[Vinetur](https://www.vinetur.com/2016011026759/las-propiedades-del-anhidrido-sulfuroso-en-la-elaboracion-del-vino.html)*

In [3]:
df['free sulfur dioxide'].describe()

count    3231.000000
mean       25.649335
std        17.422288
min         1.000000
25%        12.000000
50%        23.000000
75%        35.000000
max       289.000000
Name: free sulfur dioxide, dtype: float64

### Columna *'total sulfur dioxide'*
Esta columna nos indica la cantidad total de dióxido de azufre (SO<sub>2</sub>) total presente en el vino, medido en miligramos por litro (mg/L). Es una variable cuantitativa continua.

- El anhídrido sulfuroso total está constituido por la suma del anhídrido sulfuroso libre
y el anhídrido sulfuroso combinado.

> *Para mas información, visitar:*
>    - *[El Consejo de Enólogos](http://www.consejodeenologos.com.ar/panel/upload/contenidos/pdf/Microsoft_Word___ANHDRIDO_SULFUROSO_1.pdf)*
>    - *[Vinetur](https://www.vinetur.com/2016011026759/las-propiedades-del-anhidrido-sulfuroso-en-la-elaboracion-del-vino.html)*

In [4]:
df['total sulfur dioxide'].describe()

count    3231.000000
mean       88.349892
std        54.633913
min         6.000000
25%        38.000000
50%        89.000000
75%       127.000000
max       440.000000
Name: total sulfur dioxide, dtype: float64

### Columna *'density'*
En esta columna podemos ver la densidad del vino, medida en gramos por centímetro cúbico (g/cm<sup>3</sup>). Es una variable cuantitativa continua.

La densidad o peso específico del vino es un parámetro analítico de importancia relativa. Si estrujamos uvas y medimos la densidad de ese mosto comprobamos que pesa más que el agua. Un litro de agua pesa 1.000 gramos y un litro de mosto pesa 994 gramos, pero no siempre es lo mismo. Durante la fermentación, que dura unos diez días, la densidad que parte de 1.100, concluye en 994. La diferencia es el tufo que va a la atmósfera.

Pero no todos los vinos acaban su fermentación con la misma densidad, depende de su contenido en alcohol. Si la uva es muy madura tendrá mucho azúcar que formara 14º de alcohol y ese vino tendrá densidad 0,993 que significa que un litro pesará 993 gramos. Por el contrario, si vendimiamos esa uva sin madurar su grado de alcohol será 10º y su densidad de 0,996, lo cual significa que un litro pesa 996 gramos.

*Para mas información, visitar [Densidad del vino - La Rioja](https://www.larioja.com/opinion/densidad-vino-20210611214244-nt.html?ref=https%3A%2F%2Fwww.larioja.com%2Fopinion%2Fdensidad-vino-20210611214244-nt.html).*

In [5]:
df['density'].describe()

count    3231.000000
mean        1.901500
std         8.747779
min         0.987110
25%         0.992550
50%         0.995500
75%         0.997230
max       100.369000
Name: density, dtype: float64

### Columna *'pH'*
Esta columna nos indica el pH del vino. Es una variable cuantitativa continua.

Desde un punto de vista sencillo podemos decir que el pH mide el grado de acidez o de alcalinidad de una disolución obtenida de cualquier elemento o sustancia. Esta unidad de medida se distribuye a lo largo de una escala que va desde el 0 hasta el 14, tomándose el 7 como neutro, siendo los valores más cercanos a 0 los que indican que esa disolución es más ácida y los valores más cercanos a 14 los que indican que esa solución es más alcalina o básica, como también se denomina.

El pH de la mayoría de los vinos se encuentra en el intervalo de 2,8 a 4, lo que lógicamente recae en el lado ácido de la escala. Un vino con un pH de 2,8 es extremadamente ácido mientras que uno con un pH en torno a 4 es plano, carente de acidez.

> *Para mas información, visitar [pH - Aprender de vino](https://www.aprenderdevino.es/ph-y-vino/).*

In [7]:
df['pH'].describe()

count    3231.000000
mean        3.235908
std         0.164921
min         2.740000
25%         3.120000
50%         3.230000
75%         3.340000
max         4.010000
Name: pH, dtype: float64

### Columna *'sulphates'*
Esta columna nos indica la cantidad de sales de sulfato presentes en el vino, medida en gramos por litro. Es una variable cuantitativa continua.

In [6]:
df['sulphates'].describe()

count    3231.000000
mean        0.573680
std         0.166353
min         0.230000
25%         0.470000
50%         0.550000
75%         0.650000
max         2.000000
Name: sulphates, dtype: float64

### Columna *'alcohol'*
Podemos ver que la columna 'alcohol' a simple vista consta de numeros reales, sin embargo, está establecida como tipo `string`, entonces procedemos a modificar su formato a tipo `float`, para así poder analizar esta variable de una manera adecuada.

Antes de hacer la transformacion, hacemos un `value_counts()` de la columna para asegurarnos que se trata unicamente de numeros.
Parece ser que encontramos valores erroneos, que tienen varios puntos en lugar de uno único para separar parte entera de decimal.

Para corregir los valores en la columna alcohol y quedarnos solo con la primera aparición del punto decimal, lo hicimos aplicandole una funcion del modulo `re` de expresiones regulares de manera independiente a cada una de las filas con el metodo `apply()`.

Utilizamos lambda como manera de definir la funcion ya que es algo corto que no necesita de la definicion de una funcion tradicional. Dentro de esta, implementamos `re.sub()`: es una función del módulo *re* (expresiones regulares en Python) que busca un patrón en un string y lo reemplaza por otro string.

La sintaxis es `re.sub(pattern, replacement, string)`, donde:
- `pattern`: el patrón de la expresión regular que se quiere buscar.
> En este caso usamos `r'(\.\d+)\.'`
>
> 1. **`r''` (Raw String Literal):**
>    - El prefijo `r` indica que el string es un "raw string" (cadena cruda), lo que significa que las barras invertidas `\` son tratadas literalmente y no como caracteres de escape.
>
> 2. **`(\.\d+)`:**
>   - **`\.`**: Escapa el punto `.` para buscarlo literalmente, ya que en regex `.` representa cualquier carácter. Aquí busca el primer punto en la cadena.
>    - **`\d+`**: Representa uno o más dígitos (`0-9`) que siguen al punto.
>    - **`(\.\d+)`**: Captura el primer punto y los números que lo siguen como un grupo.
>
> 3. **`\.` (después del grupo):**
>    - Este busca un punto adicional inmediatamente después de los números capturados en el grupo anterior.
- `replacement`: el texto con el que se reemplaza el patrón encontrado.
> Este reemplazo en este caso lo hacemos con la expresion regular `(r'\1')`: `\1` se refiere al primer grupo capturado, es decir, el primer punto y los números que lo siguen, pero no incluye el segundo punto. Así, solo se conserva el primer punto y los dígitos.
- `string`: el string sobre el cual se realiza la búsqueda y reemplazo.

Finalmente, pasamos los valores a tipo numerico con el metodo `to_numeric()` de pandas.

In [92]:
import re  # Importamos el paquete re de expresiones regulares en python

# Vemos los valores erroneos
print(df['alcohol'].value_counts())

# Reemplazar todos los puntos después del primero en cada valor de la columna 'alcohol'
df['alcohol'] = df['alcohol'].apply(lambda x: re.sub(r'(\.\d+)\.', r'\1', x))

alcohol
9.5                  200
9.4                  170
9.2                  131
11                   120
9.8                  117
                    ... 
9.95                   1
923.333333.333333      1
9.25                   1
9.05                   1
10.75                  1
Name: count, Length: 110, dtype: int64


In [93]:
### Separamos la celula de codigo en dos para evitar errores de ejecución.

# Convertir los valores corregidos a tipo numérico
df['alcohol'] = pd.to_numeric(df['alcohol'])

print("\nAhora con los valores corregidos:\n", df['alcohol'].value_counts())

print("\nVemos los tipos de datos corregidos:")
df.info()


Ahora con los valores corregidos:
 alcohol
9.500000      200
9.400000      170
9.200000      131
11.000000     120
9.800000      117
             ... 
9.950000        1
923.333333      1
9.250000        1
9.050000        1
10.750000       1
Name: count, Length: 110, dtype: int64

Vemos los tipos de datos corregidos:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3231 entries, 0 to 3230
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   type                  3231 non-null   object 
 1   fixed acidity         3231 non-null   float64
 2   volatile acidity      3231 non-null   float64
 3   citric acid           3231 non-null   float64
 4   residual sugar        3231 non-null   float64
 5   chlorides             3231 non-null   float64
 6   free sulfur dioxide   3231 non-null   float64
 7   total sulfur dioxide  3231 non-null   float64
 8   density               3231 non-null   float64
 9   pH      

### Columna *'quality'*
Esta columna nos indica la calidad del vino, con una escala que va de 0 a 10. Es una variable cuantitativa discreta.

In [9]:
df['quality'].describe()

count    3231.000000
mean        5.785825
std         0.829374
min         3.000000
25%         5.000000
50%         6.000000
75%         6.000000
max         8.000000
Name: quality, dtype: float64

## Descripcion de las variables numericas
`describe()` del dataframe.

In [17]:
df.describe()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
count,3231.0,3231.0,3231.0,3231.0,3231.0,3231.0,3231.0,3231.0,3231.0,3231.0,3231.0,3231.0
mean,7.414082,0.403802,0.288028,4.526339,0.066149,25.649335,88.349892,1.9015,3.235908,0.57368,13.983321,5.785825
std,1.59876,0.189421,0.156842,4.143991,0.041908,17.422288,54.633913,8.747779,0.164921,0.166353,48.057856,0.829374
min,3.8,0.085,0.0,0.7,0.009,1.0,6.0,0.98711,2.74,0.23,8.4,3.0
25%,6.4,0.26,0.2,1.9,0.042,12.0,38.0,0.99255,3.12,0.47,9.55,5.0
50%,7.0,0.36,0.28,2.5,0.058,23.0,89.0,0.9955,3.23,0.55,10.5,6.0
75%,8.0,0.53,0.37,6.1,0.08,35.0,127.0,0.99723,3.34,0.65,11.5,6.0
max,15.9,1.58,1.0,26.05,0.611,289.0,440.0,100.369,4.01,2.0,973.333333,8.0
