# PREPROCESAMIENTO DE DATOS
Abiendo el archivo *.csv*, vimos que el mismo usaba como separadores el punto y coma (;), en lugar de la coma tradicional (,). Por lo tanto, al leer el archivo (usando la función de pandas `pd.read_csv()`), se debe especificar el separador a utilizar. Para esto agregamos el parámetro `sep=';'` y así vemos que el dataframe se muestra correctamente.

In [2]:
import pandas as pd

# Leemos el archivo .csv con separadores ";" y lo guardamos en una variable
raw_df = pd.read_csv("winequality_BDS.csv", sep=';')

# Mostramos las primeras 5 filas del dataset
raw_df.head()

Unnamed: 0,type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,Moscatel,8.1,0.24,0.32,10.5,0.03,34.0,105.0,0.99407,3.11,0.42,11.8,6
1,Moscatel,5.8,0.23,0.2,2.0,0.043,39.0,154.0,0.99226,3.21,0.39,10.2,6
2,Moscatel,7.5,0.33,0.36,2.6,0.051,26.0,126.0,0.99097,3.32,0.53,12.7,6
3,Moscatel,6.6,0.38,0.36,9.2,0.061,42.0,214.0,0.9976,3.31,0.56,9.4,5
4,Moscatel,6.4,0.15,0.29,1.8,0.044,21.0,115.0,0.99166,3.1,0.38,10.2,5


## Informacion de las variables
`raw_df.info()`

###Sobre el conjunto de datos
Este conjunto de datos contiene 3231 muestras de vino obtenidas mediante pruebas fisicoquímicas en la bodega Del Sol, elaboradas a partir de dos tipos de uva.
###Descripción de las variables
- `type`: tipo de uva con la que se elabora el vino.
- `fixed acidity`: cantidad de ácidos no volátiles presentes en el vino, medida en gramos por litro.
- `volatile acidity`: cantidad de ácidos volátiles presentes en el vino, medida en gramos por litro.
- `citric acid`: contenido de ácido cítrico en el vino, medido en gramos por litro.
- `residual sugar`: cantidad de azúcar que queda en el vino después de la fermentación, medida en gramos por litro.
- `chlorides`: concentración de cloruros (sales) en el vino, medida en gramos por litro.
- `free sulfur dioxide`: cantidad de dióxido de azufre que no está ligado químicamente en el vino, medida en miligramos por litro.
- `total sulfur dioxide` : suma del dióxido de azufre libre y el combinado en el vino, medida en miligramos por litro.
- `density`: medida de la masa por unidad de volumen del vino, utilizada para estimar la concentración de sólidos disueltos, medida en gramos por centímetro cúbico.
- `pH`: medida de la acidez o alcalinidad del vino.
- `sulphates`: concentración de sales de sulfato en el vino, medida en gramos por litro.
- `alcohol`: contenido alcohólico del vino, medido en porcentaje de volumen (% vol).
- `quality`: puntuación del vino, con una escala que va de 0 a 10.

In [3]:
raw_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3231 entries, 0 to 3230
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   type                  3231 non-null   object 
 1   fixed acidity         3231 non-null   float64
 2   volatile acidity      3231 non-null   float64
 3   citric acid           3231 non-null   float64
 4   residual sugar        3231 non-null   float64
 5   chlorides             3231 non-null   float64
 6   free sulfur dioxide   3231 non-null   float64
 7   total sulfur dioxide  3231 non-null   float64
 8   density               3231 non-null   float64
 9   pH                    3231 non-null   float64
 10  sulphates             3231 non-null   float64
 11  alcohol               3231 non-null   object 
 12  quality               3231 non-null   int64  
dtypes: float64(10), int64(1), object(2)
memory usage: 328.3+ KB


## Pulir datos

Para comenzar a trabajar sobre los datos, antes que nada hacemos una copia del dataframe en crudo. El dataframe sobre el que haremos modificaciones se llamará `df`.

In [4]:
# Creamos un nuevo dataframe para trabajar en él.
df = raw_df.copy()

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3231 entries, 0 to 3230
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   type                  3231 non-null   object 
 1   fixed acidity         3231 non-null   float64
 2   volatile acidity      3231 non-null   float64
 3   citric acid           3231 non-null   float64
 4   residual sugar        3231 non-null   float64
 5   chlorides             3231 non-null   float64
 6   free sulfur dioxide   3231 non-null   float64
 7   total sulfur dioxide  3231 non-null   float64
 8   density               3231 non-null   float64
 9   pH                    3231 non-null   float64
 10  sulphates             3231 non-null   float64
 11  alcohol               3231 non-null   object 
 12  quality               3231 non-null   int64  
dtypes: float64(10), int64(1), object(2)
memory usage: 328.3+ KB


### Columna *'type'*
Esta variable nos muestra la variedad del vino en cuestion. Es una variable cuantitativa nominal y tiene dos varoles posibles: **"Moscatel"** o **"Syrah"**. No tiene valores nulos.

In [87]:
df['type'].value_counts()

type
Moscatel    1632
Syrah       1599
Name: count, dtype: int64

### Columna *'fixed acidity'*
Esta columna refleja la cantidad de acidos no volatiles presentes en el vino, medida en gramos por litro. Es una variable cuantitativa continua.

In [88]:
print(df['fixed acidity'].describe())

count    3231.000000
mean        7.414082
std         1.598760
min         3.800000
25%         6.400000
50%         7.000000
75%         8.000000
max        15.900000
Name: fixed acidity, dtype: float64


## Columna *'volatile acidity'*
Esta columna da la cantidad de acidos volatiles presentes en el vino, medida en gramos por litro. Es una variable cuantitativa continua.

In [89]:
print(df['volatile acidity'].describe())

count    3231.000000
mean        0.403802
std         0.189421
min         0.085000
25%         0.260000
50%         0.360000
75%         0.530000
max         1.580000
Name: volatile acidity, dtype: float64


### Columna *'citric acid'*
Esta columna muestra la cantidad de acido citrico presente en el vino, medida en gramos por litro. Es una variable cuantitativa continua.

In [94]:
print(df['citric acid'].describe())

count    3231.000000
mean        0.288028
std         0.156842
min         0.000000
25%         0.200000
50%         0.280000
75%         0.370000
max         1.000000
Name: citric acid, dtype: float64


### Columna 'residual sugar'
Esta columna da la cantidad de azúcar residual en gramos por litro de vino. Es una variable cuantitativa continua.

In [5]:
print(df['residual sugar'].describe())

count    3231.000000
mean        4.526339
std         4.143991
min         0.700000
25%         1.900000
50%         2.500000
75%         6.100000
max        26.050000
Name: residual sugar, dtype: float64


### Columna *'alcohol'*
Podemos ver que la columna 'alcohol' a simple vista consta de numeros reales, sin embargo, está establecida como tipo `string`, entonces procedemos a modificar su formato a tipo `float`, para así poder analizar esta variable de una manera adecuada.

Antes de hacer la transformacion, hacemos un `value_counts()` de la columna para asegurarnos que se trata unicamente de numeros.
Parece ser que encontramos valores erroneos, que tienen varios puntos en lugar de uno único para separar parte entera de decimal.

Para corregir los valores en la columna alcohol y quedarnos solo con la primera aparición del punto decimal, lo hicimos aplicandole una funcion del modulo `re` de expresiones regulares de manera independiente a cada una de las filas con el metodo `apply()`.

Utilizamos lambda como manera de definir la funcion ya que es algo corto que no necesita de la definicion de una funcion tradicional. Dentro de esta, implementamos `re.sub()`: es una función del módulo *re* (expresiones regulares en Python) que busca un patrón en un string y lo reemplaza por otro string.

La sintaxis es `re.sub(pattern, replacement, string)`, donde:
- `pattern`: el patrón de la expresión regular que se quiere buscar.
> En este caso usamos `r'(\.\d+)\.'`
>
> 1. **`r''` (Raw String Literal):**
>    - El prefijo `r` indica que el string es un "raw string" (cadena cruda), lo que significa que las barras invertidas `\` son tratadas literalmente y no como caracteres de escape.
>
> 2. **`(\.\d+)`:**
>   - **`\.`**: Escapa el punto `.` para buscarlo literalmente, ya que en regex `.` representa cualquier carácter. Aquí busca el primer punto en la cadena.
>    - **`\d+`**: Representa uno o más dígitos (`0-9`) que siguen al punto.
>    - **`(\.\d+)`**: Captura el primer punto y los números que lo siguen como un grupo.
>
> 3. **`\.` (después del grupo):**
>    - Este busca un punto adicional inmediatamente después de los números capturados en el grupo anterior.
- `replacement`: el texto con el que se reemplaza el patrón encontrado.
> Este reemplazo en este caso lo hacemos con la expresion regular `(r'\1')`: `\1` se refiere al primer grupo capturado, es decir, el primer punto y los números que lo siguen, pero no incluye el segundo punto. Así, solo se conserva el primer punto y los dígitos.
- `string`: el string sobre el cual se realiza la búsqueda y reemplazo.

Finalmente, pasamos los valores a tipo numerico con el metodo `to_numeric()` de pandas.

In [92]:
import re  # Importamos el paquete re de expresiones regulares en python

# Vemos los valores erroneos
print(df['alcohol'].value_counts())

# Reemplazar todos los puntos después del primero en cada valor de la columna 'alcohol'
df['alcohol'] = df['alcohol'].apply(lambda x: re.sub(r'(\.\d+)\.', r'\1', x))

alcohol
9.5                  200
9.4                  170
9.2                  131
11                   120
9.8                  117
                    ... 
9.95                   1
923.333333.333333      1
9.25                   1
9.05                   1
10.75                  1
Name: count, Length: 110, dtype: int64


In [93]:
### Separamos la celula de codigo en dos para evitar errores de ejecución.

# Convertir los valores corregidos a tipo numérico
df['alcohol'] = pd.to_numeric(df['alcohol'])

print("\nAhora con los valores corregidos:\n", df['alcohol'].value_counts())

print("\nVemos los tipos de datos corregidos:")
df.info()


Ahora con los valores corregidos:
 alcohol
9.500000      200
9.400000      170
9.200000      131
11.000000     120
9.800000      117
             ... 
9.950000        1
923.333333      1
9.250000        1
9.050000        1
10.750000       1
Name: count, Length: 110, dtype: int64

Vemos los tipos de datos corregidos:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3231 entries, 0 to 3230
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   type                  3231 non-null   object 
 1   fixed acidity         3231 non-null   float64
 2   volatile acidity      3231 non-null   float64
 3   citric acid           3231 non-null   float64
 4   residual sugar        3231 non-null   float64
 5   chlorides             3231 non-null   float64
 6   free sulfur dioxide   3231 non-null   float64
 7   total sulfur dioxide  3231 non-null   float64
 8   density               3231 non-null   float64
 9   pH      

## Descripcion de las variables numericas
`describe()` del dataframe.

In [17]:
df.describe()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
count,3231.0,3231.0,3231.0,3231.0,3231.0,3231.0,3231.0,3231.0,3231.0,3231.0,3231.0,3231.0
mean,7.414082,0.403802,0.288028,4.526339,0.066149,25.649335,88.349892,1.9015,3.235908,0.57368,13.983321,5.785825
std,1.59876,0.189421,0.156842,4.143991,0.041908,17.422288,54.633913,8.747779,0.164921,0.166353,48.057856,0.829374
min,3.8,0.085,0.0,0.7,0.009,1.0,6.0,0.98711,2.74,0.23,8.4,3.0
25%,6.4,0.26,0.2,1.9,0.042,12.0,38.0,0.99255,3.12,0.47,9.55,5.0
50%,7.0,0.36,0.28,2.5,0.058,23.0,89.0,0.9955,3.23,0.55,10.5,6.0
75%,8.0,0.53,0.37,6.1,0.08,35.0,127.0,0.99723,3.34,0.65,11.5,6.0
max,15.9,1.58,1.0,26.05,0.611,289.0,440.0,100.369,4.01,2.0,973.333333,8.0
