# Trabajo práctico especial

## Datos sobre el dataset

Este conjunto de datos contiene 3232 muestras de vino obtenidas mediante pruebas fisicoquímicas en la bodega El Refugio, elaboradas a partir de dos tipos de uva.

### Descripción de las variables:

- **type**: tipo de uva con la que se elabora el vino.
- **fixed acidity**: cantidad de ácidos no volátiles presentes en el vino, medida en gramos por litro.
- **volatile acidity**: cantidad de ácidos volátiles presentes en el vino, medida en gramos por litro. 
- **citric acid**: contenido de ácido cítrico en el vino, medido en gramos por litro.
- **residual sugar**: cantidad de azúcar que queda en el vino después de la fermentación, medida en gramos por litro. 
- **chlorides**: concentración de cloruros (sales) en el vino, medida en gramos por litro.
- **free sulfur dioxide**: cantidad de dióxido de azufre que no está ligado químicamente en el vino, medida en miligramos por litro. 
- **total sulfur dioxide**: suma del dióxido de azufre libre y el combinado en el vino, medida en miligramos por litro.
- **density**: medida de la masa por unidad de volumen del vino, utilizada para estimar la concentración de sólidos disueltos, medida en gramos por centímetro cúbico.
- **pH**: medida de la acidez o alcalinidad del vino. 
- **sulphates**: concentración de sales de sulfato en el vino, medida en gramos por litro. 
- **alcohol**: contenido alcohólico del vino, medido en porcentaje de volumen (% vol).
- **quality**: puntuación del vino, con una escala que va de 0 a 10.


## Metodología del análisis

En esta notebook, vamos a realizar un análisis exploratorio de los datos, siguiendo el orden mostrado a continuación:  

**1 -** Preparación del archivo ".csv"  
**2 -** Estudio de los tipos de datos y unidades.  
**3 -** Estudio de valores nulos.  
**4 -** Transformación del dataset.  
**5 -** Estudio univariado.  
**6 -** Estudio bivariado.  
**7 -** Conclusiones.  

## Preparación del archivo ".csv"

Como para empezar, vemos el archivo _.csv_ no está separado por comas, sino por los punto y coma. Lo abrimos de la forma correspondiente:

In [108]:
import pandas as pd

raw_ds = pd.read_csv("winequality_BR.csv", sep = ';')

Al utilizar la función _head()_, vemos que en el archivo aparecen columnas vacías y sin nombre.

In [109]:
raw_ds.head()

Unnamed: 0,type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,Unnamed: 13,Unnamed: 14,Unnamed: 15
0,Riesling,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6,,,
1,Riesling,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6,,,
2,Riesling,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6,,,
3,Riesling,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6,,,
4,Riesling,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6,,,


Al quitar las columnas con la función _dropna_, pudimos observar que la columna _"Unnamed: 15"_ sigue apareciendo. Esto indica que, la misma tiene al menos un valor no nulo.

In [110]:
raw_ds = raw_ds.dropna(axis=1, how='all')
raw_ds.head()

Unnamed: 0,type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,Unnamed: 15
0,Riesling,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6,
1,Riesling,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6,
2,Riesling,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6,
3,Riesling,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6,
4,Riesling,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6,


Utilizando la función de _value_counts()_ vemos cuál es el valor no nulo y cuántos de estos hay.

In [111]:
raw_ds["Unnamed: 15"].value_counts()

Unnamed: 15
Riesling    1
Name: count, dtype: int64

Dado que, el valor no nulo de la columna _Unnamed: 15_ es igual a uno de los valores de la columna _type_, comprobamos que, no haya datos faltantes en esta última porque quizá podría haber ocurrido un error que cause este "desplazamiento" del dato.

In [112]:
cant_nulos = raw_ds["type"].isna().sum()
print(f"La cantidad de valores nulos de type es: {cant_nulos}")


La cantidad de valores nulos de type es: 0


Procedemos borrando la columna que no aporta ningún tipo de información. 

In [113]:
raw_ds = raw_ds.drop(columns="Unnamed: 15", axis=1)
raw_ds.head()

Unnamed: 0,type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,Riesling,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6
1,Riesling,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6
2,Riesling,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6
3,Riesling,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6
4,Riesling,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6


## Estudio de los tipos de datos y unidades 

Comenzamos clasificando por tipo de dato a cada una de las _features_ del dataset:

**- type:** dato cualitativo nominal.   
**- fixed_acidity:** dato cuantitativo continuo.  
**- volatile_acidity:** dato cuantitativo contiunuo.  
**- citric acid:** dato cuantitativo continuo.  
**- residual sugar:** dato cuantitativo continuo.  
**- chlorides:** dato cuantitativo continuo.  
**- free sulfur dioxide:** dato cuantitativo continuo.   
**- total sulfur dioxide:** dato cuantitativo continuo.    
**- density:** dato cuantitativo continuo.  
**- pH:** dato cuantitativo continuo.  
**- sulphates:** tipo de dato cuantiativo continuo.  
**- alcohol:** tipo de dato cuantitativo continuo.  
**- quality:** tipo de dato cuantitativo discreto.  

Utilizando la  función _info_, podemos comparar los tipos de los datos definidos anteriormente, con los de Python. De esta manera, corregimos las discrepancias.

In [125]:
raw_ds.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3232 entries, 0 to 3231
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   type                  3232 non-null   object 
 1   fixed acidity         3232 non-null   float64
 2   volatile acidity      3232 non-null   float64
 3   citric acid           3232 non-null   float64
 4   residual sugar        3232 non-null   float64
 5   chlorides             3232 non-null   float64
 6   free sulfur dioxide   3232 non-null   float64
 7   total sulfur dioxide  3232 non-null   float64
 8   density               3232 non-null   float64
 9   pH                    3232 non-null   float64
 10  sulphates             3232 non-null   float64
 11  alcohol               3232 non-null   object 
 12  quality               3232 non-null   int64  
dtypes: float64(10), int64(1), object(2)
memory usage: 328.4+ KB


Como podemos observar, el feature "alcohol" lo definimos como un dato cuantitativo continuo, pero, en el dataset aparece como un _object_. Por lo tanto, lo castearemos como _float64_

In [126]:
preprocessed_ds = raw_ds.copy()
try:
    preprocessed_ds["alcohol"] = preprocessed_ds["alcohol"].astype(float) #### PREGUNTAR SI ES NECESARIA LA COPIA
    print("Fue en éxito")
except ValueError :
    print("No se pudo convertir el dato a float64")

No se pudo convertir el dato a float64


La ejecución del casting dió un error, esto quiere decir que hay datos en la columna de _alcohol_ que no concuerdan con el tipo de dato _float64_. Vemos con _value_counts_ qué valores hay en la columna:

In [127]:
conteo_de_valores = preprocessed_ds["alcohol"].value_counts()
conteo_de_valores

alcohol
9.5                    222
9.4                    181
10                     143
9.2                    141
9.8                    133
                      ... 
9.95                     1
923.333.333.333.333      1
9.25                     1
9.05                     1
10.75                    1
Name: count, Length: 69, dtype: int64

Mejorando la precisión de la función:

In [128]:
conteo_de_valores[conteo_de_valores < 133]

alcohol
10.5                   132
9.3                    115
9.6                    114
11                     103
9                       99
                      ... 
9.95                     1
923.333.333.333.333      1
9.25                     1
9.05                     1
10.75                    1
Name: count, Length: 64, dtype: int64

In [129]:
conteo_de_valores[conteo_de_valores < 99]

alcohol
9.7                    98
10.8                   94
10.2                   94
10.4                   91
10.1                   90
9.9                    89
10.9                   77
9.1                    76
11.4                   75
10.6                   69
11.2                   65
10.3                   63
10.7                   60
11.3                   59
11.5                   58
11.1                   47
8.9                    44
12.5                   43
11.8                   42
8.7                    40
11.7                   38
12.2                   38
12                     37
8.8                    35
12.8                   34
12.3                   32
11.9                   32
12.4                   30
11.6                   28
12.6                   28
12.1                   27
12.7                   26
8.6                    14
12.9                   14
14                      8
13                      7
13.4                    5
8.5                     5
13.5

In [130]:
conteo_de_valores[conteo_de_valores < 35]

alcohol
12.8                   34
12.3                   32
11.9                   32
12.4                   30
11.6                   28
12.6                   28
12.1                   27
12.7                   26
8.6                    14
12.9                   14
14                      8
13                      7
13.4                    5
8.5                     5
13.5                    4
13.3                    4
13.6                    4
8.4                     2
10.55                   2
100.333.333.333.333     2
9.55                    2
13.1                    2
13.7                    2
13.2                    2
14.9                    1
13.9                    1
110.666.666.666.667     1
956.666.666.666.667     1
135.666.666.666.667     1
11.95                   1
9.95                    1
923.333.333.333.333     1
9.25                    1
9.05                    1
10.75                   1
Name: count, dtype: int64

In [131]:
conteo_de_valores[conteo_de_valores < 10] #### PREGUNTAR

alcohol
14                     8
13                     7
13.4                   5
8.5                    5
13.5                   4
13.3                   4
13.6                   4
8.4                    2
10.55                  2
100.333.333.333.333    2
9.55                   2
13.1                   2
13.7                   2
13.2                   2
14.9                   1
13.9                   1
110.666.666.666.667    1
956.666.666.666.667    1
135.666.666.666.667    1
11.95                  1
9.95                   1
923.333.333.333.333    1
9.25                   1
9.05                   1
10.75                  1
Name: count, dtype: int64

Estos valores que no podemos convertir a _float64_, no son siquiera números o valores extremos (los miles se separan con comas en inglés). Podríamos intuir que un hubo un problema con los decimales periódicos. A su vez, para la corrección habría que tener en cuenta que, el grado de alcohol del vino ronda entre el 5% y el 20%. Por lo tanto:

In [135]:
preprocessed_ds["alcohol"] = preprocessed_ds["alcohol"].replace("100.333.333.333.333", "10.03")
preprocessed_ds["alcohol"] = preprocessed_ds["alcohol"].replace("923.333.333.333.333", "9.23")
preprocessed_ds["alcohol"] = preprocessed_ds["alcohol"].replace("110.666.666.666.667", "11.07")
preprocessed_ds["alcohol"] = preprocessed_ds["alcohol"].replace("956.666.666.666.667", "9.57")
preprocessed_ds["alcohol"] = preprocessed_ds["alcohol"].replace("135.666.666.666.667", "13.57")

try:
    preprocessed_ds["alcohol"] = preprocessed_ds["alcohol"].astype(float)
    print("Fue un éxito")
except ValueError as e:
    print("No se pudo convertir el dato a float64")

Fue un éxito


## E

Comenzamos haciendo un reporte para analizar los datos y tener las primeras impresiones sobre sus tipos y distribuciones.

In [82]:
#from ydata_profiling import ProfileReport
#
#report = ProfileReport(raw_ds)
#report.to_file(output_file = "reporte_vinos.html")
#report.to_notebook_iframe()