# Trabajo práctico especial

Materia: Fundamentos de la Ciencia de Datos.  
Integrantes: León Nicolás, Ortiz Matías y Ramírez Gonzalo.    

## Datos sobre el dataset

Este conjunto de datos contiene 3232 muestras de vino obtenidas mediante pruebas fisicoquímicas en la bodega El Refugio, elaboradas a partir de dos tipos de uva.

### Descripción de las variables:

- **type**: tipo de uva con la que se elabora el vino.
- **fixed acidity**: cantidad de ácidos no volátiles presentes en el vino, medida en gramos por litro.
- **volatile acidity**: cantidad de ácidos volátiles presentes en el vino, medida en gramos por litro. 
- **citric acid**: contenido de ácido cítrico en el vino, medido en gramos por litro.
- **residual sugar**: cantidad de azúcar que queda en el vino después de la fermentación, medida en gramos por litro. 
- **chlorides**: concentración de cloruros (sales) en el vino, medida en gramos por litro.
- **free sulfur dioxide**: cantidad de dióxido de azufre que no está ligado químicamente en el vino, medida en miligramos por litro. 
- **total sulfur dioxide**: suma del dióxido de azufre libre y el combinado en el vino, medida en miligramos por litro.
- **density**: medida de la masa por unidad de volumen del vino, utilizada para estimar la concentración de sólidos disueltos, medida en gramos por centímetro cúbico.
- **pH**: medida de la acidez o alcalinidad del vino. 
- **sulphates**: concentración de sales de sulfato en el vino, medida en gramos por litro. 
- **alcohol**: contenido alcohólico del vino, medido en porcentaje de volumen (% vol).
- **quality**: puntuación del vino, con una escala que va de 0 a 10.


## Metodología del análisis

En esta notebook, vamos a realizar un análisis exploratorio de los datos, siguiendo el orden mostrado a continuación:  

**1 -** Preparación del archivo ".csv"  
**2 -** Estudio de los tipos de datos y unidades.  
**3 -** Estudio de valores nulos.  
**4 -** Transformación del dataset.  
**5 -** Estudio univariado.  
**6 -** Estudio bivariado.  
**7 -** Conclusiones.  

## Preparación del archivo ".csv"

Como para empezar, vemos el archivo _.csv_ no está separado por comas, sino por los punto y coma. Lo abrimos de la forma correspondiente:

In [28]:
import pandas as pd

raw_ds = pd.read_csv("winequality_BR.csv", sep = ';')

Al utilizar la función _head()_, vemos que en el archivo aparecen columnas vacías y sin nombre.

In [29]:
raw_ds.head()

Unnamed: 0,type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,Unnamed: 13,Unnamed: 14,Unnamed: 15
0,Riesling,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6,,,
1,Riesling,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6,,,
2,Riesling,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6,,,
3,Riesling,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6,,,
4,Riesling,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6,,,


Al quitar las columnas con la función _dropna_, pudimos observar que la columna _"Unnamed: 15"_ sigue apareciendo. Esto indica que, la misma tiene al menos un valor no nulo.

In [30]:
raw_ds = raw_ds.dropna(axis=1, how='all')
raw_ds.head()

Unnamed: 0,type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,Unnamed: 15
0,Riesling,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6,
1,Riesling,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6,
2,Riesling,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6,
3,Riesling,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6,
4,Riesling,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6,


Utilizando la función de _value_counts()_ vemos cuál es el valor no nulo y cuántos de estos hay.

In [31]:
raw_ds["Unnamed: 15"].value_counts()

Unnamed: 15
Riesling    1
Name: count, dtype: int64

Dado que, el valor no nulo de la columna _Unnamed: 15_ es igual a uno de los valores de la columna _type_, comprobamos que, no haya datos faltantes en esta última porque quizá podría haber ocurrido un error que cause este "desplazamiento" del dato.

In [32]:
cant_nulos = raw_ds["type"].isna().sum()
print(f"La cantidad de valores nulos de type es: {cant_nulos}")


La cantidad de valores nulos de type es: 0


Procedemos borrando la columna que no aporta ningún tipo de información. 

In [33]:
raw_ds = raw_ds.drop(columns="Unnamed: 15", axis=1)
raw_ds.head()

Unnamed: 0,type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,Riesling,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6
1,Riesling,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6
2,Riesling,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6
3,Riesling,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6
4,Riesling,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6


## Estudio de los tipos de datos y unidades 

Comenzamos clasificando por tipo de dato a cada una de las _features_ del dataset:

**- type:** dato cualitativo nominal.   
**- fixed_acidity:** dato cuantitativo continuo.  
**- volatile_acidity:** dato cuantitativo contiunuo.  
**- citric acid:** dato cuantitativo continuo.  
**- residual sugar:** dato cuantitativo continuo.  
**- chlorides:** dato cuantitativo continuo.  
**- free sulfur dioxide:** dato cuantitativo continuo.   
**- total sulfur dioxide:** dato cuantitativo continuo.    
**- density:** dato cuantitativo continuo.  
**- pH:** dato cuantitativo continuo.  
**- sulphates:** tipo de dato cuantiativo continuo.  
**- alcohol:** tipo de dato cuantitativo continuo.  
**- quality:** tipo de dato cuantitativo discreto.  

Utilizando la  función _info_, podemos comparar los tipos de los datos definidos anteriormente, con los de Python. De esta manera, corregimos las discrepancias.

In [34]:
raw_ds.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3232 entries, 0 to 3231
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   type                  3232 non-null   object 
 1   fixed acidity         3232 non-null   float64
 2   volatile acidity      3232 non-null   float64
 3   citric acid           3232 non-null   float64
 4   residual sugar        3232 non-null   float64
 5   chlorides             3232 non-null   float64
 6   free sulfur dioxide   3232 non-null   float64
 7   total sulfur dioxide  3232 non-null   float64
 8   density               3232 non-null   float64
 9   pH                    3232 non-null   float64
 10  sulphates             3232 non-null   float64
 11  alcohol               3232 non-null   object 
 12  quality               3232 non-null   int64  
dtypes: float64(10), int64(1), object(2)
memory usage: 328.4+ KB


Como podemos observar, el feature "alcohol" lo definimos como un dato cuantitativo continuo, pero, en el dataset aparece como un _object_. Por lo tanto, lo castearemos como _float64_

In [35]:
preprocessed_ds = raw_ds.copy()
try:
    preprocessed_ds["alcohol"] = preprocessed_ds["alcohol"].astype(float)
    print("Fue en éxito")
except ValueError :
    print("No se pudo convertir el dato a float64")

No se pudo convertir el dato a float64


La ejecución del casting dió un error, esto quiere decir que hay datos en la columna de _alcohol_ que no concuerdan con el tipo de dato _float64_. Vemos con _value_counts_ qué valores hay en la columna:

In [36]:
conteo_de_valores = preprocessed_ds["alcohol"].value_counts()
conteo_de_valores

alcohol
9.5                    222
9.4                    181
10                     143
9.2                    141
9.8                    133
                      ... 
9.95                     1
923.333.333.333.333      1
9.25                     1
9.05                     1
10.75                    1
Name: count, Length: 69, dtype: int64

Mejorando la precisión de la función:

In [37]:
conteo_de_valores[conteo_de_valores < 133]

alcohol
10.5                   132
9.3                    115
9.6                    114
11                     103
9                       99
                      ... 
9.95                     1
923.333.333.333.333      1
9.25                     1
9.05                     1
10.75                    1
Name: count, Length: 64, dtype: int64

In [38]:
conteo_de_valores[conteo_de_valores < 99]

alcohol
9.7                    98
10.8                   94
10.2                   94
10.4                   91
10.1                   90
9.9                    89
10.9                   77
9.1                    76
11.4                   75
10.6                   69
11.2                   65
10.3                   63
10.7                   60
11.3                   59
11.5                   58
11.1                   47
8.9                    44
12.5                   43
11.8                   42
8.7                    40
11.7                   38
12.2                   38
12                     37
8.8                    35
12.8                   34
12.3                   32
11.9                   32
12.4                   30
11.6                   28
12.6                   28
12.1                   27
12.7                   26
8.6                    14
12.9                   14
14                      8
13                      7
13.4                    5
8.5                     5
13.5

In [39]:
conteo_de_valores[conteo_de_valores < 35]

alcohol
12.8                   34
12.3                   32
11.9                   32
12.4                   30
11.6                   28
12.6                   28
12.1                   27
12.7                   26
8.6                    14
12.9                   14
14                      8
13                      7
13.4                    5
8.5                     5
13.5                    4
13.3                    4
13.6                    4
8.4                     2
10.55                   2
100.333.333.333.333     2
9.55                    2
13.1                    2
13.7                    2
13.2                    2
14.9                    1
13.9                    1
110.666.666.666.667     1
956.666.666.666.667     1
135.666.666.666.667     1
11.95                   1
9.95                    1
923.333.333.333.333     1
9.25                    1
9.05                    1
10.75                   1
Name: count, dtype: int64

In [40]:
conteo_de_valores[conteo_de_valores < 10]

alcohol
14                     8
13                     7
13.4                   5
8.5                    5
13.5                   4
13.3                   4
13.6                   4
8.4                    2
10.55                  2
100.333.333.333.333    2
9.55                   2
13.1                   2
13.7                   2
13.2                   2
14.9                   1
13.9                   1
110.666.666.666.667    1
956.666.666.666.667    1
135.666.666.666.667    1
11.95                  1
9.95                   1
923.333.333.333.333    1
9.25                   1
9.05                   1
10.75                  1
Name: count, dtype: int64

Estos valores que no podemos convertir a _float64_, no son siquiera números o valores extremos (los miles se separan con comas en inglés). Podríamos intuir que un hubo un problema con los decimales periódicos. A su vez, para la corrección habría que tener en cuenta que, el grado de alcohol del vino ronda entre el 5% y el 20%. Por lo tanto:

In [41]:
preprocessed_ds["alcohol"] = preprocessed_ds["alcohol"].replace("100.333.333.333.333", "10.03")
preprocessed_ds["alcohol"] = preprocessed_ds["alcohol"].replace("923.333.333.333.333", "9.23")
preprocessed_ds["alcohol"] = preprocessed_ds["alcohol"].replace("110.666.666.666.667", "11.07")
preprocessed_ds["alcohol"] = preprocessed_ds["alcohol"].replace("956.666.666.666.667", "9.57")
preprocessed_ds["alcohol"] = preprocessed_ds["alcohol"].replace("135.666.666.666.667", "13.57")

try:
    preprocessed_ds["alcohol"] = preprocessed_ds["alcohol"].astype(float)
    print("Fue un éxito")
except ValueError as e:
    print("No se pudo convertir el dato a float64")

Fue un éxito


## Estudio de valores nulos

Empezamos viendo por cada _feature_ qué valores se encuentran. El fin es detectar aquellos valores que deberían ser reemplazados por nulos, como por ejemplo, los discernibles.

In [46]:
preprocessed_ds["type"].value_counts()

type
Riesling    1633
Garnacha    1599
Name: count, dtype: int64

In [47]:
preprocessed_ds["total sulfur dioxide"].sort_values(ascending=True)

2548      6.0
2617      6.0
2612      6.0
2446      7.0
2920      7.0
        ...  
227     272.0
2712    278.0
2714    289.0
325     313.0
1417    366.5
Name: total sulfur dioxide, Length: 3232, dtype: float64

In [48]:
preprocessed_ds["chlorides"].sort_values(ascending=True)

2470    0.012
2469    0.012
930     0.017
970     0.017
876     0.018
        ...  
2325    0.422
1714    0.464
1739    0.467
1784    0.610
1891    0.611
Name: chlorides, Length: 3232, dtype: float64

In [50]:
preprocessed_ds["citric acid"].sort_values(ascending=True)

2787    0.00
1882    0.00
2763    0.00
2954    0.00
3048    0.00
        ... 
207     0.88
1551    0.99
946     1.00
1784    1.00
745     1.66
Name: citric acid, Length: 3232, dtype: float64

Cuando vemos los valores de la variable _citric acid_, notamos que hay muchos ceros. Estos podrían ser tomados por discernibles porque es muy poco probable que un vino tenga cero gramos de ácido cítrico por litro. Contamos cuántos ceros hay:

In [54]:
num_ceros = preprocessed_ds[preprocessed_ds["citric acid"] == 0].shape[0]
num_de_observaciones = preprocessed_ds.shape[0]
porcentaje_ceros = 100 * num_ceros / num_de_observaciones

print(f"La cantidad de ceros es: {num_ceros} de un total de {num_de_observaciones}")
print(f"El porcentaje de ceros respecto del total es: {round(porcentaje_ceros, 2)}%")

La cantidad de ceros es: 140 de un total de 3232
El porcentaje de ceros respecto del total es: 4.33%


Si tenemos en cuenta que el grado de ácido cítrico suele rondar por debajo del 1% del volumen total del vino, se debería hablar con los _stakeholders_ para ver qué se hace con el dato, ya que, si la muestra no es representativa porque, por ejemplo, hubo un error en la muestra, no se deberían sacar conclusiones. 

In [55]:
preprocessed_ds.describe() # PARA SACAR LA MEDIA Y DESVÍO DE LA MUESTRA

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
count,3232.0,3232.0,3232.0,3232.0,3232.0,3232.0,3232.0,3232.0,3232.0,3232.0,3232.0,3232.0
mean,7.664851,0.402614,0.318654,4.303697,0.06674,25.460705,95.52367,1.675952,3.258085,0.571235,10.35642,5.76021
std,1.520589,0.191189,0.175392,4.074992,0.042285,16.73179,62.29632,7.06723,0.163933,0.168402,1.100061,0.883699
min,4.6,0.08,0.0,0.8,0.012,1.0,6.0,0.98815,2.74,0.25,8.4,3.0
25%,6.7,0.25,0.2175,1.8,0.043,12.0,38.0,0.9936,3.14,0.46,9.5,5.0
50%,7.3,0.35,0.32,2.3,0.059,23.0,91.0,0.9958,3.26,0.55,10.1,6.0
75%,8.2,0.54,0.44,5.4,0.08,35.0,144.0,0.9974,3.37,0.65,11.0,6.0
max,15.9,1.58,1.66,23.5,0.611,131.0,366.5,100.369,4.01,2.0,14.9,9.0


In [63]:
preprocessed_ds["free sulfur dioxide"].sort_values(ascending=True)

2406      1.0
2163      1.0
2168      1.0
2407      2.0
259       3.0
        ...  
405      87.0
395      87.0
1257     88.0
659     122.5
325     131.0
Name: free sulfur dioxide, Length: 3232, dtype: float64

In [61]:
preprocessed_ds["pH"].sort_values(ascending=True)

1784    2.74
1214    2.74
621     2.85
1330    2.85
1329    2.85
        ... 
1728    3.85
2328    3.90
1678    3.90
2949    4.01
2954    4.01
Name: pH, Length: 3232, dtype: float64

In [64]:
preprocessed_ds["fixed acidity"].sort_values(ascending=True)

1678     4.6
1728     4.7
862      4.8
864      4.8
2454     4.9
        ... 
2187    15.5
2188    15.5
2190    15.6
2075    15.6
2285    15.9
Name: fixed acidity, Length: 3232, dtype: float64

In [67]:
preprocessed_ds["density"].sort_values(ascending=True)
df_acotado = preprocessed_ds["density"].astype(int) # ACOTAMOS PARA HACER VALUE_COUNTS
df_acotado.value_counts()

density
0      3118
10       68
1        30
100      16
Name: count, dtype: int64

In [68]:
preprocessed_ds["quality"].value_counts()

quality
6    1335
5    1167
7     501
4     118
8      86
3      20
9       5
Name: count, dtype: int64

In [69]:
preprocessed_ds["sulphates"].sort_values(ascending=True)

1126    0.25
1210    0.25
1283    0.25
175     0.27
1301    0.27
        ... 
2356    1.62
1724    1.95
1719    1.95
1725    1.98
1784    2.00
Name: sulphates, Length: 3232, dtype: float64

In [70]:
preprocessed_ds["residual sugar"].sort_values(ascending=True)

223      0.8
1465     0.8
1166     0.8
1541     0.8
372      0.8
        ... 
7       20.7
444     20.8
191     22.0
182     22.0
1608    23.5
Name: residual sugar, Length: 3232, dtype: float64

In [None]:
preprocessed_ds["volatile acidity"].sort_values(ascending=True)
preprocessed_ds[""]

1126    0.25
1210    0.25
1283    0.25
175     0.27
1301    0.27
        ... 
2356    1.62
1724    1.95
1719    1.95
1725    1.98
1784    2.00
Name: sulphates, Length: 3232, dtype: float64

No hay discernibles por lo visto.

## Transformación del dataset 

# DUDAS & NOTAS

**NOTA:** HAY (MUCHOS?) OUTLIERS EN EL "FREE SULFUR DIOXIDE" < 30 Y > 100  
**NOTA:** HAY (MUCHOS?) OUTLIERS EN EL "TOTAL SULFUR DIOXIDE" < 30 Y 100 < (TINTO) < 50 Y 150 < (BLANCO)  
**NOTA:** HAY (MUCHOS?) OUTLIERS EN EL "FIXED ACIDITY" > 8    
**NOTA:** MUCHOS OUTLIERS EN "DENSITY", VALORES SIN SENTIDO. ,99 < DENSITY < 1,015  
**NOTA:** HAY (MUCHOS?) OUTLIERS EN EL "CHLORIDE" < 10 Y < 80 (TINTO) 20 Y 100 < (BLANCO) MILIGRAMOS  
**NOTA:** TENEMOS QUE PREGUNTAR POR LOS CEROS DEL "ÁCIDO CÍTRICO"  
**NOTA:** HAY (MUCHOS?) OUTLIERS EN SULPHATES  < 10 Y 100 < MG POR LITRO  
**NOTA:** NO HAY UNA MEDIDA DE OUTLIER PARA "RESIDUAL SUGAR"  
**NOTA:** FALTA VER QUE HACEMOS CON LOS NULOS  
**NOTA:** PARECIERA NO HABER OUTLIERS PARA "VOLATILE ACIDITY"  
**DUDAS:** SE PUEDE MEJORAR LA PRECISION DEL VALUE_COUNTS DE OTRA MANERA A LA NUESTRA (CORRECCION DE ALCOHOL)?  
**DUDAS:** ES NECESARIO COPIAR EL DATASET CUANDO CAMBIAMOS EL TIPO DEL DATO A FLOAT DE UNA FEATURE (Y CUANDO BORRAMOS COLUMNAS NULAS?)?  
**DUDAS:** ES NECESARIO QUE SEA TAN ATÓMICA LA NOTEBOOK?  
**DUDAS:** TENEMOS QUÉ EXPLICAR DE DÓNDE SACAMOS EL TIPO DE DATO DE CADA VARIABLE?  