# 0.1 Data Adquisition

## Fuente del dataset
Tuvimos problemas con la adquisición de los datos, nuestro cliente no tenia una base de datos consolidada y todo lo venian trabajando con archivos csv que compartian por google drive. Como este proyecto es para una demo donde se requiere un MVP básico, el cliente nos compartio dos csv's donde nos garantizo que todo los que necesitavamos estaba ahi. 

Por un lado un dataset más orientado a la composición química de los vinos

[Dataset de vinos Kaggle](https://www.kaggle.com/datasets/ruthgn/wine-quality-data-set-red-white-wine) 

Por otro lado un dataset mas orientado a la comercialización de los vinos

[Dataset de vinos Kaggle de España](https://www.kaggle.com/datasets/fedesoriano/spanish-wine-quality-dataset)


## Import libraries

In [2]:
# Sirve para actualizar el modulo despues de haber cambiado algo en el codigo de los modulos importados
%load_ext autoreload
%autoreload 2

In [3]:
import pandas as pd
%matplotlib inline
# Modulo para trabajar con los directorios del proyecto
from src.utils.paths import data_dir

## Set up

In [4]:
# Configuramos para que muestre siempre todas las columnas disponibles
pd.options.display.max_columns = None

## Read Data

In [5]:
# Obtenemos la ruta de los csv's que vamos a utilizar
CHEMICAL_WINE_RAW_PATH = data_dir("raw", "wine_dataset.csv")
COMERCIAL_WINE_RAW_PATH = data_dir("raw", "wines_SPA.csv")

CHEMICAL_WINE_RAW_PATH , COMERCIAL_WINE_RAW_PATH

(WindowsPath('c:/Users/cvigo/data-projects/proyecto-final-vinos/vinos-corderhouse/data/raw/wine_dataset.csv'),
 WindowsPath('c:/Users/cvigo/data-projects/proyecto-final-vinos/vinos-corderhouse/data/raw/wines_SPA.csv'))

In [8]:
# Leemos los csv's y los guardamos en un dataframe
df_wine_chemical = pd.read_csv(CHEMICAL_WINE_RAW_PATH)
df_wine_comercial = pd.read_csv(COMERCIAL_WINE_RAW_PATH)

In [9]:
# Mostramos el shape de ambos datasets
print(f"{df_wine_chemical.shape =}")
print(f"{df_wine_comercial.shape =}")

df_wine_chemical.shape =(6497, 13)
df_wine_comercial.shape =(7500, 11)


Como tenemos dos datasets vamos a trabajarlos por separado en primera instancia para ver como los podemos unificar luego y hacer un analisis integrado

## Dataset Quimico

In [10]:
# Vista previa de 10 datos aleatorios
df_wine_chemical.sample(10)

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality,style
3289,9.0,0.43,0.3,1.5,0.05,7.0,175.0,0.9951,3.11,0.45,9.7,4,white
2640,7.7,0.275,0.3,1.0,0.039,19.0,75.0,0.992,3.01,0.56,10.7,5,white
1904,7.3,0.41,0.24,6.8,0.057,41.0,163.0,0.9949,3.2,0.41,9.9,6,white
3497,7.2,0.31,0.41,8.6,0.053,15.0,89.0,0.9976,3.29,0.64,9.9,6,white
3003,9.0,0.31,0.48,6.6,0.043,11.0,73.0,0.9938,2.9,0.38,11.6,5,white
5769,7.4,0.16,0.3,13.7,0.056,33.0,168.0,0.99825,2.9,0.44,8.7,7,white
202,6.8,0.5,0.11,1.5,0.075,16.0,49.0,0.99545,3.36,0.79,9.5,5,red
944,8.3,0.3,0.49,3.8,0.09,11.0,24.0,0.99498,3.27,0.64,12.1,7,red
3127,7.4,0.27,0.49,1.1,0.037,33.0,156.0,0.992,3.15,0.54,11.1,6,white
1138,7.5,0.41,0.15,3.7,0.104,29.0,94.0,0.99786,3.14,0.58,9.1,5,red


### Data Dictionary - Wine Dataset

- fixed_acidity: parte de la acidez total de un vino, que brinda el sabor amargo o suave del mismo. 
- volatile_acidity: Descripción parte de la acidez total de un vino, formada por los ácidos primarios que ya están presentes en el mosto de uva (málico y tartárico) y los secundarios que son los generados durante los procesos de fermentación.
- citric_acid: acido que le brinda utiliza para corregir la acidez del vino.
- residual_sugar: cantidad total de azúcar que queda en el vino que no ha sido fermentada por las levaduras.
- chlorides: afecta a la calidad del vino y a la capacidad de las levaduras y bacterias de llevar a cabo la fermentación alcohólica y maloláctica, respectivamente.
- free_sulfur_dioxide: complemento importante en la preservación del vino en cuanto a oxidantes y la presencia de organismos.
- total_sulfur_dioxide: Complemento utilizado como conservante y propiedades del vino según el tipo de uva.
- density: indicador común de la fermentación alcohólica.
- pH: Es la acidez real o la concentración de iones H3O+
- sulphates: :  Componente natural originado en el proceso de elaboración que se busca eliminar para poder hacer de la materia prima un producto alimenticio.
- alcohol: compuesto orgánico que se genera a partir de la fermentación de las uvas para la obtención del vino.
- quality: variable categorica ordinal que determina la calidad del vino 
- style: tipo de vino según tipo de uva, fermentación y guarda del mismo durante su elaboración. 

## Wine SPA Dataset

In [11]:
# Vista previa de 10 datos aleatorios
df_wine_comercial.sample(10)

Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body,acidity
7366,Ramon Bilbao,Mirto,2011,4.2,402,Espana,Rioja,28.53,Rioja Red,4.0,3.0
4396,Mustiguillo,Finca Terrerazo,2017,4.2,390,Espana,El Terrerazo,24.45,Red,4.0,3.0
5135,Campillo,Gran Reserva Rioja,2012,4.2,410,Espana,Rioja,22.99,Rioja Red,4.0,3.0
7193,Artadi,Valdegines,2016,4.2,398,Espana,Vino de Espana,48.96,Tempranillo,4.0,2.0
7489,Portal del Priorat,Clos del Portal Somni,2014,4.2,404,Espana,Priorato,77.36,Priorat Red,4.0,3.0
2468,Contino,Rioja Graciano,2011,4.2,395,Espana,Rioja,61.94,Rioja Red,4.0,3.0
5934,Vina Pedrosa,Gran Reserva,2011,4.2,410,Espana,Ribera del Duero,51.35,Ribera Del Duero Red,5.0,3.0
1670,Terroir Al Limit Soc. Lda,Les Manyes,2012,4.3,46,Espana,Priorato,348.85,Priorat Red,4.0,3.0
4369,Contino,Reserva,2016,4.2,392,Espana,Rioja,19.98,Rioja Red,4.0,3.0
3944,Contino,Reserva,2016,4.2,392,Espana,Rioja,19.98,Rioja Red,4.0,3.0


### Data Dictionary - Wine SPA Dataset

- winery: bodega donde fue elaborado el vino.
- wine: nombre del vino.
- year: Año de elaboración del vino
- rating: puntuación dada por consumidores.
- num_reviews: cantidad de comentarios dados por consumidores.
- country: Pais de elaboración del vino 
- region: Zona/region de elabración del vino.
- price: Precio de venta del vino
- type: variedad del vino
- body: cuerpo del vino
- acidity: pH del vino 