# 0.1 Data Adquisition

## Fuente del dataset
Tuvimos problemas con la adquisición de los datos, nuestro cliente no tenia una base de datos consolidada y todo lo venian trabajando con archivos csv que compartian por google drive. Como este proyecto es para una demo donde se requiere un MVP básico, el cliente nos compartio dos csv's donde nos garantizo que todo los que necesitavamos estaba ahi. 

Por un lado un dataset más orientado a la composición química de los vinos

[Dataset de vinos Kaggle](https://www.kaggle.com/datasets/ruthgn/wine-quality-data-set-red-white-wine) 

Por otro lado un dataset mas orientado a la comercialización de los vinos

[Dataset de vinos Kaggle de España](https://www.kaggle.com/datasets/fedesoriano/spanish-wine-quality-dataset)


## Import libraries

In [8]:
# Sirve para actualizar el modulo despues de haber cambiado algo en el codigo de los modulos importados
%load_ext autoreload
%autoreload 2

In [1]:
import pandas as pd
%matplotlib inline
# Modulo para trabajar con los directorios del proyecto
from src.utils.paths import data_dir

## Set up

In [2]:
# Configuramos para que muestre siempre todas las columnas disponibles
pd.options.display.max_columns = None

## Read Data

In [3]:
# Obtenemos la ruta de los csv's que vamos a utilizar
WINE_RAW_CSV_PATH = data_dir("raw", "wine_dataset.csv")
WINES_SPA_RAW_CSV_PATH = data_dir("raw", "wines_SPA.csv")

WINE_RAW_CSV_PATH , WINES_SPA_RAW_CSV_PATH

(WindowsPath('c:/Users/xpam08/Desktop/SOFI/CODERHOUSE/DATA SCIENCE/vinos-corderhouse/data/raw/wine_dataset.csv'),
 WindowsPath('c:/Users/xpam08/Desktop/SOFI/CODERHOUSE/DATA SCIENCE/vinos-corderhouse/data/raw/wines_SPA.csv'))

In [4]:
# Leemos los csv's y los guardamos en un dataframe
df_wine = pd.read_csv(WINE_RAW_CSV_PATH)
df_wine_spa = pd.read_csv(WINES_SPA_RAW_CSV_PATH)

In [5]:
# Mostramos el shape de ambos datasets
print(f"{df_wine.shape =}")
print(f"{df_wine_spa.shape =}")

df_wine.shape =(6497, 13)
df_wine_spa.shape =(7500, 11)


Como tenemos dos datasets vamos a trabajarlos por separado en primera instancia para ver como los podemos unificar luego y hacer un analisis integrado

## Wine Dataset

In [6]:
# Vista previa de 10 datos aleatorios
df_wine.sample(10)

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality,style
2244,6.3,0.26,0.25,7.8,0.058,44.0,166.0,0.9961,3.24,0.41,9.0,5,white
503,10.5,0.26,0.47,1.9,0.078,6.0,24.0,0.9976,3.18,1.04,10.9,7,red
2590,8.2,0.26,0.44,1.3,0.046,7.0,69.0,0.9944,3.14,0.62,10.2,4,white
4731,6.3,0.17,0.32,4.2,0.04,37.0,117.0,0.99182,3.24,0.43,11.3,6,white
2075,7.4,0.28,0.36,1.1,0.028,42.0,105.0,0.9893,2.99,0.39,12.4,7,white
4740,5.9,0.33,0.32,8.1,0.038,9.0,34.0,0.9911,3.22,0.36,12.7,7,white
4464,5.6,0.19,0.46,1.1,0.032,33.0,115.0,0.9909,3.36,0.5,10.4,6,white
2485,7.3,0.26,0.31,1.6,0.04,39.0,173.0,0.9918,3.19,0.51,11.4,6,white
4405,7.5,0.17,0.71,11.8,0.038,52.0,148.0,0.99801,3.03,0.46,8.9,5,white
4969,6.0,0.29,0.25,1.4,0.033,30.0,114.0,0.98794,3.08,0.43,13.2,6,white


### Data Dictionary - Wine Dataset

- fixed_acidity: parte de la acidez total de un vino, que brinda el sabor amargo o suave del mismo. 
- volatile_acidity: Descripción parte de la acidez total de un vino, formada por los ácidos primarios que ya están presentes en el mosto de uva (málico y tartárico) y los secundarios que son los generados durante los procesos de fermentación.
- citric_acid: acido que le brinda la frescura al vino
- residual_sugar: cantidad total de azúcar que queda en el vino que no ha sido fermentada por las levaduras.
- chlorides: afecta a la calidad del vino y a la capacidad de las levaduras y bacterias de llevar a cabo la fermentación alcohólica y maloláctica, respectivamente.
- free_sulfur_dioxide: complemento importante en la preservación del vino en cuanto a oxidantes y la presencia de organismos.
- total_sulfur_dioxide: Complemento utilizado como conservante y propiedades del vino según el tipo de uva.
- density: indicador común de la fermentación alcohólica.
- pH: Es la acidez real o la concentración de iones H3O+
- sulphates: :  Componente natural originado en el proceso de elaboración que se busca eliminar para poder hacer de la materia prima un producto alimenticio.
- alcohol: compuesto orgánico que se genera a partir de la fermentación de las uvas para la obtención del vino.
- quality: determina la calidad del vino en un rango de (XXXXXX)
- style: tipo de vino según tipo de uva, fermentación y guarda del mismo durante su elaboración. 

## Wine SPA Dataset

In [7]:
# Vista previa de 10 datos aleatorios
df_wine_spa.sample(10)

Unnamed: 0,winery,wine,year,rating,num_reviews,country,region,price,type,body,acidity
1328,Dominio de Atauta,Llanos del Almendro Ribera del Duero,2009,4.3,251,Espana,Ribera del Duero,107.74,Ribera Del Duero Red,5.0,3.0
6939,Portal del Priorat,Clos del Portal Somni,2014,4.2,404,Espana,Priorato,77.36,Priorat Red,4.0,3.0
4687,Lustau,Candela Cream Dulce Sweet,N.V.,4.2,405,Espana,Jerez-Xeres-Sherry,7.1,Sherry,,
6120,Contino,Reserva,2016,4.2,392,Espana,Rioja,19.98,Rioja Red,,
3605,Losada,Altos de Losada,2018,4.2,415,Espana,Bierzo,17.9,Mencia,,
2530,Losada,Altos de Losada,2018,4.2,415,Espana,Bierzo,17.9,Mencia,3.0,3.0
3721,Mustiguillo,Finca Terrerazo,2017,4.2,390,Espana,El Terrerazo,24.45,Red,4.0,3.0
3371,Mustiguillo,Finca Terrerazo,2017,4.2,390,Espana,El Terrerazo,24.45,Red,4.0,3.0
2814,Binigrau,Nounat,2020,4.2,404,Espana,Mallorca,19.9,,,
7144,Contino,Rioja Graciano,2011,4.2,395,Espana,Rioja,61.94,Rioja Red,4.0,3.0


### Data Dictionary - Wine SPA Dataset

- winery: bodega donde fue elaborado el vino.
- wine: nombre del vino.
- year: Año de elaboración del vino
- rating: puntuación dada por consumidores.
- num_reviews: cantidad de comentarios dados por consumidores.
- country: Pais de elaboración del vino 
- region: Zona/region de elabración del vino.
- price: Precio de venta del vino
- type: variedad del vino
- body: cuerpo del vino
- acidity: pH del vino 