Wine Analytics

In [1]:
import pandas as pd
import re
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import math

In [2]:
# Cargar el conjunto de datos
df = pd.read_csv('MWineData.csv', sep=';')

#Data Understanding

In [3]:
# Ver las primeras filas del conjunto de datos
print(df.head())

                                      Name          Var   Price    Region  \
0                          The Guv'nor VIP  Tempranillo   £9.99     Spain   
1                       The Guv'nor, Spain  Tempranillo   £6.99     Spain   
2  Marqués de Riscal Rioja Reserva 2017/18  Tempranillo  £13.99     Spain   
3                  Porta 6 2020/21, Lisbon  Tinta Roriz   £6.49  Portugal   
4               Cune Rioja Reserva 2017/18  Tempranillo   £9.99     Spain   

  Vintage         ABV Type                               Char  \
0      NV  ABV 14.00%  Red         Cloves, Nutmeg, Ripe Fruit   
1      NV  ABV 14.00%  Red  Vanilla, Blackberry, Blackcurrant   
2    2018  ABV 14.00%  Red    Vanilla, Black Fruit, Red Fruit   
3    2021  ABV 13.50%  Red      Sweet Spice, Jammy, Red Fruit   
4    2018  ABV 14.00%  Red    Vanilla, Black Fruit, Red Fruit   

  Majestic Exclusive                                          DetailLink  \
0                   Y  https://www.majestic.co.uk//wines/the-guvnor-v.

In [4]:
# Resumen de los datos
print(df.describe(include='all').transpose()) # incluir todos los tipos de datos

                    count unique  \
Name                  141    141   
Var                   141     35   
Price                 141     24   
Region                141     14   
Vintage               141      8   
ABV                   141     11   
Type                  141      3   
Char                  141    102   
Majestic Exclusive    141      2   
DetailLink            141    141   
PageLink              141     14   

                                                                   top freq  
Name                                                   The Guv'nor VIP    1  
Var                                                           Grenache   20  
Price                                                            £9.99   24  
Region                                                          France   48  
Vintage                                                           2022   47  
ABV                                                         ABV 13.50%   32  
Type                 

In [5]:
 # Cual es el tipo de datos de cada columna 
df.dtypes

Name                   object
Var                    object
Price                  object
Region                 object
Vintage                object
ABV                    object
Type                   object
Char                   object
Majestic Exclusive     object
DetailLink             object
PageLink               object
dtype: object

In [6]:
# Información sobre el tipo de datos y valores nulos
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 141 entries, 0 to 140
Data columns (total 11 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Name                 141 non-null    object
 1   Var                  141 non-null    object
 2   Price                141 non-null    object
 3   Region               141 non-null    object
 4   Vintage              141 non-null    object
 5   ABV                  141 non-null    object
 6   Type                 141 non-null    object
 7   Char                 141 non-null    object
 8   Majestic Exclusive   141 non-null    object
 9   DetailLink           141 non-null    object
 10  PageLink             141 non-null    object
dtypes: object(11)
memory usage: 12.2+ KB
None


In [7]:
# Chequeo de valores nulos
print(df.isnull().sum())


Name                   0
Var                    0
Price                  0
Region                 0
Vintage                0
ABV                    0
Type                   0
Char                   0
Majestic Exclusive     0
DetailLink             0
PageLink               0
dtype: int64


In [8]:
# Limpiamos la columna 'ABV' y 'Price'  para quedarnos solo con el valor numérico
df['ABV'] = df['ABV'].str.replace('ABV', '')  # Eliminamos 'ABV'
df['ABV'] = df['ABV'].str.replace('%', '')    # Eliminamos '%'
df['ABV'] = df['ABV'].str.strip()             # Eliminamos espacios en blanco al inicio y al final
df['ABV'] = pd.to_numeric(df['ABV'])          # Convertimos la columna a numérico

# Limpiamos la columna 'Price' para quedarnos solo con el valor numérico
df['Price'] = df['Price'].str.replace('£', '')  # Eliminamos '£'
df['Price'] = df['Price'].str.strip()           # Eliminamos espacios en blanco al inicio y al final
df['Price'] = pd.to_numeric(df['Price'])        # Convertimos la columna a numérico




In [9]:
# Extraemos el valor entre "=" y "&" de la columna 'DetailLink'
def extract_between(text):
    try:
        return re.search('=(.*?)&', text).group(1)
    except AttributeError:
        return ''

df['DetailLink'] = df['DetailLink'].apply(lambda x: extract_between(x))


In [10]:
# Verificamos el resultado de la limpieza
print(df.head())

                                      Name          Var  Price    Region  \
0                          The Guv'nor VIP  Tempranillo   9.99     Spain   
1                       The Guv'nor, Spain  Tempranillo   6.99     Spain   
2  Marqués de Riscal Rioja Reserva 2017/18  Tempranillo  13.99     Spain   
3                  Porta 6 2020/21, Lisbon  Tinta Roriz   6.49  Portugal   
4               Cune Rioja Reserva 2017/18  Tempranillo   9.99     Spain   

  Vintage   ABV Type                               Char Majestic Exclusive   \
0      NV  14.0  Red         Cloves, Nutmeg, Ripe Fruit                   Y   
1      NV  14.0  Red  Vanilla, Blackberry, Blackcurrant                   Y   
2    2018  14.0  Red    Vanilla, Black Fruit, Red Fruit                   N   
3    2021  13.5  Red      Sweet Spice, Jammy, Red Fruit                   N   
4    2018  14.0  Red    Vanilla, Black Fruit, Red Fruit                   N   

  DetailLink                                           PageLink  
0 

In [11]:
# Verificamos las dos columnas numéricas
print(df.describe()) 

            Price         ABV
count  141.000000  141.000000
mean    12.114113   13.538298
std      5.689952    0.787642
min      5.490000   10.000000
25%      8.990000   13.000000
50%      9.990000   13.500000
75%     13.990000   14.000000
max     54.990000   15.500000


Data Exploration

In [None]:
my_report = sv.analyze(df)


In [12]:
# Estadísticas de precio
print("Estadísticas de precio:")
print(df['Price'].describe())

Estadísticas de precio:
count    141.000000
mean      12.114113
std        5.689952
min        5.490000
25%        8.990000
50%        9.990000
75%       13.990000
max       54.990000
Name: Price, dtype: float64


In [13]:
# Estadísticas de ABV
print("\nEstadísticas de ABV:")
print(df['ABV'].describe())


Estadísticas de ABV:
count    141.000000
mean      13.538298
std        0.787642
min       10.000000
25%       13.000000
50%       13.500000
75%       14.000000
max       15.500000
Name: ABV, dtype: float64


In [14]:
# Correlación entre precio y ABV
print("\nCorrelación entre Precio y ABV:")
print(df['Price'].corr(df['ABV']))


Correlación entre Precio y ABV:
0.14564132045646538


In [15]:
# Cantidad de vinos exclusivos de Majestic
print("\nCantidad de vinos exclusivos de Majestic:")
print(df[df['Majestic Exclusive '] == 'Y'].shape[0])

print("\nCantidad de vinos no exclusivos de Majestic:")
print(df[df['Majestic Exclusive '] == 'N'].shape[0])


Cantidad de vinos exclusivos de Majestic:
50

Cantidad de vinos no exclusivos de Majestic:
91


In [16]:
#Portfolio price distribution
fig = px.histogram(df, x="Price", nbins=30, labels={'Price':'Price (£)', 'count':'Number of wines'})
fig.update_layout(title_text='Wine portfolio price distribution', title_x=0.5)
fig.show()

In [17]:
#Wines distribution per Region
region_counts = df['Region'].value_counts().reset_index()
region_counts.columns = ['Región', 'Cantidad']

fig = px.bar(region_counts, x='Región', y='Cantidad')
fig.update_traces(texttemplate='%{y:.2s}', textposition='outside')
fig.update_yaxes(showticklabels=False)  # Aquí se ocultan las etiquetas del eje y
fig.update_layout(title_text='Cantidad de vinos por region', title_x=0.5)
fig.show()


In [18]:
#Boxplot de precios por tipo de vino (Rose, Red, White)
fig = px.box(df, x="Type", y="Price", labels={'Type':'Tipo de Vino', 'Price':'Precio (£)'})
fig.update_layout(title_text='Distribución de los precios por tipo de vino', title_x=0.5)
fig.show()


In [19]:
#Boxplot de precios por tipo de vino /exlusie or not exclusive de Majestic
fig = px.box(df, x="Majestic Exclusive ", y="Price", labels={'Type':'Tipo de Vino', 'Price':'Precio (£)'})
fig.update_layout(title_text='Distribución de los precios por tipo de vino', title_x=0.5)
fig.show()

In [20]:
#Evaluacion de precio por region (Histograma)
fig = px.box(df.sort_values("Region"), y="Price", x="Region", labels={'Region':'Región', 'Price':'Precio (£)'}, hover_data= df[['Name', 'ABV']])
fig.update_layout(title_text='Distribución de precios por región', title_x=0.5)
fig.show()
