In [1]:
import pandas as pd
import openpyxl
df_winemag = pd.read_csv("winemag-data-130k-v2.csv")

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [2]:
df_winemag.columns

Index(['Unnamed: 0', 'country', 'description', 'designation', 'points',
       'price', 'province', 'region_1', 'region_2', 'taster_name',
       'taster_twitter_handle', 'title', 'variety', 'winery'],
      dtype='object')

In [3]:
# Seleccion de una columna
df_winemag['price'].head()

0     NaN
1    15.0
2    14.0
3    13.0
4    65.0
Name: price, dtype: float64

In [4]:
df_winemag.price.head()

0     NaN
1    15.0
2    14.0
3    13.0
4    65.0
Name: price, dtype: float64

In [5]:
columns_select = ['country','price']
df_subset = df_winemag[columns_select]
df_subset.head()

Unnamed: 0,country,price
0,Italy,
1,Portugal,15.0
2,US,14.0
3,US,13.0
4,US,65.0


In [7]:
# Renombrar columnas (pasando a idioma español)
df_winemag = df_winemag.rename(columns = {
    'Unnamed: 0': 'index',
    'country': 'Pais',
    'description': 'Descripcion',
    'designation': 'Denominacion',
    'points': 'Puntuacion',
    'price': 'Precio',
    'province': 'Provincia',
    'region_1': 'Region_1',
    'region_2': 'Region_2',
    'taster_name': 'Nombre_Catador',
    'taster_twitter_handle': 'Twitter_Catador',
    'title': 'Titulo',
    'variety': 'Variedad',
    'winery': 'Bodega'
})

df_winemag.dtypes

index                int64
Pais                object
Descripcion         object
Denominacion        object
Puntuacion           int64
Precio             float64
Provincia           object
Region_1            object
Region_2            object
Nombre_Catador      object
Twitter_Catador     object
Titulo              object
Variedad            object
Bodega              object
dtype: object

In [9]:
# Crear columna continente (1)

def pais_a_continente(pais):
    if pais in ['Italy', 'France', 'Spain', 'Germany', 'Portugal']:
        return 'Europa'
    elif pais == 'US':
        return 'America'
    # Agregar más condiciones según sea necesario
    else:
        return 'Otros'

df_winemag['Continente'] = df_winemag['Pais'].apply(pais_a_continente)
print(df_winemag[['Pais', 'Continente']])

            Pais Continente
0          Italy     Europa
1       Portugal     Europa
2             US    America
3             US    America
4             US    America
...          ...        ...
65494     France     Europa
65495  Australia      Otros
65496         US    America
65497         US    America
65498      Spain     Europa

[65499 rows x 2 columns]


In [10]:
# Crear una columna de categoría de precio (2)

def categoria_precio(precio):
    if precio < 20:
        return 'Economico'
    elif 20 <= precio <= 50:
        return 'Medio'
    else:
        return 'Premium'

df_winemag['Categoria_Precio'] = df_winemag['Precio'].apply(categoria_precio)
print(df_winemag[['Precio', 'Categoria_Precio']])

       Precio Categoria_Precio
0         NaN          Premium
1        15.0        Economico
2        14.0        Economico
3        13.0        Economico
4        65.0          Premium
...       ...              ...
65494    45.0            Medio
65495    22.0            Medio
65496    20.0            Medio
65497    31.0            Medio
65498    10.0        Economico

[65499 rows x 2 columns]


In [12]:
# Crear una columna de rango de puntuación (3)

def rango_puntuacion(puntuacion):
    if puntuacion >= 90:
        return 'Excelente'
    elif 80 <= puntuacion < 90:
        return 'Bueno'
    else:
        return 'Regular'

df_winemag['Rango_Puntuacion'] = df_winemag['Puntuacion'].apply(rango_puntuacion)
print(df_winemag[['Puntuacion', 'Rango_Puntuacion']])

       Puntuacion Rango_Puntuacion
0              87            Bueno
1              87            Bueno
2              87            Bueno
3              87            Bueno
4              87            Bueno
...           ...              ...
65494          90        Excelente
65495          90        Excelente
65496          90        Excelente
65497          90        Excelente
65498          90        Excelente

[65499 rows x 2 columns]


In [13]:
# Se comprueba que se han creado las 3 columnas y agregado a nuestro dataframe
df_winemag.dtypes

index                 int64
Pais                 object
Descripcion          object
Denominacion         object
Puntuacion            int64
Precio              float64
Provincia            object
Region_1             object
Region_2             object
Nombre_Catador       object
Twitter_Catador      object
Titulo               object
Variedad             object
Bodega               object
Continente           object
Categoria_Precio     object
Rango_Puntuacion     object
dtype: object

In [20]:
# Reporte 1: Promedio de Puntuación por Bodega y Variedad
df_winemag.groupby(['Bodega', 'Variedad'])['Puntuacion'].mean().sort_values(ascending=False)

Bodega            Variedad             
Cardinale         Cabernet Sauvignon       100.0
Krug              Chardonnay                99.0
Clos de Tart      Pinot Noir                98.0
Araujo            Cabernet Sauvignon        98.0
Blandy's          Bual                      98.0
                                           ...  
Love              Chardonnay                80.0
Congress Springs  Pinot Noir                80.0
Four Vines        Syrah                     80.0
La Val            White Blend               80.0
Four Vines        Rhône-style Red Blend     80.0
Name: Puntuacion, Length: 30092, dtype: float64

In [24]:
# Reporte 2: Cantidad de Vinos por Rango de Puntuación en cada País
df_winemag.groupby(['Pais', 'Rango_Puntuacion']).size()

Pais       Rango_Puntuacion
Argentina  Bueno                1540
           Excelente             367
Armenia    Bueno                   1
Australia  Bueno                 693
           Excelente             484
                               ...  
US         Bueno               15940
           Excelente           11237
Ukraine    Bueno                   5
Uruguay    Bueno                  50
           Excelente              11
Length: 71, dtype: int64

In [29]:
# Reporte 3: Cantidad promedio de vinos por país y variedad
df_winemag.groupby(['Pais', 'Variedad']).size().reset_index(name='Count')

Unnamed: 0,Pais,Variedad,Count
0,Argentina,Barbera,1
1,Argentina,Bonarda,53
2,Argentina,Bordeaux-style Red Blend,44
3,Argentina,Bordeaux-style White Blend,1
4,Argentina,Cabernet Blend,4
...,...,...,...
1299,Uruguay,Tannat,28
1300,Uruguay,Tannat-Cabernet Franc,2
1301,Uruguay,Tannat-Merlot,1
1302,Uruguay,Tannat-Syrah,1


In [34]:
# Reporte 4: Precio máximo y mínimo por provincia
df_winemag.groupby('Provincia')['Precio'].agg([("Max precio", "max"), ("Min precio", "min")]).reset_index()

Unnamed: 0,Provincia,Max precio,Min precio
0,Achaia,25.0,25.0
1,Aconcagua Costa,25.0,13.0
2,Aconcagua Valley,235.0,5.0
3,Aegean,120.0,15.0
4,Agioritikos,25.0,22.0
...,...,...,...
380,Zenata,18.0,14.0
381,Österreichischer Perlwein,21.0,21.0
382,Österreichischer Sekt,44.0,15.0
383,Štajerska,31.0,11.0


In [37]:
# Llevando un reporte a formato CSV (Reporte 4)
reporte = df_winemag.groupby('Provincia')['Precio'].agg([("Max precio", "max"), ("Min precio", "min")]).reset_index()
reporte.to_csv('Reporte_precio_max_min_provincia.csv')
print("El reporte se ha guardado en formato 'csv' correctamente")

El reporte se ha guardado en formato 'csv' correctamente
