In [5]:
import pandas as pd

# Leer el archivo CSV
df_wine = pd.read_csv("/workspaces/PC5Python/Data/winemag-data-130k-v2.csv", index_col=0)

# Explorar el DataFrame
print("Información del DataFrame:")
print(df_wine.info())
print("\nPrimeras filas del DataFrame:")
print(df_wine.head())

# Renombrar columnas
df_wine.rename(columns={
    'country': 'pais',
    'province': 'provincia',
    'variety': 'variedad',
    'points': 'puntuacion'
}, inplace=True)

# Crear nuevas columnas
# Crear columna para la longitud del nombre de la provincia
df_wine['longitud_provincia'] = df_wine['provincia'].str.len()

# Crear columna para indicar si la puntuación es alta o baja (mayor o igual a 90)
df_wine['puntuacion_alta'] = df_wine['puntuacion'] >= 90

# Crear columna para indicar si el vino es de una variedad popular
variedades_populares = df_wine['variedad'].value_counts().index[:5]  # Tomar las 5 variedades más comunes
df_wine['variedad_popular'] = df_wine['variedad'].isin(variedades_populares)

# Crear columna para indicar si el precio es alto o bajo (mayor o igual a 50)
df_wine['precio_alto'] = df_wine['price'] >= 50

# Reportes por agrupamiento de datos
# Reporte 1: Promedio de puntuación por país
promedio_puntuacion_pais = df_wine.groupby('pais')['puntuacion'].mean().sort_values(ascending=False)

# Reporte 2: Cantidad de vinos de variedades populares por país
cantidad_variedades_populares_pais = df_wine[df_wine['variedad_popular']].groupby('pais').size().sort_values(ascending=False)

# Reporte 3: Promedio de precio y puntuación por provincia
promedio_precio_puntuacion_provincia = df_wine.groupby('provincia').agg({'price': 'mean', 'puntuacion': 'mean'}).sort_values(by='price', ascending=False)

# Reporte 4: Cantidad de vinos con puntuación alta por provincia
cantidad_puntuacion_alta_provincia = df_wine[df_wine['puntuacion_alta']].groupby('provincia').size().sort_values(ascending=False)

# Almacenar el reporte 1 en un archivo Excel
promedio_puntuacion_pais.to_excel("promedio_puntuacion_pais.xlsx")

# Mostrar los reportes
print("\nPromedio de puntuación por país:")
print(promedio_puntuacion_pais.head())

print("\nCantidad de vinos de variedades populares por país:")
print(cantidad_variedades_populares_pais.head())

print("\nPromedio de precio y puntuación por provincia:")
print(promedio_precio_puntuacion_provincia.head())

print("\nCantidad de vinos con puntuación alta por provincia:")
print(cantidad_puntuacion_alta_provincia.head())


Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
Index: 65499 entries, 0 to 65498
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   country                65467 non-null  object 
 1   description            65499 non-null  object 
 2   designation            46588 non-null  object 
 3   points                 65499 non-null  int64  
 4   price                  60829 non-null  float64
 5   province               65467 non-null  object 
 6   region_1               54744 non-null  object 
 7   region_2               25170 non-null  object 
 8   taster_name            51856 non-null  object 
 9   taster_twitter_handle  49467 non-null  object 
 10  title                  65499 non-null  object 
 11  variety                65499 non-null  object 
 12  winery                 65499 non-null  object 
dtypes: float64(1), int64(1), object(11)
memory usage: 7.0+ MB
None

Primeras filas del D