### Vamos a practicar

Para esta practica vamos a usar un conjunto de datos de la revista *wine magazine*,
donde revisan una cantidad bastante sorprendente de vinos.

Una descripción de la base de datos la encuentras [aquí](https://www.kaggle.com/zynicide/wine-reviews).
Para no tener que descargar los datos a mano, se anexa la dirección `url` de donde se pueden descargar.

Es importante notr que la primer columna del archivo `csv` es el índice (usar `index_col=0` cuando se descargue el archivo con `pd.read_csv`).

Una vez descargado, usar pandas para las siguientes tareas:

1. ¿Cuantas variables tiene el dataframe? ¿Qué variables tienen valores perdidos? ¿Qué variables son numéricas? ¿Qué variables son cualitativas?
2. Hacer un dataframe con únicamente vinos europeos.
3. ¿Cuál es el menor, el mayor y el precio promedio de la botella por país? ¿De que país es la botella de menor precio?
4. ¿Cuantos vinos hay con *aroma a fresa* entre otras consideraciones snobs que vienen en la descripción?
5. ¿Cuantas designaciones diferentes hay? ¿Cuál es la más repetida? ¿Cuantas veces se repite?
6. Hacer un dataframe con la variedad, el país y el precio para vinos con un costo menor a los $20 dolares.
7. ¿Cuantos vinos diferentes de la variedad *Pinot Noir* hay por cada país?


In [3]:
import pandas as pd

In [4]:
winmag_url = 'https://gist.githubusercontent.com/clairehq/79acab35be50eaf1c383948ed3fd1129/raw/407a02139ae1e134992b90b4b2b8c329b3d73a6a/winemag-data-130k-v2.csv'
df = pd.read_csv(winmag_url)

In [None]:
# ¿Cuantas variables tiene el dataframe?
num_variables = df.shape[1]
print("Número de variables:", num_variables)
#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
# ¿Qué variables tienen valores perdidos?
valores_perdidos = df.columns[df.isnull().any()].tolist()
print("Variables con valores perdidos:", valores_perdidos)
#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
# ¿Qué variables son numéricas?
variables_numericas = df.select_dtypes(include=['number']).columns.tolist()
print("Variables numéricas:", variables_numericas)
#~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
# ¿Qué variables son cualitativas?
variables_cualitativas = df.select_dtypes(include=['object']).columns.tolist()
print("Variables cualitativas:", variables_cualitativas)



Número de variables: 14
Variables con valores perdidos: ['country', 'designation', 'price', 'province', 'region_1', 'region_2', 'taster_name', 'taster_twitter_handle']
Variables numéricas: ['Unnamed: 0', 'points', 'price']
Variables cualitativas: ['country', 'description', 'designation', 'province', 'region_1', 'region_2', 'taster_name', 'taster_twitter_handle', 'title', 'variety', 'winery']


In [13]:
# Hacer un dataframe con únicamente vinos europeos.
paises_eu = ['Italy', 'France', 'Spain', 'Portugal', 'Germany']

df_europeo = df[df['country'].isin(paises_eu)]

# Mostrar las primeras filas del nuevo DataFrame para verificar
print(df_europeo.head())

   Unnamed: 0   country                                        description  \
0           0     Italy  aromas include tropical fruit, broom, brimston...   
1           1  Portugal  this is ripe and fruity, a wine that is smooth...   
5           5     Spain  blackberry and raspberry aromas show a typical...   
6           6     Italy  here's a bright, informal red that opens with ...   
7           7    France  this dry and restrained wine offers spice in p...   

    designation  points  price           province  region_1 region_2  \
0  Vulkà Bianco      87    NaN  Sicily & Sardinia      Etna      NaN   
1      Avidagos      87   15.0              Douro       NaN      NaN   
5  Ars In Vitro      87   15.0     Northern Spain   Navarra      NaN   
6       Belsito      87   16.0  Sicily & Sardinia  Vittoria      NaN   
7           NaN      87   24.0             Alsace    Alsace      NaN   

         taster_name taster_twitter_handle  \
0      Kerin O’Keefe          @kerinokeefe   
1     

In [None]:
# ¿Cuál es el menor, el mayor y el precio promedio de la botella por país?
# Calcular el menor, mayor y precio promedio por país
precio_por_pais = df.groupby('country')['price'].agg(['min', 'max', 'mean']).reset_index()

print("Menor, mayor y precio promedio de la botella por pais:")
print(precio_por_pais)
# ¿De que país es la botella de menor precio?
pais_menor_precio = df.loc[df['price'].idxmin(), 'country']
botella_menor_precio = df['price'].min()

print(f"\nEl pais con la botella de menor precio es {pais_menor_precio} con un precio de {botella_menor_precio}")

Menor, mayor y precio promedio de la botella por país:
                   country   min     max       mean
0                Argentina   4.0   230.0  23.604663
1                  Armenia  14.0    14.0  14.000000
2                Australia   6.0   850.0  35.786701
3                  Austria   7.0   150.0  30.846774
4   Bosnia and Herzegovina  13.0    13.0  13.000000
5                   Brazil  10.0    45.0  23.185185
6                 Bulgaria   8.0    55.0  14.014706
7                   Canada  12.0   120.0  35.575472
8                    Chile   5.0   400.0  21.021544
9                  Croatia  13.0    65.0  25.000000
10                  Cyprus  11.0    21.0  16.000000
11          Czech Republic  15.0    45.0  23.666667
12                 England  25.0    80.0  51.636364
13                  France   5.0  2500.0  41.577949
14                 Georgia   9.0    40.0  18.270270
15                 Germany   5.0   775.0  40.592233
16                  Greece   8.0    79.0  21.845188
17       

In [11]:
# ¿Cuantos vinos hay con *aroma a fresa* entre otras consideraciones snobs que vienen en la descripción?
palabras_snobs = ['elegant', 'nuance', 'minerality', 'hint', 'structure', 'balance', 'complexity', 'oak', 'tannins', 'acidity', 'finish']

def tiene_palabras_snobs(description):
    return any(palabra in description for palabra in palabras_snobs)

df['snob'] = df['description'].apply(tiene_palabras_snobs)

num_vinos_snobs = df['snob'].sum()

print(f"Número de vinos con consideraciones 'snobs' en la descripción: {num_vinos_snobs}")

Número de vinos con consideraciones 'snobs' en la descripción: 51211


In [15]:
# ¿Cuantas designaciones diferentes hay? ¿Cuál es la más repetida? ¿Cuantas veces se repite?
# Contar cuántas designaciones diferentes hay
num_designaciones_diferentes = df['designation'].nunique()

# Encontrar la designación más repetida y cuántas veces se repite
mas_repetida = df['designation'].value_counts().idxmax()
cantidad = df['designation'].value_counts().max()

# Resultados
print(f"Número de designaciones diferentes: {num_designaciones_diferentes}")
print(f"La designación más repetida es: {mas_repetida}")
print(f"Se repite {cantidad} veces")


Número de designaciones diferentes: 24187
La designación más repetida es: Reserve
Se repite 999 veces


In [None]:
# Hacer un dataframe con la variedad, el país y el precio para vinos con un costo menor a los $20 dolares
vinos_menor_20 = df[df['price'] < 20]
df_vinos_menor_20 = vinos_menor_20[['variety', 'country', 'price']]
print(df_vinos_menor_20.head())

              variety   country  price
1      Portuguese Red  Portugal   15.0
2          Pinot Gris        US   14.0
3            Riesling        US   13.0
5  Tempranillo-Merlot     Spain   15.0
6            Frappato     Italy   16.0


In [None]:
# ¿Cuantos vinos diferentes de la variedad *Pinot Noir* hay por cada país?
# Filtrar los vinos de la variedad 'Pinot Noir'
pinot_noir_vinos = df[df['variety'] == 'Pinot Noir']

# Contar cuántos vinos de Pinot Noir hay por cada país
pinot_noir_por_pais = pinot_noir_vinos['country'].value_counts()

# Mostrar el resultado
print(pinot_noir_por_pais)

country
US              4918
France          1001
New Zealand      281
Chile            184
Australia         58
Austria           51
Argentina         46
Germany           31
South Africa      21
Bulgaria           9
Canada             8
Romania            8
Portugal           7
Spain              6
Israel             5
England            5
Italy              4
Uruguay            3
Slovenia           3
Switzerland        2
Brazil             2
Croatia            1
Name: count, dtype: int64
