<a href="https://colab.research.google.com/github/ml-unison/ml-unison.github.io/raw/main/ejemplos/intro-pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a `pandas`

### Curso Reconocimiento de Patrones, 2024-2

**Julio Waissman Vilanova**


In [None]:
import pandas as pd

## Creando un dataframe

Pandas es un marco de desarrollo para la manipulación de datos, creado originalmente para ofrecer en python las facilidades de manejo de tablas de datos que tiene en forma nativa el lenguaje `R`.

Pandas se basa en dos clases: `Serie` y `DataFrame`, ambas heredadas de la clase `ndarray`de numpy. Un objeto de la clase `Serie`(que llamaremos serie) es un arreglo de datos de un solo tipo, los cuales se encuentran indexados. Un objeto tipo `DataFrame`es una colección de series, en la que se comparte el índice (o renglón), pero cada serie (o columna) tiene su propio tipo. En la figura se muestra como es un DataFrame

![](https://pandas.pydata.org/docs/_images/01_table_dataframe.svg)

Vamos a crear un `Dataframe`:

In [None]:
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"]
    }
)

Y vamos a ver los primeros 2 elementos y los últimos 3

In [None]:
display(df.head(2))

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male


In [None]:
display(df.tail(2))

Unnamed: 0,Name,Age,Sex
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


Ahora vamos a investigar la información de la tabla y cada una de las series que la componen:

In [None]:
df['Name']

In [None]:
df['Age']

In [None]:
df.index

In [None]:
df.index = ['tata', 'tete', 'toto']
df

In [None]:
df.dtypes

In [None]:
df.describe(include='all')

In [None]:
df.describe(include=object)

## Leyendo un dataframe

En pandas, es posible leer y escribir los dataframes en diferentes formatos. Para esto en pandas hay una serie de funciones `read_*` y `to_*` dependiendo el formato en que estén los datos o en que queramos leerlos.

Todos los formatos tienen sus cositas y es prudente leer con calma la documentación (inclusive si se trata de abrir un archivo `csv`y es muy grande o está guardado en una codificación extraña o antigua).

En la figura vemos algunos de los formatos de lectura y escritura existentes.

![](https://pandas.pydata.org/docs/_images/02_io_readwrite.svg)

En pandas, por ejemplo es posible abrir un archivo local, remoto o inclusive comprimido, sin necesidad de pasar por otros pasos. Esto hace que sea fácil utilizar datos en colab (datos públicos) leyendolos de un repositorio de github.

Vamos pues a leer los sobadisimos e interesantes datos del titanic:

In [None]:
%pwd

'/content'

In [None]:
csv_titanic_url = "https://raw.githubusercontent.com/pandas-dev/pandas/master/doc/data/titanic.csv"
local_titanic_filename = "datos/titanic.csv"

df_titanic = pd.read_csv(csv_titanic_url, engine='python')
df_titanic.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Y por buena costumbre vamos a ver de que se tratan estos datos

In [None]:
df_titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [None]:
df_titanic.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [None]:
df_titanic.describe(include=object)

Y ahora vamos a guardar los datos en un archivo excel para mandarselos a alguien (recuerda que colab mantiene los archivo en el entorno virtual, pero si no los guardas despues, se pierden).

In [None]:
df_titanic.to_excel("datos/titanic.xlsx", sheet_name="passengers", index=False)

## Seleccionando partes de un dataframe

### Seleccionando columnas

Seleccionar columnas es muy fácil, solo hay que tener presente que si se selecciona una sola columna, lo que se obtiene es una serie, mientras que si se selecciona un subconjunto de columnas, lo que se obtiene es otro dataframe. Quedarse con un subconjunto de columnas se conoce tambien como seleccionar.

![](https://pandas.pydata.org/docs/_images/03_subset_columns.svg)

Vamos a ver que pasa:

In [None]:
edad = df_titanic['Age']
edad_bis = df_titanic.Age   # Es lo mismo que el anterior

df_edad = df_titanic[['Age']] # Un subconjunto de columnas con una sola columna

df_ejemplo = df_titanic[['Age', 'Sex']]

In [None]:
edad

In [None]:
type(edad)

In [None]:
edad_bis

In [None]:
type(edad_bis)

In [None]:
df_edad

In [None]:
type(df_edad)

In [None]:
df_ejemplo

### Seleccionando renglones

Los renglones tienen mas detallitos a tomar en cuenta que las columnas.
Este proceso se conoce en general como filtrado, y lo que se busca es seleccionar solo los
renglones que cumplan ciertos criterios. Veamos.

Vamos empezando por buscar un dataframe de la información de los pasageros con 35 años o mas:

In [None]:
df_35mas = df_titanic[df_titanic['Age'] > 35]   #equivalente df_titanic.Age[df_titanic.Age > 35]

df_35mas.describe()

Ahora vamos a buscar los pasajeros que se viajaron en 1ra o 2da clase:

In [None]:
df_12 = df_titanic[df_titanic.Pclass.isin([1, 2])]

df_12.describe()

Se pueden usar combinadores lógicos entre diferentes columnas, pero las condiciones debe estar
clara con el uso de paréntesis y se deben utilizar `|` para la disyunción y `&` para la conjunción.

Vamos a ver los pasajeros de más de 35 años y que viajen en 1ra o 2da:

In [None]:
df_titanic[(df_titanic.Age > 35) & (df_titanic.Pclass.isin([1, 2]))].describe()

Por últomo vamos a ver los pasajeron que no registraron su edad:

In [None]:
df_sin_edad = df_titanic[df_titanic.Age.isna()]

df_sin_edad

### Seleccionando renglones y columnas

![](https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg)

Este paso es un poco extraño, ya que no se pueden seleccionar renglones y columnas directamente, sino que hay que usar los métodos `.loc`y `.iloc`. Vamos a ejemplificarlos.

Supongamos que queremos los nombres de todos los mayores de 35 años, como serie y como dataframe. La manera de seleccionar y filtrar es la siguiente:

In [None]:
como_serie = df_titanic.loc[df_titanic.Age > 35, 'Name']  # Como serie de tiempo

como_df = df_titanic.loc[df_titanic.Age > 35, ['Name']]  # Como dataframe

In [None]:
como_serie

In [None]:
como_df

Si quieres no solo el nombre, pero tambien el género se puede obtener como:

In [None]:
df_nueva = df_titanic.loc[df_titanic.Age > 35, ['Name', 'Sex']]
df_nueva

Unnamed: 0,Name,Sex
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
6,"McCarthy, Mr. Timothy J",male
11,"Bonnell, Miss Elizabeth",female
13,"Andersson, Mr. Anders Johan",male
15,"Hewlett, Mrs. (Mary D Kingcome)",female
...,...,...
865,"Bystrom, Mrs. (Karolina)",female
871,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female
873,"Vander Cruyssen, Mr. Victor",male
879,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female


Este tipo de indexación tambien puede servir para modificar valores, por ejemplo:

In [None]:
df_nueva.loc[df_nueva.Sex == 'female', 'Sex'] = 'mujer'
df_nueva

## Extrayendo estadísticas

### Por columna

Para encontrar estadísticas podemos seleccionar una columna y aplicarle cualquier oeración de agregación incluida en las operaciones en series. Por ejemplo, para encontrar la edad promedio de los pasajeros del titanic:

In [None]:
df_titanic['Age'].mean()

Las operaciones de agregación tambien se pueden aplicar en dataframes, aplicandose en cada serie en forma independiente. Por ejemplo:

In [None]:
df_titanic[['Age', 'Fare']].median()

Y si se quiere aplicar una serie de agregaciones diferentes a varias variables, lo mejor es usar el método `.agg`como se muestra a continuación:

In [None]:
df_titanic.agg(
    {
        "Age": ["min", "max", "median", "mad"],
        "Fare": ["min", "max", "mean", "std"],
    }
)

### Regrupando por variables

Para esto se usa el método `.group` que si bien de inicio parece bastante obvio, luego se le ven algunos detallitos.

Por ejemplo, supongamos que quiero saber la edad pronedio de los pasajeros por género. Hay dos maneras de hacerlo. La primera es seleccionar `Age` y `Sex`, regrupar por `Sex`y sacarle la media a Àge`.

![](https://pandas.pydata.org/docs/_images/06_groupby.svg)

La otra es regrupar por `Sex`, luego seleccionar `Age`, y aplicarle la media.

![](https://pandas.pydata.org/docs/_images/06_groupby_select_detail.svg)

Vamos a ver que sale en cada caso:

In [None]:
df_titanic[['Age', 'Sex']].groupby('Sex').mean()

In [None]:
df_titanic.groupby('Sex')[['Age']].mean()

Se pueden hacer regrupaciones en mútiples niveles. Por ejemplo si queremos saber la edad promedio, por género y por clase en la que viajaban, se puede regrupar en dos variables:

In [None]:
df_titanic.groupby(["Sex", "Pclass"])[["Age"]].mean()

## Datos numéricos

Para ejemplificar el uso de columnas numéricas, horas y fechas vamos a utilizar un conjunto de datos que puso generosamente a nuestra disposición [Hector Alberto Gutierrez Ibarra](hector.gutierrez@cenace.gob.mx) de la gerencia noroeste del *Centro Nacional de Control de Energía (CENACE)*.

Vamos primero pegandole un ojo a los datos:

In [None]:
path_datos = "https://github.com/juliowaissman/curso-python-cd/raw/main/datos/caso_zc_hmo.csv.zip"
df = pd.read_csv(path_datos)
print(df.info())
df

Lo primero que tenemos que hacer es convertir la variable `Date`en un formato de fechas. En este caso es muy fácil porque la tabla está muy bien formateada, pero suele no ser tan sencillo.

df['Date'] = pd.to_datetime(
    df.Date,
    format="%d/%m/%Y %H:%M"
)
print(df.info())
df

¿Cuantos días tenemos en esta base? ¿Cual es el primer día y el último?

In [None]:
print(f"Inicia el {df.Date.min()} y termina el {df.Date.max()}")
print(f"Con una duración de {df.Date.max() - df.Date.min()}")

Hay que tener cuidado porque hay dos tipos fundamentales de formatos de tiempo, y suelen no mesclarse bien en algunas operaciones.

In [None]:
type(df.Date.min()), type(df.Date.max() - df.Date.min())

Para facilitar el uso de pandas, vamos a pasar la fecha como el indice del dataframe

In [None]:
df.set_index('Date', inplace=True)
df

## Gráficas rápidas y furiosas desde pandas

Pandas trae incluidas facilidades para la graficación con el fin de hacer análisis rápidos de nuestras variables, así que vamos aprovechando y haciendo una inspección visual

In [None]:
ax = df.Demand.plot()

In [None]:
ax = df.plot(figsize=(12, 20), subplots=True)

In [None]:
ax = df.Temperature.plot.box()

In [None]:
ax = df.plot.scatter(
    x='Humidity',
    y='Temperature',
    c='Demand',
    s =40,
    figsize=(12,8)
)

## Generando nuevas variables a partir de las variables conocidas

Generar nuevas variables es relativamente simple, pero hay algunas cosas que son diferentes con numpy y por las cuales hay que tener cuidado.

df['farenheit'] = (df.Temperature * 9/5) + 32

df['refri'] = 0
df['refri'] = df.refri.where(df.Temperature < 30, 1)

df['DiaSemana'] = df.index.weekday

df.rename(
    columns={
        'Demand': 'Demanda',
        'Temperature': 'Temperatura',
        'PrecipIntensity': 'Precipitación',
        'Humidity': 'Humedad',
        'WinSpeed': 'VelocidadViento',
    },
    inplace=True
)
df

## Analizando con regrupamientos

En particular, es interesante poder hacer algun análisis exploratorio utilizando las facilidades que da el uso del manejo de la información temporal que ofrece pandas. En espacial cuando se combina con `groupby` y diferentes funciones de agregación.

Vamos a empezar por ver la demanda promedio por día de la semana:

In [None]:
ax = df.groupby(df.index.month)[['Demanda']].boxplot(subplots=False, rot=90)

In [None]:
df.boxplot(column=['Demanda'], by=df.index.month)

In [None]:
df_semana = df.groupby('DiaSemana').agg(
    {
        'Demanda': ['min', 'max', 'mean', 'median', 'std'],
        'Precipitación': ['min', 'max']
    }
)
df_semana

Ahora vamos a ver que pasa en forma mensual

In [None]:
ax = (
    df[['Demanda']]
    .groupby(df.index.month)
    .boxplot(subplots=False, rot=90, figsize=(12, 7))
)

In [None]:
ax = (
    df[['Temperatura']]
    .groupby(df.index.month)
    .boxplot(
        subplots=False,
        rot=90,
        figsize=(12, 7)
    )
)

O inclusive por hora del día

In [None]:
ax = (
    df[['Demanda']]
    .groupby(df.index.hour)
    .boxplot(subplots=False, rot=90, figsize=(12, 7)
)

In [None]:
df_hora = (
    df[['Demanda', 'Temperatura']]
    .groupby([df.index.hour, df.index.month_name()])
    .mean()
    .unstack()
)
df_hora

In [None]:
ax = df_hora.Demanda.plot(
    style='o',
    figsize=(15,7),
    title='Demanda por hora y por mes',
    xlabel='Hora',
    ylabel='Demanda'
)

In [None]:
ax = df_hora.Temperatura.plot(
    style='o',
    figsize=(15,7))

## Generando nuevas variables a partir de las variables conocidas

Generar nuevas variables es relativamente simple, pero hay algunas cosas que son diferentes con numpy y por las cuales hay que tener cuidado.

### Vamos a practicar

Para esta practica vamos a usar un conjunto de datos de la revista *wine magazine*,
donde revisan una cantidad bastante sorprendente de vinos.

Una descripción de la base de datos la encuentras [aquí](https://www.kaggle.com/zynicide/wine-reviews).
Para no tener que descargar los datos a mano, se anexa la dirección `url` de donde se pueden descargar.

Es importante notr que la primer columna del archivo `csv` es el índice (usar `index_col=0` cuando se descargue el archivo con `pd.read_csv`).

Una vez descargado, usar pandas para las siguientes tareas:

1. ¿Cuantas variables tiene el dataframe? ¿Qué variables tienen valores perdidos? ¿Qué variables son numéricas? ¿Qué variables son cualitativas?
2. Hacer un dataframe con únicamente vinos europeos.
3. ¿Cuál es el menor, el mayor y el precio promedio de la botella por país? ¿De que país es la botella de menor precio?
4. ¿Cuantos vinos hay con *aroma a fresa* entre otras consideraciones snobs que vienen en la descripción?
5. ¿Cuantas designaciones diferentes hay? ¿Cuál es la más repetida? ¿Cuantas veces se repite?
6. Hacer un dataframe con la variedad, el país y el precio para vinos con un costo menor a los $20 dolares.
7. ¿Cuantos vinos diferentes de la variedad *Pinot Noir* hay por cada país?


In [None]:
winmag_url = 'https://gist.githubusercontent.com/clairehq/79acab35be50eaf1c383948ed3fd1129/raw/407a02139ae1e134992b90b4b2b8c329b3d73a6a/winemag-data-130k-v2.csv'

In [None]:
winmag_df = pd.read_csv(winmag_url)
#winmag_df.info()
# ¿Cuantas variables tiene el dataframe?
print(f"Variables en DF: {winmag_df.shape[1]}")
# ¿Qué variables tienen valores perdidos?
missing_values = winmag_df.isnull().sum()
columns_with_missing = missing_values[missing_values > 0]
print(f"Variables con valores perdidos: {columns_with_missing.shape[0]}")
# ¿Qué variables son numéricas?
numeric_columns = winmag_df.select_dtypes(include=['number']).columns
num_numeric_columns = len(numeric_columns)
print(f"Variables numéricas: {len(numeric_columns)}")
# ¿Qué variables son cualitativas?
categorical_columns = df.select_dtypes(include=['object', 'category']).columns
num_categorical_columns = len(categorical_columns)
print(f"Variables cualitativas: {len(categorical_columns)}")

Variables en DF: 14
Variables con valores perdidos: 8
Variables numéricas: 3
Variables cualitativas: 2


In [None]:
#No se me ocurrió otra cosa más que esto.
european_countries = ['France', 'Italy', 'Spain', 'Portugal', 'Germany', 'Austria', 'Greece',
    'Hungary', 'Switzerland', 'Romania', 'Bulgaria', 'Slovenia', 'Croatia',
    'Serbia', 'Moldova', 'Slovakia', 'Czech Republic', 'Georgia']

# Hacer un dataframe con únicamente vinos europeos.
european_wines_df = winmag_df[winmag_df['country'].isin(european_countries)]
european_wines_df

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
5,5,Spain,Blackberry and raspberry aromas show a typical...,Ars In Vitro,87,15.0,Northern Spain,Navarra,,Michael Schachner,@wineschach,Tandem 2011 Ars In Vitro Tempranillo-Merlot (N...,Tempranillo-Merlot,Tandem
6,6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
7,7,France,This dry and restrained wine offers spice in p...,,87,24.0,Alsace,Alsace,,Roger Voss,@vossroger,Trimbach 2012 Gewurztraminer (Alsace),Gewürztraminer,Trimbach
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
65486,65486,France,"Closed up and firm with a hint of vanilla, hon...",Domaine Long-Depaquit Les Bougnons Premier Cru,90,,Burgundy,Chablis,,Roger Voss,@vossroger,Albert Bichot 2005 Domaine Long-Depaquit Les B...,Chardonnay,Albert Bichot
65491,65491,France,"A big, toasty wine, full of ripe, delicious fr...",Fourchaume Vieilles Vignes Premier Cru,90,36.0,Burgundy,Chablis,,Roger Voss,@vossroger,Pascal Bouchard 2006 Fourchaume Vieilles Vigne...,Chardonnay,Pascal Bouchard
65492,65492,France,"A rounded, fruity wine, packed with yellow pea...",Mont-de-Milieu Premier Cru,90,30.0,Burgundy,Chablis,,Roger Voss,@vossroger,Simonnet-Febvre 2005 Mont-de-Milieu Premier Cr...,Chardonnay,Simonnet-Febvre
65494,65494,France,Made from young vines from the Vaulorent porti...,Fourchaume Premier Cru,90,45.0,Burgundy,Chablis,,Roger Voss,@vossroger,William Fèvre 2005 Fourchaume Premier Cru (Ch...,Chardonnay,William Fèvre


In [None]:
# ¿Cuál es el menor, el mayor y el precio promedio de la botella por país?
price_stats_by_country = european_wines_df.groupby('country')['price'].agg(
    min_price='min',
    max_price='max',
    avg_price='mean'
).reset_index()
print(price_stats_by_country)
# ¿De que país es la botella de menor precio?
#Obtenemos el menor de los precios
min_price = price_stats_by_country['min_price'].min()
#Obtenemos la columna que tenga el menor precio.
min_price_row = european_wines_df[european_wines_df['price'] == min_price]
#Obtenemos el país con el vino de menor precio
country_of_min_price = min_price_row['country'].values[0]
print(f"\nEl país con la botella de menor precio es: {country_of_min_price}")

           country  min_price  max_price  avg_price
0          Austria        7.0      150.0  30.846774
1         Bulgaria        8.0       55.0  14.014706
2          Croatia       13.0       65.0  25.000000
3   Czech Republic       15.0       45.0  23.666667
4           France        5.0     2500.0  41.577949
5          Georgia        9.0       40.0  18.270270
6          Germany        5.0      775.0  40.592233
7           Greece        8.0       79.0  21.845188
8          Hungary       10.0      764.0  50.819672
9            Italy        5.0      595.0  39.739836
10         Moldova        8.0       42.0  17.900000
11        Portugal        5.0     1000.0  25.647360
12         Romania        7.0      100.0  13.731343
13          Serbia       15.0       40.0  25.000000
14        Slovakia       16.0       16.0  16.000000
15        Slovenia        7.0       60.0  24.000000
16           Spain        4.0      770.0  27.875925
17     Switzerland       30.0      160.0  97.000000

El país con

In [None]:
# ¿Cuantos vinos hay con *aroma a fresa* entre otras consideraciones snobs que vienen en la descripción?
# Consideraciones snobs:

prestigious_contries = ['France', 'Italy', 'United States', 'Spain']
#Aroma a fresa
strawberry_aroma_wines = european_countries_df[european_countries_df['description'].str.contains('strawberry', case=False, na=False)]
#EXTRAAA
#Vino de alto puntaje
high_score_wines = strawberry_aroma_wines[strawberry_aroma_wines['points'] > 90]
#Por país de "prestigio"
prestigious_country_wines = high_score_wines[high_score_wines['country'].isin(prestigious_contries)]
#Por PRECIO ALTO
high_prices_wines = prestigious_country_wines[prestigious_country_wines['price'] > 150]

display(high_prices_wines)

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
3063,3063,France,"Structured, concentrated, a wine that shows po...",,95,164.0,Burgundy,Charmes-Chambertin,,Roger Voss,@vossroger,Joseph Drouhin 2008 Charmes-Chambertin,Pinot Noir,Joseph Drouhin
45781,45781,Italy,"This gorgeous, fragrant wine opens with classi...",Riserva,100,550.0,Tuscany,Brunello di Montalcino,,Kerin O’Keefe,@kerinokeefe,Biondi Santi 2010 Riserva (Brunello di Montal...,Sangiovese,Biondi Santi
46137,46137,France,A perfumed wine that smells and tastes mature....,Clos de Vougeot,92,400.0,Burgundy,Clos de Vougeot,,Roger Voss,@vossroger,Domaine Henri Rebourseau 2000 Clos de Vougeot ...,Pinot Noir,Domaine Henri Rebourseau
52884,52884,France,"Concentrated and powerful, this wine is rich a...",Clos Saint-Jacques Premier Cru,95,208.0,Burgundy,Gevrey-Chambertin,,Roger Voss,@vossroger,Louis Jadot 2013 Clos Saint-Jacques Premier Cr...,Pinot Noir,Louis Jadot
53190,53190,France,"This is a beautifully balanced, elegant and ma...",Cuvée Elisabeth Salmon Brut Rosé,94,222.0,Champagne,Champagne,,Roger Voss,@vossroger,Billecart-Salmon 2002 Cuvée Elisabeth Salmon B...,Champagne Blend,Billecart-Salmon
63766,63766,Italy,"Initially reserved, this ethereal red took som...",Riserva,95,550.0,Tuscany,Brunello di Montalcino,,Kerin O’Keefe,@kerinokeefe,Poggio di Sotto 2011 Riserva (Brunello di Mon...,Sangiovese,Poggio di Sotto
64077,64077,France,"Flowery and smoky aromas introduce a perfumed,...",,92,229.0,Burgundy,Clos de Vougeot,,Roger Voss,@vossroger,Louis Latour 2008 Clos de Vougeot,Pinot Noir,Louis Latour


In [None]:
# ¿Cuantas designaciones diferentes hay? ¿Cuál es la más repetida? ¿Cuantas veces se repite?
#Numero de designaciones diferentes
num_unique_designations = winmag_df['designation'].nunique()
print(f"Número de designaciones diferentes: {num_unique_designations}")
#Más repetida
most_common_designation = winmag_df['designation'].mode()[0]
print(f"La más repetida es: {most_common_designation}")
#Cuantas veces se repite una designación común
most_common_designation_count = winmag_df['designation'].value_counts().max()
print(f"Se repite {most_common_designation_count} veces")

Número de designaciones diferentes: 24187
La más repetida es: Reserve
Se repite 999 veces


In [None]:
# Hacer un dataframe con la variedad, el país y el precio para vinos con un costo menor a los $20 dolares
other_df = winmag_df[winmag_df['price'] < 20][['variety', 'country', 'price']]
other_df

Unnamed: 0,variety,country,price
1,Portuguese Red,Portugal,15.0
2,Pinot Gris,US,14.0
3,Riesling,US,13.0
5,Tempranillo-Merlot,Spain,15.0
6,Frappato,Italy,16.0
...,...,...,...
65456,Cabernet Sauvignon,US,11.0
65472,Chardonnay,US,19.0
65481,Malbec,Argentina,11.0
65482,Cabernet Sauvignon,Australia,17.0


In [None]:
# ¿Cuantos vinos diferentes de la variedad *Pinot Noir* hay por cada país?
#Obtenemos el minidataframe, con lo que pide
Pinot_noir_wines = other_df[other_df['variety'] == 'Pinot Noir']
#Hacemos el conteo
Pinot_noir_wines['country'].value_counts()


Unnamed: 0_level_0,count
country,Unnamed: 1_level_1
US,351
Chile,110
France,70
New Zealand,43
Argentina,28
Australia,18
Bulgaria,9
Germany,9
Romania,7
Austria,5
