<a href="https://colab.research.google.com/github/JoaquinSotel0/CursoIA-NotasDeClase/blob/main/intro_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<a href="https://colab.research.google.com/github/IA-UNISON/IA-UNISON.github.io/blob/main/assets/libretas/intro-pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a `pandas`

**Curso Inteligencia Artificial 2026-1**

Julio Waissman

In [1]:
import pandas as pd

## Creando un dataframe

Pandas es un marco de desarrollo para la manipulación de datos, creado originalmente para ofrecer en python las facilidades de manejo de tablas de datos que tiene en forma nativa el lenguaje `R`.

Pandas se basa en dos clases: `Serie` y `DataFrame`, ambas heredadas de la clase `ndarray`de numpy. Un objeto de la clase `Serie`(que llamaremos serie) es un arreglo de datos de un solo tipo, los cuales se encuentran indexados. Un objeto tipo `DataFrame`es una colección de series, en la que se comparte el índice (o renglón), pero cada serie (o columna) tiene su propio tipo. En la figura se muestra como es un DataFrame

![](https://pandas.pydata.org/docs/_images/01_table_dataframe.svg)

Vamos a crear un `Dataframe`:

In [3]:
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"]
    }
)

Y vamos a ver los primeros 2 elementos y los últimos 3

In [4]:
display(df.head(2))

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male


In [5]:
display(df.tail(2))

Unnamed: 0,Name,Age,Sex
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


Ahora vamos a investigar la información de la tabla y cada una de las series que la componen:

In [6]:
df['Name']

Unnamed: 0,Name
0,"Braund, Mr. Owen Harris"
1,"Allen, Mr. William Henry"
2,"Bonnell, Miss. Elizabeth"


In [7]:
df['Age']

Unnamed: 0,Age
0,22
1,35
2,58


In [8]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [9]:
df.index = ['tata', 'tete', 'toto']
df

Unnamed: 0,Name,Age,Sex
tata,"Braund, Mr. Owen Harris",22,male
tete,"Allen, Mr. William Henry",35,male
toto,"Bonnell, Miss. Elizabeth",58,female


In [10]:
df.dtypes

Unnamed: 0,0
Name,object
Age,int64
Sex,object


In [11]:
df.describe(include='all')

Unnamed: 0,Name,Age,Sex
count,3,3.0,3
unique,3,,2
top,"Braund, Mr. Owen Harris",,male
freq,1,,2
mean,,38.333333,
std,,18.230012,
min,,22.0,
25%,,28.5,
50%,,35.0,
75%,,46.5,


In [12]:
df.describe(include=object)

Unnamed: 0,Name,Sex
count,3,3
unique,3,2
top,"Braund, Mr. Owen Harris",male
freq,1,2


## Leyendo un dataframe

En pandas, es posible leer y escribir los dataframes en diferentes formatos. Para esto en pandas hay una serie de funciones `read_*` y `to_*` dependiendo el formato en que estén los datos o en que queramos leerlos.

Todos los formatos tienen sus cositas y es prudente leer con calma la documentación (inclusive si se trata de abrir un archivo `csv`y es muy grande o está guardado en una codificación extraña o antigua).

En la figura vemos algunos de los formatos de lectura y escritura existentes.

![](https://pandas.pydata.org/docs/_images/02_io_readwrite.svg)

En pandas, por ejemplo es posible abrir un archivo local, remoto o inclusive comprimido, sin necesidad de pasar por otros pasos. Esto hace que sea fácil utilizar datos en colab (datos públicos) leyendolos de un repositorio de github.

Vamos pues a leer los sobadisimos e interesantes datos del titanic:

In [13]:
%pwd

'/content'

In [14]:
csv_titanic_url = "https://raw.githubusercontent.com/pandas-dev/pandas/master/doc/data/titanic.csv"
local_titanic_filename = "datos/titanic.csv"

df_titanic = pd.read_csv(csv_titanic_url, engine='python')
df_titanic.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Y por buena costumbre vamos a ver de que se tratan estos datos

In [15]:
df_titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [16]:
df_titanic.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [17]:
df_titanic.describe(include=object)

Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
count,891,891,891,204,889
unique,891,2,681,147,3
top,"Dooley, Mr. Patrick",male,347082,G6,S
freq,1,577,7,4,644


Y ahora vamos a guardar los datos en un archivo excel para mandarselos a alguien (recuerda que colab mantiene los archivo en el entorno virtual, pero si no los guardas despues, se pierden).

In [18]:
df_titanic.to_excel("datos/titanic.xlsx", sheet_name="passengers", index=False)

OSError: Cannot save file into a non-existent directory: 'datos'

## Seleccionando partes de un dataframe

### Seleccionando columnas

Seleccionar columnas es muy fácil, solo hay que tener presente que si se selecciona una sola columna, lo que se obtiene es una serie, mientras que si se selecciona un subconjunto de columnas, lo que se obtiene es otro dataframe. Quedarse con un subconjunto de columnas se conoce tambien como seleccionar.

![](https://pandas.pydata.org/docs/_images/03_subset_columns.svg)

Vamos a ver que pasa:

In [19]:
edad = df_titanic['Age']
edad_bis = df_titanic.Age   # Es lo mismo que el anterior

df_edad = df_titanic[['Age']] # Un subconjunto de columnas con una sola columna

df_ejemplo = df_titanic[['Age', 'Sex']]

In [20]:
edad

Unnamed: 0,Age
0,22.0
1,38.0
2,26.0
3,35.0
4,35.0
...,...
886,27.0
887,19.0
888,
889,26.0


In [21]:
type(edad)

In [22]:
edad_bis

Unnamed: 0,Age
0,22.0
1,38.0
2,26.0
3,35.0
4,35.0
...,...
886,27.0
887,19.0
888,
889,26.0


In [23]:
type(edad_bis)

In [24]:
df_edad

Unnamed: 0,Age
0,22.0
1,38.0
2,26.0
3,35.0
4,35.0
...,...
886,27.0
887,19.0
888,
889,26.0


In [25]:
type(df_edad)

In [26]:
df_ejemplo

Unnamed: 0,Age,Sex
0,22.0,male
1,38.0,female
2,26.0,female
3,35.0,female
4,35.0,male
...,...,...
886,27.0,male
887,19.0,female
888,,female
889,26.0,male


### Seleccionando renglones

Los renglones tienen mas detallitos a tomar en cuenta que las columnas.
Este proceso se conoce en general como filtrado, y lo que se busca es seleccionar solo los
renglones que cumplan ciertos criterios. Veamos.

Vamos empezando por buscar un dataframe de la información de los pasageros con 35 años o mas:

In [27]:
df_35mas = df_titanic[df_titanic['Age'] > 35]   #equivalente df_titanic.Age[df_titanic.Age > 35]

df_35mas.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,217.0,217.0,217.0,217.0,217.0,217.0,217.0
mean,458.304147,0.382488,1.81106,46.979263,0.345622,0.465438,43.966821
std,245.874459,0.487119,0.858653,9.188272,0.522983,1.075809,56.083306
min,2.0,0.0,1.0,36.0,0.0,0.0,0.0
25%,253.0,0.0,1.0,40.0,0.0,0.0,12.525
50%,472.0,0.0,2.0,45.0,0.0,0.0,26.3875
75%,662.0,1.0,3.0,52.0,1.0,0.0,55.9
max,886.0,1.0,3.0,80.0,2.0,6.0,512.3292


Ahora vamos a buscar los pasajeros que se viajaron en 1ra o 2da clase:

In [28]:
df_12 = df_titanic[df_titanic.Pclass.isin([1, 2])]

df_12.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,400.0,400.0,400.0,359.0,400.0,400.0,400.0
mean,454.4025,0.5575,1.46,34.206825,0.41,0.3675,54.948135
std,248.448793,0.497305,0.499022,14.996584,0.606481,0.691838,66.308753
min,2.0,0.0,1.0,0.67,0.0,0.0,0.0
25%,252.25,0.0,1.0,24.0,0.0,0.0,14.875
50%,453.5,1.0,1.0,33.0,0.0,0.0,29.7
75%,670.25,1.0,2.0,45.0,1.0,1.0,73.5
max,890.0,1.0,2.0,80.0,3.0,4.0,512.3292


Se pueden usar combinadores lógicos entre diferentes columnas, pero las condiciones debe estar
clara con el uso de paréntesis y se deben utilizar `|` para la disyunción y `&` para la conjunción.

Vamos a ver los pasajeros de más de 35 años y que viajen en 1ra o 2da:

In [29]:
df_titanic[(df_titanic.Age > 35) & (df_titanic.Pclass.isin([1, 2]))].describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,154.0,154.0,154.0,154.0,154.0,154.0,154.0
mean,463.175325,0.5,1.324675,48.006494,0.376623,0.324675,56.677382
std,242.328064,0.501631,0.469781,9.368803,0.524908,0.655625,61.986333
min,2.0,0.0,1.0,36.0,0.0,0.0,0.0
25%,264.5,0.0,1.0,40.0,0.0,0.0,26.0
50%,478.0,0.5,1.0,47.0,0.0,0.0,30.8479
75%,662.5,1.0,2.0,54.0,1.0,0.0,77.7906
max,880.0,1.0,2.0,80.0,2.0,4.0,512.3292


Por último vamos a ver los pasajeron que no registraron su edad:

In [30]:
df_sin_edad = df_titanic[df_titanic.Age.isna()]

df_sin_edad

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0000,,S
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.2250,,C
26,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.2250,,C
28,29,1,3,"O'Dwyer, Miss Ellen ""Nellie""",female,,0,0,330959,7.8792,,Q
...,...,...,...,...,...,...,...,...,...,...,...,...
859,860,0,3,"Razi, Mr. Raihed",male,,0,0,2629,7.2292,,C
863,864,0,3,"Sage, Miss Dorothy Edith ""Dolly""",female,,8,2,CA. 2343,69.5500,,S
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,,S
878,879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S


### Seleccionando renglones y columnas

![](https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg)

Este paso es un poco extraño, ya que no se pueden seleccionar renglones y columnas directamente, sino que hay que usar los métodos `.loc`y `.iloc`. Vamos a ejemplificarlos.

Supongamos que queremos los nombres de todos los mayores de 35 años, como serie y como dataframe. La manera de seleccionar y filtrar es la siguiente:

In [31]:
como_serie = df_titanic.loc[df_titanic.Age > 35, 'Name']  # Como serie de tiempo

como_df = df_titanic.loc[df_titanic.Age > 35, ['Name']]  # Como dataframe

In [32]:
como_serie

Unnamed: 0,Name
1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
6,"McCarthy, Mr. Timothy J"
11,"Bonnell, Miss Elizabeth"
13,"Andersson, Mr. Anders Johan"
15,"Hewlett, Mrs. (Mary D Kingcome)"
...,...
865,"Bystrom, Mrs. (Karolina)"
871,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)"
873,"Vander Cruyssen, Mr. Victor"
879,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)"


In [33]:
como_df

Unnamed: 0,Name
1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
6,"McCarthy, Mr. Timothy J"
11,"Bonnell, Miss Elizabeth"
13,"Andersson, Mr. Anders Johan"
15,"Hewlett, Mrs. (Mary D Kingcome)"
...,...
865,"Bystrom, Mrs. (Karolina)"
871,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)"
873,"Vander Cruyssen, Mr. Victor"
879,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)"


Si quieres no solo el nombre, pero tambien el género se puede obtener como:

In [34]:
df_nueva = df_titanic.loc[df_titanic.Age > 35, ['Name', 'Sex']]
df_nueva

Unnamed: 0,Name,Sex
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
6,"McCarthy, Mr. Timothy J",male
11,"Bonnell, Miss Elizabeth",female
13,"Andersson, Mr. Anders Johan",male
15,"Hewlett, Mrs. (Mary D Kingcome)",female
...,...,...
865,"Bystrom, Mrs. (Karolina)",female
871,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female
873,"Vander Cruyssen, Mr. Victor",male
879,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female


Este tipo de indexación tambien puede servir para modificar valores, por ejemplo:

In [35]:
df_nueva.loc[df_nueva.Sex == 'female', 'Sex'] = 'mujer'
df_nueva

Unnamed: 0,Name,Sex
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",mujer
6,"McCarthy, Mr. Timothy J",male
11,"Bonnell, Miss Elizabeth",mujer
13,"Andersson, Mr. Anders Johan",male
15,"Hewlett, Mrs. (Mary D Kingcome)",mujer
...,...,...
865,"Bystrom, Mrs. (Karolina)",mujer
871,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",mujer
873,"Vander Cruyssen, Mr. Victor",male
879,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",mujer


## Extrayendo estadísticas

### Por columna

Para encontrar estadísticas podemos seleccionar una columna y aplicarle cualquier oeración de agregación incluida en las operaciones en series. Por ejemplo, para encontrar la edad promedio de los pasajeros del titanic:

In [36]:
df_titanic['Age'].mean()

np.float64(29.69911764705882)

Las operaciones de agregación tambien se pueden aplicar en dataframes, aplicandose en cada serie en forma independiente. Por ejemplo:

In [37]:
df_titanic[['Age', 'Fare']].median()

Unnamed: 0,0
Age,28.0
Fare,14.4542


Y si se quiere aplicar una serie de agregaciones diferentes a varias variables, lo mejor es usar el método `.agg`como se muestra a continuación:

In [38]:
df_titanic.agg(
    {
        "Age": ["min", "max", "median", "mad"],
        "Fare": ["min", "max", "mean", "std"],
    }
)

AttributeError: 'mad' is not a valid function for 'Series' object

### Regrupando por variables

Para esto se usa el método `.group` que si bien de inicio parece bastante obvio, luego se le ven algunos detallitos.

Por ejemplo, supongamos que quiero saber la edad pronedio de los pasajeros por género. Hay dos maneras de hacerlo. La primera es seleccionar `Age` y `Sex`, regrupar por `Sex`y sacarle la media a Àge`.

![](https://pandas.pydata.org/docs/_images/06_groupby.svg)

La otra es regrupar por `Sex`, luego seleccionar `Age`, y aplicarle la media.

![](https://pandas.pydata.org/docs/_images/06_groupby_select_detail.svg)

Vamos a ver que sale en cada caso:

In [None]:
df_titanic[['Age', 'Sex']].groupby('Sex').mean()

In [None]:
df_titanic.groupby('Sex')[['Age']].mean()

Se pueden hacer regrupaciones en mútiples niveles. Por ejemplo si queremos saber la edad promedio, por género y por clase en la que viajaban, se puede regrupar en dos variables:

In [None]:
df_titanic.groupby(["Sex", "Pclass"])[["Age"]].mean()

## Datos numéricos

Para ejemplificar el uso de columnas numéricas, horas y fechas vamos a utilizar un conjunto de datos que puso generosamente a nuestra disposición [Hector Alberto Gutierrez Ibarra](hector.gutierrez@cenace.gob.mx) de la gerencia noroeste del *Centro Nacional de Control de Energía (CENACE)*.

Vamos primero pegandole un ojo a los datos:

In [None]:
path_datos = "https://github.com/juliowaissman/curso-python-cd/raw/main/datos/caso_zc_hmo.csv.zip"
df = pd.read_csv(path_datos)
print(df.info())
df

Lo primero que tenemos que hacer es convertir la variable `Date`en un formato de fechas. En este caso es muy fácil porque la tabla está muy bien formateada, pero suele no ser tan sencillo.

df['Date'] = pd.to_datetime(
    df.Date,
    format="%d/%m/%Y %H:%M"
)
print(df.info())
df

¿Cuantos días tenemos en esta base? ¿Cual es el primer día y el último?

In [None]:
print(f"Inicia el {df.Date.min()} y termina el {df.Date.max()}")
print(f"Con una duración de {df.Date.max() - df.Date.min()}")

Hay que tener cuidado porque hay dos tipos fundamentales de formatos de tiempo, y suelen no mesclarse bien en algunas operaciones.

In [None]:
type(df.Date.min()), type(df.Date.max() - df.Date.min())

Para facilitar el uso de pandas, vamos a pasar la fecha como el indice del dataframe

In [None]:
df.set_index('Date', inplace=True)
df

## Gráficas rápidas y furiosas desde pandas

Pandas trae incluidas facilidades para la graficación con el fin de hacer análisis rápidos de nuestras variables, así que vamos aprovechando y haciendo una inspección visual

In [None]:
ax = df.Demand.plot()

In [None]:
ax = df.plot(figsize=(12, 20), subplots=True)

In [None]:
ax = df.Temperature.plot.box()

In [None]:
ax = df.plot.scatter(
    x='Humidity',
    y='Temperature',
    c='Demand',
    s =40,
    figsize=(12,8)
)

## Generando nuevas variables a partir de las variables conocidas

Generar nuevas variables es relativamente simple, pero hay algunas cosas que son diferentes con numpy y por las cuales hay que tener cuidado.

df['farenheit'] = (df.Temperature * 9/5) + 32

df['refri'] = 0
df['refri'] = df.refri.where(df.Temperature < 30, 1)

df['DiaSemana'] = df.index.weekday

df.rename(
    columns={
        'Demand': 'Demanda',
        'Temperature': 'Temperatura',
        'PrecipIntensity': 'Precipitación',
        'Humidity': 'Humedad',
        'WinSpeed': 'VelocidadViento',
    },
    inplace=True
)
df

## Analizando con regrupamientos

En particular, es interesante poder hacer algun análisis exploratorio utilizando las facilidades que da el uso del manejo de la información temporal que ofrece pandas. En espacial cuando se combina con `groupby` y diferentes funciones de agregación.

Vamos a empezar por ver la demanda promedio por día de la semana:

In [None]:
ax = df.groupby(df.index.month)[['Demanda']].boxplot(subplots=False, rot=90)

In [None]:
df.boxplot(column=['Demanda'], by=df.index.month)

In [None]:
df_semana = df.groupby('DiaSemana').agg(
    {
        'Demanda': ['min', 'max', 'mean', 'median', 'std'],
        'Precipitación': ['min', 'max']
    }
)
df_semana

Ahora vamos a ver que pasa en forma mensual

In [None]:
ax = (
    df[['Demanda']]
    .groupby(df.index.month)
    .boxplot(subplots=False, rot=90, figsize=(12, 7))
)

In [None]:
ax = (
    df[['Temperatura']]
    .groupby(df.index.month)
    .boxplot(
        subplots=False,
        rot=90,
        figsize=(12, 7)
    )
)

O inclusive por hora del día

In [None]:
ax = (
    df[['Demanda']]
    .groupby(df.index.hour)
    .boxplot(subplots=False, rot=90, figsize=(12, 7)
)

In [None]:
df_hora = (
    df[['Demanda', 'Temperatura']]
    .groupby([df.index.hour, df.index.month_name()])
    .mean()
    .unstack()
)
df_hora

In [None]:
ax = df_hora.Demanda.plot(
    style='o',
    figsize=(15,7),
    title='Demanda por hora y por mes',
    xlabel='Hora',
    ylabel='Demanda'
)

In [None]:
ax = df_hora.Temperatura.plot(
    style='o',
    figsize=(15,7))

## Generando nuevas variables a partir de las variables conocidas

Generar nuevas variables es relativamente simple, pero hay algunas cosas que son diferentes con numpy y por las cuales hay que tener cuidado.

### Vamos a practicar

Para esta practica vamos a usar un conjunto de datos de la revista *wine magazine*,
donde revisan una cantidad bastante sorprendente de vinos.

Una descripción de la base de datos la encuentras [aquí](https://www.kaggle.com/zynicide/wine-reviews).
Para no tener que descargar los datos a mano, se anexa la dirección `url` de donde se pueden descargar.

Es importante notr que la primer columna del archivo `csv` es el índice (usar `index_col=0` cuando se descargue el archivo con `pd.read_csv`).

Una vez descargado, usar pandas para las siguientes tareas:

1. ¿Cuantas variables tiene el dataframe? ¿Qué variables tienen valores perdidos? ¿Qué variables son numéricas? ¿Qué variables son cualitativas?
2. Hacer un dataframe con únicamente vinos europeos.
3. ¿Cuál es el menor, el mayor y el precio promedio de la botella por país? ¿De que país es la botella de menor precio?
4. ¿Cuantos vinos hay con *aroma a fresa* entre otras consideraciones snobs que vienen en la descripción?
5. ¿Cuantas designaciones diferentes hay? ¿Cuál es la más repetida? ¿Cuantas veces se repite?
6. Hacer un dataframe con la variedad, el país y el precio para vinos con un costo menor a los $20 dolares.
7. ¿Cuantos vinos diferentes de la variedad *Pinot Noir* hay por cada país?


In [48]:
import numpy as np
winmag_url = 'https://gist.githubusercontent.com/clairehq/79acab35be50eaf1c383948ed3fd1129/raw/407a02139ae1e134992b90b4b2b8c329b3d73a6a/winemag-data-130k-v2.csv'

df = pd.read_csv(winmag_url, index_col=0)


n_vars = df.shape[1]
# ¿Cuantas variables tiene el dataframe?
print("Número de variables (columnas):", n_vars)
print("Columnas:", list(df.columns))

# ¿Qué variables tienen valores perdidos?
faltantes = df.isna().sum()
faltantes = faltantes[faltantes > 0].sort_values(ascending=False)
print("\nVariables con valores perdidos (conteo):")
print(faltantes)


num_cols = df.select_dtypes(include=[np.number]).columns.tolist()
cat_cols = df.select_dtypes(exclude=[np.number]).columns.tolist()
# ¿Qué variables son numéricas?
print("\nVariables numéricas:")
print(num_cols)

# ¿Qué variables son cualitativas?
print("\nVariables cualitativas (no numéricas):")
print(cat_cols)

Número de variables (columnas): 13
Columnas: ['country', 'description', 'designation', 'points', 'price', 'province', 'region_1', 'region_2', 'taster_name', 'taster_twitter_handle', 'title', 'variety', 'winery']

Variables con valores perdidos (conteo):
region_2                 40329
designation              18911
taster_twitter_handle    16032
taster_name              13643
region_1                 10755
price                     4670
province                    32
country                     32
dtype: int64

Variables numéricas:
['points', 'price']

Variables cualitativas (no numéricas):
['country', 'description', 'designation', 'province', 'region_1', 'region_2', 'taster_name', 'taster_twitter_handle', 'title', 'variety', 'winery']


In [42]:
# Hacer un dataframe con únicamente vinos europeos.
# Lista práctica de países europeos (puedes ampliar si quieres)
europe = {
    "Albania","Andorra","Armenia","Austria","Azerbaijan","Belarus","Belgium","Bosnia and Herzegovina",
    "Bulgaria","Croatia","Cyprus","Czech Republic","Denmark","Estonia","Finland","France","Georgia",
    "Germany","Greece","Hungary","Iceland","Ireland","Italy","Kosovo","Latvia","Liechtenstein","Lithuania",
    "Luxembourg","Malta","Moldova","Monaco","Montenegro","Netherlands","North Macedonia","Norway","Poland",
    "Portugal","Romania","Russia","San Marino","Serbia","Slovakia","Slovenia","Spain","Sweden","Switzerland",
    "Turkey","Ukraine","United Kingdom","England","Scotland","Wales"
}

df_europa = df[df["country"].isin(europe)].copy()
print("Filas (vinos europeos):", df_europa.shape[0])
df_europa.head()

Filas (vinos europeos): 30939


Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
5,Spain,Blackberry and raspberry aromas show a typical...,Ars In Vitro,87,15.0,Northern Spain,Navarra,,Michael Schachner,@wineschach,Tandem 2011 Ars In Vitro Tempranillo-Merlot (N...,Tempranillo-Merlot,Tandem
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
7,France,This dry and restrained wine offers spice in p...,,87,24.0,Alsace,Alsace,,Roger Voss,@vossroger,Trimbach 2012 Gewurztraminer (Alsace),Gewürztraminer,Trimbach


In [43]:
# ¿Cuál es el menor, el mayor y el precio promedio de la botella por país?
# ¿De que país es la botella de menor precio?
# Asegurarnos de trabajar con precios válidos
df_price = df.dropna(subset=["price"]).copy()

stats_price = df_price.groupby("country")["price"].agg(["min", "max", "mean"]).sort_values("mean", ascending=False)
stats_price.rename(columns={"mean": "avg"}, inplace=True)

print(stats_price.head(10))  # muestra 10 países con promedio más alto

# País de la botella de menor precio (global)
min_price = df_price["price"].min()
paises_min = df_price.loc[df_price["price"] == min_price, "country"].unique()

print("\nPrecio mínimo global:", min_price)
print("País(es) con botella(s) de menor precio:", paises_min)


              min     max        avg
country                             
Switzerland  30.0   160.0  97.000000
England      25.0    80.0  51.636364
Hungary      10.0   764.0  50.819672
France        5.0  2500.0  41.577949
Germany       5.0   775.0  40.592233
Italy         5.0   595.0  39.739836
US            4.0   750.0  36.344889
Australia     6.0   850.0  35.786701
Canada       12.0   120.0  35.575472
Israel        8.0   100.0  31.508065

Precio mínimo global: 4.0
País(es) con botella(s) de menor precio: ['Spain' 'US' 'Argentina']


In [44]:
# ¿Cuantos vinos hay con *aroma a fresa* entre otras consideraciones snobs que vienen en la descripción?
# Buscar en la columna description (ignorando NaN y sin importar mayúsculas)
mask_fresa = df["description"].fillna("").str.contains("strawberry|fresa", case=False, regex=True)
conteo_fresa = mask_fresa.sum()

print("Número de vinos cuya descripción menciona fresa/strawberry:", conteo_fresa)

# Opcional: ver algunos ejemplos
df.loc[mask_fresa, ["country", "variety", "price", "description"]].head(5)


Número de vinos cuya descripción menciona fresa/strawberry: 2060


Unnamed: 0,country,variety,price,description
58,Chile,Pinot Noir,13.0,Lightly herbal strawberry and raspberry aromas...
78,US,Pinot Noir,25.0,Some rosés are made simply by bleeding the jui...
108,US,Zinfandel,26.0,"Lots of spearmint, coyote mint, hot licorice, ..."
117,US,Syrah,44.0,"Baked red cherry, crushed clove, iron and rose..."
146,US,Cabernet Sauvignon,68.0,"There's a touch of hot asphalt, pencil lead an..."


In [45]:
# ¿Cuantas designaciones diferentes hay? ¿Cuál es la más repetida? ¿Cuantas veces se repite?
# 'designation' puede tener NaN; para "diferentes" normalmente se cuentan no-nulos
n_designaciones = df["designation"].nunique(dropna=True)
print("Designaciones diferentes (sin contar NaN):", n_designaciones)

top_designation = df["designation"].value_counts(dropna=True).head(1)
print("\nDesignación más repetida y cuántas veces:")
print(top_designation)


Designaciones diferentes (sin contar NaN): 24187

Designación más repetida y cuántas veces:
designation
Reserve    999
Name: count, dtype: int64


In [46]:
# Hacer un dataframe con la variedad, el país y el precio para vinos con un costo menor a los $20 dolares
df_menor20 = df.dropna(subset=["price", "country", "variety"]).loc[df["price"] < 20, ["variety", "country", "price"]].copy()

print("Filas con precio < 20:", df_menor20.shape[0])
df_menor20.head()


Filas con precio < 20: 19831


Unnamed: 0,variety,country,price
1,Portuguese Red,Portugal,15.0
2,Pinot Gris,US,14.0
3,Riesling,US,13.0
5,Tempranillo-Merlot,Spain,15.0
6,Frappato,Italy,16.0


In [47]:
# ¿Cuantos vinos diferentes de la variedad *Pinot Noir* hay por cada país?
df_pinot = df[df["variety"].fillna("").str.strip().eq("Pinot Noir")].copy()

pinot_por_pais = df_pinot.groupby("country").size().sort_values(ascending=False)
print(pinot_por_pais)

# Si quieres verlo como DataFrame:
pinot_por_pais_df = pinot_por_pais.reset_index(name="n_pinot_noir")
pinot_por_pais_df.head(10)

country
US              4918
France          1001
New Zealand      281
Chile            184
Australia         58
Austria           51
Argentina         46
Germany           31
South Africa      21
Bulgaria           9
Romania            8
Canada             8
Portugal           7
Spain              6
England            5
Israel             5
Italy              4
Uruguay            3
Slovenia           3
Brazil             2
Switzerland        2
Croatia            1
dtype: int64


Unnamed: 0,country,n_pinot_noir
0,US,4918
1,France,1001
2,New Zealand,281
3,Chile,184
4,Australia,58
5,Austria,51
6,Argentina,46
7,Germany,31
8,South Africa,21
9,Bulgaria,9
