
# 📓 Pandas Cheat Sheet - Ejemplos Prácticos

Este notebook recorre las funciones y métodos más usados de **Pandas**, siguiendo una guía práctica con ejemplos simples.

Los datos son ficticios.

In [1]:
import pandas as pd
import numpy as np


## 1. Crear DataFrame de ejemplo

In [None]:

data = {
    "DNI": np.random.randint(10_000_000, 100_000_000, size=10), # Generar DNI aleatorios 
    "nombre": ["Ana", "Luis", "María", "Carlos", "Sofía", "Pedro", "Lucía", "Juan", "Elena", "Diego"],
    "edad": [23, 45, 34, 40, 29, 31, 27, 50, 38, 44],
    "ciudad": ["Madrid", "Barcelona", "Madrid", "Sevilla", "Madrid", "Valencia", "Sevilla", "Madrid", "Barcelona", "Valencia"],
    "ventas": [120, 340, 560, 230, 410, 250, 300, 500, 310, 400]
}
df = pd.DataFrame(data)
df


Unnamed: 0,DNI,nombre,edad,ciudad,ventas
0,40716067,Ana,23,Madrid,120
1,24570933,Luis,45,Barcelona,340
2,79699336,María,34,Madrid,560
3,11311291,Carlos,40,Sevilla,230
4,79400678,Sofía,29,Madrid,410
5,71075959,Pedro,31,Valencia,250
6,64692227,Lucía,27,Sevilla,300
7,81004707,Juan,50,Madrid,500
8,59829094,Elena,38,Barcelona,310
9,45663123,Diego,44,Valencia,400


## 2. Exploración de datos

In [114]:
print(df.head())        # Primeras 5 filas
print()
print(f'El dataframe tiene {df.shape[0]} filas y {df.shape[1]} columnas')         # Filas y columnas
print()
print(df.info())        # Info general
print()
print(df.describe())    # Estadísticas numéricas

        DNI  nombre  edad     ciudad  ventas
0  40716067     Ana    23     Madrid     120
1  24570933    Luis    45  Barcelona     340
2  79699336   María    34     Madrid     560
3  11311291  Carlos    40    Sevilla     230
4  79400678   Sofía    29     Madrid     410

El dataframe tiene 10 filas y 5 columnas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   DNI     10 non-null     int32 
 1   nombre  10 non-null     object
 2   edad    10 non-null     int64 
 3   ciudad  10 non-null     object
 4   ventas  10 non-null     int64 
dtypes: int32(1), int64(2), object(2)
memory usage: 492.0+ bytes
None

                DNI       edad      ventas
count  1.000000e+01  10.000000   10.000000
mean   5.579634e+07  36.100000  342.000000
std    2.444242e+07   8.748968  130.622441
min    1.131129e+07  23.000000  120.000000
25%    4.195283e+07  29.500000  262.500000
50%  

In [115]:
print(df["ciudad"].value_counts())  # Conteo de valores únicos


ciudad
Madrid       4
Barcelona    2
Sevilla      2
Valencia     2
Name: count, dtype: int64


In [116]:
print(df.sample(3))     # Muestra aleatoria

        DNI nombre  edad    ciudad  ventas
2  79699336  María    34    Madrid     560
9  45663123  Diego    44  Valencia     400
5  71075959  Pedro    31  Valencia     250


In [117]:
print(df.nlargest(3, "ventas"))  # Top 3 ventas más altas


        DNI nombre  edad  ciudad  ventas
2  79699336  María    34  Madrid     560
7  81004707   Juan    50  Madrid     500
4  79400678  Sofía    29  Madrid     410


In [118]:
print(df.nsmallest(3, "edad"))   # Top 3 edades más bajas


        DNI nombre  edad   ciudad  ventas
0  40716067    Ana    23   Madrid     120
6  64692227  Lucía    27  Sevilla     300
4  79400678  Sofía    29   Madrid     410


In [119]:
print(df["ventas"].quantile(0.75))  # Percentil 75


407.5


## 3. Selección y filtrado

In [120]:
print(df.loc[0, "nombre"])         # Fila 0, columna "nombre"

Ana


In [121]:
print(df.iloc[0, 1])               # Fila 0, columna índice 1

Ana


In [122]:
print(df[df["edad"] > 40])         # Filtrar por condición

        DNI nombre  edad     ciudad  ventas
1  24570933   Luis    45  Barcelona     340
7  81004707   Juan    50     Madrid     500
9  45663123  Diego    44   Valencia     400


In [123]:
print(df[df["ciudad"].isin(["Madrid", "Sevilla"])])  # Filtrar lista de valores

        DNI  nombre  edad   ciudad  ventas
0  40716067     Ana    23   Madrid     120
2  79699336   María    34   Madrid     560
3  11311291  Carlos    40  Sevilla     230
4  79400678   Sofía    29   Madrid     410
6  64692227   Lucía    27  Sevilla     300
7  81004707    Juan    50   Madrid     500


In [124]:
print(df.query("ventas >= 300 and ciudad == 'Madrid'"))  # Filtrar con query

        DNI nombre  edad  ciudad  ventas
2  79699336  María    34  Madrid     560
4  79400678  Sofía    29  Madrid     410
7  81004707   Juan    50  Madrid     500


## 4. Crear y modificar columnas

In [125]:
df["ventas_con_iva"] = df["ventas"] * 1.21  # Nueva columna

In [126]:
df["edad_categoria"] = df["edad"].apply(lambda x: "Joven" if x < 35 else "Adulto")  # Lambda

In [127]:
df["ciudad_mayus"] = df["ciudad"].str.upper()  # Modificar valores

In [128]:
df["ventas_str"] = df["ventas"].astype(str)    # Convertir a string

In [129]:
df

Unnamed: 0,DNI,nombre,edad,ciudad,ventas,ventas_con_iva,edad_categoria,ciudad_mayus,ventas_str
0,40716067,Ana,23,Madrid,120,145.2,Joven,MADRID,120
1,24570933,Luis,45,Barcelona,340,411.4,Adulto,BARCELONA,340
2,79699336,María,34,Madrid,560,677.6,Joven,MADRID,560
3,11311291,Carlos,40,Sevilla,230,278.3,Adulto,SEVILLA,230
4,79400678,Sofía,29,Madrid,410,496.1,Joven,MADRID,410
5,71075959,Pedro,31,Valencia,250,302.5,Joven,VALENCIA,250
6,64692227,Lucía,27,Sevilla,300,363.0,Joven,SEVILLA,300
7,81004707,Juan,50,Madrid,500,605.0,Adulto,MADRID,500
8,59829094,Elena,38,Barcelona,310,375.1,Adulto,BARCELONA,310
9,45663123,Diego,44,Valencia,400,484.0,Adulto,VALENCIA,400


## 5. Manejo de valores nulos

In [130]:
df.loc[2, "ventas"] = np.nan  # Introducir un NaN
print(df.isna().sum())        # Contar nulos


DNI               0
nombre            0
edad              0
ciudad            0
ventas            1
ventas_con_iva    0
edad_categoria    0
ciudad_mayus      0
ventas_str        0
dtype: int64


In [131]:
df.head(3)

Unnamed: 0,DNI,nombre,edad,ciudad,ventas,ventas_con_iva,edad_categoria,ciudad_mayus,ventas_str
0,40716067,Ana,23,Madrid,120.0,145.2,Joven,MADRID,120
1,24570933,Luis,45,Barcelona,340.0,411.4,Adulto,BARCELONA,340
2,79699336,María,34,Madrid,,677.6,Joven,MADRID,560


In [132]:
df["ventas"] = df["ventas"].fillna(df["ventas"].mean())  # Rellenar con media

In [133]:
df.head(3)

Unnamed: 0,DNI,nombre,edad,ciudad,ventas,ventas_con_iva,edad_categoria,ciudad_mayus,ventas_str
0,40716067,Ana,23,Madrid,120.0,145.2,Joven,MADRID,120
1,24570933,Luis,45,Barcelona,340.0,411.4,Adulto,BARCELONA,340
2,79699336,María,34,Madrid,317.777778,677.6,Joven,MADRID,560


In [134]:
df.loc[2, "ventas"] = np.nan  # Introducir un NaN
df.head(3)


Unnamed: 0,DNI,nombre,edad,ciudad,ventas,ventas_con_iva,edad_categoria,ciudad_mayus,ventas_str
0,40716067,Ana,23,Madrid,120.0,145.2,Joven,MADRID,120
1,24570933,Luis,45,Barcelona,340.0,411.4,Adulto,BARCELONA,340
2,79699336,María,34,Madrid,,677.6,Joven,MADRID,560


In [135]:
df = df.dropna(subset=["ventas"]).reset_index(drop=True) # Eliminar filas con NaN en ventas
df


Unnamed: 0,DNI,nombre,edad,ciudad,ventas,ventas_con_iva,edad_categoria,ciudad_mayus,ventas_str
0,40716067,Ana,23,Madrid,120.0,145.2,Joven,MADRID,120
1,24570933,Luis,45,Barcelona,340.0,411.4,Adulto,BARCELONA,340
2,11311291,Carlos,40,Sevilla,230.0,278.3,Adulto,SEVILLA,230
3,79400678,Sofía,29,Madrid,410.0,496.1,Joven,MADRID,410
4,71075959,Pedro,31,Valencia,250.0,302.5,Joven,VALENCIA,250
5,64692227,Lucía,27,Sevilla,300.0,363.0,Joven,SEVILLA,300
6,81004707,Juan,50,Madrid,500.0,605.0,Adulto,MADRID,500
7,59829094,Elena,38,Barcelona,310.0,375.1,Adulto,BARCELONA,310
8,45663123,Diego,44,Valencia,400.0,484.0,Adulto,VALENCIA,400


In [136]:
print(df.isna().sum())        # Contar nulos


DNI               0
nombre            0
edad              0
ciudad            0
ventas            0
ventas_con_iva    0
edad_categoria    0
ciudad_mayus      0
ventas_str        0
dtype: int64


## 6. Ordenar datos

In [137]:
df.sort_values(by="edad", ascending=False) #Ordenar por edad

Unnamed: 0,DNI,nombre,edad,ciudad,ventas,ventas_con_iva,edad_categoria,ciudad_mayus,ventas_str
6,81004707,Juan,50,Madrid,500.0,605.0,Adulto,MADRID,500
1,24570933,Luis,45,Barcelona,340.0,411.4,Adulto,BARCELONA,340
8,45663123,Diego,44,Valencia,400.0,484.0,Adulto,VALENCIA,400
2,11311291,Carlos,40,Sevilla,230.0,278.3,Adulto,SEVILLA,230
7,59829094,Elena,38,Barcelona,310.0,375.1,Adulto,BARCELONA,310
4,71075959,Pedro,31,Valencia,250.0,302.5,Joven,VALENCIA,250
3,79400678,Sofía,29,Madrid,410.0,496.1,Joven,MADRID,410
5,64692227,Lucía,27,Sevilla,300.0,363.0,Joven,SEVILLA,300
0,40716067,Ana,23,Madrid,120.0,145.2,Joven,MADRID,120


In [138]:
df.sort_index(ascending=False) # Ordenar por índice

Unnamed: 0,DNI,nombre,edad,ciudad,ventas,ventas_con_iva,edad_categoria,ciudad_mayus,ventas_str
8,45663123,Diego,44,Valencia,400.0,484.0,Adulto,VALENCIA,400
7,59829094,Elena,38,Barcelona,310.0,375.1,Adulto,BARCELONA,310
6,81004707,Juan,50,Madrid,500.0,605.0,Adulto,MADRID,500
5,64692227,Lucía,27,Sevilla,300.0,363.0,Joven,SEVILLA,300
4,71075959,Pedro,31,Valencia,250.0,302.5,Joven,VALENCIA,250
3,79400678,Sofía,29,Madrid,410.0,496.1,Joven,MADRID,410
2,11311291,Carlos,40,Sevilla,230.0,278.3,Adulto,SEVILLA,230
1,24570933,Luis,45,Barcelona,340.0,411.4,Adulto,BARCELONA,340
0,40716067,Ana,23,Madrid,120.0,145.2,Joven,MADRID,120


## 7. Agrupaciones y agregaciones

In [139]:
df.groupby("ciudad")["ventas"].mean() # Media de ventas por ciudad

ciudad
Barcelona    325.000000
Madrid       343.333333
Sevilla      265.000000
Valencia     325.000000
Name: ventas, dtype: float64

In [140]:
df.groupby("ciudad").agg({"ventas": ["mean", "sum", "max"], "edad": "mean"}) # Media, suma y máximo de ventas por ciudad y media de edad

Unnamed: 0_level_0,ventas,ventas,ventas,edad
Unnamed: 0_level_1,mean,sum,max,mean
ciudad,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Barcelona,325.0,650.0,340.0,41.5
Madrid,343.333333,1030.0,500.0,34.0
Sevilla,265.0,530.0,300.0,33.5
Valencia,325.0,650.0,400.0,37.5


## 8. Combinar DataFrames

In [141]:

df_extra = pd.DataFrame({
    "ciudad": ["Madrid", "Barcelona", "Valencia", "Sevilla"],
    "region": ["Centro", "Cataluña", "Levante", "Andalucía"]
})# DataFrame extra para merge
df_extra.head()


Unnamed: 0,ciudad,region
0,Madrid,Centro
1,Barcelona,Cataluña
2,Valencia,Levante
3,Sevilla,Andalucía


In [142]:
df.head()


Unnamed: 0,DNI,nombre,edad,ciudad,ventas,ventas_con_iva,edad_categoria,ciudad_mayus,ventas_str
0,40716067,Ana,23,Madrid,120.0,145.2,Joven,MADRID,120
1,24570933,Luis,45,Barcelona,340.0,411.4,Adulto,BARCELONA,340
2,11311291,Carlos,40,Sevilla,230.0,278.3,Adulto,SEVILLA,230
3,79400678,Sofía,29,Madrid,410.0,496.1,Joven,MADRID,410
4,71075959,Pedro,31,Valencia,250.0,302.5,Joven,VALENCIA,250


In [143]:
df_merge = pd.merge(df, df_extra, on="ciudad", how="left")# Merge con DataFrame extra para incorporar región
df_merge.head()

Unnamed: 0,DNI,nombre,edad,ciudad,ventas,ventas_con_iva,edad_categoria,ciudad_mayus,ventas_str,region
0,40716067,Ana,23,Madrid,120.0,145.2,Joven,MADRID,120,Centro
1,24570933,Luis,45,Barcelona,340.0,411.4,Adulto,BARCELONA,340,Cataluña
2,11311291,Carlos,40,Sevilla,230.0,278.3,Adulto,SEVILLA,230,Andalucía
3,79400678,Sofía,29,Madrid,410.0,496.1,Joven,MADRID,410,Centro
4,71075959,Pedro,31,Valencia,250.0,302.5,Joven,VALENCIA,250,Levante


In [144]:
df_concat = pd.concat([df.head(5), df.tail(5)])# Concatenar primeras y últimas 5 filas
df_concat.head(10)

Unnamed: 0,DNI,nombre,edad,ciudad,ventas,ventas_con_iva,edad_categoria,ciudad_mayus,ventas_str
0,40716067,Ana,23,Madrid,120.0,145.2,Joven,MADRID,120
1,24570933,Luis,45,Barcelona,340.0,411.4,Adulto,BARCELONA,340
2,11311291,Carlos,40,Sevilla,230.0,278.3,Adulto,SEVILLA,230
3,79400678,Sofía,29,Madrid,410.0,496.1,Joven,MADRID,410
4,71075959,Pedro,31,Valencia,250.0,302.5,Joven,VALENCIA,250
4,71075959,Pedro,31,Valencia,250.0,302.5,Joven,VALENCIA,250
5,64692227,Lucía,27,Sevilla,300.0,363.0,Joven,SEVILLA,300
6,81004707,Juan,50,Madrid,500.0,605.0,Adulto,MADRID,500
7,59829094,Elena,38,Barcelona,310.0,375.1,Adulto,BARCELONA,310
8,45663123,Diego,44,Valencia,400.0,484.0,Adulto,VALENCIA,400


## 9. Guardar y leer CSV

In [145]:

df.to_csv("datos.csv", index=False) # Guardar DataFrame a CSV
df_csv = pd.read_csv("datos.csv") # Leer CSV


## 10. Reset index

In [None]:

df_reset = df.reset_index(drop=True) # Reiniciar índice del DataFrame
df_reset.head() #   Mostrar las primeras filas del DataFrame con índice reiniciado
