In [9]:
import pandas as pd

# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


Puede forzarse al DataFrame a que presente unas columnas determinadas y en un orden determinado

In [10]:
# Creación de un DataFrame inicializándolo con algunos elementos de un diccionario
# de objetos Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(
        personas,
        columns = ["altura", "peso"],
        index = ["Ana", "Julia", "Santiago"])
df

Unnamed: 0,altura,peso
Ana,165,56
Julia,170,64
Santiago,187,84


In [11]:
# Creación de un DataFrame inicializándolo con una lista de listas de Python
# Importante: Deben especificarse las columnas e indices por separado
valores = [
    [185, 4, 76],
    [170, 0, 65],
    [190, 1, 89]
]

df = pd.DataFrame(
        valores,
        columns = ["altura", "hijos", "peso"],
        index = ["Pedro", "Ana", "Juan"])
df

Unnamed: 0,altura,hijos,peso
Pedro,185,4,76
Ana,170,0,65
Juan,190,1,89


In [12]:
# Creación de un DataFrame inicializándolo con un diccionario de Python
personas = {
    "altura": {"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}, 
    "peso": {"Santiago": 87, "Pedro": 78, "Julia": 70, "Ana": 65}}

df = pd.DataFrame(personas)
df

Unnamed: 0,altura,peso
Santiago,187,87
Pedro,178,78
Julia,170,70
Ana,165,65


Acceso a los elementos de un DataFrame

In [13]:
# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


Acceso a los elementos de las columnas del DataFrame

In [14]:
df["peso"]

Ana         56
Julia       64
Pedro       90
Santiago    84
Name: peso, dtype: int64

In [15]:
df[["peso", "altura"]]

Unnamed: 0,peso,altura
Ana,56,165
Julia,64,170
Pedro,90,178
Santiago,84,187


In [18]:
# Pueden combinarse los metodos anteriores con expresiones booleanas
df[df["peso"] > 80]

Unnamed: 0,peso,altura,hijos
Pedro,90,178,2.0
Santiago,84,187,


In [19]:
# Pueden combinarse los metodos anteriores con expresiones booleanas
df["peso"] > 80

Ana         False
Julia       False
Pedro        True
Santiago     True
Name: peso, dtype: bool

In [20]:
# Pueden combinarse los metodos anteriores con expresiones booleanas
df[df["peso"] > 80]

Unnamed: 0,peso,altura,hijos
Pedro,90,178,2.0
Santiago,84,187,


In [None]:
# combinación de expresiones
df[(df["peso"] > 80) & (df["altura"] > 180)]

Unnamed: 0,peso,altura,hijos
Santiago,84,187,


Acceso a los elementos de las filas del DataFrame

In [26]:
df.loc["Pedro"]

peso       90.0
altura    178.0
hijos       2.0
Name: Pedro, dtype: float64

In [27]:
# acceder mediante el indice
df.iloc[2]

peso       90.0
altura    178.0
hijos       2.0
Name: Pedro, dtype: float64

In [28]:
df.iloc[1:3]

Unnamed: 0,peso,altura,hijos
Julia,64,170,3.0
Pedro,90,178,2.0


Consulta avanzada de los elementos de un DataFrame

In [30]:
df.query("altura >= 170 and peso > 70")

Unnamed: 0,peso,altura,hijos
Pedro,90,178,2.0
Santiago,84,187,


Copiar un DataFrame

In [31]:
# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [33]:
# Copia del DataFrame df en df_copy
# Importante: Al modificar un elemento de df_copy no se modifica df
df_copy = df.copy()

Modificación de un DataFrame

In [34]:
# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [36]:
# Añadir una nueva columna al DataFrame
df["cumpleaños"] = [1990, 1987, 1980, 1994]
df

Unnamed: 0,peso,altura,hijos,cumpleaños
Ana,56,165,,1990
Julia,64,170,3.0,1987
Pedro,90,178,2.0,1980
Santiago,84,187,,1994


In [38]:
# Añadir una nueva columna calculada al DataFrame
df["años"] = 2025 - df["cumpleaños"]
df

Unnamed: 0,peso,altura,hijos,cumpleaños,años
Ana,56,165,,1990,35
Julia,64,170,3.0,1987,38
Pedro,90,178,2.0,1980,45
Santiago,84,187,,1994,31


In [40]:
# Añadir una nueva columna creando un DataFrame nuevo
df_mod = df.assign(mascotas = [1, 3, 0, 0])
df_mod

Unnamed: 0,peso,altura,hijos,cumpleaños,años,mascotas
Ana,56,165,,1990,35,1
Julia,64,170,3.0,1987,38,3
Pedro,90,178,2.0,1980,45,0
Santiago,84,187,,1994,31,0


In [41]:
df

Unnamed: 0,peso,altura,hijos,cumpleaños,años
Ana,56,165,,1990,35
Julia,64,170,3.0,1987,38
Pedro,90,178,2.0,1980,45
Santiago,84,187,,1994,31


In [42]:
# Eliminar una columna existente del DataFrame
del df["peso"]
df

Unnamed: 0,altura,hijos,cumpleaños,años
Ana,165,,1990,35
Julia,170,3.0,1987,38
Pedro,178,2.0,1980,45
Santiago,187,,1994,31


In [43]:
# Eliminar una columna existente devolviendo una copia del DataFrame resultante
df_mod = df.drop(["hijos"], axis=1)
df_mod

Unnamed: 0,altura,cumpleaños,años
Ana,165,1990,35
Julia,170,1987,38
Pedro,178,1980,45
Santiago,187,1994,31


In [44]:
df

Unnamed: 0,altura,hijos,cumpleaños,años
Ana,165,,1990,35
Julia,170,3.0,1987,38
Pedro,178,2.0,1980,45
Santiago,187,,1994,31


Evaluación de expresiones sobre un DataFrame

In [46]:
# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [47]:
# Evaluar una función sobre una columna del DataFrame
df.eval("altura / 2")

Ana         82.5
Julia       85.0
Pedro       89.0
Santiago    93.5
Name: altura, dtype: float64

In [48]:
# Asignar el valor resultante como una nueva columna
df.eval("media_altura = altura / 2", inplace=True)
df

Unnamed: 0,peso,altura,hijos,media_altura
Ana,56,165,,82.5
Julia,64,170,3.0,85.0
Pedro,90,178,2.0,89.0
Santiago,84,187,,93.5


In [50]:
# Evaluar una función utilizando una variable local
max_altura = 180
df.eval("altura > @max_altura")

Ana         False
Julia       False
Pedro       False
Santiago     True
Name: altura, dtype: bool

In [51]:
# Aplicar una función externa a una columna del DataFrame
def func(x):
    return x + 2

df["peso"].apply(func)

Ana         58
Julia       66
Pedro       92
Santiago    86
Name: peso, dtype: int64

Guardar y Cargar el DataFrame

In [52]:
# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago","Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [55]:
# Guardar el DataFrame como CSV, HTML y JSON
df.to_csv("df_personas.csv")
df.to_html("df_personas.html")
df.to_json("df_personas.json")

In [56]:
# Cargar el DataFrame en Jupyter
df2 = pd.read_csv("df_personas.csv", index_col=0)
df2

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,
