# Creación de DataFrames

In [6]:
import pandas as pd

In [7]:
# Creación de un DataFrame inicializándolo con un diccionario de objetios Series
personas = {
    "peso": pd.Series([184, 90, 56, 64], ["Santiago", "Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,184,187,


Puede forzarse al DataFrame a que present unas columnas determinadas y en un order determinado

In [8]:
# Creacion de un DataFrame inicializandolo con algunos elementos de un diccionario
# de objetos Series
personas = {
    "peso": pd.Series([184, 90, 56, 64], ["Santiago", "Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas, columns=["altura", "peso"], index=["Ana", "Julia", "Santiago"])
df

Unnamed: 0,altura,peso
Ana,165,56
Julia,170,64
Santiago,187,184


In [9]:
# Creación de un DataFrame incializándolo con una lista de listas de Python
# Importante: Deben especificarse las columnas y los indices por separado

valores = [
    [185, 4, 76],
    [170, 0, 65],
    [190, 1, 89]
]

df = pd.DataFrame(valores, columns=["altura", "hijos", "peso"], index=["Pedro", "Ana", "Juan"])
df

Unnamed: 0,altura,hijos,peso
Pedro,185,4,76
Ana,170,0,65
Juan,190,1,89


## Acceso a los elementos de un DataFrame

In [10]:
# Creacion de un DataFrame inicializandolo con un diccionario de objetos Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago", "Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


### Acceso a las columnas

In [11]:
df["peso"]

Ana         56
Julia       64
Pedro       90
Santiago    84
Name: peso, dtype: int64

In [12]:
df[["peso", "altura"]]

Unnamed: 0,peso,altura
Ana,56,165
Julia,64,170
Pedro,90,178
Santiago,84,187


In [13]:
# Se pueden combinar los metodos anteriores con expresiones booleanas
df[df["peso"] > 80]

Unnamed: 0,peso,altura,hijos
Pedro,90,178,2.0
Santiago,84,187,


In [14]:
# Se pueden combinar los metodos anteriores con expresiones booleanas
df[(df["peso"] > 80) & (df["altura"] > 180)]

Unnamed: 0,peso,altura,hijos
Santiago,84,187,


### Acceso a las filas

In [15]:
# Mostar DataFrame
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [16]:
df.loc["Ana"]

peso       56.0
altura    165.0
hijos       NaN
Name: Ana, dtype: float64

In [17]:
type(df.loc["Ana"])

pandas.core.series.Series

In [18]:
df.iloc[2]

peso       90.0
altura    178.0
hijos       2.0
Name: Pedro, dtype: float64

In [19]:
df.iloc[1:3]

Unnamed: 0,peso,altura,hijos
Julia,64,170,3.0
Pedro,90,178,2.0


In [20]:
df.query("altura >= 170 and peso > 80")

Unnamed: 0,peso,altura,hijos
Pedro,90,178,2.0
Santiago,84,187,


## Copiar un DataFrame

In [21]:
# Creacion de un DataFrame inicializandolo con un diccionario de objetos Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago", "Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [22]:
# Copia del DataFrame df a df_copy
# Importante: Al modificiar un elemento de un df_copy no se modifica df

df_copy = df.copy()
df_copy

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


## Modificar un DataFrame

In [23]:
# Creacion de un DataFrame inicializandolo con un diccionario de objetos Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago", "Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [24]:
# Añadir una nueva columna
df["birthday"] = [1990,1987, 1993, 1995]
df

Unnamed: 0,peso,altura,hijos,birthday
Ana,56,165,,1990
Julia,64,170,3.0,1987
Pedro,90,178,2.0,1993
Santiago,84,187,,1995


In [25]:
# Añadir una nueva columna calculada
df["years"] = 2023 - df["birthday"]
df

Unnamed: 0,peso,altura,hijos,birthday,years
Ana,56,165,,1990,33
Julia,64,170,3.0,1987,36
Pedro,90,178,2.0,1993,30
Santiago,84,187,,1995,28


In [26]:
# Añadir una nueva columna creando un DataFrame nuevo
df_mod = df.assign(mascotas = [1,3,4,0])
df_mod

Unnamed: 0,peso,altura,hijos,birthday,years,mascotas
Ana,56,165,,1990,33,1
Julia,64,170,3.0,1987,36,3
Pedro,90,178,2.0,1993,30,4
Santiago,84,187,,1995,28,0


In [27]:
df

Unnamed: 0,peso,altura,hijos,birthday,years
Ana,56,165,,1990,33
Julia,64,170,3.0,1987,36
Pedro,90,178,2.0,1993,30
Santiago,84,187,,1995,28


In [28]:
# Eliminar una columna
del df["peso"]
df

Unnamed: 0,altura,hijos,birthday,years
Ana,165,,1990,33
Julia,170,3.0,1987,36
Pedro,178,2.0,1993,30
Santiago,187,,1995,28


In [29]:
# eliminar una columna devolviendo una copia del DataFrame resultante
df_mod = df.drop(["hijos"], axis=1)
df_mod

Unnamed: 0,altura,birthday,years
Ana,165,1990,33
Julia,170,1987,36
Pedro,178,1993,30
Santiago,187,1995,28


In [30]:
df

Unnamed: 0,altura,hijos,birthday,years
Ana,165,,1990,33
Julia,170,3.0,1987,36
Pedro,178,2.0,1993,30
Santiago,187,,1995,28


In [31]:
dir(df)

['T',
 '_AXIS_LEN',
 '_AXIS_ORDERS',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__arrow_c_stream__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__dataframe__',
 '__dataframe_consortium_standard__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pandas_priority__',
 '__pos__',
 '__pow__',
 '__r

## Evaluar expresiones sobre un DataFrame

In [32]:
# Creacion de un DataFrame inicializandolo con un diccionario de objetos Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago", "Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [33]:
# Evaluar una función sobre una columna del DataFrame
df.eval("altura / 2")

Ana         82.5
Julia       85.0
Pedro       89.0
Santiago    93.5
Name: altura, dtype: float64

In [34]:
# Asignar el valor resultante como una nueva columna
df.eval("media_altura = altura / 2", inplace=True)
df

Unnamed: 0,peso,altura,hijos,media_altura
Ana,56,165,,82.5
Julia,64,170,3.0,85.0
Pedro,90,178,2.0,89.0
Santiago,84,187,,93.5


In [35]:
# Evaluar una funcion utilizando una variable local
max_altura = 180

df.eval("altura > @max_altura")

Ana         False
Julia       False
Pedro       False
Santiago     True
Name: altura, dtype: bool

In [45]:
# Aplicar una funcion externa a una columna del DataFrame

def func(x):
    return x + 2

df["peso"].apply(func)

Ana         58
Julia       66
Pedro       92
Santiago    86
Name: peso, dtype: int64

In [43]:
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


## Guardar y cargar el DataFrame

In [38]:
# Creacion de un DataFrame inicializandolo con un diccionario de objetos Series
personas = {
    "peso": pd.Series([84, 90, 56, 64], ["Santiago", "Pedro", "Ana", "Julia"]),
    "altura": pd.Series({"Santiago": 187, "Pedro": 178, "Julia": 170, "Ana": 165}),
    "hijos": pd.Series([2, 3], ["Pedro", "Julia"])
}

df = pd.DataFrame(personas)
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [39]:
# Guardar el DataFrame CSV, HTLM y JSON
df.to_csv("df_personas.csv")
df.to_html("personas.html")
df.to_json("df_personas.json")

In [42]:
# Cargar el DataFrame

df2 = pd.read_csv("df_personas.csv")
df2

FileNotFoundError: [Errno 2] No such file or directory: 'df_personas.csv'

In [41]:
# Cargar el DataFrame con la primera columna correctamente asignada
df2 = pd.read_csv("df_personas.csv", index_col=0)
df2

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,
