# DataFrame

In [5]:
import pandas as pd

In [6]:

personas =  {
    "peso":pd.Series([84,90,56,64],["Santiago","Pedro","Ana","Julia"]),
    "altura":pd.Series({"Santiago":187,"Pedro":178,"Julia":170,"Ana":165}),
    "hijos":pd.Series([2,3],["Pedro","Julia"])}

In [9]:
df = pd.DataFrame(personas)
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [12]:
# inicialització en format de series:
personas =  {
    "peso":pd.Series([84,90,56,64],["Santiago","Pedro","Ana","Julia"]),
    "altura":pd.Series({"Santiago":187,"Pedro":178,"Julia":170,"Ana":165}),
    "hijos":pd.Series([2,3],["Pedro","Julia"])}

# primer prefiltre 
df = pd.DataFrame(personas,columns = ["altura","peso"], index = ["Ana", "Julia", "Santiago"])
df

Unnamed: 0,altura,peso
Ana,165,56
Julia,170,64
Santiago,187,84


In [13]:
# creacio del dataframe desde una llista

valores = [
    [185,4,76],
    [170,0,65],
    [190,1,89]
]

df = pd.DataFrame(valores,columns=["altura","hijos","peso"],index=["Pedro","Ana","Juan"])
df

Unnamed: 0,altura,hijos,peso
Pedro,185,4,76
Ana,170,0,65
Juan,190,1,89


# Acces als elements d'un dataframe

In [16]:
personas =  {
    "peso":pd.Series([84,90,56,64],["Santiago","Pedro","Ana","Julia"]),
    "altura":pd.Series({"Santiago":187,"Pedro":178,"Julia":170,"Ana":165}),
    "hijos":pd.Series([2,3],["Pedro","Julia"])}
df = pd.DataFrame(personas)
df

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,


In [18]:
# Accedim a les columnes del dataFrame
df["peso"]

Ana         56
Julia       64
Pedro       90
Santiago    84
Name: peso, dtype: int64

In [20]:
#multicolumna
df[["peso","altura"]]

Unnamed: 0,peso,altura
Ana,56,165
Julia,64,170
Pedro,90,178
Santiago,84,187


In [22]:
# es poden combinar amb expresions booleanas
#(retorna del dataframe, els valors que dins del dataframe-columa peso, sigui > 80
df[df["peso"]>80]

Unnamed: 0,peso,altura,hijos
Pedro,90,178,2.0
Santiago,84,187,


In [27]:
df[(df["peso"]>80) & (df["altura"]>180)]

Unnamed: 0,peso,altura,hijos
Santiago,84,187,


# Accès per files

In [28]:
df.loc["Pedro"]

peso       90.0
altura    178.0
hijos       2.0
Name: Pedro, dtype: float64

In [29]:
# accedim per posició
df.iloc[2]

peso       90.0
altura    178.0
hijos       2.0
Name: Pedro, dtype: float64

In [30]:
df["peso"].loc["Pedro"]


90

# Consultes avançades

In [31]:
df.query("altura > 170 and peso > 70")

Unnamed: 0,peso,altura,hijos
Pedro,90,178,2.0
Santiago,84,187,


In [33]:
# copia de dataframe
personas =  {
    "peso":pd.Series([84,90,56,64],["Santiago","Pedro","Ana","Julia"]),
    "altura":pd.Series({"Santiago":187,"Pedro":178,"Julia":170,"Ana":165}),
    "hijos":pd.Series([2,3],["Pedro","Julia"])}
df = pd.DataFrame(personas)
df_copy = df.copy()

In [34]:
#afegirem una nova columna
df["cumpleaños"] = [1990,1987,1980,1998]
df

Unnamed: 0,peso,altura,hijos,cumpleaños
Ana,56,165,,1990
Julia,64,170,3.0,1987
Pedro,90,178,2.0,1980
Santiago,84,187,,1998


In [36]:
# afegir columna acomulada o calculada
df["años"] = 2021-df["cumpleaños"]
df

Unnamed: 0,peso,altura,hijos,cumpleaños,años
Ana,56,165,,1990,31
Julia,64,170,3.0,1987,34
Pedro,90,178,2.0,1980,41
Santiago,84,187,,1998,23


In [37]:
# afegir una nova columna creant un nou dataframe
df_modificado = df.assign(mascotas = [1,3,0,0])
df_modificado

Unnamed: 0,peso,altura,hijos,cumpleaños,años,mascotas
Ana,56,165,,1990,31,1
Julia,64,170,3.0,1987,34,3
Pedro,90,178,2.0,1980,41,0
Santiago,84,187,,1998,23,0


In [38]:
df

Unnamed: 0,peso,altura,hijos,cumpleaños,años
Ana,56,165,,1990,31
Julia,64,170,3.0,1987,34
Pedro,90,178,2.0,1980,41
Santiago,84,187,,1998,23


In [39]:
#Eliminar una columna
del df["peso"]
df

Unnamed: 0,altura,hijos,cumpleaños,años
Ana,165,,1990,31
Julia,170,3.0,1987,34
Pedro,178,2.0,1980,41
Santiago,187,,1998,23


In [40]:
# Eliminar una columna existente devolviendo una copia del dataframe
df_modificado = df.drop(["hijos"], axis = 1)
df_modificado

Unnamed: 0,altura,cumpleaños,años
Ana,165,1990,31
Julia,170,1987,34
Pedro,178,1980,41
Santiago,187,1998,23


In [41]:
df

Unnamed: 0,altura,hijos,cumpleaños,años
Ana,165,,1990,31
Julia,170,3.0,1987,34
Pedro,178,2.0,1980,41
Santiago,187,,1998,23


 # Evaluacio d'expressions sobre un dataframe

In [42]:
personas =  {
    "peso":pd.Series([84,90,56,64],["Santiago","Pedro","Ana","Julia"]),
    "altura":pd.Series({"Santiago":187,"Pedro":178,"Julia":170,"Ana":165}),
    "hijos":pd.Series([2,3],["Pedro","Julia"])}
df = pd.DataFrame(personas)

In [43]:
# Evaluar una funció sobre una columna del dataframe
df.eval("altura / 2")

Ana         82.5
Julia       85.0
Pedro       89.0
Santiago    93.5
Name: altura, dtype: float64

In [44]:
#assignar el valor a una nova columna
df.eval("media_altura = altura / 2", inplace = True)

In [45]:
df

Unnamed: 0,peso,altura,hijos,media_altura
Ana,56,165,,82.5
Julia,64,170,3.0,85.0
Pedro,90,178,2.0,89.0
Santiago,84,187,,93.5


In [48]:
# Evaluar una funció utilitzant una variable local
max_altura = 180
df.eval("altura > @max_altura")

Ana         False
Julia       False
Pedro       False
Santiago     True
Name: altura, dtype: bool

In [50]:
# aplicar una funció externa

def func(x):
    return x + 2

df["peso"].apply(func)

Ana         58
Julia       66
Pedro       92
Santiago    86
Name: peso, dtype: int64

# Guardar en disc


In [51]:
personas =  {
    "peso":pd.Series([84,90,56,64],["Santiago","Pedro","Ana","Julia"]),
    "altura":pd.Series({"Santiago":187,"Pedro":178,"Julia":170,"Ana":165}),
    "hijos":pd.Series([2,3],["Pedro","Julia"])}
df = pd.DataFrame(personas)

In [52]:
#guardar en csv, html, json
df.to_csv("df_personas.csv")
df.to_html("df_personas.html")
df.to_json("df_personas.json")


In [53]:
# carregar el dataframe 
df2 = pd.read_csv("df_personas.csv")
df2

Unnamed: 0.1,Unnamed: 0,peso,altura,hijos
0,Ana,56,165,
1,Julia,64,170,3.0
2,Pedro,90,178,2.0
3,Santiago,84,187,


In [54]:
#assignant correctament els index
df2 = pd.read_csv("df_personas.csv", index_col = 0)
df2

Unnamed: 0,peso,altura,hijos
Ana,56,165,
Julia,64,170,3.0
Pedro,90,178,2.0
Santiago,84,187,
