In [1]:
import pandas as pd

In [2]:
# crear dataframe usando una lista 
# un df es el simil de una tabla de Mysql

data = [['Juan',20],['Pedro',30]]

df = pd.DataFrame(data,columns=['Nombre','Edad'])
df

Unnamed: 0,Nombre,Edad
0,Juan,20
1,Pedro,30


In [3]:
# Dataframa a partir de diccionarios
# Es muy util cuando lleguen archivos JSON

data = {
    'Nombre':['Juan','Pedro']
    , 'Edad': [20,30]
}

df = pd.DataFrame(data) # por detrás python sabe que se está pasando un diccionario y asume que los key son columnas y los value las filas
df


Unnamed: 0,Nombre,Edad
0,Juan,20
1,Pedro,30


In [4]:
# Dataframa a partir de tuplas (lista de tuplas)

data = [('Juan',20),('Pedro',30)]

df = pd.DataFrame(data,columns=['Nombre','Edad'])
df

Unnamed: 0,Nombre,Edad
0,Juan,20
1,Pedro,30


In [12]:
# Dataframe desde un archivo

df = pd.read_csv("/workspaces/Datapath-Python/Sesion2/data/data.csv")
# df = pd.read_csv("./data/data.csv") # deberia funcionar
df

Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Madrid
1,María,30,Barcelona
2,Pedro,35,Sevilla


In [14]:
# Dataframe desde un archivo, si el archivo tiene un delimitador diferente

df = pd.read_csv("/workspaces/Datapath-Python/Sesion2/data/data",sep="|")
df

Unnamed: 0,nombre,edad,ciudad
0,Juan,,Madrid
1,María,30.0,Barcelona
2,Pedro,35.0,Sevilla


In [17]:
# Dataframe desde un archivo sin header y con un delimitador diferente

df = pd.read_csv("/workspaces/Datapath-Python/Sesion2/data/data_without_header",header=None,names=["nombre","edad","ciudad"])
df

Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Madrid
1,María,30,Barcelona
2,Pedro,35,Sevilla


In [19]:
# Dataframe desde un archivo JSON

df = pd.read_json("/workspaces/Datapath-Python/Sesion2/data/data.json")
df

Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Madrid
1,María,30,Barcelona
2,Pedro,35,Sevilla


In [22]:
# Por defecto muestra los primero 5 elementos 
df.head(1)

Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Madrid


In [25]:
# Lista de columnas del df
print(df.columns)

# Al ser una lista se le puede hacer slicing
print(df.columns[:1])

Index(['nombre', 'edad', 'ciudad'], dtype='object')
Index(['nombre'], dtype='object')


In [27]:
# Información de donde comieza y termina y si tiene step
df.index

RangeIndex(start=0, stop=3, step=1)

In [29]:
# Estadistica descriptiva
df.describe()

Unnamed: 0,edad
count,3.0
mean,30.0
std,5.0
min,25.0
25%,27.5
50%,30.0
75%,32.5
max,35.0


In [30]:
# Similar a tail, pero muestra desde último elemento
df.tail(1)

Unnamed: 0,nombre,edad,ciudad
2,Pedro,35,Sevilla


In [31]:
# Acceder a los datos del dataframe

df['ciudad']

0       Madrid
1    Barcelona
2      Sevilla
Name: ciudad, dtype: object

In [33]:
# Acceder a varias columnas, requiere una lista de listas
df[['ciudad','edad']]

Unnamed: 0,ciudad,edad
0,Madrid,25
1,Barcelona,30
2,Sevilla,35


In [34]:
# Seleccionar filas por indices
df.loc[0] #     elementos de la primera fila

nombre      Juan
edad          25
ciudad    Madrid
Name: 0, dtype: object

In [35]:
# Seleccionar varias filas 
df.loc[[0,1]]

Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Madrid
1,María,30,Barcelona


In [36]:
# Seleccionar datos (filas) segun una condicion

df[df['edad']>25]

Unnamed: 0,nombre,edad,ciudad
1,María,30,Barcelona
2,Pedro,35,Sevilla


In [37]:
data = {
    "grupo":['A','B','A','B']
    ,'valor':[10,20,30,15]
}

df = pd.DataFrame(data)
df


Unnamed: 0,grupo,valor
0,A,10
1,B,20
2,A,30
3,B,15


In [38]:
# Agrupaciones y ordenamiento
# Promedio por grupo
df.groupby("grupo").mean() 

Unnamed: 0_level_0,valor
grupo,Unnamed: 1_level_1
A,20.0
B,17.5


In [39]:
# Suma por grupo
df.groupby("grupo").sum()

Unnamed: 0_level_0,valor
grupo,Unnamed: 1_level_1
A,40
B,35


In [40]:
# Max por grupo
df.groupby("grupo").max()

Unnamed: 0_level_0,valor
grupo,Unnamed: 1_level_1
A,30
B,20


In [48]:
# Merge - Join

dict1 = {
    'A':['A1','A0','A2']
    ,'clave1':['K0','K1','K2']
}
df1 = pd.DataFrame(dict1)

dict2 = {
    'B':['B1','B0']
    ,'clave2':['K0','K3']
}
df2 = pd.DataFrame(dict2)


df1


Unnamed: 0,A,clave1
0,A1,K0
1,A0,K1
2,A2,K2


In [44]:
df2

Unnamed: 0,B,clave
0,B1,K0
1,B0,K3


In [49]:
# Similar a inner join
# On valor para hacer match en ambas tablas

# pd.merge(df1,df2,on='clave') # ambas llaves se llaman igual en ambos dataframe
pd.merge(df1,df2,left_on='clave1',right_on='clave2') # llaves con nombres diferentes. Se indica el nombre de cada clave en el df izquierdo y derecho



Unnamed: 0,A,clave1,B,clave2
0,A1,K0,B1,K0


In [53]:
# Funcion sobre una columna de un df
# La funcion lambda permite aplicar el cálculo sobre cada elemento. Entonces toma cada valor (representado por x) y lo multiplica por 2

df['doble_valor'] = df['valor'].apply(lambda x:x*2)
df

Unnamed: 0,grupo,valor,doble_valor
0,A,10,20
1,B,20,40
2,A,30,60
3,B,15,30


In [54]:
# Suma de dos columnas. Se le pasa todo el dataframe y luego se indica que columnas se van a usar e indicar que la operación aplica en el eje horizontal para que sume filas

df['suma'] = df.apply(lambda row: row['valor'] + row['doble_valor'],axis=1)
df

Unnamed: 0,grupo,valor,doble_valor,suma
0,A,10,20,30
1,B,20,40,60
2,A,30,60,90
3,B,15,30,45
