In [1]:
# Python functions can be applied with great impact in pandas to alter data in
# your data frames.

# Thankfully, you don't have to create a for-loop to iterate every row in you data
# to do this.

# In fact, it's encouraged if you can help it.

# Pandas has frameworks that are simplier and more performant, known as apply, map
# and applymap.

# Let's dig in.

# Let's start with a dataframe, including revenue and cost data for certain regions,
# teams, and squad.

In [2]:
import pandas as pd

In [3]:
df = pd.DataFrame({
    "Region":['Norte','Occidente','Oriente','Sur','Norte','Occidente','Oriente','Sur'],
    "Departamento":['El Petén','Chimaltenango','Zacapa','Escuintla','El Petén','Chimaltenango','Zacapa','Escuintla'],
    "Equipo":['A','B','C','D','E','F','G','H'],
    "Ingresos":[7500,5500,2750,6400,2300,3750,1900,575],
    "Costos":[5200,5100,4400,5300,1250,1300,2100,50]})

In [4]:
df

Unnamed: 0,Region,Departamento,Equipo,Ingresos,Costos
0,Norte,El Petén,A,7500,5200
1,Occidente,Chimaltenango,B,5500,5100
2,Oriente,Zacapa,C,2750,4400
3,Sur,Escuintla,D,6400,5300
4,Norte,El Petén,E,2300,1250
5,Occidente,Chimaltenango,F,3750,1300
6,Oriente,Zacapa,G,1900,2100
7,Sur,Escuintla,H,575,50


In [5]:
# digamos que se necesita determinar si cada equipo generó ganancias o pérdidas

# en otras palabras, si los ingresos superan los costos

# este es un ejemplo práctico para utilizar 'apply'

# 'apply' nos permite aprovechar funciones para modificar valores a lo largo de un dataframe

# se puede ahorrar tiempo utilizando una función lambda

# esto nos permite crear una función en la sentencia 'apply', sin tener que tener dicha función escrita previamente

# esta lambda va a retornar ganancia, si los ingresos superan los costos, y retornará perdidad en caso contrario

# la aplicación de esta función, retornará una serie que se utilizará para llenar la columna ganancia en el dataframe

In [6]:
df['Ganancia'] = df.apply(lambda x: 'Ganancia' if x['Ingresos'] > x['Costos'] else 'Pérdida',axis=1)
df

Unnamed: 0,Region,Departamento,Equipo,Ingresos,Costos,Ganancia
0,Norte,El Petén,A,7500,5200,Ganancia
1,Occidente,Chimaltenango,B,5500,5100,Ganancia
2,Oriente,Zacapa,C,2750,4400,Pérdida
3,Sur,Escuintla,D,6400,5300,Ganancia
4,Norte,El Petén,E,2300,1250,Ganancia
5,Occidente,Chimaltenango,F,3750,1300,Ganancia
6,Oriente,Zacapa,G,1900,2100,Pérdida
7,Sur,Escuintla,H,575,50,Ganancia


In [7]:
# ahora les quiero mostrar que hace map

# y se usa para modificar valores en una serie, utilizando una funcion, serie o diccionario

# aquí, les daré un ejemplo sobre como podemos crear un diccionario que sirva para asignarle un color
# por departamento a cada equipo

In [6]:
team_map = {"El Petén":"Green", "Chimaltenango":"Blue", 'Zacapa':'Yellow', 'Escuintla': 'Red'}

In [None]:
# ahora, puedo aplicar la función 'map' para aplicar los valores correspondientes ,en una nueva columna

In [7]:
df['Equipo Color'] = df['Departamento'].map(team_map)
df

Unnamed: 0,Region,Departamento,Equipo,Ingresos,Costos,Ganancia,Equipo Color
0,Norte,El Petén,A,7500,5200,Ganancia,Green
1,Occidente,Chimaltenango,B,5500,5100,Ganancia,Blue
2,Oriente,Zacapa,C,2750,4400,Pérdida,Yellow
3,Sur,Escuintla,D,6400,5300,Ganancia,Red
4,Norte,El Petén,E,2300,1250,Ganancia,Green
5,Occidente,Chimaltenango,F,3750,1300,Ganancia,Blue
6,Oriente,Zacapa,G,1900,2100,Pérdida,Yellow
7,Sur,Escuintla,H,575,50,Ganancia,Red


In [9]:
# la función 'applymap' que también funciona para modificar información en el dataframe

# applymap aplica una función a cada elemento del dataframe

# para este ejemplo voy a crear una función lambda que retorne la longitud de cada elemento en el dataframe

In [10]:
df.applymap(lambda x: len(str(x)))

Unnamed: 0,Region,Departamento,Equipo,Ingresos,Costos,Ganancia
0,5,8,1,4,4,8
1,9,13,1,4,4,8
2,7,6,1,4,4,7
3,3,9,1,4,4,8
4,5,8,1,4,4,8
5,9,13,1,4,4,8
6,7,6,1,4,4,7
7,3,9,1,3,2,8


In [None]:
# ahora bien, para los amantes de los ciclos, aclaremos que siempre habrá sitauciones en las cuales es más sencillo
# formular nuestra lógica en un ciclo, en lugar de una función lambda

# acá les traigo un ejemplo, voy a calcular el ingreso de cada equipo, compartido por región, como un porcentaje

# para comenzar, voy a crear una lista vacía que luego voy a llenar con los valores correspondientes a cada equipo por región,
# dentro de cada iteración del ciclo

# para el ciclo for, recorro el dataframe comenzando con el rango 0, hasta la longitud del tamaño del dataframe

# y en la variable rev, hago el calculo, para esa región por equipo en específico, dividad por la suma de los ingresos obtenidos del
# dataframe, donde la requión sea igual a la de la iteración del ciclo

# finalmente, añado este valor antes de continuar con el ciclo

In [8]:
new_col = []

for i in range(0,len(df)):
    rev = df['Ingresos'][i] / df[df['Region'] == df.loc[i,'Region']]['Ingresos'].sum()
    new_col.append(rev)

In [None]:
# A continuación, establecemos una nueva columna de reparto de ingresos por región, asignándole el valor a la lista que cree en el ciclo
# y los ordeno por región en el dataframe

In [9]:
df['Ingresos Compartidos por Region'] = new_col
df.sort_values(by='Region')

Unnamed: 0,Region,Departamento,Equipo,Ingresos,Costos,Ganancia,Equipo Color,Ingresos Compartidos por Region
0,Norte,El Petén,A,7500,5200,Ganancia,Green,0.765306
4,Norte,El Petén,E,2300,1250,Ganancia,Green,0.234694
1,Occidente,Chimaltenango,B,5500,5100,Ganancia,Blue,0.594595
5,Occidente,Chimaltenango,F,3750,1300,Ganancia,Blue,0.405405
2,Oriente,Zacapa,C,2750,4400,Pérdida,Yellow,0.591398
6,Oriente,Zacapa,G,1900,2100,Pérdida,Yellow,0.408602
3,Sur,Escuintla,D,6400,5300,Ganancia,Red,0.917563
7,Sur,Escuintla,H,575,50,Ganancia,Red,0.082437
