# GRUPO 1 - WORKGROUP 3
A continuación presentamos el desarrollo del workgroup 3. Primero, importamos las bibliotecas que usaremos en el script.

In [1]:
import numpy as np
import pandas as pd
import math

## 1. Map, sapply, apply, función lambda

En esta sección, haremos uso de las funciones lambda y otros componentes para realizar reescalamientos. Para ello, emplearemos la siguiente fórmula:

$$reescalamiento=\frac{{x_i}-{min(x)}}{{max(x)}-{min(x)}}$$

### 1.1 Reescalamiento con vector de 100 números aleatorios

In [2]:
#Primero lo realizamos con un vector de 100 números aleatorios

#Semilla
np.random.seed(15112) #plantamos una semilla para que los resultados sean replicables

#Vector
vector = np.random.uniform(low=100, high=1000, size=100) #generamos el vector aleatorio, con numeros mayores a uno, para notar la diferencia en el reescalamiento

#Reescalamiento
reescalamiento_0 = list(map( lambda x: (x - np.min(vector))/(np.max(vector)-np.min(vector)), vector) ) #aplicamos la fórmula con una función lambda y haciendo uso de map para que se aplique a todo elvector
reescalamiento_0


[0.34201082273015043,
 0.8149794736481158,
 0.33117235489660707,
 0.8632763823600581,
 0.005077897255869801,
 0.1779352779018651,
 0.7942335697469565,
 0.8249772449342514,
 0.7540002376021947,
 0.10638678721386573,
 0.6171211586324437,
 0.6390290471645733,
 0.8834945922066335,
 0.9796707213097549,
 0.29793011604307956,
 0.7288313522672238,
 0.4000677957538339,
 0.1574499695866001,
 0.6550563126164213,
 0.6457997205332876,
 0.23325099154847484,
 0.1250226953048281,
 0.33178691153884177,
 0.3175273306670525,
 0.7881204299956851,
 0.07974693109904103,
 0.13524584749052254,
 0.6357652170407243,
 0.4424769187915608,
 0.48523643472014394,
 0.7935513054018147,
 0.13398327568588747,
 0.052604205960786236,
 0.6752512775576885,
 0.23860476356534105,
 0.9213154284128187,
 0.24330683383070784,
 0.37948849962452785,
 0.8734433869027391,
 0.1245669195386987,
 0.3684880121696134,
 0.2672117068730701,
 0.6346037671860346,
 0.8604914991037916,
 0.9269862926968124,
 0.6856240729248041,
 0.81133367997787

### 1.2 Reescalamiento con base de datos de compras de consumidores

In [3]:
#Realizamos el mismo tipo de reescalamiento, pero ahora con la base de datos de compras de consumidores

#Base de datos
datos = pd.read_csv("../../data/BDD_compras_consumidores.csv", sep = ";") #importamos la base de datos

#Reescalamiento
reescalamiento = datos.iloc[:,2:9].apply(lambda x: (x - np.min(x))/(np.max(x)-np.min(x)) , axis = 0)  #Especificamos las columnas a las que se aplicará (solo numéricas), usamos apply y axis = 0 para que aplique a todas las columnas que queremos  
reescalamiento

Unnamed: 0,Fresh,Milk,Grocery,Frozen,Detergents_Paper,Delicatessen
0,0.112940,0.130727,0.081464,0.003106,0.065427,0.027847
1,0.062899,0.132824,0.103097,0.028548,0.080590,0.036984
2,0.056622,0.119181,0.082790,0.039116,0.086052,0.163559
3,0.118254,0.015536,0.045464,0.104842,0.012346,0.037234
4,0.201626,0.072914,0.077552,0.063934,0.043455,0.108093
...,...,...,...,...,...,...
435,0.264829,0.163338,0.172715,0.215469,0.004385,0.045912
436,0.349761,0.018736,0.008202,0.073713,0.002205,0.048874
437,0.129543,0.210136,0.325943,0.006771,0.363463,0.038882
438,0.091727,0.026224,0.024025,0.016649,0.004042,0.044264


## 2. Apply

En esta sección utilizaremos apply para obtener estadísticas específicas de nuestra base de datos

### 2.1 Nota promedio final de cada alumno

In [4]:
#Base de datos
siagie = pd.read_csv("../../data/siagie.csv") #Importamos la base siagie

#Nota promedio final de cada alumno

def promedio_final(row):
    return row[6:].mean() #Definimos una función que obtenga la nota promedio final de los cursos, para cada alumno

# Aplicamos la función
promedios = siagie.apply(promedio_final, axis=1) #usamos apply y axis = 1 para que se aplique a nivel de filas

# Mostrar los promedios calculados
print(promedios)

0      15.181818
1      13.818182
2      13.363636
3      13.545455
4      13.090909
         ...    
130    13.363636
131    12.000000
132    16.272727
133    12.454545
134    13.636364
Length: 135, dtype: float64


### 2.2 Nota máxima de cada alumno

In [5]:
#Nota máxima final de cada alumno

def nota_maxima(row):
    return row[6:].max() #Definimos una función que obtenga la nota máxima de los cursos, para cada alumno

# Aplicamos la función
maximos = siagie.apply(nota_maxima, axis=1) #usamos apply y axis = 1 para que se aplique a nivel de filas

# Mostrar los promedios calculados
print(maximos)

0      17
1      16
2      17
3      16
4      16
       ..
130    16
131    13
132    18
133    14
134    15
Length: 135, dtype: int64


### 2.3 Nota mínima de cada alumno

In [6]:
#Nota mínima final de cada alumno

def nota_minima(row):
    return row[6:].min() #Definimos una función que obtenga la nota mínima de los cursos, para cada alumno

# Aplicamos la función
minimos = siagie.apply(nota_minima, axis=1) #usamos apply y axis = 1 para que se aplique a nivel de filas

# Mostrar los promedios calculados
print(minimos)

0      13
1      12
2      11
3      13
4      11
       ..
130    12
131    10
132    13
133    11
134    13
Length: 135, dtype: int64


### 2.4 Promedio de notas de cada curso

In [7]:
#Promedio de notas de cada curso

def promedio_cursos(col):
    return col.mean() #Definimos una función que obtenga el promedio de todos los alumnos, para cada curso

# Aplicamos la función
promedios = siagie.iloc[:, 6:].apply(promedio_cursos, axis=0) #usamos apply y axis = 1 para que se aplique a nivel de columnas

# Mostrar los promedios calculados
print(promedios)

arte                              14.103704
ciencia_tecnologia_y_ambiente     13.222222
comunicacion                      13.762963
educacion_fisica                  13.437037
educacion_para_el_trabajo         13.414815
educacion_religiosa               14.014815
formacion_ciudadana_y_civica      12.674074
hisotoria_geografia_y_economia    13.703704
ingles                            14.214815
matematica                        12.311111
persona_familia_y_rrhh            13.711111
dtype: float64


### 2.5 Mediana de notas de cada curso

In [8]:
#Mediana de notas de cada curso

def mediana_cursos(col):
    return col.median() #Definimos una función que obtenga la mediana de todos los alumnos, para cada curso

# Aplicamos la función
medianas = siagie.iloc[:, 6:].apply(mediana_cursos, axis=0) #usamos apply y axis = 1 para que se aplique a nivel de columnas

# Mostrar los promedios calculados
print(medianas)

arte                              14.0
ciencia_tecnologia_y_ambiente     13.0
comunicacion                      14.0
educacion_fisica                  13.0
educacion_para_el_trabajo         13.0
educacion_religiosa               14.0
formacion_ciudadana_y_civica      13.0
hisotoria_geografia_y_economia    13.0
ingles                            14.0
matematica                        12.0
persona_familia_y_rrhh            13.0
dtype: float64


## 3. Funciones

### 3.1. Función para calcular el factorial de un número
En esta sección, creamos una función que nos permita calcular el factorial de un número $n$.
Tal que:
$$n!=1 \text{ x } 2 \text{ x } 3 \text{ x...x } n$$ 

Tomando en cuenta que no existe el factorial de un número menor que 0 (es decir, $ 0 \leqslant n$)

In [9]:
#Creamos la función utilizando condicionales (cuando n<0) y loops.
def factorial(n):
    x=1
    if n<0:
        print("error")
    elif n==0:
        print(1)
    elif n>0:
        for i in range(1,n+1):
            x=x*i
    return x

In [10]:
#Ejemplo

#n<0
factorial(-32)

#n=0
factorial(0)

#n>0
factorial(4)

error
1


24

### 3.2. Función de masa corporal
Cremaos una función que calcule el índice de masa corporal como:
$$BMI=\frac{Peso}{Talla^2}$$

Luego, probamos la funcion para los siguientes casos:
* Estudiante 1: peso 70 kilos y talla 1.5 metros
* Estudiante 2: peso 85 kilos y talla 1.8 metros
* Estudiante 3: peso 50 kilos y talla 1.6 metros

In [11]:
#Definimos la función utilizando condicionales
def BMI(p,t):
    imc=p/(t*t)
    if 18.5<=imc<25:
        clas="Normal"
        riesgo="Promedio"
    elif 25<=imc<30:
        clas="Sobrepeso"
        riesgo="Aumentado"
    elif 30<=imc<35:
        clas="Obesidad grado 1"
        riesgo="Moderado"
    elif 35<=imc<=40:
        clas="Obesidad grado 2"
        riesgo="Severo"
    elif 40<imc:
        clas="Obesidad grado 3"
        riesgo="Muy severo"
    imc = "{:.2f}".format(imc)
    resultado=(p,t,imc,clas)
    return resultado

In [12]:
#Probamos la función con la información de los estudiantes

#Estudiante 1
print("Resultados Estudiante 1")
print(BMI(70, 1.5))

#Estudiante 2
print("Resultados Estudiante 2")
print(BMI(85, 1.8))

#Estudiante 1
print("Resultados Estudiante 1")
print(BMI(50, 1.6))

Resultados Estudiante 1
(70, 1.5, '31.11', 'Obesidad grado 1')
Resultados Estudiante 2
(85, 1.8, '26.23', 'Sobrepeso')
Resultados Estudiante 1
(50, 1.6, '19.53', 'Normal')


### 3.3. Función aplicada a dos activos financieros
Usando la base de datos portfolio, creamos una función que calcule el coeficiente de pearson del rendimiento de los activos $X$ e $Y$. Asimismo, calculamos la varianza del portafolio.

In [13]:
#Importamos la base de datos

portfolio = pd.read_csv("../../data/Portafolio.csv")
portfolio

Unnamed: 0,X,Y
0,-0.895251,-0.234924
1,-1.562454,-0.885176
2,-0.417090,0.271888
3,1.044356,-0.734198
4,-0.315568,0.841983
...,...,...
95,0.479091,1.454774
96,-0.535020,-0.399175
97,-0.773129,-0.957175
98,0.403634,1.396038


### a. Coeficiente de Pearson
El coeficiente de pearson define como:
$$ \rho_{(x,y)}=\frac{Cov_{(x,y)}}{\sqrt{Var_{(x)}}\sqrt{Var_{(y)}}}$$

In [14]:
# Extraemos las clumnas de datos
x = portfolio['X']
y = portfolio['Y']

In [15]:
# Creamos la fórmula para calcular el coeficiente
def coeficiente_pearson(x,y):
    coeficiente=np.cov(x,y)[0][1]/(math.sqrt(np.var(x, ddof=1)*np.var(y, ddof=1)))
    return coeficiente
coeficiente_pearson(x,y)

0.5154675930764797

### b. Varianza del Portafolio
En este caso, se destina $w_x=0.2$ de la inversión en el activo $X$ y $w_y=0.8$ de la inversión en el activo $Y$. De modo que la varianza del portafolio se define como:
   $$Varianza(Portafolio)=w^2_x Var_{(x)}+w^2_y Var_{(y)} +2 w_x w_y Cov_{(x,y)} $$

In [16]:
#Creamos la fórmula para calcular la varianza del portafolio
#En este caso a=w_x y b=w_y
def varianza(x,y,a,b):
    varianza_p=a*a*np.var(x, ddof=1)+b*b*np.var(y, ddof=1)+2*a*b*np.cov(x,y)[0][1]
    return varianza_p

#Definimos los retornos y calculamos la varianza del portafolio
w_x=0.2
w_y=0.8
varianza(x,y,w_x,w_y)

1.0828523278464037

También podemos unir ambas funciones en una sola, de modo que el resultado de la función sea lel coefineinte de correlación y la varianza del portafolio:

In [17]:
def var_portafolio(x,y,a,b):
    coeficiente=np.cov(x,y)[0][1]/(math.sqrt(np.var(x, ddof=1)*np.var(y, ddof=1)))
    varianza_p=a*a*np.var(x, ddof=1)+b*b*np.var(y, ddof=1)+2*a*b*np.cov(x,y)[0][1]
    
    variacion=(coeficiente,varianza_p)
    return variacion

var_portafolio(x,y,w_x,w_y)

(0.5154675930764797, 1.0828523278464037)

### 3.4. Keywords especiales
En esta sección, construimos una función que permite una cantidad no  restringida de datos (\*args) y que admite dos tipos de métodos que pueden aplicarse a la cantidad no restringida de datos (\*\*kargs). Estos métodos serán el reescalamiento realizado en la primera pregunta y la siguiente transformación (de acuerdo a la Inverse Hyperbolic Function):

$$sinh^{-1}=log(x_i + (x^2_i + 1)^\frac{1}{2})$$

Definimos dos métodos para la función: reescalamiento y transformacion

In [18]:
#Definimos la función
def f_resc_inv(*args, **kwargs):
    if (kwargs['function']=="reescalamiento"):
        #Insertamos la función utilizada en la primera sección
        vector = np.array(list(args))
        result=reescalamiento_0 = list(map( lambda x: (x - np.min(vector))/(np.max(vector)-np.min(vector)), vector) )
    elif (kwargs['function']=="transformacion"):
        x = np.array(list(args))
        result=np.log(x+np.sqrt(np.square(x)+1))
    else:
        raise ValueError( f"The function argument {kwargs[ 'function' ]} is not supported." )
        
    return result


A Continuación, probamos la función con tres casos distintos: aplicación del método de reescalamiento, aplicación del método de transformación, y una función que no corresponda a ningún key (en este caso, se espera un error).

In [19]:
#1. Reescalamiento
A=f_resc_inv(2,5,7,9, function="reescalamiento")
print(A)


[0.0, 0.42857142857142855, 0.7142857142857143, 1.0]


In [20]:
#2.Transformación
B=f_resc_inv(99,2,0,67,57,34,7,function="transformacion")
print(B)


[5.28829254 1.44363548 0.         4.89789549 4.73627539 4.2197239
 2.64412076]


In [21]:
#Error
C=f_resc_inv(1,9, function="suma")
print(C)

ValueError: The function argument suma is not supported.