# Vectores, operaciones vectoriales básicas y Universal functions



Como cientificos de datos en algunos casos requeriremos crear nuestras propias funciones y es recomendable que se apeguen a las ufuncs, es decir que se puedan aplicar independiente de la dimensión del objeto al que se aplican, que soporten broadcasting y muy importante **que su definición evite ciclos y use operaciones vectorizadas y otras ufuncs** .

In [1]:
# Instalar numpy desde el jupyter notebook en el ambiente actual de Anaconda
# esto puede ser realizado de manera tradicional con linea de comandos o Anaconda Navigator
import sys
!conda install --yes --prefix {sys.prefix} numpy

# ! ejecuta un comando del sistema desde el notebook, el comando ejecutado fue:
print("Comando ejecutado:conda install --yes --prefix {"+sys.prefix+"} numpy")
import numpy as np

Solving environment: done


  current version: 4.5.12
  latest version: 4.6.7

Please update conda by running

    $ conda update -n base -c defaults conda



# All requested packages already installed.

Comando ejecutado:conda install --yes --prefix {/home/eunice/.conda/envs/galileo_python} numpy


## Ejercicio 1
En data science y programación científica es común necesitar vectores con valores dentro de cierto intervalo, pero con sub-intervalos internos con diference espaciamiento ,por ejemplo:

[0.  , 0.1 , 0.2 , 0.3 , 0.4 , 0.5 , 0.51, 0.52, 0.53, 0.54, 0.55,
       0.56, 0.57, 0.58, 0.59, 0.6 , 0.7 , 0.8 , 0.9 , 1.  ]
       
El primer sub-intervalo incrementa de 0.1 en 0.1 , el segundo de 0.01 en 0.01 , y el tercero de 0.1 en 0.1 nuevamente.

Usando unicamente NumPy crea un vector de este tipo con el nombre xs .

**nota**: no es permitido usar ciclos, debe realizarse con operaciones "vectorizadas" de numpy

In [2]:
## tu codigo aqui (~ 4 lineas de codigo)
x = np.arange(0,0.6,0.1)
y = np.arange(0.51,0.6,0.01)
z = np.linspace(0.6,1.,5,endpoint=True,retstep=False)
xs = np.hstack((x,y,z))
xs


array([0.  , 0.1 , 0.2 , 0.3 , 0.4 , 0.5 , 0.51, 0.52, 0.53, 0.54, 0.55,
       0.56, 0.57, 0.58, 0.59, 0.6 , 0.7 , 0.8 , 0.9 , 1.  ])

## Ejercicio 2
Suavizado de curvas a través de promedios de n-puntos(medias móviles):

<img src="https://www.luisllamas.es/wp-content/uploads/2017/03/arduino-filtro-media-movil-ventana-5.png">

En el mundo la data comunmente posee "ruido" por lo cual muchas veces antes de hacer análisis o modelado se necesita "suavizar" las curvas para reducir este ruido, una técnica muy sencilla es  el suavizado por promedio de n-puntos(también llamado media móvil), esto significa que para cada punto Xn obtenemos una versión transformada(suavizada) que consiste en promediar n puntos cercanos a el, por ejemplo para n= 3 tenemos que:

$$XS_{n}  =  \frac{X_{n-1}+X_{n}+X_{n+1}}{3}$$

In [3]:
# las siguientes 3 lineas generan un conjunto de datos que se comportan segun una onda senoidal pero tienen
# ruido por lo cual vamos a suavizar usando promedio de 3 puntos
# en este ejercicio los generamos manualmente pero pensemos que son datos que pudieron ser generados con algún
# instrumento como un sensor, o bien estar almacenados en una base de datos
ruido = 0.1*np.random.randn(15) #el ruido comunmente se debe a aleatoriedad o captura no exacta de info.
x = np.linspace(0,2*np.pi,15) + ruido
x = np.sin(x)

#xs es "x suavizado", inicialmente es una copia de x
xs =  x.copy()

for n in range(1,len(x)-1):
    xs[n] = (x[n-1] + x[n] + x[n+1])/3
    
print(x)
print(xs)

[-0.06389887  0.41946425  0.73058231  0.97342268  0.96381937  0.80643889
  0.4527605   0.02902225 -0.4304646  -0.79574798 -0.98711577 -0.96900921
 -0.73748321 -0.25117908 -0.1483749 ]
[-0.06389887  0.36204923  0.70782308  0.88927479  0.91456031  0.74100625
  0.42940721  0.01710605 -0.39906344 -0.73777612 -0.91729099 -0.8978694
 -0.65255717 -0.3790124  -0.1483749 ]


En este caso usamos un ciclo  para ejemplificar pero ya hemos mencionado que debemos evitarlos siempre que sea posible y usar operaciones "vectorizadas" ya que es mucho mas rápido al utilizar  código pre-compilado de C, en este ejercicio debemos remplazar el calculo de xs para hacerlo de manera "vectorizada" y eliminar el ciclo for. 

**tip**: usar slicing

In [4]:
## tu codigo aqui (~ 1 linea):
xss =  x.copy()
xss[1:-1] = (xss[2:] + xss[0:-2] + xss[1:-1])/3
xss

array([-0.06389887,  0.36204923,  0.70782308,  0.88927479,  0.91456031,
        0.74100625,  0.42940721,  0.01710605, -0.39906344, -0.73777612,
       -0.91729099, -0.8978694 , -0.65255717, -0.3790124 , -0.1483749 ])

## Ejercicio 3

NumPy posee logaritmos naturales , base 2 y base 10 , crear una *ufunc* que calcule el logaritmo en cualquier base n dada, la funcion debe recibir el tensor al cual calcular el logaritmo elemento por elemento y la base del logaritmo a calcular, por ejemplo:

`def logaritmo_n(x,n):`

In [5]:
def logaritmo_n(x,n):
    return np.log(x) / np.log(n) 
    
logaritmo_n([0.25,0.75],2)



array([-2.       , -0.4150375])

## Ejercicio 4
Para calcular la información de una distribución de probabilidad necesitamos calcular el producto entre la información de cada posible $x$ y su probabilidad, cada uno de estos elementos nos indica cuanta incerteza aporta cada $x$ a la entropía de la distribución. 

Para completar este ejercicio hay que crear una función que calcule lo descrito anteriormente, debe recibir un vector representando a la dist. de probabilidad y devoler otro vector con el termino de entropía para cada $x$.

Por ejemplo:

`calcular_entropia([0.25,0.75])`

Debe resultar en :

$[0.5    ,    0.31127812]$

**Nota**: la entropía es la suma sobre estos valores, en este caso no calculamos la entropía,unicamente los termimos de su sumatoria. La entropía es:

$$S = -\sum_i^nP(x_{i})log_{2}P(x_{i})$$

In [6]:
## tu codigo aqui (~ 2 lineas de codigo)
def calcular_entropia(px):
    return px*np.log2(px)*-1

calcular_entropia([0.25,0.75])


array([0.5       , 0.31127812])

## Ejercicio 5

A partir de la información en un data warehouse se ha generado un modelo de datos, el valor de los clientes en el tiempo se ha determinado un modelo predictivo  no lineal que estima cuanta ganancia ha generado cierto cliente en 5 años en base a lo que ha gastado en su primer mes como cliente. 

El modelo tiene la forma:

$$g(x) = (x^{3} + 2x^{2} + e^{0.0001x} -\sqrt{2x})/50$$

Crear una función que calcule la ganancia para valores de gasto de nuevos clientes:

In [7]:
def g(x):
    ganancia = (np.power(x,3) + 2.0*(np.power(x,2.0))+np.exp(0.0001*x) - np.sqrt(2.0*x))/50
    
    return ganancia
    
gastos = np.array([100,50,25])
ganancia = g(gastos)

print("Ganancias",ganancia)

Ganancias [20399.73735829  2599.82010025   337.37862871]


Se ha determinado también que hay costos asociados a la comunicación y relación con los clientes(llamadas,mensajes electrónicos,etc) y que estos también tienen alta correlación con el monto que estos gastan en su primer més siguiendo el modelo:
$$c(x) = (x^{2} + x + log (0.0001x)-\sqrt{0.54x})/100$$

Cree una función para calcular este modelo sobre valores de de gasto de nuevos clientes , y luego cree una función  **ganancia_neta(x,g,c)** donde:
* x = vector conteniendo los valores de gasto del primer mes para nuevos clientes.
* g = función que estima la ganancia en función de x
* c = función que estima el costo en función de x

La función realiza el calculo simple **g(x) - c(x)** , ya que es posible que los modelos cambien en el tiempo es común recibir como parámetro el modelo o modelos hijos de un modelo mas grande , en este caso eso se logra recibiendo como parámetro las funciones de ganancia y costo.

In [8]:
## tu codigo aqui :
def ganancia_neta(x):
    c = (np.power(x,2) + x +np.log(0.0001*x) - np.sqrt(0.54*x))/100
    return g(x)-c
ganancia_neta(gastos)



array([20298.85689469,  2574.42504495,   330.9752857 ])

# Funciones miscelaneas(agregación y estadistica descriptiva básica) 

Ya hemos trabajado algunas funciones de NumPy pero han sido funciones "elementwise" cuyo vector resultante tiene el mismo tamaño que el vector de entrada, existen muchas otras funciones que utilizamos en casos en los que necesitamos agregar,resumir cierto vector,incluyendo en este tipo de funciones algunas de estadistica descriptiva básica.

## Ejercicio 6
Usando argmax crear una función `mode(x)` para calcular la moda de un vector $x$, esta función debe devolver una tupla de 2 elementos de la forma:

(valor,conteo)

**tip** investigar y auxiliarse de otras funciones de numpy y np.argmax, no olvidar trabajar todo vectorizado, sin ciclos.

In [9]:
def mode(x):
    (valor,conteo) = np.unique(x,return_counts=True)
    index = np.argmax(conteo)
    return  np.hstack((valor[index],conteo[index]))
    
print(mode([2,2,2,4,4,4,4,4,4,1,1,1]))

[4 6]


## Ejercicio 7
Crear una función para calcular la entropía  de una distribución de probabilidad representada como un vector.
$$S = -\sum_i^nP(x_{i})log_{2}P(x_{i})$$

**Nota**: a diferencia del ejercicio anterior donde solo calculamos los términos de la entropía, en este caso  si calculamos el valor completo de la entropía, que como mencionamos es una medida de incerteza en una distribución de probabilidad.

**recordatorio**: no usar ciclos solo operaciones vectorizadas.

In [10]:
## tu codigo aqui (~ 3 lineas de codigo)
def calcular_entropia(px):
    return sum(px*np.log2(px)*-1)

calcular_entropia([0.25,0.75])


0.8112781244591328