<img src="mioti.png" style="height: 100px">
<center style="color:#888">Data Science with Python</center>

# DSPy2. NumPy "advanced". Challenge

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Broadcasting-into-practice:-feature-scaling-through-standarization" data-toc-modified-id="Broadcasting-into-practice:-feature-scaling-through-standarization-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Broadcasting into practice: feature scaling through standarization</a></span></li><li><span><a href="#Sistemas-de-coordenadas---Vectorización" data-toc-modified-id="Sistemas-de-coordenadas---Vectorización-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Sistemas de coordenadas - Vectorización</a></span></li></ul></div>

## Broadcasting into practice: feature scaling through standarization

Con algunas excepciones, los algoritmos de Machine Learning no funcionan del todo bien si los atributos numéricos que se les pasan tienen escalas muy diferentes ([further reading](http://scikit-learn.org/stable/auto_examples/preprocessing/plot_scaling_importance.html)). Una técnica que puede usarse para que todos los atributos tengan la misma escala es la estandarización: sustraerles la media (para que sea 0) y dividirlos por la desviación típica (de modo que la varianza resultante sea 1). 

a) Imaginemos que tenemos un array con datos de un sensor en una playa, que mide tres atributos como serían viento, oleaje y temperatura, en distintas unidades que tienen distintas escalas. Esas mediciones nos llegan en un array con 3 columnas (una por feature) y 1000 filas (una fila por cada instante de tiempo del que tenemos las medidas). 

In [9]:
import numpy as np
data = np.random.normal(loc=[-10, 0, 10], scale=[2, 1, 2], size=(1000,3))
data.shape

(1000, 3)

Estandariza esa matriz de manera vectorial: réstale la media por columna y divide por la desviación típica de cada columna.

## Resultado

In [10]:
# Calculamos la media y desviación típica por columna
means = np.mean(data, axis=0)
stds = np.std(data, axis=0)

# Estandarizamos restando la media y dividiendo por la desviación típica
data_standardized = (data - means) / stds

print(f"Resultado de la estandarización:")
data_standardized


Resultado de la estandarización:


array([[ 1.60643085,  0.0920528 , -0.36273588],
       [ 1.62944031, -2.13960803,  1.04674108],
       [ 0.18633037,  1.20434552, -1.32536152],
       ...,
       [ 1.41976511,  0.55250059,  0.4842845 ],
       [-1.41077194, -0.05328049, -1.49345576],
       [ 0.35405445, -2.96623923,  0.66017562]])

b) Imaginemos ahora que el array 2d tiene una fila por cada feature y una columna por cada medición (la transpuesta de la matriz anterior). ¿Cómo vectorizamos la operación ahora? (réstale la media por fila y divide por la desviación típica por fila). ¡No vale transponer data!

In [16]:
data = np.random.normal(loc=[-10, 0, 10], scale=[2, 1, 2], size=(1000,3)).T
data.shape

(3, 1000)

## Resultado:

In [19]:
# Calculamos la media y desviación típica por fila (axis=1)
means = np.mean(data, axis=1, keepdims=True)
stds = np.std(data, axis=1, keepdims=True)

# Estandarizamos restando la media y dividiendo por la desviación típica
data_standardized_vectorized = (data - means) / stds

print(f"Resultado de la estandarización:")
data_standardized_vectorized


Resultado de la estandarización:


array([[ 0.29976233,  1.43131052, -0.07581366, ..., -0.50150994,
         0.37934248,  0.85049511],
       [-1.92083575, -0.06230162,  0.37469413, ..., -0.79926887,
        -1.3127571 ,  0.39555998],
       [-0.89164226,  0.37080875, -0.65191739, ...,  1.29409695,
         0.63526369, -0.08257335]])

## Sistemas de coordenadas - Vectorización

Vamos a escribir funciones para convertir puntos dados en un sistema de coordenadas cartesianas a los mismos puntos expresados en un sistema de coordenadas polares.

<img src="coordinates.png" style="height: 200px;float: left">

Dado un punto en coordenadas cartesianas \((x,y)\), sus correspondientes coordenadas polares \((r, \varphi)\) se obtienen como sigue:


\begin{equation}
r = \sqrt{(x^2+y^2)}
\end{equation}
\begin{equation}
\varphi = arctan\left(\frac{y}{x}\right)
\end{equation}

<div style="clear: left"/>

* Escribe una función usando NumPy y otra basada en Python puro tal que, dado un array o lista, respectivamente, de coordenadas cartesianas, devuelva un array o lista de coordenadas polares. 
* Compara su rendimiento (hint: magic commands de Jupyter notebook)




In [27]:
num_muestras_input = 10000
Z_cartesian = np.random.random((num_muestras_input,2))
Z_cartesian

array([[0.20142165, 0.50462637],
       [0.43316967, 0.97813611],
       [0.10331822, 0.21788679],
       ...,
       [0.99508219, 0.87627841],
       [0.46698053, 0.9004312 ],
       [0.15062576, 0.11129736]])

# Result:

## Function in Python

In [34]:
import math
def calculate_polar_coordinates_of_cartesian_coordinates_python(coordinates: list):
    r = []
    theta = []
    for x, y in coordinates:
        radius = math.sqrt(x**2 + y**2)
        angle = math.atan2(y, x)
        r.append(radius)
        theta.append(angle)
    return r, theta

# Function with NumPy

In [35]:
def calculate_polar_coordinates_numpy(coordinates: np.ndarray):
    r = np.sqrt(np.sum(coordinates**2, axis=1))
    theta = np.arctan2(coordinates[:,1], coordinates[:,0])
    return r, theta

r_numpy, theta_numpy = calculate_polar_coordinates_numpy(Z_cartesian)

# Run both versions

In [37]:
import time
# Pure Python
start_time = time.time()
r_py, theta_py = calculate_polar_coordinates_of_cartesian_coordinates_python(Z_cartesian)
python_time = time.time() - start_time
print(f"Pure Python time: {python_time:.4f} seconds")

# NumPy
start_time = time.time()
r_np, theta_np = calculate_polar_coordinates_numpy(Z_cartesian)
numpy_time = time.time() - start_time
print(f"NumPy time: {numpy_time:.4f} seconds")

# Speedup
speedup = python_time / numpy_time
print(f"\nNumPy is {speedup:.1f} times faster")

Pure Python time: 0.0103 seconds
NumPy time: 0.0012 seconds

NumPy is 8.5 times faster
