### Realizar el siguiente proyecto

Cuando empecemos a ver machine learning requerimos normalizar la data, normalizar significa truncar valores entre cero y uno, a groso modo y sin mucho detalle.

En este laboratorio hará normalización de la media.  Esta escala la información pero en vez de tomar valores entre 0 y 1 los distribuira equitativamente en intervalos cerca de cero, por ejemplo, si tenemos un dataset de 1M de datos estos serán normalizados para un rango cercano a 0, por ejemplo -4 a 4.

Esto tambien garantiza que la media de los elementos sea cero.

Su objetivo será:
- crear elementos de rango 2 de elementos aleatorios entre 0 y 10k (inclusivo) com 500 filas y 300 columnas.

In [1]:
# importar numpy como np
import numpy as np

np.random.seed(42) # estabilidad en la generacione de numeros aleatorios

# crear el arreglo x de 500x300 con enteros entre (0,10000]
x = np.random.randint(0, 10001, size=(500,300))

In [2]:
print(f'shape:{x.shape}')
print(f'size:{x.size}')
print(f'max:{x.max()}')
print(f'min:{x.min()}')

shape:(500, 300)
size:150000
max:10000
min:0


Respuesta esperada:
```
shape:(500, 300)
size:150000
max:10000
min:0
```

Ahora que creo el arreglo lo normalizaremos.  La normalización tiene que ver con esta función matemática:
$$
i=\frac{i - \mu_i}{\sigma_i}
$$

- $i$ es la $i_n$ columna de $X$
- $\mu_i$ es el promedio de los valores de la columna $i_ma$ de $X$
- $\sigma_i$ es la desviacion estandar de los valores de la $i_ma$ columna de $X$

En otras palabras la normalizacion media es realizada sustrayendo de cada columna de $X$ el promedio de sus valores, y entonces dividirlo por la desviación estandar de sus valores, en el espacio inferior realizaremos unos calculos intermedios

In [3]:
# promedio de los valores de cada columna de x
cols_prom = np.mean(x, axis=0)

# desviacion estandar de los valores en cada columna de x
cols_std = np.std(x, axis=0)

In [4]:
cols_prom.shape, cols_std.shape

((300,), (300,))

Respuesta esperada:
```
((300,), (300,))
```

Si ud calculo bien el paso anterior debe tener un arreglo de 300 debido a que es la cantidad de columnas necesarias

Ahora podemos utilizar correctamente broadcasting utilizando la normalizacion por medio de la ecuación que se presentó anteriormente

$$
i=\frac{i - \mu_i}{\sigma_i}
$$

In [5]:
norm = ((x-cols_prom)/cols_std)

In [6]:
print('Media:',norm.mean())
print('Máximo:',norm.max())
print('Minimo:',norm.min())

Media: -2.4632148173016807e-18
Máximo: 1.8726267617090666
Minimo: -1.9511544494198068


Si realizó el paso anterior de manera correcta debemos tener los datos con una media cercana o tendiente a cero.

Respuesta:
```
Media: -2.4632148173016807e-18
Máximo: 1.8726267617090666
Minimo: -1.9511544494198068
```

### Separacion de los datos

Despues que se normalizan los datos es costumbre dividir el dataset en 
- Training set
- Validation set
- Test set

Normalmente se eligen los valores de división dependiendo de la cantidad de datos, pero usaremos en este caso los siguientes porcentajes
- 60%
- 20%
- 20%

Empezaremos a dividir los datos, asegurese de no tener coincidencia en los mismos datos seleccionados (no elegir la misma fila) para poder que los datos sean seleccionados aleatoriamente y distribuidos entre los nuevos sets.

Creareomos un arreglo de rango 1 conteniedo las permutaciones de filas de indices de *norm*.  Ud. puede con la función np.random.permutation(N) crear valores entre rangos de 0 a N-1.

In [7]:
# ejemplo
print(np.random.permutation(5))

[3 2 0 4 1]


En la parte inferior crear un arreglo de rango 1 que contenga las permutaciones de los índices de las filas de *norm*.  Ud puede realizar esto en una línea de codigo extrayendo el número de filas de *norm*
- puede utilizar la funcion .shape (recuerde que retorna filas, columnas)
- luego puede pasar este dato a np.random.permutation()

In [20]:
indices_filas = np.random.permutation(norm)

In [18]:
print(indices_filas.shape)

(500, 300)


In [21]:
np.split(norm, [int(.6 * len(norm)), int(.8 * len(norm))])

[array([[ 0.83331825, -1.47149961,  0.13260021, ..., -0.17533753,
          0.93222612,  1.0207984 ],
        [ 0.85681522,  1.47439776, -0.94585494, ..., -1.40880641,
         -1.22776716,  0.80558564],
        [-1.3621158 , -1.44813856,  0.010364  , ...,  0.05674748,
         -1.19684989,  1.12431846],
        ...,
        [ 0.37904355, -0.62019539, -1.59699128, ..., -0.92952387,
         -1.41502748,  0.83010355],
        [-0.51384122,  1.60803672, -0.99393677, ..., -0.15266876,
          1.37104062,  0.63770606],
        [-1.55724279,  0.11430357, -0.92621588, ...,  1.61621484,
         -0.67406687,  0.6138692 ]]),
 array([[-0.28840655, -0.58618445, -1.58683315, ...,  1.68853901,
         -1.26535976,  0.09150152],
        [ 0.59902965,  0.49392066, -0.27304791, ..., -0.88670508,
         -0.13723054,  0.82397407],
        [-0.72258964,  0.55610229, -1.63389916, ...,  0.57776934,
          0.88936353, -1.47968785],
        ...,
        [ 1.60190746,  0.60763402, -1.08366695, ...,  

Respuesta esperada:

(500,)

Ahora ud puede crear los tres datasets por medio del uso de indices de filas de nuevo arreglo *indices_filas*.  Recuerde que las divisiones son 60/20/20 para train/validation/test, esto se puede completar para cada caso en una línea de código.  Llenar los espacios debajo.

In [12]:
# calcule el total del arreglo indices_filas
n = 

# calcule los valores de training set, no hardcoded
train_start = 
train_end   = 

# calcule los valores de validation set, no hardcoded
valid_start = 
valid_end   = 

# calcule los valores del test set, no hardcoded
test_start = 
test_end   = 

SyntaxError: invalid syntax (<ipython-input-12-7175b06087cd>, line 2)

In [None]:
print(train_start, train_end)
print(valid_start, valid_end)
print(test_start, test_end)

Respuestas esperadas:
```
0 300
300 400
400 500
```

In [None]:
# de norm, tome la sección inicial y final que corresponde al training set
train_set = 

# de norm, tome la seccion inicial y final que corresponde al validation set
valid_set = 

# de norm, tome la seccion inicial y final que corresponde al test set
test_set = 

In [None]:
# imprima el .shape de training set
print(train_set.shape)

# imprima el .shape del validation set
print(valid_set.shape)

# imprima el .shape del test set
print(test_set.shape)

Respuesta esperada:
```
(300, 300)
(100, 300)
(100, 300)
```