# **Semana 5 Introducción a la programación con Python**

Esta semana analizaremos la libreria Numpy:

* ¿Qué es Numpy?
* ¿Qué es un arreglo?
* Dimensionalidad de los arreglos.
* Creación de un arreglo.
* Operaciones con arreglos.
* Normalización de datos.
* Manejo de datos nulos o vacíos.
* Convertir un archivo csv a un array.


##**¿Qué es Numpy?**

NumPy (Numerical Python) es una biblioteca de Python que proporciona soporte para trabajar con arreglos multidimensionales y realizar operaciones matemáticas y científicas de manera eficiente.

Es una herramienta fundamental en el ecosistema de análisis de datos y machine learning, ya que está optimizada para manejar grandes volúmenes de datos numéricos.

**Características:**

1. NumPy introduce el tipo de dato **ndarray**, que es una estructura similar a las listas de Python, pero con soporte para múltiples dimensiones y operaciones rápidas.

2. Ofrece una amplia gama de funciones para realizar operaciones como suma, promedio, producto, logaritmos, trigonometría, álgebra lineal, etc.

3. Permite reestructurar, indexar, filtrar y transformar datos fácilmente.

4. Los arreglos de NumPy son más rápidos y consumen menos memoria que las listas de Python.

5. Funciona perfectamente con otras bibliotecas populares como Pandas, Matplotlib, y Scikit-learn.

### **¿Por qué Numpy es más rápido que las listas?**

**Rendimiento optimizado:**
* Los arreglos de NumPy son mucho más rápidos que las listas de Python porque operan con un solo tipo de datos.

**Ahorro de memoria:**
* Los arreglos de NumPy usan menos memoria que las listas de Python porque almacenan datos del mismo tipo en bloques contiguos.

**Operaciones vectorizadas:**
* NumPy realiza operaciones matemáticas y lógicas de manera eficiente en todos los elementos del arreglo sin necesidad de bucles.
* La vectorización describe la ausencia de cualquier bucle explícito, indexación, etc., en el código; estas cosas ocurren "detrás de escena" (con código en lenguaje C).


## **¿Qué es un arreglo?**

Un arreglo es una estructura para almacenar y recuperar datos, en que cada celda almacena un elemento de los datos.

### **Dimensionalidad de los arreglos**

El número de corchetes anidados en un array de NumPy indica sus dimensiones

**Visualización:**

**1D: "Una lista simple"**

[1, 2, 3]

**2D: Una matriz (o "listas anidadas")**

[Ejemplo 1 2D](https://drive.google.com/file/d/1qSbqCy0rQDDuXiminHKMe-Boo4MFR2Dc/view?usp=sharing)

[Ejemplo 2 2D](https://drive.google.com/file/d/1foye6B9v8XhalVu7UlXca9na3Pf1zguN/view?usp=sharing)



**3D: cada matriz 2D va encerrada entre []. Agrupación de matrices 2D**

[Ejemplo 1 3D](https://drive.google.com/file/d/1dGAVMaLUpsjqgsup57adc3CP2xbwZj4K/view?usp=sharing)


[Ejemplo 2 3D](https://drive.google.com/file/d/1bf3WY0Vqp0p7DJfXH0L0QY2LoWL06WBj/view?usp=sharing)


**4D: cada arreglo 3D va encerrado entre [].Agrupación de areglos 3D**

[Ejemplo 1 4D](https://drive.google.com/file/d/1TYvH3SnkiGi9rYHwPZe1mtMSfsXSao0i/view?usp=sharing)



La mayoría de las matrices de NumPy tienen algunas restricciones. Por ejemplo:

* Todos los elementos de la matriz deben ser del mismo tipo de datos.

* Una vez creada, el tamaño total de la matriz no puede cambiar.

* La forma debe ser “rectangular”, por ejemplo, cada fila de una matriz bidimensional debe tener la misma cantidad de columnas.

* Cuando se cumplen estas condiciones, NumPy aprovecha estas características para hacer que la matriz sea más rápida, más eficiente en el uso de la memoria y más conveniente de usar que las estructuras de datos menos restrictivas.


#### **Comprendiendo los ejes del array (axis)**



En NumPy, el término axis (eje) se refiere a las "dimensiones" a lo largo de las cuales se realizan las operaciones en un array, como sumar, promediar o cambiar la forma.

Comprender axis es crucial para manipular y transformar arrays correctamente.

**Explicación de los Ejes (axis):**

**axis=0 (Eje 0):**
* Corresponde a las filas en un array bidimensional (o la "profundidad" en un array tridimensional).
* Cuando aplicamos una operación a lo largo de axis=0, estamos colapsando las filas y operando sobre las columnas.
* Ejemplo: En una operación de suma, sumaríamos a lo largo de cada columna.
* Pensemos en axis=0 como "trabajar verticalmente".

**axis=1 (Eje 1):**
* Corresponde a las columnas en un array bidimensional.
* Cuando aplicamos una operación a lo largo de axis=1, estamos colapsando las columnas y operando sobre las filas.
* Ejemplo: En una operación de suma, sumariamos los elementos de cada fila.
* Pensemos en axis=1 como "trabajar horizontalmente".

**axis=2 (Eje 2):**
* Esto aplica para arrays tridimensionales o de mayor dimensión.
* En un array tridimensional, axis=2 corresponde al "tercer nivel de profundidad", es decir, a través de las "columnas" dentro de cada matriz de cada "nivel" de profundidad.

## **Creación de un arreglo**

### **Crear un array de una dimensión**

* Un array unidimensional es simplemente una lista de elementos.
* Tiene un solo conjunto de corchetes.
* En primer lugar, debemos importar la libreria numpy.
* La vamos a renombrar como np (por convención).
* Si no lo hacemos, debemos usar numpy antes de algún método que forme parte de dicha librería.

In [None]:
# EJEMPLO DE CREACIÓN DE UN ARRAY UNIDIMENSIONAL

# Importar librería
import numpy as np

# Crear un array unidimensional
array_1d = np.array([1, 2, 3, 4]) # Usamos np.array()
print("Array unidimensional:", array_1d)

# Ver el tipo de dato del array
print ("El tipo de dato es:", type(array_1d)) # Usamos type()

# Mostar el primer elemento del array
print ("Primer elemento del array:", array_1d[0]) #Muestra elemento 1

# Mostar algunos elementos del array
print ("Elementos 2 y 3 del array:", array_1d[1:3]) # Igual que en una lista


### **Crear un array de dos dimensiones**

* Un array bidimensional se asemeja a una tabla o matriz con filas y columnas.
* Aquí hay dos niveles de corchetes.




In [None]:
# EJEMPLO DE CREACIÓN DE UN ARRAY DE DOS DIMENSIONES

# Importar librería
import numpy as np

# Crear un array bidimensional (matriz)
array_2d = np.array([[1, 2, 3], [4, 5, 6], [7,8,9]])
print("Array bidimensional:\n", array_2d)

# Mostrar primera fila del array 2d
print ("Primera fila del array 2d:\n",array_2d[0])

# Mostrar segunda fila del array 2d
print ("Segunda fila del array 2d:\n",array_2d[1])

# Mostrar tercera fila del array 2d
print ("Tercera fila del array 2d:\n",array_2d[2])

# Mostar primera columna del array 2d
print ("Primera columna del array 2d:\n",array_2d[:,0])

# Mostar segunda columna del array 2d
print ("Segunda columna del array 2d:\n",array_2d[:,1])

# Mostrar tercera columna del array 2d
print ("Tercera columna del array 2d:\n",array_2d[:,2])

# Mostar un elemento almacenado en una fila del array 2d
print ("Elemento [1, 2] en el array 2d:\n", array_2d[1, 2])

# Mostrar los últimos dos elementos almacenados en la última fila del array 2d
print ("Dos últimos elementos almacenados en fila 2:\n",array_2d[2,1:])

# Mostrar los últimos dos elementos almacenados en la última columna del array 2d
print ("Dos últimos elementos almacenados en columna 2:\n",array_2d[1:,2])

### **Crear un array de tres dimensiones**


* Un array tridimensional puede imaginarse como una colección de matrices (2D).
* Tendremos tres niveles de corchetes.

In [None]:
# EJEMPLO DE CREACIÓN DE UN ARRAY DE TRES DIMENSIONES QUE CONTIENE 2 MATRICES 2D

# Importar librería
import numpy as np

# Crear un array de tres dimensiones
array_3d = np.array([[[1, 2, 3], [4, 5, 6]],[[7, 8, 9], [10, 11,12]]])

# Mostrar todo el array 3d
print("Array tridimensional:\n", array_3d)

# Mostar primera matriz del array 3d
print ("Primera matriz del array 3d:\n",array_3d[0])

# Mostar segunda matriz del array 3d
print ("Segunda matriz del array 3d:\n",array_3d[1])

# Mostar primera fila de la matriz 1
print ("Primera fila de la matriz 1 del array 3d:\n",array_3d[0][0])

# Mostar segunda fila de la matriz 1
print ("Segunda fila de la matriz 1 del array 3d:\n",array_3d[0][1])

# Mostrar toda la columna 1 de la matriz 2
print ("Columna 1 de la matriz 2 del array 3d:\n",array_3d[1][:,1])

# Mostrar toda la fila 1 de la matriz 2
print ("Fila 1 de la matriz 2 del array 3d:\n",array_3d[1][1,:])

# Mostar el primer elemento de la matriz 1
print ("Primer elemento de la matriz 1 del array 3d:\n",array_3d[0][0][0])

# Mostar un elemento almacenado en una fila del array 3d
print ("Elemento [1, 1, 2] en el array 3:\n", array_3d[1, 1, 2])

# Mostar los dos últimos elementos de la fila 1 de la matriz 2
print ("Dos últimos elementos de fila 2 en matriz 2 del array 3:\n", array_3d[1][1][1:])

# Mostar los dos últimos elementos de la columna 3 de la matriz 2
print ("Dos últimos elementos de columna 3 en matriz 2 del array 3:\n", array_3d[1][:,2])


In [None]:
# EJEMPLO DE CREACIÓN DE UN ARRAY DE TRES DIMENSIONES QUE CONTIENE TRES MATRICES 2D

# Importar librería
import numpy as np

# Representación 3D: Imagen de 3 filas y 5 columnas con 3 canales de color (RGB)
array_3d1 = np.array([[[255, 0, 0], [255, 255, 0], [0, 255, 0], [0, 255, 255], [0, 0, 255]],
    [[100, 100, 100], [120, 120, 120], [140, 140, 140], [160, 160, 160], [180, 180, 180]],
    [[200, 200, 200], [220, 220, 220], [240, 240, 240], [255, 255, 255], [0, 0, 0]]
])

# Mostrar todo el array 3d
print("Array tridimensional:\n", array_3d1)

# Mostar primera matriz del array 3d
print ("Primera matriz del array 3d:\n",array_3d1[0])

# Mostar segunda matriz del array 3d
print ("Segunda matriz del array 3d:\n",array_3d1[1])

# Mostar primera fila de la matriz 1
print ("Primera fila de la matriz 1 del array 3d:\n",array_3d1[0][0])

# Mostar segunda fila de la matriz 1
print ("Segunda fila de la matriz 1 del array 3d:\n",array_3d1[0][1])

# Mostrar toda la columna 1 de la matriz 2
print ("Columna 1 de la matriz 2 del array 3d:\n",array_3d1[1][:,1])

# Mostrar toda la fila 1 de la matriz 2
print ("Fila 1 de la matriz 2 del array 3d:\n",array_3d1[1][1,:])

# Mostar el primer elemento de la matriz 1
print ("Primer elemento de la matriz 1 del array 3d:\n",array_3d1[0][0][0])

# Mostar un elemento almacenado en una fila del array 3d
print ("Elemento [1, 1, 2] en el array 3:\n", array_3d1[1, 1, 2])

# Mostar los dos últimos elementos de la fila 1 de la matriz 2
print ("Dos últimos elementos de fila 2 en matriz 2 del array 3:\n", array_3d1[1][1][1:])

# Mostar los dos últimos elementos de la columna 3 de la matriz 2
print ("Dos últimos elementos de columna 3 en matriz 2 del array 3:\n", array_3d1[1][:,2][3:])


## **Operaciones con arreglos**

### **Conocer el número de dimensiones del array usando ndim**

In [None]:
### Conocer el número de dimensiones usando ndim
print("Dimensión del array unidimensional:", array_1d.ndim)
print("Dimensión del array bidimensional:", array_2d.ndim)
print("Dimensión del array tridimensional:", array_3d1.ndim)
print("Dimensión primera matriz  array tridimensional:", array_3d1[0].ndim) # dimensión de la primera matriz 2d
print("Dimensión segunda matriz array tridimensional:", array_3d1[1].ndim) # dimensión de la segunda matriz 2d
print("Dimensión tercera matriz array tridimensional:", array_3d1[2].ndim) # dimensión de la tercera matriz 2d

### **Conocer el tamaño del array usando shape y size**

In [None]:
### Conocer tamaño del array 1d y forma, usando size y shape:
print("Tamaño del array 1D:", array_1d.size)
print("Forma del array 1D:", array_1d.shape)
### Conocer tamaño del array 2d y forma, usando size y shape:
print("Tamaño del array 2D:", array_2d.size)
print("Forma del array 2D:", array_2d.shape)
### Conocer tamaño del array 3d y forma, usando size y shape:
print("Tamaño del array 3D:", array_3d1.size)
print("Forma del array 3D:", array_3d1.shape)
print("Tamaño del array 3D1:", array_3d1.size)
print("Forma del array 3D1:", array_3d1.shape)


### **Redefinir el tamaño del arreglo usando reshape**

In [None]:
# Crear array 2d
array_2d = np.array([[1, 2, 3], [4, 5, 6]])
print ("Array 2d:\n", array_2d)
print("Forma del array 2D:", array_2d.shape)
# La forma original tiene la forma (2, 3) o sea, 6 elementos.
#Para cambiar la forma, la nueva debe tener también 6 elementos.
nuevo_array1 = array_2d.reshape(3,2) #(2,3)
print ("Nuevo array:\n", nuevo_array1)
print("Forma del nuevo array:", nuevo_array1.shape)
nuevo_array2= array_2d.reshape(1,6) #(6,1)
print ("Nuevo array:\n", nuevo_array2)
print("Forma del nuevo array:", nuevo_array2.shape)




### **Operaciones matemáticas y estadísticas**


* Suma — np.sum().
* Raíz cuadrada — np.sqrt().
* Media — np.mean().
* Varianza — np.var().
* Desviación estándar — np.std().
* Mediana - np.median().
* Mínimo - np.min().
* Máximo - np.max().

> **Contar**
>>Contar Elementos Específicos:
* np.count_nonzero(condición) para contar elementos que cumplan una condición.
* np.sum(condición) para contar cuántas veces aparece un valor específico.
* np.count_nonzero con el parámetro axis, para contar elementos en filas o columnas.
* np.unique para identificar elementos únicos y su frecuencia.

In [None]:
# Crear array 2d
array_2d = np.array([[1, 2, 3, 4],
                     [5, 6, 7,8],
                     [9,10,11,12]])
# Suma de elementos
suma = np.sum(array_2d)
print("Suma de elementos:", suma)
print("Suma de elementos primera fila", np.sum(array_2d[0]))

# Raíz cuadrada de elementos
raiz_cuadrada = np.round(np.sqrt(array_2d),1) # Pueden probar anteponiendo np.round () para redondear decimales
print("Raíz cuadrada de elementos:\n", raiz_cuadrada)

# Media de elementos
media = np.mean(array_2d)
print("Media de elementos:", media)

# Varianza de elementos
varianza = np.var(array_2d)
print("Varianza de elementos:", varianza)

# Mediana de elementos
mediana = np.median(array_2d)
print("Mediana de elementos:", mediana)

# Mediana elementos tercera fila
mediana_fila = np.median(array_2d[2])
print("Mediana de elementos tercera fila:", mediana_fila)

# Suma de primera fila matriz
suma_fila = np.sum(array_2d[0])
print("Suma de la primera fila:", suma_fila)

# Máximo elemento del array
maximo = np.max(array_2d)
print("Máximo elemento del array:", maximo)

# Minimo elemento del array
minimo = np.min(array_2d)
print("Mínimo elemento del array:", minimo)

# Máximo elemento de la primera fila del array
maximo_fila = np.max(array_2d[0])
print("Máximo elemento de la primera fila:", maximo_fila)

# sumar dos arrays
array_1 = np.array([1, 2, 3])
array_2 = np.array([4, 5, 6])
suma_arrays = array_1 + array_2
print("Suma de arrays:", suma)

# Multiplicación de arrays
array_1 = np.array([1, 2, 3])
array_2 = np.array([4, 5, 6])
multiplicacion_arrays = array_1 * array_2
print("Multiplicación de arrays:", multiplicacion_arrays)



In [None]:
# OTRO EJEMPLO USANDO AXIS
# Array de ejemplo
array_2d= np.array([[1, 2, 3, 4],
                    [5, 6, 7,8],
                    [9,10,11,12]])

# Suma a lo largo del eje 0 (colapsa filas, opera sobre columnas)
sum_axis0 = np.sum(array_2d, axis=0)
print("Suma a lo largo de axis=0 (columnas):", sum_axis0)  # Salida: [15 18 21 24]

# Suma a lo largo del eje 1 (colapsa columnas, opera sobre filas)
sum_axis1 = np.sum(array_2d, axis=1)
print("Suma a lo largo de axis=1 (filas):", sum_axis1)  # Salida: [ 10 26 42]


In [None]:
# CONTAR ELEMENTOS DEL ARRAY

import numpy as np

# Crear un array
array = np.array([[1, 2, 3,1], [4, 5, 6,4]])
# Contar todos los elementos
total_elementos = array.size
print("Total de elementos:", total_elementos)


# Contar elementos mayores que 3
contador_mayores = np.count_nonzero(array > 3)
print("Cantidad de elementos mayores que 3:", contador_mayores)

# Contar cuántas veces aparece el número 2
contador_dos = np.sum(array == 2)
print("Cantidad de veces que aparece el 2:", contador_dos)


# Contar elementos mayores que 2 por fila
contador_filas = np.count_nonzero(array > 2, axis=1)
print("Elementos mayores que 2 por fila:", contador_filas)


# Contar elementos únicos
valores, frecuencias = np.unique(array, return_counts=True)
print("Valores únicos:", valores)
print("Frecuencias:", frecuencias)





### **Filtrar datos**

Filtrar datos en NumPy es muy útil para extraer subconjuntos de datos que cumplen ciertas condiciones. A continuación, veremos cómo hacerlo con ejemplos para arreglos de 2 y 3 dimensiones.

In [None]:
# Ejemplo 1: Filtrar Elementos en un Arreglo de 2 Dimensiones
# Supongamos que tenemos un arreglo con datos de estudiantes: filas representan estudiantes y columnas representan sus notas
#en Matemáticas, Lenguaje y Ciencias.

import numpy as np

# Crear un arreglo de ejemplo (2D)
datos_2d = np.array([
    [38.08, 70.12, 19.33],  # Estudiante 1
    [95.12, 54.07, 54.65],  # Estudiante 2
    [73.47, 31.64, 87.42],  # Estudiante 3
    [60.27, 81.57, 73.49],  # Estudiante 4
])

# Filtrar todos los datos que cumplan una condición
array_booleano = datos_2d > 30
print("Array booleano:\n", array_booleano) # ¿Qué significa la salida?
# Mostar los datos que cumplen la condición
print("Aplicando el filtro para elementos mayores a 30:\n", datos_2d[array_booleano])

# Filtrar estudiantes con notas en Matemáticas mayores a 50
filtro_matematicas = datos_2d[:, 0] > 50  # Columna 0 es Matemáticas
print ("Filtro matemáticas", filtro_matematicas)
print("Estudiantes con nota en Matemáticas > 50:\n", datos_2d[filtro_matematicas])

# Filtrar estudiantes con Ciencias (columna 2) entre 20 y 80
filtro_ciencias = (datos_2d[:, 2] > 20) & (datos_2d[:, 2] < 80)
print ("Filtro ciencias", filtro_ciencias)
print("Estudiantes con nota en Ciencias entre 20 y 80:\n", datos_2d[filtro_ciencias])



In [None]:
# Ejemplo 2: Filtrar Elementos en un Arreglo de 3 Dimensiones
# En un arreglo 3D, cada capa puede representar un conjunto de datos,
# como diferentes escuelas, y cada fila y columna los datos de los estudiantes.
# Crear un arreglo de ejemplo (3D)
datos_3d = np.array([
    [  # Escuela 1
        [38.08, 70.12, 19.33],  # Estudiante 1
        [95.12, 54.07, 54.65],  # Estudiante 2
    ],
    [  # Escuela 2
        [73.47, 31.64, 87.42],  # Estudiante 1
        [60.27, 81.57, 73.49],  # Estudiante 2
    ]
])

# Filtrar datos donde todas las notas sean mayores a 30
filtro_general = np.all(datos_3d > 30, axis=2) # Entrega un arreglo booleano con True o False
print ("Veamos el array con el filtro:\n", filtro_general)
print("Ahora apliquemos el filtro para ver a los estudiantes con todas las notas > 30:\n", datos_3d[filtro_general])
# Por qué no basta con mostrar filtro_general directamente
# filtro_general no contiene los datos filtrados, sino un array de booleanos:
# filtro_general es un array de True y False que indica, para cada estudiante, si cumple la condición de que todas sus notas son mayores a 30.
# Este array no incluye los valores de las notas, sino únicamente la evaluación lógica para cada estudiante.

############ No olvidar############:
# Primera dimensión (axis=0): Representa escuelas (tamaño 2: Escuela 1 y Escuela 2).
# Segunda dimensión (axis=1): Representa los estudiantes dentro de cada escuela (tamaño 2: Estudiante 1 y Estudiante 2).
# Tercera dimensión (axis=2): Representa las notas de cada estudiante (tamaño 3: Matemáticas, Lenguaje, Ciencias).

############# Por qué axis=2#########
# Cuando queremos analizar las notas de cada estudiante, trabajamos en la tercera dimensión (axis=2), ya que:
# Cada fila del array tridimensional en la segunda dimensión (axis=1) corresponde a un estudiante.
# Cada nota dentro de esa fila está en la tercera dimensión (axis=2).
# Por lo tanto:
# Usar np.all(datos_3d > 30, axis=2) indica que queremos evaluar las notas a lo largo de la tercera dimensión para cada estudiante.

# Si evaluamos la forma de datos_3d.shape, tenemos (2, 2, 3), lo que significa:
# 2 escuelas (axis=0),
# 2 estudiantes por escuela (axis=1),
# 3 notas por estudiante (axis=2).

# Filtrar estudiantes en la primera escuela con notas en Ciencias > 50
filtro_ciencias_escuela1 = datos_3d[0, :, 2] > 50  # Primera escuela, columna Ciencias
print("Estudiantes en Escuela 1 con nota en Ciencias > 50:\n", datos_3d[0][filtro_ciencias_escuela1])


### **Incialización de un array**

#### **¿Por qué inicializar arrays?**

Inicializar arrays es fundamental para:

* Evitar errores de acceso.
* Garantizar resultados esperados en cálculos.
* Optimizar recursos de memoria y tiempo.
* Asegurar valores predeterminados para algoritmos.

##### **Algunas maneras de inicializar un array**

Podemos usar las siguientes opciones para inicializar un array:

* np.zeros: crea un arreglo con ceros según el tamaño especificado.  

* np.one: crea un arreglo con unos según el tamaño especificado.

* np.arange: crea un arreglo con valores específicos usando un rango dado.  

* np.random: crea un arreglo con valores aleatorios.



In [None]:
# Crear arrays con valores específicos usando np.zeros()
import numpy as np

# Array de una dimensión
array_ceros1d = np.zeros(5)
print("Array de ceros una dimensión:\n", array_ceros1d)

# Array de dos dimensiones
array_ceros2d = np.zeros((3, 3))
print("Array de ceros dos dimensiones:\n", array_ceros2d)

# Array de tres dimenesiones
array_ceros3d= np.zeros((2, 3, 2))
print("Array de ceros tres dimensiones:\n", array_ceros3d)

# Crear arrays con valores específicos usando np.ones()
array_unos1 = np.ones(5)
print("Array de unos una dimensión:\n", array_unos1)
array_unos2 = np.ones((5,5))
print("Array de dos varias dimensiones:\n", array_unos2)

# Crear arrays con valores específicos usando np.arange()
array_rango = np.arange(0, 10, 2)
print("Array con rango:\n", array_rango)

# Crear arrays usando random
array_random = np.random.rand(2)
print("Array aleatorio:\n", array_random)


####Recomendado desde la versión 1.7 de Numpy#####
# from numpy.random import default_rng
# print (default_rng(42).random((2,3)))
# print (default_rng(42).random((2,3,2)))


## **Normalización de datos**

>**¿Qué es?**

La normalización en NumPy transforma los datos para que estén en un rango específico, como [0, 1], o para que tengan propiedades estadísticas específicas (como media = 0, desviación estándar = 1).

>**¿Para qué se usa?**

* Comparar datos en diferentes escalas.
* Mejorar la convergencia de algoritmos en aprendizaje automático.
* Asegurar uniformidad en cálculos.

>**Tipos comunes de normalización:**

>>**Min-Max Normalization: Escala los valores al rango [0, 1].**

Podemos tener Min-Max global, por fila o por columna.

* **Global:** Útil para que los datos estén en un rango común y comparables en todas las dimensiones. Ejemplo: Normalizar datos para algoritmos de aprendizaje automático.
* **Por Fila:**Útil si las filas representan diferentes entidades y deseamos normalizar cada una por separado. Ejemplo: Notas de estudiantes, donde queremos ver el desempeño de cada estudiante.
* **Por Columna:** Útil si las columnas representan diferentes variables y queremos normalizarlas independientemente. Ejemplo: Datos de múltiples sensores, donde cada sensor tiene su propio rango.
* [Fórmula](https://drive.google.com/file/d/1xHQLrHXF5ieYZy5d2WEaP5t7ZRN0ONs1/view?usp=sharing) estándar de normalización.

>>**Z-Score Normalization:** Escala los valores para que tengan media 0 y desviación estándar 1.
* **Fórmula:** (𝑥−media)/desviación estándar.







In [None]:
# EJEMPLOS DE NORMALIZACIÓN MAX-MIN/Z-SCORE

import numpy as np

####### Min-Max Normalization#######

# Arreglo 1D
array_1d = np.array([10, 20, 30, 40])
# Min-Max Normalization
min_val = np.min(array_1d)
max_val = np.max(array_1d)
array_minmax = (array_1d - min_val) / (max_val - min_val)
print("Arreglo Normalizado (Min-Max):", array_minmax)

# Arreglo 2D
array_2d = np.array([[10, 20], [30, 40]])
# Min-Max Normalization
min_val = np.min(array_2d)
max_val = np.max(array_2d)
array_minmax_2d = (array_2d - min_val) / (max_val - min_val)
print("Arreglo 2D Normalizado (Min-Max):\n", array_minmax_2d)

# Arreglo 3D
array_3d = np.array([[[10, 20], [30, 40]], [[50, 60], [70, 80]]])
# Min-Max Normalization
min_val = np.min(array_3d)
max_val = np.max(array_3d)
array_minmax_3d = (array_3d - min_val) / (max_val - min_val)
print("Arreglo 3D Normalizado (Min-Max):\n", array_minmax_3d)

# Min-Max Normalization por columna
min_val_col = np.min(array_2d, axis=0)
max_val_col = np.max(array_2d, axis=0)
array_minmax_col = (array_2d - min_val_col) / (max_val_col - min_val_col)
print("Normalización Min-Max Por Columna:\n", array_minmax_col)

# Min-Max Normalization por fila
min_val_fila = np.min(array_2d, axis=1).reshape(-1, 1) # ¿Qué pasa si omitimos reshape (-1,1?)
max_val_fila = np.max(array_2d, axis=1).reshape(-1, 1)
array_minmax_fila = (array_2d - min_val_fila) / (max_val_fila - min_val_fila)
print("Normalización Min-Max Por Fila:\n", array_minmax_fila)


####### Z-Score#######

# Z-Score Normalization 1D
media = np.mean(array_1d)
desviacion = np.std(array_1d)
array_zscore = (array_1d - media) / desviacion
print("Arreglo Normalizado (Z-Score) una dimensión:", array_zscore)

# Z-Score Normalization 2D
media = np.mean(array_2d)
desviacion = np.std(array_2d)
array_zscore_2d = (array_2d - media) / desviacion

print("Arreglo 2D Normalizado (Z-Score):\n", array_zscore_2d)

# Z-Score Normalization 3D
media = np.mean(array_3d)
desviacion = np.std(array_3d)
array_zscore_3d = (array_3d - media) / desviacion

print("Arreglo 3D Normalizado (Z-Score):\n", array_zscore_3d)




## **Manejo de datos nulos o vacíos**

### **¿Qué son en el contexto de Numpy?**

* En el contexto de NumPy, los datos nulos se representan como np.nan (Not a Number).

* Estos valores se utilizan para indicar datos faltantes o no disponibles en un arreglo.

### **¿Para qué se usan?**


* Indicar datos faltantes: Útil para analizar conjuntos incompletos de datos.

* Evitar errores: Las operaciones matemáticas pueden fallar o producir resultados inesperados si no se manejan adecuadamente los datos faltantes.

### **Formas de manejar datos nulos**

**Identificar datos nulos:**
* Usar **np.isnan(array)** para obtener un arreglo booleano que indica dónde están los valores np.nan.

**Eliminar datos nulos:**
* Usar máscaras para eliminar filas o columnas con datos faltantes.

**Rellenar datos nulos:**
* Sustituir np.nan por un valor específico como 0, la media, o la mediana del arreglo.

**Evitar cálculos con nulos:**
* Usar funciones seguras como **np.nanmean** o **np.nanstd**, que omiten automáticamente los valores nulos.

**Ejemplos de funciones**
* **np.nanmean:** Calcula la media ignorando los valores nulos.
* **np.nanstd:** Calcula la desviación estándar ignorando los valores nulos.
* **np.nan_to_num:** Reemplaza np.nan con un valor específico (como 0).

In [None]:
# EJEMPLO DE MANEJO DE DATOS NULOS O VACÍOS

import numpy as np

############# Ejemplo arreaglo 1D ###########
# Crear un arreglo 1D con datos nulos
array_1d = np.array([1, 2, np.nan, 4, 5])
# Identificar datos nulos
print("Datos nulos (True indica np.nan):", np.isnan(array_1d))
# Rellenar datos nulos con la media
array_1d_filled = np.where(np.isnan(array_1d), np.nanmean(array_1d), array_1d)
print("Arreglo con datos nulos reemplazados por la media:", array_1d_filled)

############# Ejemplo arreaglo 2D ###########
# Crear un arreglo 2D con datos nulos
array_2d = np.array([[1, 2, np.nan], [4, np.nan, 6]])
# Identificar datos nulos
print("Datos nulos:\n", np.isnan(array_2d))
# Eliminar filas con datos nulos
array_2d_no_nans = array_2d[~np.isnan(array_2d).any(axis=1)] # El operador ~ invierte un arreglo booleano:
print("Arreglo sin filas con datos nulos:\n", array_2d_no_nans)
# Rellenar datos nulos con un valor específico (por ejemplo, 0)
array_2d_relleno = np.nan_to_num(array_2d, nan=0)
print("Arreglo con datos nulos reemplazados por 0:\n", array_2d_relleno)

############# Ejemplo arreaglo 3D ###########

# Crear un arreglo 3D con datos nulos
array_3d = np.array([[[1, 2, np.nan], [4, 5, 6]],
                     [[np.nan, 8, 9], [10, 11, np.nan]]])
# Identificar datos nulos
print("Datos nulos en 3D:\n", np.isnan(array_3d))
# Rellenar datos nulos con la mediana
mediana = np.nanmedian(array_3d)
array_3d_relleno = np.where(np.isnan(array_3d), mediana, array_3d)
print("Arreglo 3D con datos nulos reemplazados por la mediana:\n", array_3d_relleno)

## **Convertir un archivo csv a un array**

Para leer un archivo csv y convertirlo a un array debemos usar:

* np.genfromtxt(): Es una función de NumPy utilizada para leer datos desde un archivo de texto (como CSV) y convertirlos en un arreglo NumPy.

>**Parámetros principales:**
* estudiantes_notas.csv": Es el nombre del archivo que contiene los datos. Debe estar en el mismo directorio o proporcionar la ruta completa.
* delimiter=",": Define el separador de los valores en el archivo CSV. En este caso, una coma (,).
* skip_header=1: Omite la primera fila del archivo, que contiene los encabezados (por ejemplo, Estudiante_ID, Nota_Matemáticas...).
* usecols=(1, 2, 3): Indica las columnas que queremos cargar, omitiendo la primera (Estudiante_ID, que está en la columna 0). Esto selecciona solo las columnas correspondientes a Nota_Matemáticas, Nota_Lenguaje y Nota_Ciencias.




In [None]:
import numpy as np

# Cargar los datos desde el archivo CSV (sin la columna 'Estudiante_ID')
datos = np.genfromtxt("estudiantes_notas.csv", delimiter=",", skip_header=1, usecols=(1, 2, 3))

print("Datos cargados:\n", datos)
print("Forma de los datos:", datos.shape)



### **Desafío**

* Cargar el archivo estudiantes_notas en su entorno de trabajo.
* Cambiar dimensiones: Experimentar con diferentes formas del arreglo.
* Normalización: Comparar métodos de normalización (Min-Max y Z-Score).
* Operaciones estadísticas: Calcular desviación estándar, promedios, etc.
* Filtro de datos: Filtrar estudiantes que cumplan ciertos criterios, como obtener más de 70 en Matemáticas.

In [10]:
import numpy as np

# Cargar los datos desde el archivo CSV (sin la columna 'Estudiante_ID')
#datos = np.genfromtxt("../data/estudiantes_notas_2.csv", delimiter=",", skip_header=1, usecols=(1, 2, 3))
datos = np.genfromtxt(
    '../data/estudiantes_notas_2.csv',
    #dtype=data_type,           # Usamos la estructura de tipos de datos definida
    delimiter=',',             # El separador en un CSV es la coma
    names=True,                # Indicamos que la primera fila contiene los nombres de las columnas
    skip_header=0,             # No saltamos filas (ya que 'names=True' maneja la cabecera)
    encoding='utf-8'           # Aseguramos la codificación correcta
)
print("Datos cargados:\n", datos)
print("Forma de los datos:", datos.shape)

Datos cargados:
 [(  1., 38.08, 70.12, 19.33) (  2., 95.12, 54.07, 54.65)
 (  3., 73.47, 31.64, 87.42) (  4., 60.27, 81.57, 73.49)
 (  5., 16.45, 68.79, 80.85) (  6., 16.44, 17.1 , 66.22)
 (  7.,  6.75, 91.18, 69.54) (  8., 86.75, 82.43, 85.07)
 (  9., 60.51, 95.03, 25.72) ( 10., 71.1 , 72.85, 49.45)
 ( 11.,  3.04, 61.73, 22.9 ) ( 12., 97.02, 42.41, 98.78)
 ( 13., 83.41, 93.34, 94.46) ( 14., 22.02, 86.74,  4.9 )
 ( 15., 19.  ,  5.48, 70.85) ( 16., 19.16,  3.61, 92.6 )
 ( 17., 31.12, 38.27, 18.88) ( 18., 52.95, 81.24, 57.23)
 ( 19., 43.76, 98.74, 91.63) ( 20., 29.83, 15.89,  4.36)
 ( 21., 61.57, 59.82, 70.04) ( 22., 14.81, 38.71, 30.44)
 ( 23., 29.92, 97.02, 92.52) ( 24., 37.27, 84.37, 97.13)
 ( 25., 46.15, 83.99, 94.48) ( 26., 78.73, 47.4 , 47.95)
 ( 27., 20.77, 42.07, 86.34) ( 28., 51.91, 28.07, 84.61)
 ( 29., 59.65,  6.58, 32.59) ( 30.,  5.6 , 86.61, 83.06)
 ( 31., 61.15, 81.48,  4.66) ( 32., 17.88, 99.97, 60.03)
 ( 33.,  7.44, 99.67, 23.77) ( 34., 94.94, 55.99, 12.94)
 ( 35., 96.6 ,