# Conceptos Básicos de NumPy para Análisis de Datos

## Conceptos Fundamentales en Programación

Los conceptos más importantes en programación son:
1. Tipos de datos
2. Estructuras de datos
3. Algoritmos

Comprender claramente las diferencias entre estos tres conceptos es esencial para manejar fácilmente varios lenguajes de programación y resolver muchos errores.

### Tipo de Dato

- En ciencias de la computación y lenguajes de programación, un tipo de dato es una clasificación que identifica un tipo de dato como flotantes, enteros, booleanos, caracteres y cadenas, determinando también el tamaño del dato.
- Los tipos de datos varían según el lenguaje de programación, pero la mayoría de los conceptos de tipos de datos del lenguaje C han sido heredados y utilizados, influyendo en otros lenguajes.
- Cuando se introdujo C, la memoria era cara y difícil de almacenar en grandes cantidades. Como resultado, se diseñó para optimizar el uso del menor espacio posible, lo que eventualmente resultó en un problema de tamaño de datos.
- Por ejemplo, en C, los tipos de datos enteros se dividen en char (compatible con enteros), short, int y long. Cada tamaño en bytes difiere de los otros tipos de datos.

### Estructura de Datos

- En ciencias de la computación, la estructura de datos se refiere a la organización, gestión y almacenamiento de datos que permite un acceso y modificación eficientes.
- Una estructura de datos bien diseñada permite realizar operaciones con recursos mínimos, como tiempo de ejecución o capacidad de memoria.
- Existen varios tipos de estructuras de datos, cada una adaptada a operaciones y propósitos específicos.
- Al diseñar programas, la prioridad debe ser considerar y seleccionar la estructura de datos más apropiada, ya que la dificultad de implementación y el rendimiento del producto final dependen en gran medida de la estructura de datos elegida.

### Algoritmo

- Un algoritmo es la formulación de un conjunto de procedimientos o métodos para resolver cualquier problema soluble y se refiere a un procedimiento paso a paso para ejecutar un cálculo.
- Los algoritmos son cruciales en los campos del aprendizaje automático y el aprendizaje profundo, áreas que cubriremos en el futuro, ya que requieren trabajar con grandes cantidades de datos.
- En última instancia, como el rendimiento del algoritmo está directamente relacionado con el rendimiento de la estructura de datos, es fundamental saber exactamente dónde usar una determinada estructura de datos.

In [12]:
cadena_numeros = "1"
print(cadena_numeros+cadena_numeros)

11


In [13]:
print(int(cadena_numeros)+int(cadena_numeros))

2


## Tipos de Estructuras de Datos

![Estructuras de datos](https://innovationcampus.cl/wp-content/uploads/2024/07/Screenshot-2024-07-11-at-6.33.11 PM.png)



En Python, las estructuras de datos se pueden dividir en dos categorías principales:

1. Estructuras de datos primitivas: para tipos básicos
2. Estructuras de datos no primitivas: para almacenar eficazmente múltiples datos con tipos de datos básicos

![Tipo de estructuras de datos](https://innovationcampus.cl/wp-content/uploads/2024/07/Screenshot-2024-07-11-at-6.33.24 PM.png)


### Listas en Python

- La estructura de datos no primitiva más común y conveniente en Python es la lista.
- Las listas son flexibles porque su tamaño no es fijo y pueden almacenar varios tipos de datos diferentes (enteros, caracteres, etc.).
- Sin embargo, esta ventaja se vuelve inapropiada en los campos de aprendizaje automático y aprendizaje profundo, donde se deben procesar más datos de forma rápida y exclusivamente en números.

### Arrays y NumPy

- Para compensar las limitaciones de las listas, se utiliza la estructura de datos de array.
- Python no soporta directamente los arrays, pero se pueden usar a través de la biblioteca NumPy.
- Los arrays permiten operaciones más rápidas porque:
  1. Los computadores convierten los números decimales en formato binario para realizar operaciones rápidas.
  2. Utilizan el mismo tipo de datos numéricos para acceder y calcular cada elemento directamente sin repetición.

## Método de Almacenamiento en Memoria por Estructura de Datos

- Para comprender por qué las estructuras de datos de matriz permiten operaciones tan rápidas, primero debemos saber cómo se almacenan en la memoria para cada estructura de datos.
- Normalmente, en la mayoría de los idiomas, se hace referencia a una matriz como un grupo de datos creado al enumerar datos del mismo tipo y almacenarlos de forma contigua en la memoria.
- Cada valor que contiene se denomina elemento de una matriz. Estos elementos utilizan el número llamado índice, que siempre comienza en cero, para simplemente distinguir los elementos de una matriz. La mayoría de los tipos de datos se pueden configurar en una disposición y constan de una disposición unidimensional, una disposición bidimensional y una disposición tridimensional, según el tipo de configuración.
- Anteriormente se explicó que la estructura de datos era un concepto que se centraba principalmente en almacenar datos de forma eficaz. Descubrir cómo se almacenan los datos en la matriz y la lista es la forma precisa de comprender los pros y los contras de la matriz y saber el motivo de su uso.
- El siguiente es el proceso de acceder a los datos existentes al almacenarlos en una matriz y agregar y eliminar datos nuevos. Debes compararlo con la lista que sigue.
- Supongamos que tres datos con cadenas que representan los siguientes colores se almacenan en una matriz.

![Matriz](https://innovationcampus.cl/wp-content/uploads/2024/07/Screenshot-2024-07-11-at-6.33.32 PM.png)

- Se puede acceder a cada elemento a través de cada índice. Un índice es un número que representa un pedido. Los datos se almacenan secuencialmente en una ubicación contigua de la memoria, como se muestra en la siguiente figura.

![Matriz](https://innovationcampus.cl/wp-content/uploads/2024/07/Screenshot-2024-07-11-at-6.33.36 PM.png)

- Dado que los datos se almacenan en una ubicación contigua, se puede acceder a la dirección de la memoria con un índice y los datos se pueden seleccionar aleatoriamente para acceder a la ubicación deseada de los datos. Aquí hay una imagen donde los datos se acercan al rojo en la tercera habitación (expresaremos el concepto de una variable que almacena principalmente un valor como una habitación) y se acercan a la habitación azul. El acceso aleatorio es posible a través del índice.

![Matriz](https://innovationcampus.cl/wp-content/uploads/2024/07/Screenshot-2024-07-11-at-6.33.42 PM.png)

- Otra característica de la matriz es que agregar o eliminar datos en una ubicación específica requiere más cálculo y espacio en comparación con la lista. El cálculo aquí es que la CPU necesita más tiempo para calcular y también se necesita más espacio en la memoria.
- Considere agregar el valor "Verde" a la segunda posición.

![Matriz](https://innovationcampus.cl/wp-content/uploads/2024/07/Screenshot-2024-07-11-at-6.33.48 PM.png)

- En primer lugar, debemos asegurar espacio adicional al final del arreglo.

![Matriz](https://innovationcampus.cl/wp-content/uploads/2024/07/Screenshot-2024-07-11-at-6.33.54 PM.png)

- Para agregar datos al segundo espacio, los datos detrás del segundo espacio deben moverse hacia la derecha uno por uno.

![Matriz](https://innovationcampus.cl/wp-content/uploads/2024/07/Screenshot-2024-07-11-at-6.34.00 PM.png)

- Luego, los datos "verdes" se agregan al espacio vacío.

![Matriz](https://innovationcampus.cl/wp-content/uploads/2024/07/Screenshot-2024-07-11-at-6.34.04 PM.png)

- Por el contrario, al eliminar el segundo elemento, el valor "Verde", primero elimine el elemento y luego mueva el valor hacia la izquierda uno por uno para que no quede ningún espacio vacío.

![Matriz](https://innovationcampus.cl/wp-content/uploads/2024/07/Screenshot-2024-07-11-at-6.34.09 PM.png)

- Se completa eliminando el último espacio restante.

![Matriz](https://innovationcampus.cl/wp-content/uploads/2024/07/Screenshot-2024-07-11-at-6.34.14 PM.png)

- El siguiente es un método para almacenar datos en la estructura de datos de la lista.

![Matriz](https://innovationcampus.cl/wp-content/uploads/2024/07/Screenshot-2024-07-11-at-6.34.19 PM.png)

- Para comprender las listas, primero debe comprender el concepto de puntero. En términos simples, un puntero es un valor de dirección que apunta a un valor determinado.
- Como se muestra en la figura anterior, la habitación azul (el concepto de una variable que representa un valor se expresará como una habitación) apunta a la habitación amarilla. Digamos que la habitación azul tiene la dirección de la ubicación de memoria de la habitación amarilla. Entonces cada habitación puede apuntar a la siguiente habitación.

- Las listas no se almacenan secuencialmente sino en ubicaciones separadas.

![Matriz](https://innovationcampus.cl/wp-content/uploads/2024/07/Screenshot-2024-07-11-at-6.34.24 PM.png)

- Dado que el puntero del valor "Azul" se refiere a la dirección del valor "Amarillo" y el puntero del valor amarillo se refiere al valor "Rojo", se puede mantener el orden.

![Matriz](https://innovationcampus.cl/wp-content/uploads/2024/07/Screenshot-2024-07-11-at-6.34.29 PM.png)

- Dado que los datos se almacenan en direcciones no contiguas, se accede a los enfoques secuenciales a través del puntero que los precede.

![Matriz](https://innovationcampus.cl/wp-content/uploads/2024/07/Screenshot-2024-07-11-at-6.34.33 PM.png)

- Ahora, veamos el caso de agregar los datos "verdes".

![Matriz](https://innovationcampus.cl/wp-content/uploads/2024/07/Screenshot-2024-07-11-at-6.34.40 PM.png)

- Como se muestra en la imagen de arriba, usando cada puntero, el azul apunta al verde y el verde apunta al amarillo para agregar el verde.



### ¿Qué es NumPy?

- NumPy significa "Numerical Python" y es un paquete fundamental para la Ciencia de Datos en Python.
- Proporciona objetos de arrays multidimensionales, varios objetos derivados (como matrices) y una colección de rutinas para operaciones rápidas en arrays.
- Soporta transformadas de Fourier discretas, álgebra lineal básica, operaciones estadísticas básicas y simulaciones aleatorias.
- El objeto ndarray es el núcleo del paquete NumPy, procesando arrays n-dimensionales de tipos de datos homogéneos.

### Diferencias entre Arrays de NumPy y Secuencias Estándar de Python

1. Los arrays de NumPy tienen un tamaño fijo al generarse, a diferencia de las listas de Python.
2. Los elementos de un array NumPy son de tipo de dato homogéneo, ocupando el mismo tamaño en memoria.
3. Los arrays de NumPy permiten cálculos matemáticos avanzados y otros tipos de operaciones en grandes cantidades de datos de manera eficiente.
4. Muchos paquetes científicos y matemáticos basados en Python utilizan arrays de NumPy.

### ¿Por qué usar Arrays de NumPy?

- Permiten una amplia variedad de operaciones de procesamiento de datos a través de operaciones de array concisas, en lugar de bucles.
- El uso de la computación de arrays para eliminar explícitamente los bucles se llama Vectorización.
- Las operaciones matemáticas para arrays vectorizados son típicamente de dos a tres, o incluso diez o cien veces más rápidas que las operaciones puras de Python.
- NumPy es la estructura de datos básica en scikit-learn, una biblioteca de aprendizaje automático de Python.

## Conceptos Básicos de NumPy

### Importación de la Biblioteca NumPy

Para una mejor legibilidad del código, se abrevia NumPy como np. Esta es una convención adoptada por todos los que trabajan con código para que pueda entenderse fácilmente.

```python
import numpy as np

En Python, los objetos generalmente tienen propiedades y métodos. La propiedad es otro objeto Python almacenado dentro del objeto, y el método se refiere a una función que permite acceder a los datos internos del objeto. Se puede acceder en la forma np.nombre_atributo.


### NumPy ndarray
Un objeto de array n-dimensional se llama ndarray. Se puede usar para procesar y almacenar grandes conjuntos de datos.

> Arreglos rápidos y flexibles que utilizan una gramática similar para operaciones entre elementos escalares.

> Utilizan operaciones matemáticas para todo el bloque de datos.


### Creación de Arrays
Creación de Arrays a partir de Secuencias
Primero, se puede crear un array a partir de una secuencia (lista, tupla, array, conjunto).


In [14]:
import numpy as np

In [15]:
arr1 = np.array([1, 2, 3, 4, 5])
print(arr1)

[1 2 3 4 5]


Creación de Arrays con Tuplas


In [16]:
arr2 = np.array((1, 2, 3, 4, 5))
print(arr2)

[1 2 3 4 5]


Creación de Arrays con Diccionarios


In [17]:
arr3 = np.array({'a': 1, 'b': 2, 'c': 3})
print(arr3)

{'a': 1, 'b': 2, 'c': 3}


Creación de Arrays con Conjuntos


In [18]:
arr4 = np.array({1, 2, 3, 4, 5})
print(arr4)

{1, 2, 3, 4, 5}


Normalmente, las listas se usan comúnmente para crear arrays.
Creación de Arrays con arange
Este es el mismo concepto que range en Python estándar. Para arrays NumPy, use np.arange.


In [19]:
arr5 = np.arange(5)
print(arr5)

[0 1 2 3 4]


Use el método len() y la propiedad size para el tamaño del array.


In [20]:
print(len(arr5))
print(arr5.size)

5
5


### Tipos de Datos en Arrays NumPy
El array NumPy trata cada elemento convirtiéndolo al mismo tipo de datos.

Los arrays NumPy procesan el mismo tipo rápida y efectivamente, como una de sus características.
Aunque se pueden hacer arrays con diferentes tipos, cada tipo se convierte al mismo tipo.
Debido al punto decimal en el tipo entero, el array se convierte en float cuando los tipos entero, float y booleano están juntos.

Los tipos de datos de NumPy son los siguientes:

> int8, int16, int32, int64

> uint8, uint16, uint32, uint64

> float16, float32, float64

> complex64, complex128

> bool

> object
> string_, unicode_

Para más detalles, consulta la documentación oficial de NumPy sobre dtypes.
Creación de Arrays con la Función linspace
La función linspace crea un array con valores espaciados linealmente. Ver help(np.linspace) para más detalles.


In [21]:
arr6 = np.linspace(0, 10, 5)
print(arr6)

[ 0.   2.5  5.   7.5 10. ]


Creación de Arrays con np.zeros() y np.ones()


In [22]:
arr7 = np.zeros(5)
print(arr7)

arr8 = np.ones(5)
print(arr8)

[0. 0. 0. 0. 0.]
[1. 1. 1. 1. 1.]


### Arrays Multidimensionales
Un array multidimensional se refiere a un array de dos o más dimensiones. Se puede hacer en forma de lista dentro de lista.


In [23]:
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
print(arr_2d)
print(arr_2d.ndim)  # Comprueba las dimensiones del array

[[1 2 3]
 [4 5 6]]
2


In [31]:
test1 = np.array([[9,8,7], [6,7,8]])

In [32]:
print(test1)

[[9 8 7]
 [6 7 8]]


In [33]:
print(type(test1))

<class 'numpy.ndarray'>


In [34]:
print(test1.ndim)

2


In [36]:
test2 = np.array([1,2,3])

In [37]:
print(type(test2))

<class 'numpy.ndarray'>


In [38]:
print(test2.ndim)

1


In [42]:
x = np.array([[0, 1, 2, 3, 4],
              [5, 6, 7, 8, 9]], dtype=np.int32)

In [43]:
x.strides

(20, 4)

Creación de formas bidimensionales usando np.zeros()


In [24]:
arr_2d_zeros = np.zeros((3, 4))
print(arr_2d_zeros)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


Cuando se crea, el elemento dentro normalmente es un float. Si quieres cambiarlo a entero:


In [25]:
arr_2d_zeros_int = np.zeros((3, 4), dtype=int)
print(arr_2d_zeros_int)

[[0 0 0 0]
 [0 0 0 0]
 [0 0 0 0]]


### Propiedades de los Arrays NumPy

> ndim: Número de dimensiones

> shape: Forma del array (tupla con las dimensiones)

> size: Número total de elementos

> dtype: Tipo de datos de los elementos

In [26]:
print(arr_2d.ndim)
print(arr_2d.shape)
print(arr_2d.size)
print(arr_2d.dtype)

2
(2, 3)
6
int64


## Operaciones Avanzadas con NumPy

### Reshaping (Cambio de Forma)

El reshaping permite cambiar la forma de un array sin modificar sus datos.

```python
# Crear un array unidimensional
arr = np.arange(12)
print("Array original:", arr)

# Reshape a 3x4
reshaped_arr = arr.reshape(3, 4)
print("Array con nueva forma (3x4):")
print(reshaped_arr)

# Cambiar la forma directamente
arr.shape = (2, 6)
print("Array con forma cambiada (2x6):")
print(arr)

### Números Aleatorios
NumPy proporciona funciones para generar números aleatorios.


In [27]:
# Generar datos que siguen una distribución normal estándar (media 0, desviación estándar 1)
random_data = np.random.randn(5)
print("Datos aleatorios:", random_data)

# Crear un array 2D de 100x100 con números aleatorios
data2 = np.random.randn(100, 100)
print("Forma del array 2D:", data2.shape)

Datos aleatorios: [-0.22797526  0.28497672  0.46246495  1.71580391 -1.86065022]
Forma del array 2D: (100, 100)


### Comparación de Rendimiento: Listas de Python vs Arrays de NumPy
Vamos a comparar el rendimiento de una lista de Python y un array de NumPy al almacenar y operar con un millón de enteros.


In [28]:
import time

# Crear un array NumPy de 1 millón de elementos
np_arr = np.arange(1000000)

# Crear una lista de Python de 1 millón de elementos
py_list = list(range(1000000))

# Función para medir el tiempo de ejecución
def time_execution(func):
    start = time.time()
    func()
    end = time.time()
    return end - start

# Operación con NumPy
def numpy_operation():
    return np_arr * 2

# Operación con lista de Python
def python_list_operation():
    return [x * 2 for x in py_list]

# Medir tiempo para NumPy
numpy_time = time_execution(numpy_operation)
print(f"Tiempo de ejecución con NumPy: {numpy_time:.5f} segundos")

# Medir tiempo para lista de Python
python_time = time_execution(python_list_operation)
print(f"Tiempo de ejecución con lista de Python: {python_time:.5f} segundos")

# Calcular la diferencia de velocidad
speed_difference = python_time / numpy_time
print(f"NumPy es aproximadamente {speed_difference:.2f} veces más rápido")

Tiempo de ejecución con NumPy: 0.00499 segundos
Tiempo de ejecución con lista de Python: 0.07778 segundos
NumPy es aproximadamente 15.60 veces más rápido


### Explicación de la Diferencia de Rendimiento

Vectorización: NumPy utiliza operaciones vectorizadas, que son mucho más rápidas que los bucles en Python puro.

Implementación en C: Las operaciones de NumPy están implementadas en C, lo que las hace más rápidas que el código Python interpretado.
Optimización de memoria: NumPy utiliza arrays contiguos en memoria, lo que mejora la eficiencia de acceso a los datos.

Tipos de datos homogéneos: Los arrays de NumPy contienen elementos del mismo tipo, lo que permite optimizaciones adicionales.

Operaciones Adicionales con Arrays de NumPy
Agregar Elementos a Arrays de NumPy


In [29]:
# Agregar un valor a un array unidimensional
arr = np.array([1, 2, 3, 4, 5])
new_arr = np.append(arr, 6)
print("Array con nuevo elemento:", new_arr)

# Agregar elementos a un array bidimensional
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
new_row = np.array([[7, 8, 9]])
new_arr_2d = np.append(arr_2d, new_row, axis=0)
print("Array 2D con nueva fila:")
print(new_arr_2d)

Array con nuevo elemento: [1 2 3 4 5 6]
Array 2D con nueva fila:
[[1 2 3]
 [4 5 6]
 [7 8 9]]


### Eliminar Elementos de Arrays de NumPy


In [30]:
# Eliminar un elemento de un array unidimensional
arr = np.array([1, 2, 3, 4, 5])
new_arr = np.delete(arr, 2)  # Elimina el elemento en el índice 2
print("Array con elemento eliminado:", new_arr)

# Eliminar una fila de un array bidimensional
arr_2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
new_arr_2d = np.delete(arr_2d, 1, axis=0)  # Elimina la segunda fila
print("Array 2D con fila eliminada:")
print(new_arr_2d)

Array con elemento eliminado: [1 2 4 5]
Array 2D con fila eliminada:
[[1 2 3]
 [7 8 9]]


# Tarea

Hacer ejemplos similares al título de Reshaping y números aleatorios explicando los resultados en un comentario o en markdown. Puede ser un ejemplo muy parecido, con otros números, pero con explicaciones propias de usted

> Enviar a mi correo