# Arrays de Datos en NumPy

**Curso:** Python para Ciencia de Datos
**Tema:** Análisis de datos con Arrays de NumPy
**Fecha:** 03 de Octubre, 2025

---

## ¿Qué es un Array en NumPy?

**Definición:** Es una estructura de datos homogénea organizada en una o más dimensiones, esencial para cálculos matemáticos en Python.

### Ventajas de los Arrays sobre Listas

1. **Eficiencia:** Son más eficientes y usan menos memoria que las listas nativas de Python
2. **Funciones avanzadas:** Ofrecen funciones matemáticas y estadísticas avanzadas, ideales para análisis de información y procesamiento de datos complejos
3. **Orientado a objetos:** Son instancias de una clase, por lo que se puede acceder a atributos y métodos especializados

In [None]:
import numpy as np

## Atributos de los Arrays

Los arrays tienen atributos que nos dan información sobre su estructura:

In [None]:
array = np.array([[1, 2, 3], [4, 5, 6]])

print("Array:")
print(array)
print('-' * 100)

# Para conocer las dimensiones del array
print("Número de dimensiones (ndim):")
print(array.ndim)
print('-' * 100)

# Para conocer el cuánto por cuánto son sus dimensiones
print("Forma del array (shape):")
print(array.shape)  # (2, 3) = 2 filas, 3 columnas
print('-' * 100)

# Para conocer el tipo de datos
print("Tipo de datos (dtype):")
print(array.dtype)
print('-' * 100)

---

## dtype: Tipo de Datos

**Definición:** Es el objeto de NumPy que describe el tipo de elementos en el array. Indica el tipo de datos que se tiene dentro del array (int, float, string, etc).

### Tipos de Datos Comunes

| Tipo | Descripción | Uso |
|------|-------------|-----|
| `int8` | Enteros de 8 bits (-128 a 127) | Valores pequeños |
| `uint8` | Enteros sin signo (0 a 255) | Valores no negativos pequeños |
| `int32` | Enteros de 32 bits | Valores enteros estándar |
| `float32` | Flotantes de 32 bits | Cálculos con precisión moderada, ahorra memoria |
| `float64` | Flotantes de 64 bits | Cálculos científicos con alta precisión (por defecto) |
| `bool` | Booleanos | True/False |
| `complex64` | Números complejos de 64 bits | Cálculos con números complejos |
| `str` | Cadenas de texto | Datos textuales |

### Especificar el Tipo de Datos al Crear Arrays

Podemos definir explícitamente el tipo de datos usando el parámetro `dtype`:

In [None]:
# Escalar con tipo específico
z = np.array(3, dtype=np.int8)
print("Escalar int8:", z)
print('-' * 100)

# Forma explícita
double_array = np.array([1, 2, 3], dtype=np.float64)
print("Array float64 (explícito):", double_array)

# Forma abreviada ('d' = float64)
double_array_short = np.array([1, 2, 3], dtype='d')
print("Array float64 (abreviado 'd'):", double_array_short)
print('-' * 100)

### Conversión de Tipos con `astype()`

Podemos cambiar el tipo de datos de un array existente:

In [None]:
# Convertir de int8 a float64
z = np.array(3, dtype=np.int8)
z_float = z.astype(np.float64)
print("Original (int8):", z)
print("Convertido (float64):", z_float)
print('-' * 100)

---

## Operaciones Aritméticas con NumPy

NumPy ofrece funciones matemáticas y estadísticas integradas:

In [None]:
array = np.array([[1, 2, 3], [4, 5, 6]])

# Suma de todos los elementos
suma = np.sum(array)
print("Suma total:", suma)
print('-' * 100)

# Promedio de todos los elementos
media = np.mean(array)
print("Promedio:", media)
print('-' * 100)

# Desviación estándar
des_estandar = np.std(array)
print("Desviación estándar:", des_estandar)
print('-' * 100)

---

## NaN (Not a Number)

**Definición:** NaN es un valor especial utilizado para representar datos que no son números, especialmente en operaciones matemáticas sin resultado definido.

**Casos de uso:**
- División 0/0
- Raíz cuadrada de un número negativo
- Datos faltantes en datasets

**Utilidad:** Muy útil para manejar datos faltantes o resultados indefinidos en análisis de datos.

In [None]:
# Array con valores NaN
nan_array = np.array([1, 2, np.nan, 4, np.nan])
print("Array con NaN:", nan_array)
print('-' * 100)

# Detectar valores NaN
print("¿Hay NaN?:", np.isnan(nan_array))
print('-' * 100)

# Contar cuántos NaN hay
print("Cantidad de NaN:", np.sum(np.isnan(nan_array)))

---

## Métodos de Creación de Arrays (Repaso)

NumPy proporciona diversas maneras de crear arrays:

### Desde Listas
```python
array_1d = np.array([1, 2, 3, 4])
array_2d = np.array([[1, 2, 3], [4, 5, 6]])

---

## Pregunta de Reflexión

**¿Cuál crees que es la principal diferencia entre uso de listas y uso de arrays que nos va a ayudar en los proyectos?**

Respuesta esperada:
- **Rendimiento:** Los arrays son más rápidos y eficientes con grandes volúmenes de datos
- **Funciones especializadas:** Operaciones matemáticas y estadísticas integradas
- **Vectorización:** Operaciones en todo el array sin loops explícitos
- **Consistencia de tipos:** Todos los elementos son del mismo tipo

In [None]:
# Espacio para la experimentación

'''
EJERCICIO 1: Creación y Análisis Básico
Crea un array 3x4 con números del 1 al 12
Imprime: sus dimensiones, forma y tipo de datos
'''

# Tu código aquí:

# Existe la forma de crear las dimensiones de un array (matriz) desde un método sin tener que usar la manualidad
matriz1 = np.arange(1, 13).reshape(3, 4)
print('-' * 100)
print(matriz1)
print('-' * 100)
# Para conocer las dimensiones del array
print("Número de dimensiones (ndim):")
print(matriz1.ndim)
print('-' * 100)

# Para conocer el cuánto por cuánto son sus dimensiones
print("Forma del array (shape):")
print(matriz1.shape)  # (2, 3) = 2 filas, 3 columnas
print('-' * 100)

# Para conocer el tipo de datos
print("Tipo de datos (dtype):")
print(matriz1.dtype)
print('-' * 100)

In [None]:
'''
EJERCICIO 2: Conversión de Tipos
Crea un array con los números [10, 20, 30, 40, 50] como enteros (int32)
Conviértelo a float64
Imprime ambos arrays y sus tipos de datos
'''
# Tu código aquí:

array_1 = np.array([10, 20, 30, 40, 50], dtype=np.int32)
print('-' * 100)
print(array_1)
print(array_1.dtype)
print('-' * 100)

# Conversión

array_2 = array_1.astype(np.float64)

print(array_2)
print(array_2.dtype)

In [None]:
'''
EJERCICIO 3: Operaciones Estadísticas
Dado el siguiente array de temperaturas de una semana:
'''
temperaturas = np.array([22.5, 24.0, 23.5, 25.0, 26.5, 24.5, 23.0])

# Calcula:
# a) La temperatura promedio
# b) La temperatura máxima (usa np.max())
# c) La temperatura mínima (usa np.min())
# d) La desviación estándar

# Tu código aquí:

# a. Solución
promedio = np.mean(temperaturas)
# b. Solución
maxima = np.max(temperaturas)
# c. Solución
minima = np.min(temperaturas)
# d. Solución
desviacion = np.std(temperaturas)

print('-' * 100)
print(f"El promedio del array es: {promedio}. \nLa temperatura maxima del array es: {maxima} \nla temperatura minima es: {minima} \ny la desviación estandar es: {desviacion}")
print('-' * 100)
print(f"Promedio: {promedio:.2f}")
print(f"Temperatura máxima: {maxima}")
print(f"Temperatura mínima: {minima}")
print(f"Desviación estándar: {desviacion:.2f}")
print('-' * 100)



In [None]:
'''
# EJERCICIO 4: Manejo de NaN
# Crea un array con valores: [100, 200, NaN, 400, NaN, 600]
# a) Cuenta cuántos valores NaN hay
# b) Reemplaza los NaN por 0 usando np.nan_to_num()
# c) Calcula el promedio solo de los valores válidos (usa np.nanmean())
'''

# Tu código aquí:

array_3 = np.array([100, 200, np.nan, 400, np.nan, 600])
# Cantidad de valores NaN
cantidad_nulos = np.sum(np.isnan(array_3))
print(cantidad_nulos)
print('-' * 100)

array_sin_nan = np.nan_to_num(array_3).astype(np.float64)
array_int = array_sin_nan.astype(np.int32)
print(array_int)

# Transformando los nan en 0 y luego generando el cálculo del promedio, tener en cuenta que esto es una mala praxis, puesto a que los valores nulos que se transforman en 0 desdibujan el dato
print(np.nanmean(array_int))

# Forma correcta y directa de tratar con estos problemas de NaN
print(np.nanmean(array_3))

In [None]:
'''
EJERCICIO 5: Desafío Integrador
Simula las notas de 5 estudiantes en 3 materias usando np.random.randint()
    - Notas entre 60 y 100
    - Matriz de 5 filas (estudiantes) x 3 columnas (materias)
'''
#
# Calcula:
# a) El promedio de cada estudiante (por fila, usa axis=1)
# b) El promedio de cada materia (por columna, usa axis=0)
# c) El estudiante con mejor promedio
# d) La materia más difícil (menor promedio)

# Pista: investiga el parámetro 'axis' en np.mean()

# Tu código aquí:

matriz_notas = np.random.randint(low=60, high=100, size=15).reshape(5, 3)
print(matriz_notas)
print('-' * 100)

# Promedio de notas de cada estudiante
promedio_estudiantes = np.mean(matriz_notas, axis=1)
print(promedio_estudiantes)
print('-' * 100)


# Promedio de notas de cada materia
promedio_materias = np.mean(matriz_notas, axis=0)
print(promedio_materias)
print('-' * 100)

mejor_estudiante_idx = np.argmax(promedio_estudiantes)
materia_dificil_idx = np.argmin(promedio_materias)

print(f"Mejor estudiante: #{mejor_estudiante_idx + 1} con promedio {promedio_estudiantes[mejor_estudiante_idx]:.2f}")
print(f"Materia más difícil: Materia {materia_dificil_idx + 1} con promedio {promedio_materias[materia_dificil_idx]:.2f}")




---

## Resumen

- **Arrays:** Estructuras homogéneas más eficientes que listas
- **Atributos clave:** `ndim`, `shape`, `dtype`
- **Tipos de datos:** int8, uint8, float32, float64, bool, complex, str
- **Conversión:** `astype()` para cambiar tipos
- **Operaciones:** `sum()`, `mean()`, `std()` y más
- **NaN:** Representa datos faltantes o indefinidos

**Próximos pasos:** Indexación y slicing de arrays para acceder a subconjuntos específicos de datos.

In [54]:
import numpy as np

A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

suma = A + B
print("Suma de matrices:\n", suma)

Suma de matrices:
 [[ 6  8]
 [10 12]]
