# Operaciones matemáticas y trigonométricas: Raíz cuadrada, exponente y logaritmo

In [2]:
import numpy as np

g = np.array([1, 4, 9])

# Raíz cuadrada: Aunque las normas L1 y L2 son más comunes para regularización y normalización, la raíz cuadrada en sí misma puede aparecer en algunos casos de preprocesamiento de datos para reducir la varianza o ajustar la distribución.
h = np.sqrt(g)
print("Raíz cuadrada:", h)

#---------------------------------------------
### Ejemplo de aplicación de np.sqrt a transformación de datos sesgados
# La raíz cuadrada es una transformación común para datos sesgados, ya que reduce la asimetría y hace que los datos se parezcan más a una distribución normal. Esto puede ser útil para ciertos modelos de Machine Learning que asumen normalidad en los datos. Por ejemplo, si tenemos datos que siguen una distribución exponencial, aplicar la raíz cuadrada puede hacer que se parezcan más a una distribución normal. 

datos_originales = np.array([1, 10, 100, 1000])
transformados = np.sqrt(datos_originales)
print("Datos transformados con raíz cuadrada:", transformados)


#---------------------------------------------

### Ejemplo de aplicación de np.sqrt a evaluación de modelos de Machine Learning (RMSE)

""" El error cuadrático medio (RMSE) es una métrica común para evaluar la precisión de un modelo de Machine Learning, y se calcula de la siguiente manera:
1. Se calcula la diferencia entre cada predicción y el valor real.
2. Se eleva al cuadrado cada diferencia (para evitar números negativos y dar más peso a los errores grandes).
3. Se saca el promedio de todos estos errores cuadrados.
4. Se toma la raíz cuadrada para que la métrica vuelva a estar en la misma escala que los datos originales."""

# Valores reales y predichos
y = np.array([3, 5, 2, 7])
y_pred = np.array([2.8, 4.9, 2.1, 6.8])

# Calcular el error cuadrático (y - y_pred)^2
errors = (y - y_pred) ** 2 # Para que todos los errores se sumen de manera positiva (y no se cancelen entre sí), elevamos al cuadrado las diferencias entre las predicciones y los resultados reales.

# Calcular el error cuadrático medio (MSE)
mse = np.mean(errors) #Sumamos todos los errores cuadrados y luego los dividimos por la cantidad de ejemplos que tenemos

# Tomar la raíz cuadrada para obtener RMSE
rmse = np.sqrt(mse) #Tomamos la raíz cuadrada del MSE para que la métrica vuelva a estar en la misma escala que los datos originales.

# Mostrar el resultado
print(f"RMSE: {rmse}")
#El RMSE es 0.1581, lo que indica el promedio de la magnitud del error en las predicciones del modelo, en la misma unidad que los valores originales. Un RMSE bajo indica que el modelo tiene una buena precisión en sus predicciones.

# También se puede calcular el RMSE con la función mean_squared_error de Scikit-learn
from sklearn.metrics import root_mean_squared_error  
rmse_sklearn = root_mean_squared_error(y, y_pred)  
print("RMSE con Scikit-learn:", rmse_sklearn)


#---------------------------------------------

# Exponente: En modelos de clasificación, softmax convierte salidas de la red neuronal en probabilidades
i = np.exp(g)
print("Exponente:", i)

#---------------------------------------------
### Ejemplo de aplicación de np.exp a evaluación de modelos de Machine Learning (RMSE)

# PASO 1: Definir los logits (puntuaciones sin procesar del modelo)
logits = np.array([2.0, 1.0, 0.1])  
# Estos valores representan la confianza del modelo en tres clases diferentes

# PASO 2: Aplicar la función exponencial a cada valor
exp_values = np.exp(logits)  
# Esto convierte los valores en números positivos más grandes, manteniendo la relación entre ellos
# Por ejemplo, e^2, e^1, e^0.1 se convierten en [7.389, 2.718, 1.105]

# PASO 3: Normalizar dividiendo por la suma total de exponentes
probabilities = exp_values / np.sum(exp_values)  
# Ahora, cada valor se divide por la suma total, asegurando que las probabilidades sumen 1

# PASO 4: Imprimir el resultado
print("Probabilidades softmax:", probabilities)  
# Esto devuelve algo como: [0.659, 0.242, 0.099], lo que significa:
# - La primera clase (Gato) tiene un 65.9% de probabilidad de ser la correcta.
# - La segunda clase (Perro) tiene un 24.2%.
# - La tercera clase (Conejo) tiene solo un 9.9%.

"""
Podemos crear nuestra propia función softmax:
def softmax(logits):
    " " " 
    Calcula la función softmax sobre un conjunto de valores (logits).

    Args:
        logits (array): Array de números que representan puntuaciones sin procesar de un modelo.

    Returns:
        array: Probabilidades normalizadas que suman 1.
    " " " 
    exp_values = np.exp(logits)  # Aplicamos la función exponencial a cada elemento
    return exp_values / np.sum(exp_values)  # Normalizamos dividiendo por la suma total

"""

# Esto también se puede hacer con la función softmax de Scikit-learn
from sklearn.utils.extmath import softmax  # Importamos la función softmax de Scikit-learn

# Aplicar la función softmax
probabilities_sklearn = softmax(logits.reshape(1, -1))

# Imprimir el resultado
print("Probabilidades softmax con Scikit-learn:", probabilities_sklearn)

# O también con la función softmax de scipy
from scipy.special import softmax  # Importamos la función softmax de scipy

# Definir los logits (valores sin procesar)
logits = np.array([2.0, 1.0, 0.1])

# Calcular softmax con scipy
probabilities = softmax(logits)

# Mostrar el resultado
print("Probabilidades softmax con Spicy:", probabilities)


#---------------------------------------------

# Logaritmo: El logaritmo natural se usa en Machine Learning y Deep Learning en varias áreas, especialmente en funciones de pérdida, optimización y modelado probabilístico. Cuando entrenamos modelos de clasificación, una métrica común para medir el rendimiento es la pérdida logarítmica (log loss), que usa el logaritmo natural para penalizar predicciones incorrectas. En optimización, el logaritmo natural también se usa en algoritmos de descenso de gradiente para actualizar los pesos de la red neuronal. En modelado probabilístico, el logaritmo natural se usa para convertir productos en sumas, lo que facilita el cálculo de probabilidades.

"""
100% --> LLUEVE y realemento no llueve - MUY EQUIVOCADO - X --> PÉRDIDA ENORME
50% --> LLUEVE y el día está medio bien - ESTA MEDIO BIEN - X --> PÉRDIDA MEDIA
90% --> LLUEVE y finalmente llueve - HA HECHO UNA BUENA PREDICCIÓN - OK --> PÉRDIDA PEQUEÑA

"""

j = np.log(g)
print("Logaritmo:", j)

#---------------------------------------------
### Ejemplo de cálculo manual de Log Loss

# 1: Etiquetas reales (1 = gato, 0 = no gato)
y_true = np.array([1, 0, 1, 0])

# 2: Predicciones del modelo (probabilidad de ser un gato)
y_pred = np.array([0.9, 0.2, 0.8, 0.1])  # Valores entre 0 y 1

# 3: Cálculo de Log Loss
log_loss = -np.mean(y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred))

# FÓRMULA DE LA ENTROPÍA CRUZADA BINARIA


"""
def log_loss(y_true, y_pred):
    return -np.mean(y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred))

- Si las predicciones son muy precisas (las probabilidades están cerca de 1 para etiquetas 1 y cerca de 0 para etiquetas 0), la log loss será baja.
- Si las predicciones están lejos de las etiquetas reales, la log loss será alta.
- Penaliza fuertemente las predicciones erróneas con alta confianza (por ejemplo, predecir 0.99 cuando la etiqueta real es 0).

"""

# 4: Imprimir el resultado
print(f"Log Loss calculado manualmente: {log_loss}")

# Esto también se puede hacer con la función log_loss de Scikit-learn
from sklearn.metrics import log_loss

log_loss_sklearn = log_loss(y_true, y_pred)
print(f"Log Loss con Scikit-Learn: {log_loss_sklearn}")

Raíz cuadrada: [1. 2. 3.]
Datos transformados con raíz cuadrada: [ 1.          3.16227766 10.         31.6227766 ]
RMSE: 0.15811388300841903
RMSE con Scikit-learn: 0.15811388300841903
Exponente: [2.71828183e+00 5.45981500e+01 8.10308393e+03]
Probabilidades softmax: [0.65900114 0.24243297 0.09856589]
Probabilidades softmax con Scikit-learn: [[0.65900114 0.24243297 0.09856589]]
Probabilidades softmax con Spicy: [0.65900114 0.24243297 0.09856589]
Logaritmo: [0.         1.38629436 2.19722458]
Log Loss calculado manualmente: 0.16425203348601802
Log Loss con Scikit-Learn: 0.16425203348601802


# Ordenamiento

In [26]:
edades = np.array([25, 30, 18, 40, 35, 22, 45, 50])

# Ordenar edades de menor a mayor
edades_ordenadas = np.sort(edades)
print("Edades ordenadas:", edades_ordenadas)

# Crear un array 1D desordenado
arr_1d = np.array([5, 2, 9, 1, 7, 3])

# Ordenar un array 1D (retorna una copia ordenada, el array original no se modifica)
arr_sorted = np.sort(arr_1d)
print("Copia ordenada:", arr_sorted)


# Ordenar un array 1D en su lugar (modifica el array original)
arr_1d.sort()
print("Copia ordenada:", arr_1d)

# Crear un array 2D desordenado
arr_2d = np.array([[9, 4, 2],
  [6, 1, 7], 
  [5, 3, 8]])

# Ordenar un array 2D por columnas
arr_sorted_columns = np.sort(arr_2d, axis=0)
print("Columnas ordenadas:", arr_sorted_columns)


# Ordenar un array 2D por filas
arr_sorted_rows = np.sort(arr_2d, axis=1)
print("Filas ordenadas:", arr_sorted_rows)
 
#MINIEJERCICIO

# Fijamos una semilla para que los números aleatorios no varien
np.random.seed(42)
# El número 42 en programación es un número mágico que se usa como referencia a la serie de libros de Douglas Adams "Guía del autoestopista galáctico". En la serie, el número 42 es la respuesta a la pregunta fundamental de la vida, el universo y todo lo demás.

# Crear una matriz 2D de números aleatorios
matriz = np.random.randint(1, 100, (2, 3))

#Ordenadamos el array 2D por columnas
matriz_ordenada_columnas = np.sort(matriz, axis=0)

#Ordenadamos el array 2D por filas
matriz_ordenada_filas = np.sort(matriz, axis=1)

#Imprimimos los resultados
print("Matriz original:\n", matriz)
print("Matriz ordenada por columnas:\n", matriz_ordenada_columnas)
print("Matriz ordenada por filas:\n", matriz_ordenada_filas)


#CASA- 3
#CASANOVA - 4
#ANA - 1
#ANDAMIO - 2
#PERRO - 5
#PÉRTIGA - 6
#TUCÁN - 7
#TUCUMÁN - 8


Edades ordenadas: [18 22 25 30 35 40 45 50]
Copia ordenada: [1 2 3 5 7 9]
Copia ordenada: [1 2 3 5 7 9]
Columnas ordenadas: [[5 1 2]
 [6 3 7]
 [9 4 8]]
Filas ordenadas: [[2 4 9]
 [1 6 7]
 [3 5 8]]
Matriz original:
 [[52 93 15]
 [72 61 21]]
Matriz ordenada por columnas:
 [[52 61 15]
 [72 93 21]]
Matriz ordenada por filas:
 [[15 52 93]
 [21 61 72]]


# Búsquedas y filtros

In [34]:
# 1. Buscar el índice del valor mínimo en un array 1D
#Copia ordenada: [1 2 3 5 7 9]
min_index = np.argmin(arr_1d)
print("Index del valor mínimo:", min_index)

# 2. Buscar el índice del valor máximo en un array 1D
max_index = np.argmax(arr_1d)
print("Index del valor máximo:", max_index)

# 3. Buscar valores que cumplan ciertos criterios en un array
arr_filtered = arr_1d[arr_1d > 3]
print("Array filtrado:", arr_filtered)

# 4. Encontrar los índices de los elementos que cumplen ciertos criterios en un array
indices = np.where(arr_1d > 3)
print("Index de los array filtrados:",indices)

# -- Ejemplo aparte

# Crear un array 1D de temperaturas
temperaturas = np.array([15, 20, 25, 30, 35, 40, 45, 50])

# Establecer una codición para clasificar las temperaturas como "Calor" o "Frío"
resultado_temperaturas = np.where(temperaturas >= 30, "Calor", "Frío") #np.where(condición, valor si es verdadero, valor si es falso)

#Imprimir los resultados
print("Resultado temperaturas:", resultado_temperaturas)

#Miniejercicio: Crea un vector de edades de 9 elementos y clasifica las edades en "Jóvenes" o "Adultos" según si son menores o mayores de 37 años.

# 5. Filtrar datos de un array 1D
precios = np.array([50, 100, 150, 200, 250, 300, 350, 400])

# Filtrar precios menores o iguales a 200
precios_filtrados = precios[precios <= 200]
print("Precios filtrados:", precios_filtrados)

# 6. Encontrar los índices de los elementos que cumplen ciertos criterios en un array 1D
indices = np.where(precios <= 200)
print("Índices de los precios filtrados:", indices)

# 7. Filtrar datos de un array 2D
datos = np.array([[5, 10, 15],
  [20, 25, 30],
  [35, 40, 45],
  [50, 55, 60]])

# Filtrar datos mayores a 25
datos_filtrados = datos[datos > 25]
print("Datos filtrados de la matriz 2D:", datos_filtrados)

# 8. Encontrar los índices de los elementos que cumplen ciertos criterios en un array 2D
indices = np.where(datos > 25)
print("Índices filtrados de la matriz 2D:", indices)

# 9. Reemplazar valores en un array 1D
calificaciones = np.array([85, 90, 78, 92, 76, 65, 98, 89])

print("Calificaciones originales:", calificaciones)

# Reemplazar calificaciones menores a 80 por 80
calificaciones[calificaciones < 80] = 80
print("Calificaciones reemplazadas:", calificaciones)

# 10. Reemplazar valores en un array 2D
notas = np.array([[85, 90, 78],
  [92, 76, 65],
  [98, 89, 80]])

# Reemplazar notas menores a 80 por 80
notas[notas < 80] = 80
print("Notas reemplazadas:\n", notas)

# MINIEJERCICIO: Crea una matriz de 5 dimensiones con valores aleatorios entre 1 y 100 y reemplaza los valores menores a 50 por 50.



Index del valor mínimo: 0
Index del valor máximo: 5
Array filtrado: [5 7 9]
Index de los array filtrados: (array([3, 4, 5]),)
Resultado temperaturas: ['Frío' 'Frío' 'Frío' 'Calor' 'Calor' 'Calor' 'Calor' 'Calor']
Precios filtrados: [ 50 100 150 200]
Índices de los precios filtrados: (array([0, 1, 2, 3]),)
Datos filtrados de la matriz 2D: [30 35 40 45 50 55 60]
Índices filtrados de la matriz 2D: (array([1, 2, 2, 2, 3, 3, 3]), array([2, 0, 1, 2, 0, 1, 2]))
Calificaciones originales: [85 90 78 92 76 65 98 89]
Calificaciones reemplazadas: [85 90 80 92 80 80 98 89]
Notas reemplazadas:
 [[85 90 80]
 [92 80 80]
 [98 89 80]]


# UFUNCS

Las funciones universales (ufunc) son funciones que operan sobre arrays de NumPy elemento
por elemento, de manera similar a las funciones matemáticas de Python.

Las funciones universales de NumPy incluyen operaciones matemáticas simples, como suma,
resta, multiplicación y división, y funciones trigonométricas, exponenciales y logarítmicas, entre
otras.

Las funciones universales de NumPy son mucho más rápidas que las funciones de Python
equivalentes, ya que están implementadas en C.

Estas funciones son altamente eficientes y se implementan en lenguajes de bajo nivel como C o
Fortran para mejorar su rendimiento.

Las ufuncs son útiles para realizar operaciones matemáticas y lógicas en arrays sin necesidad de
utilizar bucles explícitos.

In [41]:
# Crear dos arrays de ejemplo
arr1 = np.array([1, 2, 3, 4])
arr2 = np.array([5, 6, 7, 8])

# Operaciones aritméticas básicas (elemento a elemento)
sum_result = np.add(arr1, arr2)
print("Suma:", sum_result)

diff_result = np.subtract(arr1, arr2)
print("Resta:", diff_result)

product_result = np.multiply(arr1, arr2)
print("Producto:", product_result)

quotient_result = np.divide(arr1, arr2)
print("Cociente:", quotient_result)

# Funciones de redondeo
arr4 = np.array([1.2, 2.5, 3.7, 4.1, 2.6])
print("Array original:", arr4)
round_result = np.round(arr4) #Redondea al número entero más cercano.
print("Redondeo:", round_result)

floor_result = np.floor(arr4)
print("Piso:", floor_result) #Siempre redondea al número entero más bajo (sin importar los decimales).

ceil_result = np.ceil(arr4) #Siempre redondea al número entero más alto (sin importar los decimales).
print("Techo:", ceil_result)


Suma: [ 6  8 10 12]
Resta: [-4 -4 -4 -4]
Producto: [ 5 12 21 32]
Cociente: [0.2        0.33333333 0.42857143 0.5       ]
Array original: [1.2 2.5 3.7 4.1 2.6]
Redondeo: [1. 2. 4. 4. 3.]
Piso: [1. 2. 3. 4. 2.]
Techo: [2. 3. 4. 5. 3.]


In [6]:
# Crear dos arrays de ejemplo
arr1 = np.array([1, 2, 3, 4])  # Se crea un array de NumPy llamado 'arr1' con los valores [1, 2, 3, 4]
arr2 = np.array([5, 6, 7, 8])  # Se crea un segundo array de NumPy llamado 'arr2' con los valores [5, 6, 7, 8]

# Suma (elemento a elemento) sin usar ufuncs
sum_result = np.zeros(len(arr1))  # Se crea un array 'sum_result' lleno de ceros con la misma longitud que 'arr1'
for i in range(len(arr1)):  # Iniciamos un bucle que va desde 0 hasta la longitud de 'arr1' (en este caso 4)
    sum_result[i] = arr1[i] + arr2[i]  # En cada iteración, sumamos los elementos en la misma posición de 'arr1' y 'arr2'
print("Suma sin usar ufuncs:", sum_result)  # Imprime el resultado de la suma sin usar ufuncs

# Suma (elemento a elemento) usando ufuncs
sum_result = np.add(arr1, arr2)  # Utiliza la función 'np.add' para sumar los dos arrays de manera eficiente
print("Suma usando ufuncs:", sum_result)  # Imprime el resultado de la suma usando ufuncs


Suma sin usar ufuncs: [ 6.  8. 10. 12.]
Suma usando ufuncs: [ 6  8 10 12]


## Tabla recopilatorio

| Nombre de la función | Descripción | Argumentos | Etapa del flujo del proyecto de IA en la que se usa | Ejemplo de uso |
|----------------------|-------------|------------|-----------------------------------|----------------|
| `np.array()` | Crea un array de NumPy a partir de listas o tuplas. | `obj`: lista o tupla | Preprocesamiento de datos, Manipulación de datos | `arr = np.array([1, 2, 3])` |
| `np.mean()` | Calcula el promedio (media) de los elementos de un array. | `a`: array, `axis`: (opcional) especifica el eje sobre el que calcular la media | Preprocesamiento, Evaluación de modelo | `mean_value = np.mean([1, 2, 3, 4])` |
| `np.std()` | Calcula la desviación estándar de los elementos de un array. | `a`: array, `axis`: (opcional) especifica el eje sobre el que calcular la desviación | Preprocesamiento, Evaluación de modelo | `std_value = np.std([1, 2, 3, 4])` |
| `np.min()` | Devuelve el valor mínimo de un array. | `a`: array, `axis`: (opcional) especifica el eje sobre el que calcular el mínimo | Preprocesamiento, Evaluación de modelo | `min_value = np.min([1, 2, 3, 4])` |
| `np.max()` | Devuelve el valor máximo de un array. | `a`: array, `axis`: (opcional) especifica el eje sobre el que calcular el máximo | Preprocesamiento, Evaluación de modelo | `max_value = np.max([1, 2, 3, 4])` |
| `np.sqrt()` | Calcula la raíz cuadrada de cada elemento de un array. | `a`: array | Transformación de datos, Optimización | `sqrt_value = np.sqrt([1, 4, 9])` |
| `np.exp()` | Calcula la función exponencial de cada elemento de un array. | `a`: array | Transformación de datos | `exp_value = np.exp([1, 2, 3])` |
| `np.log()` | Calcula el logaritmo natural (base e) de cada elemento de un array. | `a`: array | Transformación de datos, Preprocesamiento | `log_value = np.log([1, 2, 3])` |
| `np.dot()` | Realiza el producto punto de dos arrays. | `a`: array, `b`: array | Modelado, Cálculo de predicciones | `dot_value = np.dot([1, 2], [3, 4])` |
| `np.random.rand()` | Genera un array de números aleatorios entre 0 y 1 con la forma especificada. | `shape`: tupla con las dimensiones deseadas | Generación de datos, Inicialización de parámetros | `random_values = np.random.rand(2, 3)` |
| `np.random.randn()` | Genera un array de números aleatorios con distribución normal estándar (media 0, desviación 1). | `shape`: tupla con las dimensiones deseadas | Generación de datos, Inicialización de parámetros | `randn_values = np.random.randn(2, 3)` |
| `np.reshape()` | Cambia la forma de un array sin cambiar sus datos. | `a`: array, `newshape`: nueva forma | Preprocesamiento, Transformación de datos | `reshaped_array = np.reshape([1, 2, 3, 4], (2, 2))` |
| `np.concatenate()` | Une dos o más arrays a lo largo de un eje especificado. | `a`: array, `b`: array, `axis`: (opcional) eje sobre el que concatenar | Preprocesamiento, Combinación de datos | `concatenated = np.concatenate([arr1, arr2], axis=0)` |
| `np.linalg.inv()` | Calcula la matriz inversa de una matriz cuadrada. | `a`: matriz cuadrada | Modelado, Cálculos matemáticos | `inverse_matrix = np.linalg.inv([[1, 2], [3, 4]])` |
| `np.linalg.eig()` | Calcula los valores propios y vectores propios de una matriz. | `a`: matriz cuadrada | Modelado, Cálculos matemáticos | `eigvals, eigvecs = np.linalg.eig([[1, 2], [3, 4]])` |
| `np.where()` | Devuelve elementos de un array si se cumple una condición, y otro valor si no se cumple. | `condition`: condición booleana, `x`: valor si la condición es verdadera, `y`: valor si es falsa | Preprocesamiento, Manipulación de datos | `result = np.where([True, False, True], [1, 2, 3], [4, 5, 6])` |
| `np.argmax()` | Devuelve el índice del valor máximo en un array. | `a`: array | Evaluación de modelo, Optimización | `index_max = np.argmax([1, 2, 3])` |
| `np.argmin()` | Devuelve el índice del valor mínimo en un array. | `a`: array | Evaluación de modelo, Optimización | `index_min = np.argmin([1, 2, 3])` |
| `np.add()` | Suma dos arrays elemento por elemento. | `x`: array, `y`: array | Manipulación de datos, Cálculos | `result = np.add([1, 2], [3, 4])` |
| `np.subtract()` | Resta dos arrays elemento por elemento. | `x`: array, `y`: array | Manipulación de datos, Cálculos | `result = np.subtract([1, 2], [3, 4])` |
| `np.multiply()` | Multiplica dos arrays elemento por elemento. | `x`: array, `y`: array | Manipulación de datos, Cálculos | `result = np.multiply([1, 2], [3, 4])` |
| `np.divide()` | Divide dos arrays elemento por elemento. | `x`: array, `y`: array | Manipulación de datos, Cálculos | `result = np.divide([1, 2], [3, 4])` |
| `np.power()` | Eleva un array a una potencia específica. | `x`: array, `y`: valor de la potencia | Manipulación de datos, Transformación | `result = np.power([1, 2], 3)` |
| `np.sin()` | Calcula el seno de cada elemento de un array. | `a`: array | Transformación de datos, Funciones trigonométricas | `sin_values = np.sin([0, np.pi/2])` |
| `np.cos()` | Calcula el coseno de cada elemento de un array. | `a`: array | Transformación de datos, Funciones trigonométricas | `cos_values = np.cos([0, np.pi/2])` |
| `np.tan()` | Calcula la tangente de cada elemento de un array. | `a`: array | Transformación de datos, Funciones trigonométricas | `tan_values = np.tan([0, np.pi/4])` |
| `np.arcsin()` | Calcula el arco seno de cada elemento de un array. | `a`: array | Transformación de datos, Funciones trigonométricas | `arcsin_values = np.arcsin([0, 1])` |
| `np.arccos()` | Calcula el arco coseno de cada elemento de un array. | `a`: array | Transformación de datos, Funciones trigonométricas | `arccos_values = np.arccos([0, 1])` |
| `np.arctan()` | Calcula el arco tangente de cada elemento de un array. | `a`: array | Transformación de datos, Funciones trigonométricas | `arctan_values = np.arctan([0, 1])` |
| `np.abs()` | Devuelve el valor absoluto de cada elemento de un array. | `a`: array | Preprocesamiento, Evaluación de modelo | `abs_values = np.abs([-1, -2, 3])` |
| `np.sign()` | Devuelve el signo de cada elemento de un array (-1, 0 o 1). | `a`: array | Preprocesamiento, Evaluación de modelo | `sign_values = np.sign([-1, 0, 1])` |



Se debe tener en cuenta que las etapas técnicas del flujo de un proyecto de IA son las siguientes

#### Preparación de datos

Esta etapa involucra la recolección, limpieza y transformación de datos para prepararlos para el análisis.

#### Análisis exploratorio de datos (EDA)

En esta fase se analizan los datos para obtener una comprensión preliminar de sus características y relaciones.

#### Transformación de datos

En esta etapa se realizan transformaciones en los datos, como normalización, escalado o cambios en su estructura.

#### Entrenamiento de modelo

Durante esta etapa se entrenan los modelos de IA con los datos, ajustando sus parámetros.

#### Evaluación de modelo

Aquí se evalúa el rendimiento de los modelos entrenados utilizando métricas como el error cuadrático medio (RMSE), precisión, etc.

#### Optimización

Fase en la que se afinan los modelos y se prueban diversas estrategias para mejorar su rendimiento.

#### Predicción/Inferencia

Después de entrenar y optimizar el modelo, se utiliza para hacer predicciones sobre nuevos datos.

#### Despliegue

Una vez que el modelo está entrenado y evaluado, se implementa en un entorno de producción para su uso en tiempo real.

# Leer datos CSV

→ Puedes descargar los CSV de ejemplo que utilizaremos en el máster desde aquí:  `https://www.ibm.com/docs/es/scis?topic=samples-sample-csv-files`

## Propiedades importantes de `numpy.genfromtxt()` para leer CSV

### Control de delimitadores y formato de datos
- `delimiter=','` → Define el separador de los valores (`,`, `;`, `\t`, etc.).
- `dtype=float` → Define el tipo de datos a leer (`float`, `int`, `str`, etc.).
- `encoding='utf-8'` → Especifica la codificación del archivo (importante para caracteres especiales).

### Manejo de cabeceras y filas
- `skip_header=1` → Omite la primera fila (útil si el CSV tiene encabezados).
- `skip_footer=2` → Omite las últimas 2 filas.
- `max_rows=100` → Lee solo las primeras 100 filas.

### Manejo de valores vacíos o incorrectos
- `filling_values=0` → Reemplaza valores faltantes con `0`.
- `missing_values='?'` → Indica qué valores deben tratarse como vacíos (`?`, `NULL`, etc.).
- `usemask=True` → Devuelve una matriz enmascarada para identificar valores faltantes.

### Control de comentarios y saltos de línea
- `comments='#'` → Ignora líneas que comiencen con `#`.
- `newline='\n'` → Define el carácter de salto de línea.

### Carga de columnas específicas
- `usecols=(0, 2, 4)` → Carga solo las columnas 0, 2 y 4.

### Depuración y validación de datos
- `invalid_raise=False` → Evita que el programa falle si hay errores en los datos.
- `names=True` → Usa la primera fila como nombres de columna (requiere `dtype=None`).

## ¿Por qué utilizaremos Pandas en vez de Numpy?

- Manejo automático de encabezados → Detecta y usa los nombres de columnas sin necesidad de skip_header.
- Soporte para datos mixtos → Puede manejar números, texto y valores NaN sin problemas.
- Funciones avanzadas de limpieza → Métodos como dropna(), fillna(), astype(), etc.
- Mayor eficiencia en archivos grandes → pandas.read_csv() está optimizado para leer archivos más grandes sin perder rendimiento.




In [7]:
# Asumiendo que el archivo 'data.csv' contiene datos numéricos separados por comas

data = np.genfromtxt('Catalog_v2.csv', delimiter=',', skip_header=1, filling_values=0, dtype=str)

column_1 = data[:, 0]
column_2 = data[:, 1]
column_3 = data[:, 2]

print("Columna 1:", column_2)

Columna 1: ['Street Lighting' 'Pedestrian Lighting' 'Traffic Signal Poles' 'Controls'
 'Downlights' 'Retrofit Downlights' 'Ambient' 'Bulbs' 'Controllers'
 'Enclosures' 'High Voltage Electrical' 'Lenses' 'Luminaire' 'Mechanicals'
 'Primary Chassis' 'Primary Foundation' 'Secondary Chassis'
 'Public Sector' 'Commercial' 'Alliance' 'Helm' 'Flatbush Avenue'
 'Bishops Crook' 'City Light' 'LED Type E' 'All' 'Cobra Head' 'Stad'
 'Fulton' 'Flushing Meadows' 'World’s Fair' 'Round Top Head' 'All'
 'Type M–2 Traffic Signal Pole' 'Alliance Traffic Signal Pole' 'All'
 'Ventura' 'Northridge ' 'Miramar ' 'Tulare' 'Alameda' 'Alpine'
 'Imperial ' 'Sunset ' 'Riverside' 'Buccaneer ' 'Santa Cruz ' 'Stinson '
 'Rural' 'City' 'Special application' 'Traffic' 'Bulbs' 'Controllers'
 'Enclosures' 'High Voltage Electrical' 'Lenses' 'Luminaire' 'Mechanicals'
 'Primary Chassis' 'Primary Foundation' 'Secondary Chassis']


# Pandas

### ¿Qué diferencia hay entre un CSV, un Dataset y un Dataframe?

| **Concepto**  | **Formato**  | **Dónde se usa**  | **Características** |
|--------------|------------|------------------|------------------|
| **CSV** | Archivo de texto (.csv) | Para almacenar y transferir datos | Datos separados por comas, sin estructura avanzada. |
| **Dataset** | Puede ser CSV, JSON, SQL, etc. | Cualquier colección de datos | Puede estar en bases de datos, archivos, APIs. |
| **DataFrame** | Objeto de pandas en Python | Para análisis y manipulación de datos | Soporta índices, tipos de datos y operaciones avanzadas. |


In [None]:
# Vamos a ver un ejemplo con pandas

import pandas as pd
from tabulate import tabulate

# Leer el archivo CSV
df = pd.read_csv('Catalog_v2.csv')

# Mostrar las primeras 5 filas
print("5 primeras filas:", df.head())

# Mostrar las últimas 5 filas con formato de tabla (tabulate)
print(tabulate(df, headers='keys', tablefmt='psql'))

#Eliminar espacios vacios y mostrar columnas
df.columns = df.columns.str.strip()
print("Todas las columnas:", df.columns)  

#Acceder a una columna por su nombre
print("Columna code:", df['code']) 

#Acceder a una columna por su index
print("Tercera columna:", df.iloc[:, 2])  # Accede a la tercera columna (índice 2)

#Acceder a una fila por su index
print("Tercera fila:", df.iloc[2, :])  # Accede a la tercera fila (índice 2)

# Ajustar pandas para mostrar todas las filas y columnas
pd.set_option('display.max_rows', None)  # Muestra todas las filas
pd.set_option('display.max_columns', None)  # Muestra todas las columnas

# Imprimir el DataFrame completo
print(df)




| Nombre de la función | Descripción | Argumentos | Ejemplo de uso | Principales usos |
|----------------------|-------------|------------|----------------|------------------|
| `pd.read_csv()` | Lee un archivo CSV y lo convierte en un DataFrame de pandas. | `'filepath_or_buffer'`: ruta del archivo, `'delimiter'`: separador, `'header'`: fila de encabezado. | `df = pd.read_csv('datos.csv')` | Carga de datos en proyectos de IA. |
| `pd.DataFrame()` | Crea un DataFrame desde listas, diccionarios o arrays. | `data`: datos a convertir, `columns`: nombres de columnas. | `df = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})` | Manipulación y análisis de datos. |
| `df.head()` | Muestra las primeras `n` filas del DataFrame. | `n`: número de filas a mostrar (por defecto 5). | `df.head(3)` | Inspección rápida de datos. |
| `df.tail()` | Muestra las últimas `n` filas del DataFrame. | `n`: número de filas a mostrar (por defecto 5). | `df.tail(3)` | Revisión de las últimas filas. |
| `df.info()` | Muestra información sobre las columnas, tipos de datos y valores nulos. | Ninguno. | `df.info()` | Diagnóstico del DataFrame antes del preprocesamiento. |
| `df.describe()` | Proporciona estadísticas descriptivas de las columnas numéricas. | `include`: especifica si se incluyen datos categóricos. | `df.describe()` | Exploración de datos numéricos. |
| `df.columns` | Muestra el nombre de las columnas del DataFrame. | Ninguno. | `print(df.columns)` | Identificación de nombres de columnas. |
| `df.dtypes` | Muestra los tipos de datos de cada columna. | Ninguno. | `df.dtypes` | Verificación de tipos de datos en la preparación de datos. |
| `df.shape` | Retorna el número de filas y columnas del DataFrame. | Ninguno. | `df.shape` | Conocer la dimensión de los datos. |
| `df.isnull()` | Devuelve un DataFrame con valores booleanos indicando valores nulos. | Ninguno. | `df.isnull().sum()` | Detección de valores nulos en los datos. |
| `df.dropna()` | Elimina las filas o columnas con valores nulos. | `axis=0`: elimina filas, `axis=1`: elimina columnas. | `df.dropna()` | Limpieza de datos. |
| `df.fillna()` | Rellena valores nulos con un valor específico o un método. | `value`: valor a usar, `method='ffill'` o `'bfill'` para rellenar con valores anteriores o siguientes. | `df.fillna(0)` | Tratamiento de valores nulos. |
| `df.duplicated()` | Devuelve un booleano indicando filas duplicadas. | `subset`: columnas a considerar. | `df[df.duplicated()]` | Identificación de duplicados. |
| `df.drop_duplicates()` | Elimina filas duplicadas. | `subset`: columnas a considerar, `keep='first'`: conserva la primera ocurrencia. | `df.drop_duplicates()` | Limpieza de datos duplicados. |
| `df.sort_values()` | Ordena el DataFrame por una columna. | `by`: columna a ordenar, `ascending`: `True` o `False`. | `df.sort_values(by='edad', ascending=False)` | Ordenación de datos. |
| `df.groupby()` | Agrupa datos según una columna y aplica funciones agregadas. | `by`: columna de agrupación. | `df.groupby('categoria').mean()` | Agrupación y resumen de datos. |
| `df.merge()` | Une dos DataFrames basado en una clave común. | `on`: columna común, `how`: `'inner'`, `'outer'`, `'left'`, `'right'`. | `df1.merge(df2, on='id', how='left')` | Combinación de conjuntos de datos. |
| `df.pivot_table()` | Crea una tabla dinámica con funciones agregadas. | `values`, `index`, `columns`, `aggfunc`. | `df.pivot_table(values='ventas', index='mes', aggfunc='sum')` | Análisis de datos agregados. |
| `df.apply()` | Aplica una función a cada fila o columna. | `func`: función a aplicar, `axis=0` para columnas o `axis=1` para filas. | `df['columna'].apply(np.sqrt)` | Transformaciones personalizadas de datos. |
| `df['columna'].map()` | Aplica una función a cada elemento de una serie. | `func`: función a aplicar. | `df['nombre'] = df['nombre'].map(str.upper)` | Transformación de valores en una columna. |
| `df['columna'].astype()` | Convierte el tipo de datos de una columna. | `dtype`: tipo de dato deseado. | `df['edad'] = df['edad'].astype(int)` | Conversión de tipos de datos. |
| `df.to_csv()` | Guarda el DataFrame en un archivo CSV. | `path_or_buf`: nombre del archivo, `index=False` para no guardar índices. | `df.to_csv('salida.csv', index=False)` | Exportación de datos. |


### Ejemplo práctico Numpy y Pandas

1. Leer el archivo CSV y convertirlo en un DataFrame pd.DataFrame
2. Seleccionar una columna del DataFrame y convertirla en un np.array
3. Aplicar operaciones a la columna utilizando numpy
4. Añadir los resultados como una nueva columna en el DataFrame
5. Guardar el DataFrame actualizado en un nuevo CSV (opcional)


In [9]:
# 1. Leer el CSV y convertirlo en un DataFrame
df = pd.read_csv("Product_v6.csv")
print("Todas las columnas:", df.columns)  # Mostrar todas las columnas

# 2️. Seleccionar una columna (ejemplo: 'value') y convertirla en un array de NumPy
array_np = np.array(df["value"])

# 3️. Aplicar una operación con NumPy (ejemplo: raíz cuadrada)
resultado_np = np.sqrt(array_np)

# 4️. Añadir los resultados como una nueva columna en el DataFrame
df["raiz_cuadrada"] = resultado_np

# 5️. Guardar el DataFrame actualizado en un nuevo CSV (opcional)
df.to_csv("datos_modificados.csv", index=False)

# Ver el DataFrame actualizado
print(df.head())

# EJEMPLO FILTRAR UNA COLUMNA ANTES DE OPERAR: Leer el CSV y convertirlo en un DataFrame
df = pd.read_csv("Product_v6.csv")

# 2️. Filtrar filas donde la columna 'Categoría' sea 'A'
df.loc[df['value'] > 1000, 'value'] *= 2 #df.loc[condición, "nombre_columna"]

# 3️. Mostrar el DataFrame actualizado
print(df)

Todas las columnas: Index(['partNumber', 'productType', 'category.code', 'brand.code',
       'family.code', 'line.code', 'productSegment.code', 'status', 'value',
       'valueCurrency', 'defaultQuantityUnits', 'name', 'description',
       'plannerCode', 'sourceLink'],
      dtype='object')
   partNumber productType    category.code     brand.code      family.code  \
0  PS-SL-A287     PRODUCT  Street Lighting  Public Sector         Alliance   
1  PS-SL-A288     PRODUCT  Street Lighting  Public Sector         Alliance   
2  PS-SL-H309     PRODUCT  Street Lighting  Public Sector             Helm   
3  PS-SL-H310     PRODUCT  Street Lighting  Public Sector             Helm   
4  PS-SL-F342     PRODUCT  Street Lighting  Public Sector  Flatbush Avenue   

  line.code  productSegment.code  status   value valueCurrency  \
0     Rural                  NaN  ACTIVE  1250.0          USD    
1     Rural                  NaN  ACTIVE  1250.0          USD    
2     Rural                  NaN  ACTIV