| **Inicio** | **atrás 1** | **Siguiente 3** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./1_Machine_Learning.ipynb)| [⏩](./3_Machine_Learning.ipynb)|

# **11. ¿Qué son los tensores?**

Un tensor es una estructura matemática que generaliza los conceptos de escalares, vectores y matrices a dimensiones superiores. En el contexto del Aprendizaje Profundo y la programación en Python con bibliotecas como TensorFlow y PyTorch, los tensores se utilizan para representar y manipular datos multidimensionales. Aquí tienes una explicación detallada con ejemplos:

**1. Escalares, Vectores y Matrices:**
   - Un **escalar** es un número único, como 42 o 3.1416.
   - Un **vector** es un conjunto de números organizados en una sola dimensión. Por ejemplo, [1, 2, 3].
   - Una **matriz** es un conjunto de números organizados en dos dimensiones. Ejemplo:

     ```
     [1, 2, 3]
     [4, 5, 6]
     ```

**2. Tensores de Orden Superior:**
   - Los tensores son una generalización de escalares, vectores y matrices que pueden tener un número arbitrario de dimensiones.
   - Un tensor de **orden 0** es un escalar, un tensor de **orden 1** es un vector y un tensor de **orden 2** es una matriz.

**3. Ejemplos de Tensores:**
   - Un tensor de **orden 3** podría representar un cubo de datos tridimensional, como un conjunto de imágenes en color, donde cada píxel tiene tres valores (rojo, verde, azul).
   - Un tensor de **orden 4** podría representar un conjunto de videos, donde cada cuadro de video es un tensor de orden 3 (una imagen) y los cuadros se organizan en una secuencia temporal.
   - Un tensor de **orden n** puede representar datos multidimensionales más complejos, como volúmenes de imágenes en resonancia magnética o datos climáticos tridimensionales.

**4. Ejemplos Prácticos:**
   - En el contexto del Aprendizaje Profundo, las imágenes a menudo se representan como tensores. Una imagen en blanco y negro puede ser un tensor de orden 2, donde cada elemento del tensor representa la intensidad del píxel. Una imagen en color se representa como un tensor de orden 3, donde cada píxel tiene tres valores (rojo, verde, azul).

   ```
   Imagen en blanco y negro (tensor de orden 2):
   [[0.1, 0.2, 0.3],
    [0.4, 0.5, 0.6],
    [0.7, 0.8, 0.9]]

   Imagen en color (tensor de orden 3):
   [[[0.1, 0.2, 0.3],
     [0.4, 0.5, 0.6],
     [0.7, 0.8, 0.9]],
    [[0.2, 0.3, 0.4],
     [0.5, 0.6, 0.7],
     [0.8, 0.9, 0.1]]]
   ```

**5. Operaciones con Tensores:**
   - Los tensores se utilizan en operaciones matemáticas en Aprendizaje Profundo, como la multiplicación de matrices, la convolución en imágenes, la propagación hacia atrás en redes neuronales y más. Estas operaciones se escalan para funcionar en datos multidimensionales.

En resumen, los tensores son una herramienta esencial en Aprendizaje Profundo y representan datos multidimensionales en forma de matrices n-dimensionales. Son fundamentales para la representación y manipulación de datos en el entrenamiento y la inferencia de modelos de Aprendizaje Automático, y permiten trabajar con datos de alta dimensionalidad, como imágenes, secuencias de texto y más.

## **Tensor en aprendizaje automático**

En el contexto del Aprendizaje Automático (Machine Learning), un tensor es una estructura de datos multidimensional que se utiliza para representar y manipular datos. Los tensores son fundamentales para el procesamiento de datos en tareas de Aprendizaje Automático y se utilizan en bibliotecas como TensorFlow y PyTorch. Aquí tienes una explicación detallada con ejemplos:

**1. Definición de Tensores:**
   - Un tensor es una generalización de escalares, vectores y matrices a dimensiones superiores. Puede ser un número único (escalar), un conjunto de números en una sola dimensión (vector), un conjunto de números organizados en dos dimensiones (matriz) o tener más de dos dimensiones.

**2. Orden de un Tensor:**
   - El orden de un tensor se refiere a la cantidad de dimensiones que tiene. Un tensor de orden 0 es un escalar, un tensor de orden 1 es un vector, un tensor de orden 2 es una matriz, y así sucesivamente.

**3. Ejemplos de Tensores:**
   - **Tensor de Orden 0 (Escalar):**
     - Ejemplo: `5.0` o `3.1416`
     - Un valor único, sin dimensiones.

   - **Tensor de Orden 1 (Vector):**
     - Ejemplo: `[1, 2, 3]`
     - Un conjunto de valores organizados en una sola dimensión.

   - **Tensor de Orden 2 (Matriz):**
     - Ejemplo:
     ```
     [[1, 2, 3],
      [4, 5, 6],
      [7, 8, 9]]
     ```
     - Un conjunto de valores organizados en dos dimensiones.

   - **Tensor de Orden 3 o Superior:**
     - Ejemplo:
     ```
     [[[1, 2, 3],
       [4, 5, 6]],
      [[7, 8, 9],
       [10, 11, 12]]
     ]
     ```
     - Un tensor de orden 3 representa datos tridimensionales, como un conjunto de imágenes en color, donde cada píxel tiene tres valores (rojo, verde, azul).

**4. Aplicaciones en Aprendizaje Automático:**
   - En Aprendizaje Automático, los tensores se utilizan para representar datos, parámetros de modelos y gradientes en operaciones matemáticas.
   - Los datos de entrenamiento se representan como tensores. Por ejemplo, un conjunto de imágenes en escala de grises se representa como un tensor de orden 4, donde la primera dimensión corresponde al número de ejemplos, la segunda dimensión a los canales de color (en este caso, 1), y las dos últimas dimensiones son el alto y el ancho de la imagen.

**5. Operaciones con Tensores:**
   - En Aprendizaje Automático, se realizan operaciones matemáticas en tensores, como la multiplicación de matrices, la convolución en imágenes, la propagación hacia atrás en redes neuronales y más.
   - Por ejemplo, en una red neuronal, los pesos y las activaciones se representan como tensores, y las operaciones de propagación hacia adelante y hacia atrás implican operaciones de tensor.

**6. Bibliotecas de Aprendizaje Automático:**
   - TensorFlow y PyTorch son bibliotecas populares que proporcionan estructuras de datos de tensor y operaciones de tensor optimizadas para Aprendizaje Automático.

**7. Representación de Tensores en TensorFlow:**
   - En TensorFlow, puedes crear tensores de la siguiente manera:

In [3]:
import tensorflow as tf

# Escalar
escalar = tf.constant(5.0)
print(escalar)

tf.Tensor(5.0, shape=(), dtype=float32)


In [4]:
# Vector
vector = tf.constant([1, 2, 3])
print(vector)

tf.Tensor([1 2 3], shape=(3,), dtype=int32)


In [5]:
# Matriz
matriz = tf.constant([[1, 2, 3], [4, 5, 6]])
print(matriz)

tf.Tensor(
[[1 2 3]
 [4 5 6]], shape=(2, 3), dtype=int32)


In [6]:
# Tensor de orden 3
tensor_3d = tf.constant([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print(tensor_3d)

tf.Tensor(
[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]], shape=(2, 2, 3), dtype=int32)


Los tensores son esenciales en Aprendizaje Automático porque permiten representar y manipular datos de manera eficiente y extensible, lo que facilita el procesamiento de datos en tareas de modelado y predicción.

![Tensor](../img/tensor1.jpg "Tensor")
![Tensor](../img/tensor.jpg "Tensor")

# **12. Enmarcando un problema de aprendizaje automático | Cómo planificar un proyecto de ciencia de datos**

Enmarcar un problema de Aprendizaje Automático y planificar un proyecto de Ciencia de Datos son pasos cruciales para el éxito en la resolución de problemas utilizando datos. A continuación, se proporciona una explicación detallada de cómo hacerlo, junto con ejemplos:

**1. Identificar el Problema:**
   - El primer paso es definir claramente el problema que se pretende resolver. ¿Qué pregunta deseas responder o qué objetivo deseas alcanzar? Por ejemplo, si eres una empresa de comercio electrónico, podrías preguntarte: "¿Cómo podemos reducir la tasa de abandono del carrito de compras?"

**2. Recopilación de Datos:**
   - Identifica y reúne los datos necesarios para abordar el problema. Los datos pueden provenir de múltiples fuentes, como bases de datos internas, registros, API externas o datos públicos. Para el ejemplo del comercio electrónico, los datos podrían incluir registros de actividad de los usuarios, historiales de compras y datos de navegación en el sitio web.

**3. Limpieza y Preparación de Datos:**
   - Los datos rara vez están listos para su análisis directo. Debes realizar tareas de limpieza y preparación, que incluyen tratar con valores faltantes, eliminar duplicados y convertir datos en un formato utilizable. Por ejemplo, podrías necesitar eliminar registros con información incompleta o inconsistente en tu conjunto de datos.

**4. Análisis Exploratorio de Datos:**
   - Realiza un análisis exploratorio para comprender tus datos. Esto incluye visualizar datos, calcular estadísticas descriptivas y buscar patrones. Por ejemplo, podrías usar gráficos para visualizar la distribución de edades de tus usuarios y cómo se relaciona con el abandono del carrito.

**5. Selección de Características:**
   - Identifica las características (variables) que son relevantes para el problema. Esto puede requerir el uso de técnicas de selección de características. En el caso del comercio electrónico, las características relevantes pueden incluir la duración de la sesión del usuario, el número de productos en el carrito, el historial de compras, etc.

**6. Diseño de un Modelo de Aprendizaje Automático:**
   - Selecciona el tipo de modelo de Aprendizaje Automático adecuado para el problema. Puedes optar por un enfoque de clasificación, regresión, agrupación, etc. Por ejemplo, podrías elegir utilizar un modelo de regresión logística para predecir el abandono del carrito.

**7. Conjunto de Entrenamiento y Pruebas:**
   - Divide tus datos en conjuntos de entrenamiento y prueba. El conjunto de entrenamiento se utiliza para entrenar el modelo, y el conjunto de pruebas se utiliza para evaluar su rendimiento. Por ejemplo, podrías asignar el 80% de los datos para entrenamiento y el 20% para pruebas.

**8. Entrenamiento del Modelo:**
   - Utiliza el conjunto de entrenamiento para entrenar el modelo. Esto implica ajustar los parámetros del modelo para que pueda hacer predicciones precisas basadas en los datos de entrenamiento.

**9. Evaluación del Modelo:**
   - Evalúa el rendimiento del modelo utilizando métricas adecuadas para el tipo de problema que estás resolviendo. Por ejemplo, si estás prediciendo el abandono del carrito, podrías usar métricas como la precisión, la sensibilidad y la especificidad.

**10. Optimización y Ajuste:**
    - Si el rendimiento del modelo no cumple con los criterios deseados, puedes ajustar hiperparámetros, probar diferentes algoritmos o realizar ingeniería de características para mejorar el modelo.

**11. Implementación y Puesta en Producción:**
    - Una vez que el modelo es satisfactorio, puedes implementarlo en un entorno de producción. En el caso del comercio electrónico, esto podría implicar la integración del modelo en el sitio web para identificar usuarios propensos al abandono del carrito.

**12. Seguimiento y Mantenimiento Continuo:**
    - Monitorea el rendimiento del modelo en producción y realiza un mantenimiento continuo. Los datos y las condiciones cambian con el tiempo, por lo que es importante mantener el modelo actualizado y efectivo.

**13. Comunicación de Resultados:**
    - Comunica los resultados y las conclusiones a las partes interesadas. Puedes presentar informes, visualizaciones y explicaciones para garantizar que las decisiones basadas en datos sean comprensibles y útiles.

Planificar un proyecto de Ciencia de Datos y Aprendizaje Automático de esta manera ayuda a garantizar que estés abordando un problema con una metodología sólida y orientada a resultados. Además, facilita la toma de decisiones basadas en datos y la creación de soluciones efectivas.

# **13.EDA mediante análisis univariado**

El Análisis Exploratorio de Datos (EDA, por sus siglas en inglés) es una etapa fundamental en el proceso de Ciencia de Datos que implica explorar y comprender un conjunto de datos antes de realizar análisis más avanzados o modelado. El análisis univariado es una parte esencial del EDA y se centra en el estudio de una variable (característica) a la vez. Aquí te proporciono una explicación detallada del EDA mediante análisis univariado, junto con ejemplos:

**1. ¿Qué es el Análisis Univariado?**
   - El análisis univariado se enfoca en entender una sola variable en un conjunto de datos. El objetivo es describir, resumir y visualizar la distribución y las propiedades de una variable individual.

**2. Ejemplos de Variables Univariadas:**
   - Ejemplos comunes de variables univariadas incluyen la edad de las personas, el ingreso anual, el número de compras en línea, la temperatura diaria, etc.

**3. Técnicas de Análisis Univariado:**
   - A continuación, se detallan algunas técnicas comunes utilizadas en el análisis univariado:

   a. **Medidas de Resumen:** Calcular estadísticas descriptivas, como la media, la mediana, la moda, la desviación estándar, el rango y los percentiles. Por ejemplo, al analizar las edades de una población, puedes calcular la mediana para identificar la edad que divide la población en dos mitades iguales.

   b. **Visualizaciones:** Crear gráficos y visualizaciones que muestren la distribución de la variable. Ejemplos de gráficos incluyen histogramas, gráficos de barras, gráficos de caja, gráficos de densidad y diagramas de dispersión. Por ejemplo, al analizar las calificaciones de estudiantes, puedes usar un histograma para mostrar la distribución de las calificaciones.

   c. **Tablas de Contingencia:** Si la variable es categórica, puedes crear tablas de contingencia que muestren la frecuencia de cada categoría. Esto es útil para comprender la distribución de categorías. Por ejemplo, al analizar los géneros de empleados en una empresa, puedes crear una tabla de contingencia que muestre la cantidad de empleados en cada categoría de género.

**4. Ejemplo de Análisis Univariado:**
   - Supongamos que tienes un conjunto de datos que contiene las edades de una muestra de personas. Para realizar un análisis univariado de la variable "edad", podrías hacer lo siguiente:

   a. Calcular la media, mediana y desviación estándar para tener una idea general de la distribución de edades.

   b. Crear un histograma que muestre la distribución de edades en grupos, lo que te ayudaría a identificar patrones, como si la mayoría de las personas son jóvenes o de mediana edad.

   c. Calcular percentiles, como el percentil 25 y el percentil 75, para entender mejor la dispersión de las edades.

   d. Si es relevante, puedes crear un gráfico de caja para identificar valores atípicos o extremos en la distribución de edades.

**5. Beneficios del Análisis Univariado:**
   - El análisis univariado te permite obtener una comprensión sólida de cada variable en tu conjunto de datos. Te ayuda a detectar valores atípicos, identificar patrones y tomar decisiones informadas sobre el preprocesamiento de datos y las futuras etapas de análisis.

El análisis univariado es el primer paso para explorar y entender tus datos antes de avanzar en análisis más complejos, como el análisis bivariado (que implica el estudio de dos variables juntas) y la construcción de modelos de Aprendizaje Automático. Es fundamental para garantizar que tus decisiones y análisis se basen en una comprensión sólida de los datos subyacentes.

# **14. EDA mediante análisis bivariado y multivariado**

El Análisis Exploratorio de Datos (EDA, por sus siglas en inglés) es una etapa fundamental en el proceso de Ciencia de Datos que implica explorar y comprender un conjunto de datos antes de realizar análisis más avanzados o modelado. El análisis bivariado y multivariado son extensiones del análisis univariado y se centran en el estudio de relaciones entre dos o más variables en un conjunto de datos. Aquí tienes una explicación detallada del EDA mediante análisis bivariado y multivariado, junto con ejemplos:

**1. Análisis Bivariado:**

   - El análisis bivariado se enfoca en entender las relaciones entre dos variables en un conjunto de datos. El objetivo es explorar cómo dos variables interactúan y se relacionan entre sí.

**2. Ejemplos de Análisis Bivariado:**

   - Ejemplos comunes de análisis bivariado incluyen estudiar la relación entre la edad y los ingresos, la correlación entre la publicidad y las ventas, la comparación de la temperatura y la demanda de productos, etc.

**3. Técnicas de Análisis Bivariado:**

   - A continuación, se detallan algunas técnicas comunes utilizadas en el análisis bivariado:

   a. **Matriz de Correlación:** Calcula coeficientes de correlación entre dos variables numéricas. Por ejemplo, puedes calcular la correlación entre la edad de los clientes y el gasto promedio.

   b. **Gráficos de Dispersión:** Crea gráficos de dispersión para visualizar la relación entre dos variables numéricas. Por ejemplo, puedes usar un gráfico de dispersión para analizar la relación entre el tiempo de estudio y las calificaciones de los estudiantes.

   c. **Tablas de Contingencia:** Si una variable es categórica, puedes crear tablas de contingencia para mostrar cómo se relaciona con otra variable categórica. Por ejemplo, puedes crear una tabla de contingencia que muestre la relación entre el género de los empleados y su departamento.

**4. Ejemplo de Análisis Bivariado:**

   - Supongamos que tienes un conjunto de datos que contiene las edades y los ingresos de las personas. Para realizar un análisis bivariado de estas dos variables, podrías hacer lo siguiente:

   a. Calcular el coeficiente de correlación, que te dirá si existe una relación lineal entre la edad y los ingresos. Un valor cercano a 1 indicaría una correlación positiva, mientras que un valor cercano a -1 indicaría una correlación negativa.

   b. Crear un gráfico de dispersión que muestre la relación entre la edad y los ingresos. Esto te ayudará a visualizar cualquier patrón o tendencia en los datos.

**5. Análisis Multivariado:**

   - El análisis multivariado implica el estudio de relaciones entre más de dos variables en un conjunto de datos. El objetivo es comprender cómo múltiples variables interactúan y se influyen mutuamente.

**6. Ejemplos de Análisis Multivariado:**

   - Ejemplos comunes de análisis multivariado incluyen estudiar cómo múltiples factores afectan las ventas de productos, analizar la interacción entre variables económicas y sociales en un estudio demográfico, o comprender cómo diferentes características de un automóvil influyen en su precio de venta.

**7. Técnicas de Análisis Multivariado:**

   - A continuación, se detallan algunas técnicas comunes utilizadas en el análisis multivariado:

   a. **Análisis de Regresión Múltiple:** Permite modelar la relación entre una variable dependiente y múltiples variables independientes. Por ejemplo, podrías usar un análisis de regresión múltiple para entender cómo las características del producto influyen en las ventas.

   b. **Análisis de Componentes Principales (PCA):** Reduce la dimensionalidad de los datos manteniendo la información más importante. Es útil cuando se tienen muchas variables y se busca simplificar el análisis.

   c. **Análisis de Clúster (Clustering):** Agrupa observaciones similares en grupos (clústeres) en función de múltiples variables. Esto ayuda a identificar patrones o segmentos en los datos.

**8. Ejemplo de Análisis Multivariado:**

   - Supongamos que tienes un conjunto de datos que contiene información sobre productos, incluyendo precio, tamaño, características, y ventas. Para realizar un análisis multivariado, podrías hacer lo siguiente:

   a. Utilizar un análisis de regresión múltiple para modelar cómo el precio, el tamaño y las características del producto influyen en las ventas. Esto te permitirá comprender qué variables son más importantes en la predicción de las ventas.

   b. Aplicar el análisis de componentes principales (PCA) para reducir la dimensionalidad de los datos y visualizar la estructura subyacente de las variables.

**9. Beneficios del Análisis Bivariado y Multivariado:**

   - Estos tipos de análisis permiten descubrir relaciones, patrones y dependencias entre variables, lo que es esencial para tomar decisiones informadas en Ciencia de Datos y Aprendizaje Automático. También ayudan a identificar variables predictoras importantes y a entender cómo interactúan las variables en un sistema complejo.

En resumen, el análisis bivariado y multivariado son técnicas esenciales en el Análisis Exploratorio de Datos que te permiten profundizar en la comprensión de tus datos al estudiar las relaciones entre variables. Esto es fundamental para la toma de decisiones basadas en datos y para el diseño de modelos más precisos y efectivos en proyectos de Ciencia de Datos y Aprendizaje Automático.

# **15. ¿Qué es la ingeniería de características?**

La ingeniería de características es un proceso fundamental en Ciencia de Datos y Aprendizaje Automático que implica la creación, selección y transformación de variables (características) a partir de los datos brutos para mejorar el rendimiento de los modelos y la capacidad de extraer información significativa. A continuación, te proporciono una explicación detallada de la ingeniería de características con ejemplos:

**1. ¿Qué es la Ingeniería de Características?**

   - La ingeniería de características es el proceso de preparar y manipular los datos mediante la creación, modificación o selección de características que sean más relevantes y útiles para el problema que se está abordando. El objetivo es mejorar la precisión de los modelos de Aprendizaje Automático y facilitar la extracción de información significativa.

**2. Ejemplos de Ingeniería de Características:**

   - Aquí hay ejemplos concretos de lo que podría involucrar la ingeniería de características:

   a. **Creación de Características:** Puedes crear nuevas características a partir de las existentes. Por ejemplo, si tienes un conjunto de datos de ventas que incluye la fecha de compra, puedes crear una característica de "día de la semana" o "mes" a partir de la fecha.

   b. **Codificación de Variables Categóricas:** Si tienes variables categóricas, como el género ("hombre" o "mujer"), puedes codificarlas numéricamente, por ejemplo, como 0 y 1.

   c. **Normalización y Escalado:** Puedes normalizar o escalar características numéricas para asegurarte de que tengan la misma escala. Esto es importante en algoritmos sensibles a la escala, como las máquinas de soporte vectorial (SVM).

   d. **Extracción de Características de Texto:** En el procesamiento de lenguaje natural, puedes extraer características de texto, como recuento de palabras, TF-IDF (frecuencia de término-inversa de frecuencia de documento) o embeddings de palabras.

   e. **Selección de Características:** Puedes identificar y seleccionar las características más importantes para tu modelo, lo que reduce la complejidad y mejora la generalización.

   f. **Creación de Características Interactivas:** Puedes crear características que capturen interacciones entre variables. Por ejemplo, en un conjunto de datos de ventas en línea, podrías crear una característica que sea el producto del precio y la cantidad para medir el valor de la compra.

**3. Importancia de la Ingeniería de Características:**

   - La calidad de las características utilizadas en un modelo es tan importante como el algoritmo de aprendizaje en sí. Características adecuadas pueden llevar a modelos más precisos y significativos, mientras que características inadecuadas pueden llevar a resultados deficientes.

**4. Ejemplo de Ingeniería de Características:**

   - Supongamos que trabajas con un conjunto de datos de viviendas en venta y deseas predecir el precio de una vivienda. El conjunto de datos contiene características como el número de habitaciones, el tamaño del terreno y la ubicación. Ejemplos de ingeniería de características podrían incluir:

   a. Creación de una característica "tamaño del terreno por habitación" que podría indicar la densidad de construcción.

   b. Codificación de la ubicación (categórica) en una variable numérica utilizando técnicas como "one-hot encoding".

   c. Normalización de las características para asegurarse de que tengan la misma escala, lo que podría mejorar la precisión del modelo.

   d. Creación de características adicionales, como "distancia a las escuelas" o "número de servicios públicos cercanos".

**5. Herramientas y Bibliotecas:**

   - Para llevar a cabo la ingeniería de características, puedes utilizar bibliotecas de Ciencia de Datos como scikit-learn en Python, que proporciona herramientas y transformadores para realizar muchas de estas operaciones.

La ingeniería de características es un proceso creativo y fundamental en Ciencia de Datos y Aprendizaje Automático. Permite adaptar los datos para que se ajusten mejor a los modelos y a los objetivos específicos del proyecto, lo que conduce a una mejora significativa en el rendimiento y la eficacia de los modelos.

# **16. Escalado de funciones: estandarización**

La estandarización es una técnica de preprocesamiento de datos común en Ciencia de Datos y Aprendizaje Automático que se utiliza para asegurarse de que las características tengan una media de 0 y una desviación estándar de 1. Esto es importante en algoritmos que son sensibles a la escala de las características, como las Máquinas de Soporte Vectorial (SVM), el Análisis de Componentes Principales (PCA) y otros. Aquí tienes una explicación detallada de la estandarización con ejemplos:

**1. ¿Qué es la Estandarización (o Escalado de Funciones)?**

   - La estandarización es una técnica que ajusta la escala de las características en un conjunto de datos para que tengan una distribución con una media de 0 y una desviación estándar de 1. Esto significa que los valores de las características estarán centrados alrededor de 0 y tendrán una dispersión uniforme.

**2. Fórmula de la Estandarización:**

   - La fórmula para estandarizar una variable $(X)$ se expresa como:

   $[X_{\text{estandarizado}} = \frac{X - \mu}{\sigma}]$

   Donde:
   - $(X_{\text{estandarizado}})$ es el valor estandarizado de la variable.
   - $(X)$ es el valor original de la variable.
   - $(\mu)$ es la media (promedio) de la variable.
   - $(\sigma)$ es la desviación estándar de la variable.

**3. Ejemplo de Estandarización:**

   - Supongamos que tienes un conjunto de datos con una característica, como "ingresos mensuales", que tiene una media de $4,000 y una desviación estándar de $1,000. Para estandarizar esta característica, puedes aplicar la fórmula de estandarización:

   $[X_{\text{estandarizado}} = \frac{X - 4000}{1000}]$

   - Si un individuo tiene un ingreso mensual de $4,500, después de la estandarización, el valor estandarizado sería:

   $[X_{\text{estandarizado}} = \frac{4500 - 4000}{1000} = 0.5]$

   - De manera similar, si otro individuo tiene un ingreso mensual de $3,800, su valor estandarizado sería:

   $[X_{\text{estandarizado}} = \frac{3800 - 4000}{1000} = -0.2]$

**4. Beneficios de la Estandarización:**

   - La estandarización ofrece varios beneficios:

   a. Ayuda a que las características tengan una escala comparable, lo que es importante en algoritmos que utilizan distancias euclidianas, como k-means o PCA.

   b. Evita que las características con magnitudes más grandes dominen o sesguen la importancia de otras características en los modelos.

   c. Facilita la interpretación de los coeficientes en algoritmos de regresión, ya que los coeficientes reflejarán el cambio en la variable objetivo por cada desviación estándar en lugar de por unidad de la variable original.

**5. Herramientas y Bibliotecas:**

   - En Python, puedes utilizar bibliotecas como scikit-learn para realizar la estandarización de características. Por ejemplo:

In [7]:
import numpy as np
from sklearn.preprocessing import StandardScaler

# Crear un conjunto de datos de ejemplo
datos = np.array([[100.0, 2.0],
                  [50.0, 1.5],
                  [80.0, 2.2],
                  [90.0, 2.0]])

# Crear un objeto StandardScaler
scaler = StandardScaler()

# Ajustar el scaler a tus datos y transformar las características
datos_estandarizados = scaler.fit_transform(datos)

# Las características ahora están estandarizadas
print("Datos originales:")
print(datos)
print("\nDatos estandarizados:")
print(datos_estandarizados)

Datos originales:
[[100.    2. ]
 [ 50.    1.5]
 [ 80.    2.2]
 [ 90.    2. ]]

Datos estandarizados:
[[ 1.06904497  0.29002095]
 [-1.60356745 -1.64345203]
 [ 0.          1.06341014]
 [ 0.53452248  0.29002095]]


La estandarización es una técnica esencial en el preprocesamiento de datos que asegura que las características tengan una escala uniforme y facilita la aplicación de algoritmos de Aprendizaje Automático en los que la escala es importante. Esto mejora la capacidad de los modelos para realizar predicciones precisas y coherentes.

# **17. Escalado de funciones: Normalization | MinMaxScaling | MaxAbsScaling | RobustScaling**

El escalado de funciones es una técnica común en Ciencia de Datos y Aprendizaje Automático para transformar las características de un conjunto de datos a un rango específico. Aquí tienes una explicación detallada de varios métodos de escalado de funciones (Normalization, Min-Max Scaling, Max Absolute Scaling y Robust Scaling) junto con ejemplos en código en Python.

**1. Normalization (Escalamiento a la unidad):**

La normalización (también conocida como L2 Normalization) escala cada muestra de datos para que su norma L2 (longitud del vector) sea igual a 1. Es útil cuando trabajas con algoritmos sensibles a la magnitud de los valores.

$[X_{\text{normalized}} = \frac{X}{\sqrt{X_1^2 + X_2^2 + \ldots + X_n^2}}]$

Donde:
- $(X_{\text{normalized}})$ es el valor normalizado.
- $(X)$ es el valor original.
- $(X_1, X_2, \ldots, X_n)$ son los valores originales de las características.

In [8]:
from sklearn.preprocessing import Normalizer
import numpy as np

# Crear un conjunto de datos de ejemplo
data = np.array([[2, 4],
                 [1, 3],
                 [4, 5]])

# Crear un objeto Normalizer
normalizer = Normalizer()

# Aplicar la normalización
normalized_data = normalizer.transform(data)

print("Datos originales:")
print(data)
print("\nDatos normalizados:")
print(normalized_data)

Datos originales:
[[2 4]
 [1 3]
 [4 5]]

Datos normalizados:
[[0.4472136  0.89442719]
 [0.31622777 0.9486833 ]
 [0.62469505 0.78086881]]



**2. Min-Max Scaling (Escalamiento Min-Max):**

Min-Max Scaling escala los datos para que estén en un rango específico, generalmente entre 0 y 1. Es útil cuando deseas que tus datos estén en una escala específica.

$[X_{\text{scaled}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}]$

Donde:
- $(X_{\text{scaled}})$ es el valor escalado.
- $(X)$ es el valor original.
- $(X_{\text{min}})$ es el valor mínimo en el conjunto de datos.
- $(X_{\text{max}})$ es el valor máximo en el conjunto de datos.

In [9]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# Crear un conjunto de datos de ejemplo
data = np.array([[2, 4],
                 [1, 3],
                 [4, 5]])

# Crear un objeto MinMaxScaler
scaler = MinMaxScaler()

# Aplicar el escalado Min-Max
scaled_data = scaler.fit_transform(data)

print("Datos originales:")
print(data)
print("\nDatos escalados Min-Max:")
print(scaled_data)

Datos originales:
[[2 4]
 [1 3]
 [4 5]]

Datos escalados Min-Max:
[[0.33333333 0.5       ]
 [0.         0.        ]
 [1.         1.        ]]


**3. Max Absolute Scaling (Escalamiento Máximo Absoluto):**

Max Absolute Scaling escala los datos dividiendo cada valor por el valor absoluto máximo en el conjunto de datos. Esto asegura que todos los datos estén en el rango [-1, 1].

$[X_{\text{scaled}} = \frac{X}{\max(|X|)}]$

Donde:
- $(X_{\text{scaled}})$ es el valor escalado.
- $(X)$ es el valor original.
- $(\max(|X|))$ es el valor absoluto máximo en el conjunto de datos.

In [10]:
from sklearn.preprocessing import MaxAbsScaler
import numpy as np

# Crear un conjunto de datos de ejemplo
data = np.array([[-2, 4],
                 [1, 3],
                 [4, -5]])

# Crear un objeto MaxAbsScaler
scaler = MaxAbsScaler()

# Aplicar el escalado Max Absolute
scaled_data = scaler.fit_transform(data)

print("Datos originales:")
print(data)
print("\nDatos escalados Max Absolute:")
print(scaled_data)

Datos originales:
[[-2  4]
 [ 1  3]
 [ 4 -5]]

Datos escalados Max Absolute:
[[-0.5   0.8 ]
 [ 0.25  0.6 ]
 [ 1.   -1.  ]]


**4. Robust Scaling (Escalamiento Robusto):**

El escalado robusto utiliza estadísticas resistentes a los valores atípicos para escalar los datos. Resta la mediana de cada característica y luego la divide por el rango intercuartílico (IQR). Esto lo hace más robusto frente a valores atípicos.

$[X_{\text{scaled}} = \frac{X - \text{Mediana}(X)}{\text{IQR}(X)}]$

Donde:
- $(X_{\text{scaled}})$ es el valor escalado.
- $(X)$ es el valor original.
- $(\text{Mediana}(X))$ es la mediana de la característica.
- $(\text{IQR}(X))$ es el rango intercuartílico de la característica.

In [11]:
from sklearn.preprocessing import RobustScaler
import numpy as np

# Crear un conjunto de datos de ejemplo con valores atípicos
data = np.array([[2, 4],
                 [1, 3],
                 [100, 5],
                 [4, 5]])

# Crear un objeto RobustScaler
scaler = RobustScaler()

# Aplicar el escalado robusto
scaled_data = scaler.fit_transform(data)

print("Datos originales:")
print(data)
print("\nDatos escalados robustos:")
print(scaled_data)

Datos originales:
[[  2   4]
 [  1   3]
 [100   5]
 [  4   5]]

Datos escalados robustos:
[[-0.03809524 -0.4       ]
 [-0.07619048 -1.2       ]
 [ 3.6952381   0.4       ]
 [ 0.03809524  0.4       ]]


Estos métodos de escalado de funciones son útiles para asegurarse de que los datos se ajusten a la escala deseada y para mejorar la eficiencia y el rendimiento de los modelos de Aprendizaje Automático, especialmente cuando los algoritmos son sensibles a la magnitud de los valores. La elección del método de escalado depende de las características de tus datos y los requisitos de tu modelo.

# **18. Codificación de datos categóricos | Codificación ordinal | Codificación de etiquetas**

La codificación de datos categóricos es un proceso esencial en el preprocesamiento de datos cuando se trabaja con variables categóricas en Ciencia de Datos y Aprendizaje Automático. Hay varios enfoques para codificar estas variables, y dos de los más comunes son la codificación ordinal y la codificación de etiquetas. Aquí te proporciono una explicación detallada de ambos enfoques con ejemplos en código en Python.

**1. Codificación Ordinal:**

La codificación ordinal se utiliza cuando las categorías categóricas tienen un orden intrínseco. Por ejemplo, las calificaciones académicas ("bajo", "medio", "alto") o los tamaños de ropa ("S", "M", "L", "XL") son ejemplos de variables categóricas ordinales.

El proceso implica asignar valores numéricos a cada categoría en función de su posición en el orden. Aquí tienes un ejemplo en código utilizando la biblioteca scikit-learn:

In [12]:
from sklearn.preprocessing import OrdinalEncoder

# Datos de ejemplo con una variable categórica ordinal
categorias = ["bajo", "medio", "alto", "medio", "bajo"]

# Crear un objeto OrdinalEncoder
encoder = OrdinalEncoder(categories=[["bajo", "medio", "alto"]])

# Ajustar el encoder a las categorías y transformar los datos
datos_codificados = encoder.fit_transform(np.array(categorias).reshape(-1, 1))

print("Datos originales:")
print(categorias)
print("\nDatos codificados:")
print(datos_codificados)

Datos originales:
['bajo', 'medio', 'alto', 'medio', 'bajo']

Datos codificados:
[[0.]
 [1.]
 [2.]
 [1.]
 [0.]]


En este ejemplo, las categorías "bajo", "medio" y "alto" se codifican como 0, 1 y 2, respectivamente, según el orden especificado en la lista de categorías.

**2. Codificación de Etiquetas:**

La codificación de etiquetas se utiliza cuando las categorías categóricas no tienen un orden intrínseco, y simplemente se les asigna un valor numérico único. Este enfoque es común en casos de variables categóricas nominales, como colores, géneros, ciudades, etc.

Aquí tienes un ejemplo en código utilizando la biblioteca scikit-learn:

In [13]:
from sklearn.preprocessing import LabelEncoder

# Datos de ejemplo con una variable categórica nominal
categorias = ["rojo", "verde", "azul", "rojo", "verde"]

# Crear un objeto LabelEncoder
encoder = LabelEncoder()

# Ajustar el encoder a las categorías y transformar los datos
datos_codificados = encoder.fit_transform(categorias)

print("Datos originales:")
print(categorias)
print("\nDatos codificados:")
print(datos_codificados)

Datos originales:
['rojo', 'verde', 'azul', 'rojo', 'verde']

Datos codificados:
[1 2 0 1 2]


En este ejemplo, las categorías "rojo", "verde" y "azul" se codifican como 0, 1 y 2, respectivamente, sin tener en cuenta ningún orden específico.

Es importante recordar que la elección entre la codificación ordinal y la codificación de etiquetas depende de la naturaleza de los datos y del problema en cuestión. La codificación ordinal se utiliza cuando existe un orden natural entre las categorías, mientras que la codificación de etiquetas se utiliza cuando las categorías son nominales y no tienen un orden intrínseco.

# **19. One Hot Encoding | Handling Categorical Data**

El "One-Hot Encoding" es una técnica de codificación utilizada para manejar datos categóricos en Ciencia de Datos y Aprendizaje Automático. Esta técnica convierte variables categóricas en una representación binaria (0 o 1) para que puedan ser utilizadas eficazmente por los modelos de Aprendizaje Automático. Aquí te proporciono una explicación detallada del "One-Hot Encoding" con ejemplos en código en Python.

**1. ¿Qué es el One-Hot Encoding?**

El "One-Hot Encoding" es un enfoque que convierte cada categoría única en una variable binaria (0 o 1). Cada categoría se representa como una columna distinta en la que se asigna un 1 si la observación pertenece a esa categoría y un 0 en caso contrario.

**2. Ejemplo de One-Hot Encoding:**

Supongamos que tienes un conjunto de datos con una variable categórica "Color" que puede tener tres categorías: "Rojo", "Verde" y "Azul". El "One-Hot Encoding" crearía tres columnas adicionales, una para cada categoría, y asignaría un 1 a la columna correspondiente a la categoría y 0 a las otras columnas.

Ejemplo de datos originales:
```
+----+-------+
| ID | Color |
+----+-------+
| 1  | Rojo  |
| 2  | Verde |
| 3  | Azul  |
| 4  | Rojo  |
+----+-------+
```

Después de aplicar "One-Hot Encoding", los datos se verían así:
```
+----+------+------+-------+
| ID | Rojo | Verde | Azul  |
+----+------+------+-------+
| 1  | 1    | 0     | 0    |
| 2  | 0    | 1     | 0    |
| 3  | 0    | 0     | 1    |
| 4  | 1    | 0     | 0    |
+----+------+------+-------+
```

Cada columna representa una categoría y tiene un valor binario que indica si la observación pertenece o no a esa categoría. Esto permite que los algoritmos de Aprendizaje Automático trabajen con variables categóricas de manera efectiva.

**3. Ejemplo en Código:**

Puedes utilizar la biblioteca scikit-learn para realizar "One-Hot Encoding" en Python. Aquí tienes un ejemplo de cómo hacerlo:

In [16]:
from sklearn.preprocessing import OneHotEncoder
import pandas as pd

# Crear un DataFrame de ejemplo con la variable categórica "Color"
data = pd.DataFrame({'Color': ['Rojo', 'Verde', 'Azul', 'Rojo']})

# Crear un objeto OneHotEncoder con sparse_output=False
encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')

# Ajustar el encoder a los datos y transformarlos
data_encoded = encoder.fit_transform(data[['Color']])

# Obtener los nombres de las columnas codificadas
column_names = encoder.get_feature_names_out(input_features=['Color'])

# Crear un nuevo DataFrame con las columnas codificadas
encoded_df = pd.DataFrame(data=data_encoded, columns=column_names)

print("Datos originales:")
print(data)
print("\nDatos codificados con One-Hot Encoding:")
print(encoded_df)

Datos originales:
   Color
0   Rojo
1  Verde
2   Azul
3   Rojo

Datos codificados con One-Hot Encoding:
   Color_Azul  Color_Rojo  Color_Verde
0         0.0         1.0          0.0
1         0.0         0.0          1.0
2         1.0         0.0          0.0
3         0.0         1.0          0.0


Este código utiliza `OneHotEncoder` para codificar la variable categórica "Color" y crea un nuevo DataFrame con las columnas codificadas. Cada columna representa una categoría única y tiene valores binarios 0 o 1, según la presencia o ausencia de la categoría en cada observación.

El "One-Hot Encoding" es una técnica valiosa para trabajar con datos categóricos en Aprendizaje Automático, ya que permite que los modelos utilicen estas variables de manera efectiva.

# **20. Transformador de columna en aprendizaje automático | Cómo utilizar ColumnTransformer en Sklearn**

Un transformador de columna es una herramienta importante en Aprendizaje Automático que permite aplicar transformaciones específicas a diferentes columnas de un conjunto de datos. `ColumnTransformer` en scikit-learn es una clase que facilita la aplicación de transformaciones a columnas específicas de un conjunto de datos, lo que es útil cuando se trabaja con características heterogéneas. Aquí tienes una explicación detallada de cómo utilizar `ColumnTransformer` con ejemplos en código en Python.

**1. ¿Qué es `ColumnTransformer`?**

`ColumnTransformer` es una clase de scikit-learn que permite aplicar transformaciones a columnas específicas de un conjunto de datos. Esto es útil cuando se trabaja con conjuntos de datos que contienen diferentes tipos de características, como numéricas, categóricas, texto, etc.

**2. Ejemplo de Uso de `ColumnTransformer`:**

Supongamos que tienes un conjunto de datos con tres columnas: una columna numérica, una columna categórica y una columna de texto. Deseas aplicar diferentes transformaciones a cada tipo de columna. A continuación, se muestra un ejemplo de cómo hacerlo:

In [19]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
import pandas as pd

# Crear un DataFrame de ejemplo
data = pd.DataFrame({
    'Numerico': [10, 20, 30, 40],
    'Categorico': ['A', 'B', 'A', 'C'],
    'Texto': ['Hola mundo', 'Aprendizaje automático', 'Texto de ejemplo', 'Sklearn es genial']
})

# Definir las transformaciones para cada tipo de columna
numeric_transformer = Pipeline(steps=[
    ('scaler', StandardScaler())  # Estandarizar los valores numéricos
])

categorical_transformer = Pipeline(steps=[
    ('onehot', OneHotEncoder())  # Aplicar One-Hot Encoding a las categorías
])

text_transformer = Pipeline(steps=[
    ('tfidf', TfidfVectorizer())  # Aplicar TF-IDF a los datos de texto
])

# Crear un ColumnTransformer que aplique las transformaciones a las columnas correspondientes
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, ['Numerico']),  # Aplicar a la columna 'Numerico'
        ('cat', categorical_transformer, ['Categorico']),  # Aplicar a la columna 'Categorico'
        ('text', text_transformer, 'Texto')  # Aplicar a la columna 'Texto'
    ],
    remainder='passthrough'  # Mantener las columnas no transformadas
)

# Ajustar y transformar los datos utilizando el ColumnTransformer
transformed_data = preprocessor.fit_transform(data)
print("Datos transformados:")
transformed_data

Datos transformados:


array([[-1.34164079,  1.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
         0.70710678,  0.70710678,  0.        ,  0.        ],
       [-0.4472136 ,  0.        ,  1.        ,  0.        ,  0.70710678,
         0.70710678,  0.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.4472136 ,  1.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.57735027,  0.57735027,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.57735027],
       [ 1.34164079,  0.        ,  0.        ,  1.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.57735027,  0.57735027,
         0.        ,  0.        ,  0.57735027,  0.        ]])

En este ejemplo, hemos definido transformaciones específicas para columnas numéricas, categóricas y de texto. Luego, utilizamos `ColumnTransformer` para aplicar estas transformaciones a las columnas correspondientes en el conjunto de datos. Las columnas resultantes se combinan en un nuevo conjunto de datos transformado.

`ColumnTransformer` es útil para gestionar conjuntos de datos con diferentes tipos de características y aplicar transformaciones específicas a cada tipo de columna, lo que es fundamental en la ingeniería de características en Aprendizaje Automático.

| **Inicio** | **atrás 1** | **Siguiente 3** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./1_Machine_Learning.ipynb)| [⏩](./3_Machine_Learning.ipynb)|