# Guía de Introducción al Machine Learning

Vamos a realizar un pequeño resumen acerca de los conceptos más esenciales que veremos al iniciar la formación relacionada con Machine Learning aplicado al ámbito de Data Science.

El Data Science se enfoca en recopilar, procesar, analizar y sobre todo obtener información valiosa a partir de los datos que disponemos. Es una herramienta muy útil para tomar decisiones basadas en estos datos y resolver problemas complejos.
Por su parte, cuando nos referimos a Machine Learning (ML) estamos hablando de un subcampo de la Inteligencia Artificial que se centra en el desarrollo de algoritmos y modelos. Estos permiten a los ordenadores aprender y mejorar su rendimiento en tareas específicas a través de la experiencia y los datos. En lugar de programar explícitamente el algoritmo requerido para llevar a cabo una tarea en particular, se le proporcionan datos y se entrena al algoritmo para que aprenda y haga predicciones o tome decisiones basadas en esto. El ML se utiliza en una amplia variedad de aplicaciones, desde la recomendación de productos en plataformas de comercio electrónico hasta la detección de fraudes en transacciones financieras y la automatización de procesos industriales.

Existen dos grandes campos de estudio dentro del campo de Data Science, sobre los cuales podremos trabajar con modelos de ML. Veamos cuáles son.
1. **Datos estructurados**
>Se trata de conjuntos de datos, almacenados normalmente en Data Frames los cuales se someten a sucesivas etapas de procesamiento, análisis, presentación y creación de modelos predictivos a partir de estos datos. A partir de estos datos, los modelos de ML son entrenados y permiten resolver distintos problemas a partir de su evaluación en casos reales.

2. **Datos no estructurados**
>La gran mayoría de los datos con los que normalmente se trabaja se presentan de una forma no estructurada. En algunos casos sí que vamos a poder llevar a cabo la conversión de datos no estructurados a estructurados, como los datos recogidos de páginas web o redes sociales. Sin embargo, vamos a centrarnos en los dos siguientes conjuntos de datos no estructurados.
* **NLP (Natural Language Processing)**
>Se centra en la comprensión, generación y análisis de texto y lenguaje humano en datos no estructurados, es decir el lenguaje natural. Se utiliza por ejemplo en chatbots, sistemas de traducción automática, análisis de sentimientos o resumen de texto.
* **Computer Vision**
>Se refiere al procesamiento y análisis de imágenes y vídeos. Incluye la detección de objetos, el reconocimiento de patrones (reconocimiento facial), clasificación de imágenes o su uso por parte de los vehículos autónomos.

Hemos visto que los algoritmos de ML tienen una fase de entrenamiento a partir de los datos suministrados por nosotros. Dependiendo de las características de nuestros datos, nos encontramos con distintos paradigmas.
1. **Aprendizaje Supervisado**
>El modelo se entrena utilizando un conjunto de datos etiquetados, donde las etiquetas son conocidas y representan la salida deseada. El objetivo es que el modelo aprenda a mapear las entradas a las salidas correctas.
2. **Aprendizaje No Supervisado**
>En este caso, el modelo se entrena con datos no etiquetados y el objetivo principal es encontrar patrones ocultos o estructuras en los datos. Estos algoritmos incluyen clustering (agrupamiento) y reducción de dimensionalidad.
3. **Aprendizaje Semi-Supervisado**
>En este enfoque, se utiliza un conjunto de datos que contienen una combinación de datos etiquetados y no etiquetados. Así mismo, el modelo se entrena tanto con ejemplos etiquetados como no etiquetados para aprovechar al máximo la información disponible.

Existen otros paradigmas importantes del Machine Learning (Deep Learning, Aprendizaje por refuerzo, Aprendizaje por conjunto,…), pero se necesitan unos conocimientos más avanzados, por lo que en esta primera toma de contacto nos centraremos en los especificados anteriormente. Podemos encontrar más información acerca de estos temas en los siguientes enlaces:
Machine Learning vs Deep Learning
Paradigmas del Machine Learning
Machine Learning: Una visión más teórica

Ahora que conocemos las distintos tipos de aprendizaje que pueden llevar a cabo los modelos, dependiendo de la estructura de los datos con los que estamos trabajando, veamos los problemas que podemos llegar a resolver utilizando como herramienta los distintos modelos de ML.
1. **Clasificación**
>Clasificar los elementos en distintas categorías o etiquetas (en resumen, valores extremos). Para que se pueda llevar a cabo es necesario disponer de las categorías de los datos de antemano, por tanto nos encontramos en el caso de aprendizaje supervisado. Se usan por ejemplo en detección de spam en correos electrónicos, clasificación de imágenes o clasificación de documentos.
2. **Regresión**
>Predecir un valor numérico en función de las variables de entrada. En este caso, no se dispone de ninguna categoría o etiqueta, si no a partir de los datos de entrada obtenemos un cierto valor numérico. Sin embargo, se considera dentro del aprendizaje supervisado. Podemos encontrarlo a la hora de realizar un pronóstico de ventas, una estimación de precios o la evaluación de riesgo financiero.
3. **Agrupamiento (Clustering)**
>Agrupar datos similares en distintos grupos o clusters. Para realizar esta tarea utiliza las distintas características obtenidas al analizar cada dato y así formar los grupos. Pertenece a los algoritmos de aprendizaje no supervisado, pues no es necesario disponer de ningún tipo de etiqueta. Incluye por ejemplo la identificación de comunidades en redes sociales o la segmentación del mercado. También podemos incluir los mecanismos de recomendación de distintas plataformas (redes sociales, comercio electrónico o streaming).
4. **Reducción de dimensionalidad**
>Reducir la complejidad de los datos conservando la información más importante. Se incluye en el aprendizaje no supervisado, y es muy útil para la visualización de datos, la eliminación de ruido o la compresión de los datos.
5. **Detección de anomalías**
Identificar patrones inusuales o anomalías en los datos. De nuevo, pertenece a uno u otro tipo de aprendizaje dependiendo si los datos vienen acompañados de etiquetas. Es empleado en la detección de fraudes en transacciones financieras, la monitorización de sistemas de seguridad o el control de calidad en la fabricación.

Encontramos otros problemas que los modelos de ML son capaces de resolver como el aprendizaje por refuerzo, simulación y modelado, optimización o diagnóstico y mantenimiento predictivo, los cuales dependiendo en el enfoque que queramos dar a nuestro problema y los objetivos específicos que persigamos, podríamos usar como aprendizaje supervisado o no supervisado.