# Definiciones

## Contenidos

- [1 - IA vs ML vs DL](#1)
- [2 - ¿Qué es el ML?](#2)
- [3 - Tipos de ML](#3)
- [4 - Tareas de ML](#4)
- [5 - Los datos](#5)
- [6 - Tipo de datos](#6)
- [7 - Principales problemas del ML](#7)
- [8 - Librerías de Python para ML](#8)

<a name='1'></a>
## IA vs ML vs DL

Definir la IA no es tarea fácil. Aquí algunos ejemplos.

<span style="color:green">

> **La Inteligencia Artificial es el ámbito de estudio que confiere a los ordenadores la capacidad de aprender sin ser programados explícitamente (Arthur Samuel, 1959).**


> **Un programa aprende de la experiencia E con respecto a la tarea T y medida de éxito P si su desempeño en T, medido por P, mejora con la experiencia E (Tom Michell, 1997).**</span>

La IA es un campo de la ciencia cuyo origen precedo incluso a la invención de los ordenadores. Desde entonces, multitud de técnicas y algoritmos han sido desarrollados, desde el Perceptrón hasta las redes neuronales de hoy en día. 

![](./pics/ia_ml_dl.png)

Dentro de la IA encontramos una familia de algoritmos conocida como *Machine Learning*. Estos algoritmos se caracterizan por ser capaces de aprender a llevar a cabo una tarea específica a partir de ejemplos. Dentro de este grupo encontramos una subcategoría de algoritmos conocida como *Deep Learning*, que no solo es capaz de aprender a partir de datos sino que además es capaz de hacerlo con mínima intervención humana (*feature engineering*).

![](./pics/fe.png)

<a name='2'></a>
## ¿Qué es el ML?

El uso del ML es de especial utilidad en aquellas tareas en las que la programación "tradicional" (o software 1.0) falla, principalmente debido a la imposibilidad de desarrollar una serie de instrucciones capaz de resolver el problema. También es recomendable su uso en entornos cambiantes o a la hora de extraer información de grandes cantidades de datos. 

![](./pics/s20.png)

Esto es debido a que, mientras que en el "software 1.0" el programador debe crear un programa (serie de instrucciones) para llevar a cabo una tarea, en el "software 2.0" (otro término atribuido al ML) será el mismo algoritmo el que aprenderá por sí mismo a resolver un problema a base de ejemplos. 

|   | Programación tradicional  | ML  | 
|---|---|---|
| Programa  | Código escrito por el programador en un lenguaje  | Los datos  | 
| Compilación  | Traducción del programa a código máquina  | El modelo (y receta de entrenamiento)  | 
| Binario  | Ejecutable que el ordenador entiende  | Modelo entrando  | 

<a name='3'></a>
## Tipos de ML

Podemos clasificar los diferentes algoritmos de ML en función de:

1. **El proceso de entrenamiento:** supervisado, no supervisado (o semi-supervisado) y aprendizaje por refuerzo.
2. **Su forma de aprender:** en modo *batch* o *online*. 
3. **Su funcionamiento:** basado en modelos o instancias.

### Aprendizaje supervisado, no supervisado (o semi-supervisado) y aprendizaje por refuerzo

#### Aprendizaje supervisado

Es donde los algoritmos trabajan con datos “etiquetados” (labeled data), intentado encontrar una función que, dadas las variables de entrada (input data), les asigne la etiqueta de salida adecuada. El algoritmo se entrena con un “histórico” de datos y así “aprende” a asignar la etiqueta de salida adecuada a un nuevo valor, es decir, predice el valor de salida.
 
Por ejemplo, un detector de spam, analiza el histórico de mensajes, viendo qué función puede representar, según los parámetros de entrada que se definan (el remitente, si el destinatario es individual o parte de una lista, si el asunto contiene determinados términos etc), la asignación de la etiqueta “spam” o “no es spam”. Una vez definida esta función, al introducir un nuevo mensaje no etiquetado, el algoritmo es capaz de asignarle la etiqueta correcta.
 
El aprendizaje supervisado se suele usar en:
 
- Problemas de clasificación (identificación de dígitos, diagnósticos, o detección de fraude de identidad).
- Problemas de regresión (predicciones meteorológicas, de expectativa de vida, de crecimiento etc).
 
Estos dos tipos principales de aprendizaje supervisado, clasificación y regresión, se distinguen por el tipo de variable objetivo. En los casos de clasificación, es de tipo categórico, mientras que, en los casos de regresión, la variable objetivo es de tipo numérico.

#### Aprendizaje no supervisado: 

El aprendizaje no supervisado tiene lugar cuando no se dispone de datos “etiquetados” para el entrenamiento. Sólo conocemos los datos de entrada, pero no existen datos de salida que correspondan a un determinado input. Por tanto, sólo podemos describir la estructura de los datos, para intentar encontrar algún tipo de organización que simplifique el análisis. Por ello, tienen un carácter exploratorio.

Por ejemplo, las tareas de clustering, buscan agrupamientos basados en similitudes, pero nada garantiza que éstas tengan algún significado o utilidad. En ocasiones, al explorar los datos sin un objetivo definido, se pueden encontrar [correlaciones curiosas](http://tylervigen.com/spurious-correlations), pero poco prácticas.

El aprendizaje no supervisado se suele usar en problemas de clustering o de agrupamientos.

#### Aprendizaje por refuerzo

Este tipo aprendizaje se basa en mejorar la respuesta del modelo usando un proceso de retroalimentación. El algoritmo aprende observando el mundo que le rodea. Su información de entrada es el feedback o retroalimentación que obtiene del mundo exterior como respuesta a sus acciones. Por lo tanto, el sistema aprende a base de ensayo-error.

No es un tipo de aprendizaje supervisado, porque no se basa estrictamente en un conjunto de datos  etiquetados, sino en la monitorización de la respuesta a las acciones tomadas. Tampoco es un aprendizaje no supervisado, ya que, cuando modelamos a nuestro «aprendiz»sabemos de antemano cuál es la recompensa esperada. 

<a name='4'></a>
## Tareas de ML

Las principales tareas que podemos llevar a cabo con ML son: clasificación, regresión y *clustering*. Para cada tarea, existen numerosos algoritmos .

![](./pics/tareas.png)

### Algoritmos de clasificación

Los algoritmos de clasificación se usan cuando el resultado deseado es una etiqueta discreta, en otras palabras, son útiles cuando la respuesta al problema cae dentro de un conjunto finito de resultados posibles.

En el caso de que el modelo entrenado es para predecir cualquiera de las dos clases objetivos, verdadero o falso, por ejemplo, se le conoce como clasificación binaria. Algunos ejemplos de esto son: predecir si un alumno aprobará o no, predecir si un cliente comprará un producto nuevo o no.

Por su parte, si tenemos que predecir más de dos clases objetivos, se le conoce como clasificación multicategoría. Un ejemplo de esto es predecir qué asignaturas un alumno tendrá las más clasificaciones. Este tipo de clasificación es útil para la segmentación del cliente, la categorización de imágenes y audio y análisis de texto para optimizar el sentiento del cliente.

### Algoritmos de regresión

La regresión es útil para predecir productos que son continuos, eso significa que la respuesta a su pregunta se presenta mediante una cantidad que puede determinarse de manera flexible en función de las entradas del modelo en lugar de limitarse a un conjunto de etiquetas. En algunos casos, el valor predicho se puede usar para identificar la relación lineal entre los atributos.

La regresión lineal es el ejemplo más popular de un algoritmo de regresión, aunque a menudo se subestima debido a su relativa simplicidad, es un método versatil que se puede usar para predecir los precios de la vivienda, la probabilidad de que los clientes se desvién o los ingresos que un cliente generará.

### Algoritmos de clustering

Clustering es una técnica que implica la agrupación de puntos de datos. Dado un conjunto de puntos de datos, podemos utilizar un algoritmo de agrupación para clasificar cada punto de datos en un clúster específico. En teoría, los puntos de datos que están en el mismo clúster deben tener propiedades y/o características similares, mientras que los puntos de datos en diferentes clústeres deben tener propiedades y/o características muy diferentes. La agrupación es un método de Aprendizaje no Supervisado y es una técnica común para el análisis de datos estadísticos utilizada en muchos campos.

<a name='5'></a>
## Los datos

El ML gira entorno a los datos. Como hemos visto anteriormente son la parte fundamental y dos conjuntos de datos distintos nos darán resultados muy diferentes aunque usemos el mismo modelo y receta de entrenamiento. Así pues, un buen entendimiento de los datos y cómo trabajar con ellos es crucial para tener éxito en aplicaciones de ML. De entre todas las cuestiones que hay que tener en cuenta, la separación de datos en conjuntos de entrenamiento, validación y test es quizás la más importante.

![](./pics/datos.png)

Así pues usaremos el conjunto de entrenamiento para entrenar nuestros modelos, el de validación para optimizar los hiperparámetros y el de test para generar las métricas finales. 

### Método Holdout (Retención)

El método Holdout es el tipo de método más simple para evaluar un clasificador. En este método, el conjunto de datos (una colección de elementos de datos o ejemplos) se separa en dos conjuntos, denominados *Conjunto de entrenamiento* y *Conjunto de prueba*.

### Método Validación cruzada

La cross-validation o validación cruzada es un método que permite probar el rendimiento de un modelo predictivo de Machine Learning.

En K-Fold Cross Validation, el conjunto de datos de entrenamiento se divide en dos partes: *entrenamiento* y *validación*, donde K representa la cantidad de pliegues u observaciones que se realizarán. Por ejemplo, si tenemos un conjunto de datos de entrenamiento con 20 eventos y elegimos la validación de 5 pliegues o cortes, esto dividiría el conjunto de datos de entrenamiento en 5 pliegues.

![](./pics/cross_val.PNG)

Tomar un conjunto de datos de entrenamiento con 20 eventos contra la validación cruzada de 4 veces produciría un conjunto de datos de prueba de 5 eventos y un conjunto de datos de entrenamiento de 15 eventos. Luego, este proceso se repite K veces (4) y la precisión resultante se promedia para producir una precisión general más realista del modelo que se está probando.

IMPORTANTE: El “set de validación” no es realmente un tercer set si no que “vive” dentro del conjunto de Train. El set de validación se utilizará durante las iteraciones del conjunto de entrenamiento. este conjunto permite ajustar los parámetros del modelo.

<a name='6'></a>
## Tipo de datos

No todos los datos son iguales. Esto significa que los datos generados por las aplicaciones de redes sociales son completamente diferentes de los datos generados por los sistemas de punto de venta o cadena de suministro. Los tipos de datos son:

- **Estructurados:** los datos estructurados se clasifican con mayor frecuencia como datos cuantitativos, y es el tipo de datos que encajen perfectamente en filas y columnas fijos en bases de datos relacionales y hojas de cálculo. Los datos estructurados están muy organizados y se comprenden fácilmente mediante el lenguaje de máquina.
- **No Estructurados:** se trata de conjuntos de datos (colecciones grandes típicas de archivos) que no se almacenan en un formato de base de datos estructurado. Los datos no estructurados tienen estructura interna, pero que no tienen una estructura pre-determinada. Por ejemplo, una imagen puede ser de cualquier cosa, no hay una estructura pre-determinada. En un fomulario, sin embargo, un computador puede pedir la fecha de nacimiento del usuario: esa fecha es un dato 'estructurado' porque el computador sabe que debe tener el formato MM/DD/AAAA. Si el campo de entrada del formulario dice "comentarios" y el usuario puede poner cualquier comentario, ese dato es no estructurado.

<a name='7'></a>
## Principales problemas del ML

El desarrollo de aplicaciones de ML no es fácil, y es que existen multitud de problemas a los que nos podemos enfrentar. Algunos ejemplos son: 

- Cantidad insuficiente de datos
- Datos no representativos
- Datos de baja calidad
- Características en los datos irrelevantes
- *Overfitting* o *underfitting*

<a name='8'></a>
## Librerías de Python para ML

Antes de entrar con los algoritmos y aplicaciones, vamos a hablar sobre el ecosistema de librerías existentes en `Python` para el `Machine Learning`, haciendo hincapié en aquellas más usadas por la comunidad y que también utilizaremos en en el curso.

![](./pics/tools.png)

En la imagen anterior puedes ver un resumen de las herramientas más usadas a día de hoy para `Machine Learning` con `Python`. Las herramientas con círculas las veeremos a lo largo del curso. Las herramientas sin círculo no las usaremos, pero vale la pena conocerlas ya que pueden serte útiles para algunas aplicaciones. 

En la base podemos encontrar `Python`, el lenguaje de programación base que todas las herramientas utilizan. Por encima encontramos herramientas como `Numpy`, para cálculo numérico, o `Jupyter`, para ejecutar nuestro código en `notebooks`. Por encima vemos herramientas basadas en `Numpy` como `Pandas`, para trabajar con datos tabulares, y `Matplotlib`, para generar gráficos en `Python`. Finalmente, en la última capa, encontramos `Scikit-Learn`, una de las librerías más utilizadas hoy en día para entrenar modelos de `Machine Learning` y `Tensorflow` para entrenar modelos de `Deep Learning`, al igual de `Pytorch`, pero que no es alcance de este curso.

### Python

[**Python**](https://www.python.org/) se define como un **<span style="color:green">“lenguaje de programación versátil, multiplataforma y multiparadigma que se destaca por su código legible y limpio”</span>**. Cuenta con una licencia de código abierto que permite su utilización en distintos contextos de forma gratuita.

Su principal objetivo es la **automatización de procesos**, lo que hará de las tareas algo mucho más simple. En este sentido, Python crea un código con gran legibilidad, que ahorra tiempo y recursos. Uno de sus puntos fuertes es que “comprueba los errores sobre la marcha” para solucionarlos cuando afectan a la memoria, lo que mantiene la integridad de la matriz y evita las complicaciones a la hora de escribir el código.

#### Usos de Python

Uno de sus principales aliados es la **Inteligencia Artificial (AI)**, pero también se destaca en aplicaciones web y big data.

- **Inteligencia Artificial:** al ser un lenguaje de escritura “rápido, escalable, robusto y de código abierto” permite plasmar ideas complejas con unas pocas líneas de código, lo que no es posible con otros lenguajes.
- **Big Data:** el uso de Phyton se extendió en el análisis de datos y la extracción de información. Cuenta con bibliotecas de procesamiento de datos como Pydoop, Dask y Pyspark, que facilitan aún más la gestión de grandes volúmenes de información.
- **Data Science:** Phyton incorpora motores numéricos como *Pandas* y *NumPy*, que son ampliamente utilizados por investigadores de todo el mundo. También se ocupa de los datos tabulares, matriciales y estadísticos, visualizados en bibliotecas populares como *Matplotlib* y *Seaborn*, lo que facilita la creación de una amplia variedad de gráficos y representaciones visuales de todo tipo.
- **Frameworks de Pruebas:** es ideal para validar ideas o productos, ya que tiene muchos frameworks integrados que ayudan a depurar el código y ofrecen rápidos flujos de ejecución.
- **Desarrollo Web:** con menos líneas de código se construyen back-end de aplicaciones web mucho más eficientes.
- **Educación en Ciencias de la Computación:** su sintaxis simple permite a los estudiantes comenzar a adquirir habilidades valiosas para sus carreras. Además, admite varios paradigmas de programación como la imperativa, la funcional, la procedimental y la orientada a objetos.

Python también se utiliza para obtener información de otros sitios web, lo que comúnmente se denomina “*scraping*”. Al mismo tiempo, puede aplicarse en el desarrollo de juegos y de softwares en general. Incluso tiene aplicaciones prometedoras en el campo médico que mejoran la capacidad de brindar diagnósticos y tratamientos precisos a los pacientes. En biología y bioinformática, puede aplicarse en el procesamiento de secuencias de ADN, la simulación de dinámica y genética de poblaciones y el modelado de estructuras bioquímicas. Otras áreas como astronomía, robótica, vehículos autónomos, negocios, meteorología y desarrollo de interfaces gráficas de usuario también se benefician con el uso de Python.

### Anaconda y Jupiter

[**Anaconda**](https://www.anaconda.com/) es una Suite de código abierto que abarca una serie de aplicaciones, librerías y conceptos diseñados para el desarrollo de la Ciencia de datos con Python. En líneas generales Anaconda Distribution es una distribucción de Python que funciona como un gestor de entorno, un gestor de paquetes y que posee una colección de +720 paquetes de código abierto.

Un paquete es un pedazo de código que alguien ha escrito y que puede ser ejecutado y a menudo sirve para un propósito específico. Puedes considerar un paquete como una herramienta que puedes usar para tus propios proyectos.

Dentro del Navegador de Anaconda encontramos varias aplicaciones que podemos utilizar, a continuación, se explican cada una de ellas, **Jupyter Notebook**. Este es un software de código abierto que permite a los Científicos de Datos realizar flujos de trabajo y realizar eficazmente soluciones científicas y computacionales. Con un énfasis en la presentación y la legibilidad, Jupyter Notebook es una opción inteligencia para proyectos de colaboración y publicaciones perspicaces. Jupyter Notebook es de código abierto y desarrollado en GitHub públicamente por la comunidad Jupyter.

### Numpy

[**NumPy**](https://numpy.org/) es un módulo de Python. El nombre es un acrónimo de Python Numérico. Es una librería que consiste en objetos de matrices multidimensionales y una colección de rutinas para procesar esas matrices.

Es un módulo de extensión para Python, escrito en su mayor parte en C. Esto asegura que las funciones y funcionalidades matemáticas y numéricas precompiladas de NumPy garantizan una gran velocidad de ejecución.

NumPy es un paquete de procesamiento de matrices de uso general. Proporciona un objeto de matriz multidimensional de alto rendimiento, y herramientas para trabajar con estas matrices. Es el paquete fundamental para la computación científica con Python. Además de sus obvios usos científicos, NumPy también puede ser usado como un eficiente contenedor multidimensional de datos genéricos.

### Pandas

[**Pandas**](https://pandas.pydata.org/) se deriva del término Panel Data, un término econométrico para conjuntos de datos que incluyen observaciones en múltiples períodos de tiempo para los mismos individuos.

Es una librería de código abierto de Python que proporciona herramientas de análisis y manipulación de datos de alto rendimiento utilizando sus potentes estructuras de datos.

Esta librería se desarrolló debido a la necesidad de tener una herramienta flexible de alto rendimiento para el análisis de datos. Anteriormente Python se utilizaba para la manipulación y preparación de datos por lo que no era utilizado para Machine Learning, Pandas resolvió este problema. Usando esta librería podemos lograr cinco pasos típicos en el procesamiento y análisis de datos, independientemente del origen de los datos: cargar, preparar, manipular, modelar y analizar.

### Matplotlib

[**Matplotlib**](https://matplotlib.org/) es una librería de trazado utilizada para gráficos 2D en lenguaje de programación Python, es muy flexible y tiene muchos valores predeterminados incorporados que te ayudarán muchísimo en tú trabajo. Produce figuras de calidad de publicación en una variedad de formatos impresos y entornos interactivos.

### Scikit-Learn

[**Scikit-Learn**](https://scikit-learn.org/stable/) es una biblioteca para aprendizaje automático de software libre para el lenguaje de programación Python. Incluye varios algoritmos de clasificación, regresión y análisis de grupos entre los cuales están máquinas de vectores de soporte, bosques aleatorios, Gradient boosting, K-means y DBSCAN. Está diseñada para interoperar con las bibliotecas numéricas y científicas NumPy y SciPy.

## Ejemplo de separación de datos

Veamos en código python usando la librería scikit-learn como es el procedimiento general para hacer el cross-validation con K-Folds.

Como este data set es pequeño y esta pre-procesado no vamos a ver realmente la utilidad del cross validation, pero sí vamos a recorrer los pasos generales para aplicarlo.

In [3]:
# Importaciones
from sklearn import datasets, metrics
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
from sklearn.linear_model import LogisticRegression

In [6]:
# Traemos los datos del data set iris
iris = datasets.load_iris()

In [16]:
# Podemos ver de que se trata este data set

# Vemos como estan guardados estan guardados los ejemplos
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [17]:
# podemos ver la información del data set
print(iris["DESCR"])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [18]:
# Definimos como X a los datos
X = iris["data"]

# Visualizamos los primeros 5 ejemplos
X[:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

In [19]:
# Definimos como y a las etiquetas
y = iris["target"]

# Visualizamos las etiquetas de los primeros 5 ejemplos
y[:5]

array([0, 0, 0, 0, 0])

In [23]:
# Vemos cuales son los nombres de las eqtiquetas
nombres_etiquetas = iris["target_names"]
print('Los nombres de las etiquetas son:\n', nombres_etiquetas)

#Vemos cuales son los nombres de las características
nombres_características = iris["feature_names"]
print('\nLos nombres de las características son:\n', nombres_características)

Los nombres de las etiquetas son:
 ['setosa' 'versicolor' 'virginica']

Los nombres de las características son:
 ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [52]:
# Dividimos el data set en train y test (80-20%)
X_train, X_test, y_train, y_test = train_test_split(iris.data, 
                                                    iris.target, 
                                                    test_size=0.2, 
                                                    random_state=0)

In [53]:
print('Forma de datos en Entrenamiento:', X_train.shape)
print('Forma de datos en Testeo:', X_test.shape)

Forma de datos en Entrenamiento: (120, 4)
Forma de datos en Testeo: (30, 4)


In [54]:
# Creamos un modelo de Regresión Logística (podría ser cualquiera)
clf = LogisticRegression(max_iter=1000)

# Entrenamos con los datos de Train
clf.fit(X_train, y_train)

In [55]:
# Calculamos la métrica del modelo entrenado
score = clf.score(X_train,y_train)
print("Metrica del modelo: ", score)

Metrica del modelo:  0.9666666666666667


In [56]:
# Hacemos Cross-Validation usando K-folds con 5 splits
kf = KFold(n_splits=10)

In [57]:
# Recalculamos la métrica para la validación cruzada
scores = cross_val_score(clf, 
                         X_train, 
                         y_train, 
                         cv=kf,
                         scoring="accuracy")
print("Metricas cross_validation: \n", scores)

Metricas cross_validation: 
 [0.91666667 0.91666667 0.83333333 1.         1.         1.
 1.         1.         0.91666667 0.91666667]


In [58]:
# Calculamos el valor medio de la métrica entre los trozos
# del cross validation
print("Media de cross_validation", scores.mean())

Media de cross_validation 0.95


In [59]:
# Hacemos las predicciones sobre el set de testeo
preds = clf.predict(X_test)

In [43]:
# Calculamos la métrica para la prediccion
score_pred = metrics.accuracy_score(y_test, preds)
print("Metrica en Test", score_pred)

Metrica en Test 1.0
