# Tarea PIA04: Clasificación de Especies de Flor Iris Utilizando Librerías de Python para Aprendizaje Automático

Te proponemos ver en acción las librerías que has estudiado con el famoso dataset ["iris flower data set" elaborado por el biólogo Ronald Fisher](https://en.wikipedia.org/wiki/Iris_flower_data_set).
En él, hay valores de medidas de los sépalos y pétalos de ejemplares de esta flor, según su especie.

![Especies Iris](https://live.staticflickr.com/7866/47075467621_85ab810139_c.jpg)


**Nombre y Apellidos:** Aleksander Trujillo Prokhorenko

Este cuaderno se proporciona como guía para la tarea PIA04, contiene la estructura de la tarea así como fragmentos de código para dar los primeros pasos, estos fragmentos se deben comentar y modificar cuando sea necesario. Además se pedirá que se genere determinado código. <br>
Siéntase libre de añadir código y comentarios relevantes, bajo las mismas condiciones que el código pedido.

## Apartado 1: Explora los datos con Pandas

1. Importa las librerías Numpy y Pandas y comenta brevemente para qué sirve cada una de ellas.


```
import numpy as np
import pandas as pd
```



Importamos la librería de numpy y pandas para poder utilizarla posteriormente.

**Numpy**: esta librería la usamos para manejar un gran cantidad de datos para trabar con ellos en array de multiples dimensiones. Al trabajar con arrays esta mucho más optimizado que trabajar con listas.

**Pandas**: está diseñada específicamente para la manipulación y el análisis de datos, además de ser una biblioteca de código abierto. Esta escrito en C, por ende tiene un rendimiento muy optimo.

In [None]:
import numpy as np
import pandas as pd

2. Importa load_iris de la biblioteca de datasets de scikit-learn y estudia sus principales elementos 'data', 'target' y 'target_names'.
Comenta el contenido de cada uno de dichos elementos y relaciónalos entre sí.

```
from sklearn.datasets import load_iris

data = load_iris()
```

```
data['data']
```

```
data['target']
```

```
data['target_names']
```


In [None]:
from sklearn.datasets import load_iris
data = load_iris()

data["data"]

In [None]:
data["target"]

In [None]:
data["target_names"]


**1. Función load_iris**:
Carga y devuelve el conjunto de datos del iris (clasificación).

El conjunto de datos del iris es un conjunto de datos de clasificación multiclase clásico

**2. data["data"]**: podemos observar una matriz de cuatro columnas que contiene diferentes datos númericos, tanto enteros como decimales, lo que nos indica que son los datos del dataframe iris, por ejemplo la longitud del sepalo

**3. data["target"]**: es la columna que se encarga de clasificar los diferentes iris, pero el problema de esta columna, es que no es intuitiva por que lo clasifica de manera númerica, pero para ello como veremos a continuación tenemos target_name para obtener los nombres de los diferentes tipos.

**4. data["target_names"]**: en la ejecución de esta linea, podemos observar los diferentes tipos de iris que tenemos, por ejemplo setosa, versicola.

3. Utiliza la clase DataFrame para crear el dataset df y añade la columna "Species" a partir de la secuencia "target". Utiliza la función head para ver los primeros registros del nuevo dataset.

```
df = pd.DataFrame(data=data.data, columns=data.feature_names)
```

In [None]:
df = pd.DataFrame(data = data.data, columns=data.feature_names)

4. Añade la columna "Species_Name" a partir de la columna "Species" y la secuencia "target_names'. Utiliza la función head para ver los primeros registros del nuevo dataset.
*(No se proporciona el código para este apartado, deberás diseñarlo tú y comentarlo)*

In [None]:
if "Species" not in df:
  df["Species"] = data["target"]

#Utilizamos la función map, para introducir a cada fila un campo determinado
# tengo que usar un map, porque con un for normal, siempre asignaba el mismo valor
# y para poder acceder dinámicamente a cada valor de iris y de manera optima
# se usa map.
df["Species_Name"] = df["Species"].map(lambda specie: data.target_names[specie])

df

5. Utiliza la función describe para ver los principales valores estadísticos del dataset. Estudia los datos proporcionados.


```
df.describe()
```



In [None]:
df[df["Species_Name"] == "setosa"].describe()

6. Calcula los promedios de los atributos por especies.
 *(No se proporciona el código para este apartado, deberás diseñarlo tú y comentarlo)*

In [None]:
promedios = pd.DataFrame()


#Como queremos calcular el promedio por atributos (columnas)
#recorremos las columnas que nos interean, sepalo, petalo longitud
# y ancho, las agrupamos por el nombre de la especie y le hacemos la media
for col in df.columns[1:4]:
  promedios[col] = df.groupby('Species_Name')[col].mean()

promedios

Como podemos observar, tenemos tres especies diferentes de **iris**.

Por otro lado tenemos tres características diferentes a evaluar en cada iris, en primer lugar tenemos el sepalo, en el cual hay dos especices que tiene un ancho bastante parecido, pero hay un iris "setosa", que tiene un ancho mayor.

Por otro lado, el largo del petalo, es bastante variado, al igual que su ancho entre las tres espceies.

Para realizar este dataframe y hacer el estudio de sus atributos, tenemos que hacer primero un group by por la columna Species_Name.

## Apartado 2: Estudia los datos con Matplotlib

1. Importa el paquete pyplot de la librería matplotlib y haz una representación del dataset tipo "dispersión de puntos" o scatter plot con la variable "sepal length (cm)" en el eje x y la variable "sepal width (cm)" en el eje y.


```
import matplotlib.pyplot as plt

df.plot(kind='scatter', x='sepal length (cm)', y='sepal width (cm)', color='blue')
```



In [None]:
import matplotlib.pyplot as plt

df.plot(kind='scatter', x='sepal length (cm)', y='sepal width (cm)', color='blue')


2. Ahora haz una representación gráfica de los casos, pero distinguiendo con el color azul la especie "Setosa", con color verde la variable "Versicolor" y con color rojo la variable "Virginica".


```
fig = df[df.Species == 0].plot(kind='scatter', x='sepal length (cm)', y='sepal width (cm)', color='blue', label='Setosa')
df[df.Species == 1].plot(kind='scatter', x='sepal length (cm)', y='sepal width (cm)', color='green', label='Versicolor', ax=fig)
df[df.Species == 2].plot(kind='scatter', x='sepal length (cm)', y='sepal width (cm)', color='red', label='Virginica', ax=fig)

fig.set_xlabel('Sépalo - Longitud')
fig.set_ylabel('Sépalo - Ancho')
fig.set_title('Sépalo - Longitud vs Ancho')
plt.show()
```



In [None]:
#En este caso lo que hacemos, es definir una gráfica y sobreponer el resultado con el anterior,
#por eso la primera gráfica la guardamos en fig, y posteriormente la pasamos como ax
#a la siguiente figura.

#     datos a representar      tipo de gráfica / valores del eje x / valores del eje y /  color de la representación / label para la leyenda
fig = df[df.Species == 0].plot(kind='scatter', x='sepal length (cm)', y='sepal width (cm)', color='blue', label='Setosa')
df[df.Species == 1].plot(kind='scatter', x='sepal length (cm)', y='sepal width (cm)', color='green', label='Versicolor', ax=fig)
df[df.Species == 2].plot(kind='scatter', x='sepal length (cm)', y='sepal width (cm)', color='red', label='Virginica', ax=fig)

# Aquí definimos las etiquetas de fuera de la gráfica para entender que datos
# estamos midiendo
fig.set_xlabel('Sépalo - Longitud')
fig.set_ylabel('Sépalo - Ancho')
fig.set_title('Sépalo - Longitud vs Ancho')
plt.show()

3. Analiza cómo se distribuyen los casos si, en vez de representar según las variables de los sépalos, utilizamos las variables basadas en las dimensiones de los pétalos. Representa los datos en una gráfica scatter, utilizando en el eje x la variable "petal length (cm)" y en el eje y la variable "petal width". De nuevo, distingue las especies con tres colores: color azul la especie "Setosa", con color verde la variable "Versicolor" y con color rojo la variable "Virginica".


In [None]:
#En este caso lo que hacemos, es definir una gráfica y sobreponer el resultado con el anterior,
#por eso la primera gráfica la guardamos en fig, y posteriormente la pasamos como ax
#a la siguiente figura.

# En este fragmento lo único que hemos hecho, es cambiar los valores del eje x e y,
# por otros datos para analizar otras carácteristicas.

#     datos a representar      tipo de gráfica / valores del eje x / valores del eje y /  color de la representación / label para la leyenda
fig = df[df.Species == 0].plot(kind='scatter', x='petal length (cm)', y='petal width (cm)', color='blue', label='Setosa')
df[df.Species == 1].plot(kind='scatter', x='petal length (cm)', y='petal width (cm)', color='green', label='Versicolor', ax=fig)
df[df.Species == 2].plot(kind='scatter', x='petal length (cm)', y='petal width (cm)', color='red', label='Virginica', ax=fig)

# Aquí definimos las etiquetas de fuera de la gráfica para entender que datos
# estamos midiendo
fig.set_xlabel('Petalo - Longitud')
fig.set_ylabel('Petalo - Ancho')
fig.set_title('Petalo - Longitud vs Ancho')
plt.show()

4. Prueba otras dos combinaciones que permitan analizar los datos y representa las cuatro gráficas en una misma figura.

In [None]:
#Definimos nuestra figura, que tiene que tener 2 columnas, 2 filas, así logramos
#mostrar las cuatro gráficas en la misma figura. Le damos un ancho de 15x10 pulgadas
fig, ax = plt.subplots(2,2,figsize =(15,10))

#Hemos usado para hacer las combinaciones la muestra de datos Versicolor y Setosa.
df[df['Species'] == 0].plot(kind='scatter', x='sepal length (cm)',
                            y='petal length (cm)', color='blue', ax=ax[0,0], label='Setosa')
df[df['Species'] == 1].plot(kind='scatter', x='sepal length (cm)',
                            y='petal length (cm)', color='red', ax=ax[0,1], label='Versicolor')
df[df['Species'] == 1].plot(kind='scatter', x='sepal length (cm)',
                            y='petal width (cm)', color='green', ax = ax[1,0], label='Versicolor')
df[df['Species'] == 0].plot(kind='scatter', x='sepal length (cm)',
                            y='petal width (cm)', color='yellow', ax=ax[1,1], label='Setosa')

ax[0,0].set_title('Setosa: Longitud Sépalo vs Pétalo')
ax[0,1].set_title('Versicolor: Longitud Sépalo vs Pétalo')
ax[1,0].set_title('Versicolor: Longitud Sépalo vs Ancho Pétalo')
ax[1,1].set_title('Setosa: Longitud Sépalo vs Ancho Pétalo')

**Fila 1**
*Setosa vs Versicolor -> Longitud - Sepalo vs Petalo*
En estas dos gráficas podemos apreciar una gran diferencia y es que la especie
Versicolor tiene un petalo más ancho y variable que las Setosas.

La gráfica de la especie Versicolor nos revela que la longitud de los sepalos van desde 5cm prácticamente hasta 7cm, una variación de 2cm, mientras que en las Setosas van desde los 4.8cm hasta los 5.8cm haciendo una variación de 1.4cm,
haciendo notar que estas son más pequeñas generalmente.

En cambio las versicolor aun que tengan una variación de 2cm de tamaño casi todas las muestras se agrupan entre los 5.5cm y los 6.5cm.

**Fila 2**
*Setosa vs Verscolor -> Longitud del Sepalo vs Ancho del petalo*.

En esta ocasión podemos observar como en las Setosas mantienen un ancho de petalo más pequeño y en terminos generales más uniforme que las versicolores, en la setosas el ancho del petalo va desde los 0.1cm hasta los 0.6 agrupandose la gran mayoría de muestras entre los 0.2cm y los 0.4 en cambio en las Versicolor el ancho minimo es desde los 1cm hasta el 1.8cm indicando que en esta espcie el ancho es mayor, pero los datos se encuentran mucho más dispersos que en las setosas.

5. Escoge la mejor combinación de características, calcula la muestra media de cada especie y representalas en la misma gráfica junto al resto de muestras.

In [None]:
#Definimos los vectores de datos tanto para el eje X como para el Y de cada muestra
#de datos tanto de la Setosa como Versicolor
datosSetosaX = df.loc[df['Species'] == 0, 'sepal length (cm)']
datosSetosaY =  df.loc[df['Species'] == 0, 'petal length (cm)']
#Calculamos la muestra media de cada especie para ambos ejes para marcar los puntos
muestraMediaSetosaX = datosSetosaX.mean()
muestraMediaSetosaY = datosSetosaY.mean()
datosVersicolorX = df.loc[df['Species'] == 1, 'sepal length (cm)']
datosVersicolorY =  df.loc[df['Species'] == 1, 'petal length (cm)']
muestraMediaVersicolorX = datosVersicolorX.mean()
muestraMediaVersicolorY = datosVersicolorY.mean()

#Creamos la figura con las dos gráficas Scatter
fig, ax = plt.subplots(figsize = (12,6))

ax.scatter(x=datosSetosaX, y=datosSetosaY, color='blue')
ax.scatter(x=datosVersicolorX, y=datosVersicolorY, color='green')

#Le añadimos los puntos de las medias
ax.scatter(x=muestraMediaSetosaX, y=muestraMediaSetosaY, color='yellow', marker='^')
ax.scatter(x=muestraMediaVersicolorX, y=muestraMediaVersicolorY, color='red', marker='^')

## Apartado 3: Entrena modelos de aprendizaje automático con Scikit-learn.

1. Importa los módulos de la librería Scikit-learn que nos permiten hacer un modelo de regresión lineal, un modelo de máquina de vectores soporte, un modelo de tipo los K vecinos más cercanos (KNN), y un modelo de tipo árbol de decición.


```
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
```



In [None]:
# Escribe aquí tu código comentando cada instrucción y añade un breve comentario sobre cada modelo explicando brevemente su funcionamiento

#Este metodo lo que nos permite es pasar los datos que tenemos y que nos los divida en 70/30
#de datos de entrenamiento y test.
from sklearn.model_selection import train_test_split

#Método estadístico que sirve predice la probabilidad de valores resultado (0 y 1),
#basándonos en valores independientes, usando una función logística.
from sklearn.linear_model import LogisticRegression

#Es un clasificador de vectores, que como su nombre indica, lo usamos para clasificar
#es un modelo de aprendizaje supervisado, que encuentra el hiperplano que mejor
# separa los puntos de datos de diferentes clases en un espacio de alta dimensión
from sklearn.svm import SVC

#Es un algoritmo basado en la distancia entre observaciones. Es decir, una nueva
#observación será de una clase similar a las observaciones que tenga más cercanas.
#Se usa tanto en problemas de clasificación como regresión.
from sklearn.neighbors import KNeighborsClassifier

#son modelos predictivos formados por reglas binarias (si/no) con las que se
#consigue repartir las observaciones en función de sus atributos y predecir así
#el valor de la variable respuesta.
from sklearn.tree import DecisionTreeClassifier

2. Genera el conjunto de datos "X" (mayúscula) con las variables de entrada a los modelos, y el conjunto "y" (minúscula) de las etiquetas o variable de salida del modelo, eligiendo para éste último, la variable "Species".


```
y = df['Species']
X = df.drop('Species',axis=1)
X = X.drop('Species_Name',axis=1)
```



In [None]:
#Para poder separar los datos de entrenamiento, primero tenemos que almacenar las
#especies por separado, por que si al modelo le entregamos los datos ya clasificados
#le estamos haciendo el trabajo, por eso, en la X, le quitamos las especies y sus
#nombres.

y = df['Species']
X = df.drop('Species', axis=1)
X = X.drop('Species_Name', axis=1)

Razona: ¿Por qué eliminamos del dataframe la columna Species? ¿Y la columna Species_Name?

3. Utiliza la función train_test_split para separar los datos en el conjunto train y test según el ejemplo. Modifica el código proporcionado para reservar el 30% de las muestras para el test.


```
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
```



In [None]:
#Como el enunciado pide que reserve el 30%, en test size aumentamos en 0.1,
# y ahora tenemos los datos divididos en 70 - 30
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3)

4. Crea un modelo de Regresión Logística. Utiliza la función fit para entrenarlo y utiliza la función predict sobre los datos de test para medir la precisión del modelo. Muestra el valor de dicha precisión con print.


```
algoritmo = LogisticRegression()
algoritmo.fit(X_train, y_train)
print('Precisión Regresión Logística: {}'.format(algoritmo.score(X_test, y_test)))
```



In [None]:
#Primer paso llamamos al modelo que importamos anteriormente con sklearn
#luego lo entrenemos con los datos de entrenamiento tando de X como de Y ambos ejes
#despues pintamos el resultado del entrenamiento, que en este casi a tenido un 95%
#de precisión.

algoritmo = LogisticRegression()
algoritmo.fit(X_train, y_train)
print('Precisión Regresión Logística: {}'.format(algoritmo.score(X_test, y_test)))

5. Crea un modelo de SVC o Máquinas de Vectores de Soporte, entrénalo y calcula la precisión utilizando los datos de test. Muestra la precisión.


```
algoritmo = SVC()
algoritmo.fit(X_train, y_train)
print('Precisión Máquinas de Vectores de Soporte: {}'.format(algoritmo.score(X_test, y_test)))
```



In [None]:
#Primer paso llamamos al modelo que importamos anteriormente con sklearn
#luego lo entrenemos con los datos de entrenamiento tando de X como de Y ambos ejes
#despues pintamos el resultado del entrenamiento, que en este casi a tenido un 93%
#de precisión.

algoritmo = SVC()
algoritmo.fit(X_train, y_train)
print('Precisión Máquinas de Vectores de Soporte: {}'.format(algoritmo.score(X_test, y_test)))

6. Crea un modelo de KNN sobre 5 vecinos, entrénalo y calcula la precisión utilizando los datos de test. Muestra la precisión.


```
algoritmo = KNeighborsClassifier(n_neighbors=5)
algoritmo.fit(X_train, y_train)
print('Precisión Vecinos más Cercanos: {}'.format(algoritmo.score(X_test, y_test)))
```



In [None]:
#Primer paso llamamos al modelo que importamos anteriormente con sklearn
#luego lo entrenemos con los datos de entrenamiento tando de X como de Y ambos ejes
#despues pintamos el resultado del entrenamiento, que en este casi a tenido un 95%
#de precisión.

algoritmo = KNeighborsClassifier(n_neighbors=5)
algoritmo.fit(X_train, y_train)
print('Precisión Vecinos más Cercanos: {}'.format(algoritmo.score(X_test, y_test)))

7. Crea un modelo de árbol de decisión, entrénalo y calcula la precisión utilizando los datos de test. Muestra la precisión.


```
algoritmo = DecisionTreeClassifier()
algoritmo.fit(X_train, y_train)
print('Precisión Árboles de Decisión Clasificación: {}'.format(algoritmo.score(X_test, y_test)))
```



In [None]:
#Primer paso llamamos al modelo que importamos anteriormente con sklearn
#luego lo entrenemos con los datos de entrenamiento tando de X como de Y ambos ejes
#despues pintamos el resultado del entrenamiento, que en este casi a tenido un 95%
#de precisión.

algoritmo = DecisionTreeClassifier()
algoritmo.fit(X_train, y_train)
print('Precisión Árboles de Decisión Clasificación: {}'.format(algoritmo.score(X_test, y_test)))

8. Reescribe las celdas de código anteriores en una sola, donde definas, entrenes y evalúes todos los modelos. En lugar de mostrar la precisión de cada modelo, guarda todos los resultados en un diccionario y represéntalos con una gráfica de barras. Las barras son muy parecidas, intenta resaltar sus diferencias modificando la gráfica o utilizando otra representación ¿cuál sería el mejor modelo para este dataset? ¿los resultados dependen del agrupamiento?

In [None]:
# Escribe aquí tu código comentando cada instrucción
#Definimos todos los algoritmos que vamos a usar y los almacenamos en un diccionario
algoritmoLogistic = LogisticRegression()
algoritmoSVC = SVC()
algoritmoKN = KNeighborsClassifier(n_neighbors=5)
algoritmoTree = DecisionTreeClassifier()

algoritmos = {
  "logistic Regression": algoritmoLogistic,
  "SVC": algoritmoSVC,
  "KNN": algoritmoKN,
  "Tree": algoritmoTree
}

#Creamos el diccionario que almacenara los resultados de cada algoritmo
scores = {}

#Recorremos con un for each usando items, para poder acceder al key y al value
#de cada elemento del diccionario
for nombre, algoritmo in algoritmos.items():
  #entrenamos el algoritmo con los valore de x e y
  algoritmo.fit(X_train, y_train)
  #almacenamos el resultado de la precisión junto con su nombre en el nuevo diccionario
  scores[nombre] = algoritmo.score(X_train, y_train)

#Creamos la figura que queremos representar dandole pulgadas
fig, ax = plt.subplots(figsize=(10,5))
#Definimos que nuestro eje Y empiece en 0.8, porque todos los modelos han dado
#valores por encima de este, y así logramos una mayor comprensión visual
plt.ylim(0.8,1)
#obtenemos los valores de X e Y por separado y los representamos
nombres = list(scores.keys())
resultados = list(scores.values())
ax.bar(nombres,resultados)

El modelo que mejor funciona para este dataset es el modelo de "árbol de decisiones", porque ha sido el único en obtener una precisión del 100% en comparación al resto, es cierto que los otros modelos no van nada mal, pero este funciona mejor.

# Apartado 4: Entrena modelos de aprendizaje automático con pocas variables.

1. Imagina que no has podido tener todas las variables y que solo has conseguido los valores de las medidas que resultaron ser más prometedoras según tu estudio del apartado 2. Con esos datos debes volver a entrenar los modelos. Para ello, crea un nuevo dataset que tenga solo las columnas de las dimensiones escogidas y repite todo el proceso de entrenamiento pero con menos datos.



In [None]:
# Creamos el nuevo dataset, manteniendo todas las especies pero seleccionando las columnas
# que resultaron ser más prometedoras según el estudio del apartado 2.
# Por ejemplo, podemos usar 'sepal length (cm)' y 'petal length (cm)'

# Seleccionamos las características más prometedoras
apartado2 = ['sepal length (cm)', 'petal length (cm)']

# Creamos el nuevo DataFrame 'newDf' con todas las especies pero solo las características seleccionadas
newDf = df[apartado2 + ['Species']]
newDf.head()
# Preparamos los nuevos datos de entrenamiento
# X contendrá solo las características seleccionadas
X = newDf[apartado2]

# y contendrá las etiquetas de las especies
y = newDf['Species']

# Preparamos los datos de entrenamiento, para pasarselos de nuevo a los modelos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # Añadimos random_state para reproducibilidad

# Esto es igual que en el ejercicio anterior, definimos los algoritmos y guardamos
# los datos en el diccinario score, para poder mostrar ahora sus resultados.
algoritmoLogistic = LogisticRegression(max_iter=200) # Aumentar max_iter para asegurar convergencia
algoritmoSVC = SVC()
algoritmoKN = KNeighborsClassifier(n_neighbors=5)
algoritmoTree = DecisionTreeClassifier()

algoritmos = {
  "logistic Regression": algoritmoLogistic,
  "SVC": algoritmoSVC,
  "KNN": algoritmoKN,
  "Tree": algoritmoTree
}

# Creamos el diccionario que almacenara los resultados de cada algoritmo
scores = {}

# Recorremos con un for each usando items, para poder acceder al key y al value
# de cada elemento del diccionario
for nombre, algoritmo in algoritmos.items():
  # entrenamos el algoritmo con los valore de x e y
  algoritmo.fit(X_train, y_train)
  # almacenamos el resultado de la precisión junto con su nombre en el nuevo diccionario
  scores[nombre] = algoritmo.score(X_test, y_test) # Calcular el score sobre X_test, no X_train

# Creamos la figura que queremos representar dandole pulgadas
fig, ax = plt.subplots(figsize=(10,5))

# Definimos que nuestro eje Y empiece en 0.8, porque todos los modelos han dado
# valores por encima de este, y así logramos una mayor comprensión visual
plt.ylim(0.8,1)

# obtenemos los valores de X e Y por separado y los representamos
nombres = list(scores.keys())
resultados = list(scores.values())
ax.bar(nombres,resultados)


2. Compara los valores de precisión de los diferentes modelos. ¿cuál sería el mejor para este dataset?
Compara estos resultados con los obtenidos en el apartado 3, saca tus conclusiones teniendo en cuenta la naturaleza del conjunto de datos.

Si comparamos los resultados de los dos ejercicios podemos ver, como el comportamiento de los modelos ha cambiado, haciendo así que su precisión también cambie.

En primer lugar en el ejercicio anterior, con todo el dataset completo sin carácterisiticas, el modelo de árbol de decisión fue el más preciso, pero en cambio el resto se mantenia rondando el 0.97 de precisión.

Pero al reducir el dataset, se puede obserbar como el modelo predominador se ha vuelto el modelo menos preciso quedando en último lugar. Por otro lado, modelos como KNN sigue estando con la misma precisión, a sido el más fiable en ambos casos, pero en la situación con menos datos, los más precisos han sido SVC y la regresión lógistica.




# Bibliografía

[Numpy apartado 1](https://aprendeconalf.es/docencia/python/manual/numpy/)
<br/>
[Pandas apartado 1](https://datascientest.com/es/pandas-python)
<br/>
[load_iris](https://qu4nt.github.io/sklearn-doc-es/modules/generated/sklearn.datasets.load_iris.html#:~:text=Carga%20y%20devuelve%20el%20conjunto,multiclase%20cl%C3%A1sico%20y%20muy%20sencillo.)
<br/>
[.map](http://pandas.pydata.org/docs/reference/api/pandas.DataFrame.map.html)
<br/>
[media muestral](https://www.studysmarter.es/resumenes/matematicas/estadisticas/media-muestral/)
<br/>
[SVC](https://www.geeksforgeeks.org/machine-learning/understanding-scikit-learns-svc-decision-function-and-predict/)
<br/>
[árbol de decicisones](https://cienciadedatos.net/documentos/py07_arboles_decision_python)