# Práctica U4. Minería de Datos
- Año 2021. Magter. Ing. Carlos Alejandro Martinez

## Objetivos

   - **Introducir a la Pŕactica de Minería de Datos**

   - **Ejercitar con: numpy, Pandas y scikit-learn**

# Ejercicio 1. Iris

## Temas

-  **1.1 Scikit-learn**
-  **1.2 Conocimientos previos: Numpy y Pandas**
-  **1.3 Clasificación Utilizando Conjuto de Datos Iris**
-  **1.4 Evaluación de los Modelos**
-  **1.5 Métricas para medir la calidad de los modelos (solo introducción-lo vemos luego)**

### 1.1 Python (scikit-learn)

![scikit-learn algorithm map](images/02_sklearn_algorithms.png)

### <font color='blue'>1.2 Conocimientos Previos <font>

**Lo que necesitamos para los ejercicios :**

Realizar las prácticas de Python y Pandas

- **/4_practica_unidad_4/1_ Intro_a_Python/**
- **/4_practica_unidad_4/2_Pandas**

### 1.3 Clasificación Usando el Conjunto de Datos Iris

**Introducción al Conjunto de Datos Iris**

![Iris](images/03_iris.png)

![Iris2](images/04_iris_explicacion.png)

- 50 instancias de 3 diferentes especies de iris (150 instancias en total)
- Aributos: sepal length, sepal width, petal length, petal width

**Objetivo: Clasificar de que tipo de Iris es una flor: Setosa, Versicolor o Virgínica**

### <font color='blue'>**Pasos:**<font>

- <font color='blue'>1_Importar el algoritmo y librerias necesarias<font>
- <font color='blue'>2_ Obtener los datos usando la librería Pandas<font>
- <font color='blue'>3_ Realizar el preprocesamiento de los datos<font>
- <font color='blue'>4_ Crear una instancia del clasificador<font>
- <font color='blue'>5_ Entrenar el clasificador<font>
- <font color='blue'>6_ Realizar clasificaciones o predicciones<font>
- <font color='blue'>7_ Evaluar la calidad del clasificador<font>

**1_ Importar el algoritmo y librerias necesarias**

In [1]:
import numpy as np
import pandas as pd
from sklearn import tree
from sklearn.model_selection import train_test_split
from sklearn import metrics

**2_ Selección de Datos. Obtener los datos usando la librería Pandas**

Utilizo la libreria Pandas para importar el archivo de origen
Revisar el archivo de origen para ver el formato. En este caso, delimitado por comas y los decimales con punto. 

El método read_csv de Pandas devuelve un DataFrame.

In [2]:
datos= pd.read_csv('data/iris.csv',delimiter=',',decimal='.')
datos.head(5)

FileNotFoundError: ignored

In [None]:
type(datos)

**3_ Preprocesamiento y Transformación. En este caso solo vamos a Revisar los datos**

head(5) me trae las cinco primeras filas

In [None]:
print(datos.head(5))

Con shape puedo ver la cantidad de instancias (observaciones,ejemplos, etc...) y atributos (variables)

In [None]:
print(datos.shape)

Revisar los tipos de las instancias. La variable clase es de tipo object y el resto de las variables son comunmente: numéricas o categoricas

In [None]:
print(datos.info())

In [None]:
datos.dtypes

**DataFrames: **
    Las principales estructuras de datos que brinda Pandas son las Series y los DataFrames. iloc es un método para la selección de datos de un DataFrame.

![Iris2](images/6_iloc.png)

### <font color='red'> Separamos entre datos de entrenamiento y de prueba. Utilizamos el método iloc de DataFrame</font>

**Elimina la variable predictora y deja el resto de las variables**

In [None]:
X=datos.iloc[:,:4]

In [None]:
X.head(5)

**Deja la variable a predecir en y**

In [None]:
y=datos.iloc[:,4:5]

In [None]:
y.head(5)

In [None]:
y.shape

### Utilizo 30% de los datos para test y 70% para entrenamiento

![Iris2](images/train_test_00.png)

![Iris2](images/04.1_split_link.png)    
Dividir matrices en subconjuntos de entrenamiento y de pruebas
https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.3,random_state=0)

In [None]:
type(X_train) 

In [None]:
X_train.head(5)

In [None]:
type(y_train)

In [None]:
y_train.head(5)

![Iris2](images/pasos_predict.png)

### Arbol de Decisión

-**DecisionTreeClassifier** es una clase capaz de realizar una clasificación multiclase sobre un conjunto de datos.

![Iris2](images/05_tree1.png)

http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier

**4_ Crear una instancia del clasificador**

**Mediante el constructor se inicializa la instancia del arbol**

In [None]:
modelo_arbol = tree.DecisionTreeClassifier()

**5_ Entrenar el clasificador**

**Entrena el modelo utilizando el método fit**

In [None]:
modelo_arbol.fit(X_train,y_train)

**6_ Realizar clasificiones/predicciones**

**Predicciones usando el conjunto de testing**

In [None]:
predict_test=modelo_arbol.predict(X_test)

In [None]:
type(predict_test)

In [None]:
predict_test_df=pd.DataFrame(predict_test)

In [None]:
predict_test_df.head(5)

**Clasificar una Instancia**

In [None]:
print (modelo_arbol.predict([[5.1,3.5,1.4,0.2]]))

**7_ Evaluar la calidad del clasificador**
- Evaluación del Modelo. Métricas

**¿Cómo sabemos si el modelo de clasificación es bueno o no?**

**Porcentaje de Clasificación Global**

In [None]:
porcentaje_predict_global=modelo_arbol.score(X_test,y_test)
print("Porcentaje de Clasificación Global")
print(porcentaje_predict_global)

Graficar el árbol de decisión en Google Colab

**Graficando el Árbol con GraphViz**
Instalar graphviz -> en linux me fui a /anaconda3/bin/ y luego
- conda install -c anaconda graphviz

Luego instalar python-graphviz

- conda install python-graphviz

https://anaconda.org/anaconda/graphviz

https://anaconda.org/conda-forge/python-graphviz

In [None]:
import graphviz 
dot_data = tree.export_graphviz(instancia_arbol, out_file=None) 
graph = graphviz.Source(dot_data) 
graph.render("datos") 

In [None]:
feature_names = list(datos.columns[:4])
feature_names

In [None]:
instancia_arbol.classes_

In [None]:
dot_data = tree.export_graphviz(instancia_arbol, out_file=None, 
                         feature_names=feature_names,  
                         class_names=instancia_arbol.classes_,  
                         filled=True, rounded=True,  
                         special_characters=True)  
graph = graphviz.Source(dot_data)  
graph 