<h1> <center> Arboles de Decisión </center> </h1>
<p> Los arboles de decisión son estructuras de diagrama de flujo, que consta de nodos (atribituos/caracteristicas), ramas que representan reglas de decisión y nodos finales u hojas que representan un resultado. Un árbol busca seleccionar el mejor atributo a través de una medición heurística (reglas de partición), asignando una puntos de corte del conjunto de datos</p>
<p> En este caso, las medidas más populares de selección de variables son: </p>
<ul>
    <li> Ganancia de información </li>
    <li> Indice de Gini </li>
    <li> Reducción a la varianza </li>
</ul>
    

## El concepto de entriopía
Es una medida de incertidumbre o desorden de una variable, utilizado para seleccionar el atributo que particionara la información. Cuanto mayor sea la entriopía, mayor será el contenido de la información, por lo que se busca aquel atributo que discrimine una mayor cantidad de objetos, es decir, que reduzca la entriopía, por lo que reduce la incertidumbre.

$$Entropia(S) = \sum ^{n}_{i=1}-p_{i}log_{2}p_{i}$$




## Ganancia de información
Es una medida del cambio de entriopía al incluir nuevas reglas de decisión
$$GI (S,A) = Entropia(S) - \sum ^{n}_{i=1}\frac{|Sv|}{|S|}Entropia(Sv) $$

### Algortimo
1. Comenzar con todas las instancias de información
2. Utilizar la ganancia de información para escoger la primera regla de decisión
3. Repetir para cada subconjunto de información


## Indice GINI (Impureza GINI)

Es una medida que mide la frecuencia en que un elemento al azar sería identificado incorrectamente. Se selecciona un atributo con el índice de GINI más bajo

In [None]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, classification_report, precision_score
dataset = datasets.load_breast_cancer()

In [None]:
X = dataset.data
y = dataset.target

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2)

In [None]:
arbol = DecisionTreeClassifier(criterion = 'entropy')
arbol.fit(X_train,y_train)
y_pred = arbol.predict(X_test)

In [None]:
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred))

print("Classification Report")
print(classification_report(y_test, y_pred))

In [None]:
dataset = datasets.load_breast_cancer()
dataset.DESCR

In [None]:
X = dataset.data
y = dataset.target
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.4)

# Por entropy

arbol1 = DecisionTreeClassifier(criterion = 'entropy')
arbol1.fit(X_train,y_train)
y_pred1 = arbol1.predict(X_test)
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred1))

print("Precision")
print(precision_score(y_test,y_pred1))


# Por gini

arbol2 = DecisionTreeClassifier(criterion = 'gini')
arbol2.fit(X_train,y_train)
y_pred2 = arbol2.predict(X_test)

print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred2))

print("Precision")
print(precision_score(y_test,y_pred2))

# print(classification_report(y_test,y_pred2))



<h1> <center> Random Forest </center> </h1>
<p> Son una combinación de árboles predictores tal que cada árbol depende de los valores de un vector aleatorio probado independientemente y con la misma distribución para cada uno de estos. Es una modificación sustancial de bagging que construye una larga colección de árboles no correlacionados y luego los promedia.</p>

In [None]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, classification_report, precision_score
dataset = datasets.load_breast_cancer()

In [None]:
X = dataset.data
y = dataset.target
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2)

In [None]:
bosques = RandomForestClassifier(n_estimators=1000)
bosques.fit(X_train,y_train)
y_pred = bosques.predict(X_test)

In [None]:
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred))

print("Classification Report")
print(precision_score(y_test, y_pred))

<h1> <center> Gradient Boosting </center> </h1>
<p> Los clasificadores de Gradient Boosting son un grupo de algoritmos de aprendizaje automático que combinan muchos modelos de aprendizaje débiles para crear un modelo predictivo sólido. Los árboles de decisión generalmente se usan al aumentar el gradiente. Los modelos de aumento de gradiente se están volviendo populares debido a su efectividad en la clasificación de conjuntos de datos complejos. </p>

In [None]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import confusion_matrix, classification_report
dataset = datasets.load_breast_cancer()

In [None]:
X = dataset.data
y = dataset.target
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.3)

In [None]:
lr_list = [0.05, 0.075, 0.1, 0.25, 0.5, 0.75, 1]

for learning_rate in lr_list:
    gb_clf = GradientBoostingClassifier(n_estimators=20, learning_rate=learning_rate, max_features=2, max_depth=2, random_state=0)
    gb_clf.fit(X_train, y_train)

    print("Learning rate: ", learning_rate)
    print("Accuracy score (training): {0:.3f}".format(gb_clf.score(X_train, y_train)))
    print("Accuracy score (validation): {0:.3f}".format(gb_clf.score(X_test, y_test)))

In [None]:
gb_clf2 = GradientBoostingClassifier(n_estimators=20, learning_rate=0.25, max_features=2, max_depth=2, random_state=0)
gb_clf2.fit(X_train, y_train)
y_pred = gb_clf2.predict(X_test)
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred))

print("Classification Report")
print(classification_report(y_test, y_pred))
print("Precision Score")
print(precision_score(y_test, y_pred))

<h1> <center> Maquina soportada de vectores </center> </h1>



In [None]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import confusion_matrix, classification_report
dataset = datasets.load_breast_cancer()

In [None]:
X = dataset.data
y = dataset.target
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.3)

clf = LinearSVC()
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred))

print("Classification Report")
print(classification_report(y_test, y_pred))
print("Precision Score")
print(precision_score(y_test, y_pred))