# Minería de Datos - Proyecto Final

## Profesora: Lisibonny Beato
## Período 2-2022-2023

# Instrucciones del proyecto <a id="topic1"></a><a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

Este notebook corresponde al proyecto final de la asignatura **'Minería de Datos'** que abarcará los conceptos vistos en todas la unidades  trabajadas durante el período. En particular, busca los siguientes **objetivos**:

+ **Objetivo 1**. Ser capaz de aplicar las principales técnicas aprendidas durante el curso, sobre un conjunto de datos grande del mundo real. 


+ **Objetivo 2**. Ser capaz de ampliar los conocimientos adquiridos mediante investigación teórica y trabajo práctico.


+ **Objetivo 3**. Profundizar en el conocimiento de las distintas librerías de Python para Data Science.


Este proyecto se realizará de forma **individual** y se espera un **trabajo original**. 

El peso de este proyecto corresponde al **30% del total** de la asignatura. 

Para el mismo se utilizará el dataset <b>Dry Bean</b> que encontrará en la carpeta ARFF de nuestro curso en la PVA. En el mismo se registran los datos de varios de miles de muestras de siete variedades distintas de frijoles secos.

<b>A continuacion una breve descripcion en español de los atributos que encontrarán en él:</b><br />
<br />    
1) Área (A): El área de una zona de frijol y el número de píxeles dentro de sus límites.<br />
2) Perímetro (P): La circunferencia del frijol se define como la longitud de su borde.<br />
3) Longitud del eje mayor (L): La distancia entre los extremos de la línea más larga que se puede dibujar de un frijol.<br />
4) Longitud del eje menor (l): La línea más larga que se puede dibujar desde el frijol mientras se encuentra perpendicular al eje principal.<br />
5) Relación de aspecto (K): Define la relación entre L y l.<br />
6) Excentricidad (Ec): Excentricidad de la elipse que tiene los mismos momentos que la región.<br />
7) Área convexa (C): número de píxeles en el polígono convexo más pequeño que puede contener el área de una semilla de frijol.<br />
8) Diámetro equivalente (Ed): El diámetro de un círculo que tiene la misma área que el área de una semilla de frijol.<br />
9) Extensión (Ex): la relación de los píxeles en el cuadro delimitador al área del frijol.<br />
10) Solidez (S): También conocida como convexidad. La relación entre los píxeles de la capa convexa y los que se encuentran en los frijoles.<br />
11) Redondez (R): Calculado con la siguiente fórmula: (4piA)/(P^2)<br />
12) Compacidad (CO): Mide la redondez de un objeto: Ed/L<br />
13) Factor de forma 1 (SF1)<br />
14) Factor de forma 2 (SF2)<br />
15) Factor de forma 3 (SF3)<br />
16) Factor de forma 4 (SF4)<br />
17) Clase (Seker, Barbunya, Bombay, Cali, Dermosan, Horoz y Sira)<br />

<b>Se recomienda ver fotos de las distintas clases de frijoles para comprender mejor los datos que se presentan.</b>

## 1.- Análisis Exploratorio de los Datos 
### Puntuación máxima del punto: 20%
#### Utilizar estadística y visualizaciones para hacer un análisis completo del dataset

In [23]:
# Cargando algunas librerias a utilizar

import numpy as np
import pandas as pd
import seaborn as sns
from scipy.io import arff
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.model_selection import train_test_split, cross_validate
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import auc, classification_report, precision_recall_curve, average_precision_score, accuracy_score, confusion_matrix, precision_score, recall_score, ConfusionMatrixDisplay
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler
from sklearn.cluster import DBSCAN, KMeans, AgglomerativeClustering
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
import graphviz
import pydotplus


In [19]:
# Cargando el dataser y mostrando las primeras filas
data = arff.loadarff('Dry_Bean_Dataset.arff')
df= pd.DataFrame(data[0])
df.head()

Unnamed: 0,Area,Perimeter,MajorAxisLength,MinorAxisLength,AspectRation,Eccentricity,ConvexArea,EquivDiameter,Extent,Solidity,roundness,Compactness,ShapeFactor1,ShapeFactor2,ShapeFactor3,ShapeFactor4,Class
0,28395.0,610.291,208.178117,173.888747,1.197191,0.549812,28715.0,190.141097,0.763923,0.988856,0.958027,0.913358,0.007332,0.003147,0.834222,0.998724,b'SEKER'
1,28734.0,638.018,200.524796,182.734419,1.097356,0.411785,29172.0,191.27275,0.783968,0.984986,0.887034,0.953861,0.006979,0.003564,0.909851,0.99843,b'SEKER'
2,29380.0,624.11,212.82613,175.931143,1.209713,0.562727,29690.0,193.410904,0.778113,0.989559,0.947849,0.908774,0.007244,0.003048,0.825871,0.999066,b'SEKER'
3,30008.0,645.884,210.557999,182.516516,1.153638,0.498616,30724.0,195.467062,0.782681,0.976696,0.903936,0.928329,0.007017,0.003215,0.861794,0.994199,b'SEKER'
4,30140.0,620.134,201.847882,190.279279,1.060798,0.33368,30417.0,195.896503,0.773098,0.990893,0.984877,0.970516,0.006697,0.003665,0.9419,0.999166,b'SEKER'


In [20]:
# Mostrando informacion de las columnas de dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13611 entries, 0 to 13610
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Area             13611 non-null  float64
 1   Perimeter        13611 non-null  float64
 2   MajorAxisLength  13611 non-null  float64
 3   MinorAxisLength  13611 non-null  float64
 4   AspectRation     13611 non-null  float64
 5   Eccentricity     13611 non-null  float64
 6   ConvexArea       13611 non-null  float64
 7   EquivDiameter    13611 non-null  float64
 8   Extent           13611 non-null  float64
 9   Solidity         13611 non-null  float64
 10  roundness        13611 non-null  float64
 11  Compactness      13611 non-null  float64
 12  ShapeFactor1     13611 non-null  float64
 13  ShapeFactor2     13611 non-null  float64
 14  ShapeFactor3     13611 non-null  float64
 15  ShapeFactor4     13611 non-null  float64
 16  Class            13611 non-null  object 
dtypes: float64(1

In [21]:
# Codificando la cadena de clase a UTF-8 para eliminar el caracter adicional que aparece al cargarlo del arff
df[["Class"]]=df[["Class"]].apply(lambda x: x.str.decode('utf8'))
df.sample(10)

Unnamed: 0,Area,Perimeter,MajorAxisLength,MinorAxisLength,AspectRation,Eccentricity,ConvexArea,EquivDiameter,Extent,Solidity,roundness,Compactness,ShapeFactor1,ShapeFactor2,ShapeFactor3,ShapeFactor4,Class
6347,52744.0,918.914,390.078499,173.998598,2.241849,0.895003,53485.0,259.144258,0.81301,0.986146,0.784934,0.664339,0.007396,0.000889,0.441346,0.989431,HOROZ
6725,56056.0,931.194,374.521357,191.229095,1.958496,0.859821,56718.0,267.156725,0.799886,0.988328,0.812366,0.713328,0.006681,0.001067,0.508837,0.996556,HOROZ
1145,39989.0,718.723,247.161224,206.144457,1.198971,0.551691,40283.0,225.644801,0.756064,0.992702,0.972808,0.912946,0.006181,0.002648,0.83347,0.999306,SEKER
4469,71882.0,1040.314,408.823607,226.342946,1.806213,0.832753,73208.0,302.527693,0.723516,0.981887,0.834644,0.739996,0.005687,0.001052,0.547594,0.989071,CALI
6357,52856.0,915.191,380.015728,177.64217,2.13922,0.884014,53359.0,259.419254,0.809483,0.990573,0.793014,0.682654,0.00719,0.000963,0.466016,0.996912,HOROZ
8503,43471.0,771.879,284.220213,195.246216,1.455702,0.726701,43891.0,235.263674,0.823314,0.990431,0.916877,0.827751,0.006538,0.001893,0.685172,0.997406,SIRA
823,38216.0,710.146,241.949266,201.204596,1.202504,0.555378,38542.0,220.585862,0.776748,0.991542,0.952269,0.911703,0.006331,0.002698,0.831202,0.999524,SEKER
11362,30150.0,639.517,237.886748,161.562476,1.472413,0.733993,30459.0,195.928998,0.797936,0.989855,0.926388,0.823623,0.00789,0.00224,0.678355,0.998819,DERMASON
5724,44785.0,839.911,334.752165,174.66942,1.91649,0.853076,46109.0,238.792866,0.739673,0.971285,0.797767,0.713342,0.007475,0.001194,0.508857,0.97522,HOROZ
6331,52546.0,907.578,357.714464,187.842272,1.904334,0.851029,53222.0,258.657389,0.701062,0.987298,0.801644,0.723083,0.006808,0.001148,0.52285,0.99568,HOROZ


In [22]:
# Separando los atributos no clase de la clase
X = df.drop(["Class"], axis=1)
y = df["Class"]

<div style="background:#FFFFE0;padding:20px;color:#000000;margin-top:10px;">
Utilice esta celda para colocar comentarios en el notebook, cuando lo estime necesario. Copiela varias veces donde considere.
</div>

## 2.- Escale los atributos no clase utilizando al menos 3 métodos distintos
### Puntuación máxima del punto: 5%
#### Guarde los datos devueltos por cada tipo de escalación en distintos dataframes

## 3.- Cree varios modelos de clasificación Bayesianos utilizando una partición de train-test  70/30, utilizando los datos con los distintos escalados del punto previo
### Puntuación máxima del punto: 10%
#### Muestre las principales métricas de desempeño de los modelos creados y grafique el comportamiento del accuracy para cada tipo de escalación

## 4.- Realice la misma tarea del punto anterior, usando stratified cross validation de 10 folds.
### Puntuación máxima del punto: 5%
####  Muestre las principales métricas de desempeño de los modelos creados y grafique el comportamiento del accuracy para cada tipo de escalación

## 5.- Utilice Árboles de Decisión para graficar los parámetros más importantes del dataset. Cree distintos árboles modificando los parámetros de modelo más importantes (por ejemplo, el max_depth, min_samples_leaf... y otros)
### Puntuación máxima del punto: 15%
#### Grafique los resultados de al menos 3 árboles decisiorios, con ayuda de las librerías graphviz y pydotplus


## 6.- Investigue acerca del algoritmo Support Vector Classification (SVC) y su utilidad para clasificación 
### Puntuación máxima del punto: 5%
#### Máximo 500 palabras. Puede usar un máximo de 2 imágenes para acompañar la explicación.

## 7.- Cree varios modelos de clasificación sobre el dataset utilizando el algoritmo investigado en el punto anterior, usando distintas configuraciones de prueba y valores para los parámetros
### Puntuación máxima del punto: 10%
#### Grafique los resultados y comente las diferencias con otros clasificadores. Evalue los pros y los contras de este clasificador sobre su dataset

## 8.- Reduzca la dimensionalidad del dataset utilizando un  algoritmo (por ejemplo, PCA) y cree un modelo de clasificación de su elección con este dataset reducido. Evalúe las diferencias de entrenar un modelo de clasificación (como los que se han hecho en los puntos anteriores) con todo el dataset vs el dataset reducido.  Tome tiempos de ejecución y métricas de desempeño y justifique los resultados encontrados.
### Puntuación máxima del punto: 10%
#### Grafique los resultados y comente las diferencias de entrenar y evaluar el modelo sobre el Dataset transofrmado con sus dimensiones reducidas. Ejecute diferentes visualizaciones de los datos tratados.

## 9.- Evalúe al menos 3 modelos de Clustering (DBSCAN, KMeans, Clustering Jerárquico... por ejemplo) sobre el dataset
### Puntuación máxima del punto: 20%
#### Compare los resultados obtenidos mediante métricas y gráficos