In [1]:
#Importando librerias
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.model_selection import LeaveOneOut
from sklearn.metrics import confusion_matrix
from sklearn.cluster import KMeans
from scipy import stats
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import PolynomialFeatures
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn import tree
from sklearn.ensemble import RandomForestClassifier as forest

### Separación y Validación para algoritmos de ML

### Preparación de del DataSet

In [2]:
# Precio del Oro de 2013 a 2023
df = pd.read_csv('Gold Price (2013-2023) (2).csv')
df.head(1)

Unnamed: 0,Date,Price,Open,High,Low,Vol.,Change %
0,12/30/2022,1826.2,1821.8,1832.4,1819.8,107.50K,0.01%


In [3]:
# Quitando las columnas de Vol y Change, ya que no se utilizaran.
df.drop(['Vol.', 'Change %'], axis=1, inplace=True)
df.head(1)

Unnamed: 0,Date,Price,Open,High,Low
0,12/30/2022,1826.2,1821.8,1832.4,1819.8


In [4]:
#Identificación de datos, son objetos, por lo que se tienen que cambiar a valores que corresponden a cada columna.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2583 entries, 0 to 2582
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Date    2583 non-null   object
 1   Price   2583 non-null   object
 2   Open    2583 non-null   object
 3   High    2583 non-null   object
 4   Low     2583 non-null   object
dtypes: object(5)
memory usage: 101.0+ KB


In [5]:
df['Date'] = pd.to_datetime(df['Date'])
df.sort_values(by='Date', ascending =True, inplace=True)
df.reset_index(drop=True, inplace=True)
df.head(1)

Unnamed: 0,Date,Price,Open,High,Low
0,2013-01-02,1689.9,1675.8,1695.0,1672.1


In [6]:
#Buscando datos duplicados:
df.duplicated().sum()

0

In [7]:
#Buscando celdas vacias:
df.isnull().sum().sum()

0

In [8]:
#Traduciendo las columnas:
column_name_mapping = {
    'Date' : 'Fecha' ,
    'Price' : 'Precio',
    'Open': 'Apertura',
    'High': 'Máximo',
    'Low': 'Mínimo',
}
df = df.rename(columns = column_name_mapping)

df.head(1)

Unnamed: 0,Fecha,Precio,Apertura,Máximo,Mínimo
0,2013-01-02,1689.9,1675.8,1695.0,1672.1


In [9]:
NumCols = df.columns.drop(['Fecha'])
df[NumCols] = df[NumCols].replace({',': ''}, regex=True)
df[NumCols] = df[NumCols].astype('Float64')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2583 entries, 0 to 2582
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Fecha     2583 non-null   datetime64[ns]
 1   Precio    2583 non-null   Float64       
 2   Apertura  2583 non-null   Float64       
 3   Máximo    2583 non-null   Float64       
 4   Mínimo    2583 non-null   Float64       
dtypes: Float64(4), datetime64[ns](1)
memory usage: 111.1 KB


In [10]:
df.head(2)

Unnamed: 0,Fecha,Precio,Apertura,Máximo,Mínimo
0,2013-01-02,1689.9,1675.8,1695.0,1672.1
1,2013-01-03,1675.6,1688.0,1689.3,1664.3


### Algoritmo de Separación

In [11]:
#Función de separación.
def particionar(df, porcentaje_entrenamiento, porcentaje_validacion, porcentaje_prueba):
    entradas = df[['Apertura', 'Máximo', 'Mínimo']]
    salidas = df['Precio']
    
    temp_size = porcentaje_validacion + porcentaje_prueba
    
    x_train, x_temp, y_train, y_temp = train_test_split(entradas, salidas, test_size=temp_size)
    
    if porcentaje_validacion > 0:
        test_size = porcentaje_prueba / temp_size
        x_val, x_test, y_val, y_test = train_test_split(x_temp, y_temp, test_size=test_size)
    else:
        return [x_train, None, x_temp, y_train, None, y_temp]
    
    return [x_train, x_val, x_test, y_train, y_val, y_test]


In [12]:
# Llamando a la función particionar para obtener los datos.
[x_train, x_val, x_test, y_train, y_val, y_test] = particionar(df,0.80,0.05,0.15)

print(x_train.shape)
print(x_val.shape)
print(x_test.shape)

(2066, 3)
(129, 3)
(388, 3)


In [13]:
#Funcion de separación de datasets con K-Fold (el usuario debe poner el k, si K =1 debe generar un Leave-One-Out Cross Validation).

def kFold(df, k, aleatorio, random_seed):
    indices_entrenamiento_prueba = []
    
    if k > 1:
        kfold = KFold(n_splits=k, shuffle=aleatorio, random_state=random_seed)
        ciclo = 1
        for indices_train, indices_test in kfold.split(df):
            indices_entrenamiento_prueba.append((indices_train, indices_test))
            print("Ciclo:", ciclo)
            print("Índices de entrenamiento:", indices_train)
            print("Índices de prueba:", indices_test)
            ciclo += 1
    elif k == 1:
        loocv = LeaveOneOut()
        ciclo = 1
        for train_index, test_index in loocv.split(df):
            indices_entrenamiento_prueba.append((train_index, test_index))
            print("Ciclo:", ciclo)
            print("Índices de entrenamiento:", train_index)
            
            print("Índices de prueba:", test_index)
            ciclo += 1
    else:
        print('K no puede ser menor a 1')
    
    return indices_entrenamiento_prueba

   

In [14]:
# Uso de la función kFold
kFold(df, 5, True, 42)

Ciclo: 1
Índices de entrenamiento: [   0    1    2 ... 2579 2580 2581]
Índices de prueba: [  25   29   30   43   44   48   49   51   56   57   67   69   70   73
   76   93   96  100  109  111  124  134  135  141  149  157  163  166
  168  170  173  175  178  179  188  194  196  199  208  210  211  212
  218  221  229  231  233  237  239  246  247  251  252  254  257  259
  261  279  282  289  291  296  298  315  318  321  322  324  332  347
  353  354  367  368  387  393  402  407  408  410  411  414  420  422
  430  432  433  435  436  438  440  443  445  450  457  461  463  464
  471  478  479  480  482  485  486  495  498  507  508  509  518  521
  522  527  528  530  532  544  554  564  565  567  568  572  582  596
  605  610  613  617  618  621  632  643  647  649  657  662  668  670
  680  693  695  705  727  742  746  748  755  756  761  764  765  781
  786  787  790  798  801  802  809  812  817  821  829  834  836  838
  839  861  867  869  873  879  881  888  889  890  900  9

[(array([   0,    1,    2, ..., 2579, 2580, 2581]),
  array([  25,   29,   30,   43,   44,   48,   49,   51,   56,   57,   67,
           69,   70,   73,   76,   93,   96,  100,  109,  111,  124,  134,
          135,  141,  149,  157,  163,  166,  168,  170,  173,  175,  178,
          179,  188,  194,  196,  199,  208,  210,  211,  212,  218,  221,
          229,  231,  233,  237,  239,  246,  247,  251,  252,  254,  257,
          259,  261,  279,  282,  289,  291,  296,  298,  315,  318,  321,
          322,  324,  332,  347,  353,  354,  367,  368,  387,  393,  402,
          407,  408,  410,  411,  414,  420,  422,  430,  432,  433,  435,
          436,  438,  440,  443,  445,  450,  457,  461,  463,  464,  471,
          478,  479,  480,  482,  485,  486,  495,  498,  507,  508,  509,
          518,  521,  522,  527,  528,  530,  532,  544,  554,  564,  565,
          567,  568,  572,  582,  596,  605,  610,  613,  617,  618,  621,
          632,  643,  647,  649,  657,  662,  66

In [15]:
# Función de la matriz de confusion
def matriz_confusion(valor_real, prediccion):
    y_esperados = np.array(valor_real)
    y_predichos = np.array(prediccion)
    resultado = confusion_matrix(valor_real, prediccion)
    print(resultado)
    (TN, FP, FN, TP) = resultado.ravel()
    print("\nTrue positives: "+str(TP))
    print("True negatives: "+str(TN))
    print("False positives: "+str(FP))
    print("False negative: "+str(FN))
    return (TP, TN, FP, FN)


In [16]:
def calcularAccuracy(TP, TN, FP, FN):
    accuracy = ((TP + TN) / (TP + TN + FP + FN)) * 100
    return accuracy

def calcularSensibilidad(TP, TN, FP, FN):
    sensibilidad = (TP / (TP + FN)) * 100
    return sensibilidad

def calcularEspecificidad(TP, TN, FP, FN):
    especificidad = (TN / (TN + FP)) * 100
    return especificidad

### Algoritmo No Supervisado (keans)

In [17]:
# Funciones para el Algoritmo

In [18]:
def distEuclidiana(muestra, dataset):
    distancias = np.zeros((dataset.shape[0],1))
    for counter in range(0,dataset.shape[0]):
        distancias[counter] = np.linalg.norm(muestra-dataset[counter])
    return distancias

def centroideCercano(muestra, listaCentroides):
    listaDistancias = distEuclidiana(muestra, listaCentroides)
    centroideCercano = np.argmin(listaDistancias)
    return centroideCercano

def clasificarPorCentroides(muestras, centroides):
    resultado = np.zeros((muestras.shape[0],1))
    for counter in range(0, muestras.shape[0]):
        resultado[counter] = centroideCercano(muestras[counter], centroides)
    return resultado

def separarDatos(muestras, valoresEsperados, valorAFiltrar):
    indices = np.where(valoresEsperados == valorAFiltrar)
    return muestras[indices], valoresEsperados[indices]

def obtenerModa(resultados):
    moda = (stats.mode(resultados)[0]).reshape(-1)
    return moda[0]

def obtenerAccuracy_kmedias(muestras, centroides):
    numMuestras = muestras.shape[0]
    resultados = clasificarPorCentroides(muestras, centroides)
    moda = obtenerModa(resultados)
    indicesErrores = np.where(resultados != moda)
    cantidadErrores = len(resultados[indicesErrores])
    accuracy = ((numMuestras - cantidadErrores) / numMuestras) *100
    return accuracy

### Preparación de del DataSet

In [19]:
# Recomendación de canciones
df_canciones = pd.read_csv('data.csv')
df_canciones.head(3)

Unnamed: 0,valence,year,acousticness,artists,danceability,duration_ms,energy,explicit,id,instrumentalness,key,liveness,loudness,mode,name,popularity,release_date,speechiness,tempo
0,0.0594,1921,0.982,"['Sergei Rachmaninoff', 'James Levine', 'Berli...",0.279,831667,0.211,0,4BJqT0PrAfrxzMOxytFOIz,0.878,10,0.665,-20.096,1,"Piano Concerto No. 3 in D Minor, Op. 30: III. ...",4,1921,0.0366,80.954
1,0.963,1921,0.732,['Dennis Day'],0.819,180533,0.341,0,7xPhfUan2yNtyFG0cUWkt8,0.0,7,0.16,-12.441,1,Clancy Lowered the Boom,5,1921,0.415,60.936
2,0.0394,1921,0.961,['KHP Kridhamardawa Karaton Ngayogyakarta Hadi...,0.328,500062,0.166,0,1o6I8BglA6ylDMrIELygv1,0.913,3,0.101,-14.85,1,Gati Bali,5,1921,0.0339,110.339


In [20]:
column_name_canciones = {
    'release_date': 'Fecha de lanzamiento',
    'valence': 'Valencia',
    'acousticness': 'Acústica',
    'artists': 'Artistas',
    'danceability': 'Bailable',
    'duration_ms': 'Duración en milisegundos',
    'energy': 'Energía',
    'explicit': 'Explícito',
    'id': 'ID',
    'instrumentalness': 'Instrumentalidad',
    'key': 'Tonalidad',
    'liveness': 'Vivacidad',
    'loudness': 'Sonoridad',
    'mode': 'Modo',
    'name': 'Nombre',
    'popularity': 'Popularidad',
    'release_date': 'Fecha de lanzamiento',
    'speechiness': 'Hablada',
    'tempo': 'Tempo'
}
df_canciones = df_canciones.rename(columns = column_name_canciones)

df_canciones.head(3)

Unnamed: 0,Valencia,year,Acústica,Artistas,Bailable,Duración en milisegundos,Energía,Explícito,ID,Instrumentalidad,Tonalidad,Vivacidad,Sonoridad,Modo,Nombre,Popularidad,Fecha de lanzamiento,Hablada,Tempo
0,0.0594,1921,0.982,"['Sergei Rachmaninoff', 'James Levine', 'Berli...",0.279,831667,0.211,0,4BJqT0PrAfrxzMOxytFOIz,0.878,10,0.665,-20.096,1,"Piano Concerto No. 3 in D Minor, Op. 30: III. ...",4,1921,0.0366,80.954
1,0.963,1921,0.732,['Dennis Day'],0.819,180533,0.341,0,7xPhfUan2yNtyFG0cUWkt8,0.0,7,0.16,-12.441,1,Clancy Lowered the Boom,5,1921,0.415,60.936
2,0.0394,1921,0.961,['KHP Kridhamardawa Karaton Ngayogyakarta Hadi...,0.328,500062,0.166,0,1o6I8BglA6ylDMrIELygv1,0.913,3,0.101,-14.85,1,Gati Bali,5,1921,0.0339,110.339


In [21]:
columnas = ['Valencia', 'Acústica', 'Bailable', 'Energía', 'Instrumentalidad', 'Vivacidad', 'Hablada']
df_canciones[columnas] = df_canciones[columnas].round()
df_canciones.head(4)

Unnamed: 0,Valencia,year,Acústica,Artistas,Bailable,Duración en milisegundos,Energía,Explícito,ID,Instrumentalidad,Tonalidad,Vivacidad,Sonoridad,Modo,Nombre,Popularidad,Fecha de lanzamiento,Hablada,Tempo
0,0.0,1921,1.0,"['Sergei Rachmaninoff', 'James Levine', 'Berli...",0.0,831667,0.0,0,4BJqT0PrAfrxzMOxytFOIz,1.0,10,1.0,-20.096,1,"Piano Concerto No. 3 in D Minor, Op. 30: III. ...",4,1921,0.0,80.954
1,1.0,1921,1.0,['Dennis Day'],1.0,180533,0.0,0,7xPhfUan2yNtyFG0cUWkt8,0.0,7,0.0,-12.441,1,Clancy Lowered the Boom,5,1921,0.0,60.936
2,0.0,1921,1.0,['KHP Kridhamardawa Karaton Ngayogyakarta Hadi...,0.0,500062,0.0,0,1o6I8BglA6ylDMrIELygv1,1.0,3,0.0,-14.85,1,Gati Bali,5,1921,0.0,110.339
3,0.0,1921,1.0,['Frank Parker'],0.0,210000,0.0,0,3ftBPsC5vPBKxYSee08FDH,0.0,5,0.0,-9.316,1,Danny Boy,3,1921,0.0,100.109


In [22]:
#Centroides

x = df_canciones[['Valencia', 'Energía']].to_numpy()
y = df_canciones['Explícito']

x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.4)

In [23]:
modelo_kmeans = KMeans(n_clusters = 10, n_init=40).fit(x_train)
centroides = modelo_kmeans.cluster_centers_
#print(centroides)

  modelo_kmeans = KMeans(n_clusters = 10, n_init=40).fit(x_train)


In [24]:
def recomiendameCanciones(listaDeCanciones,datosCanciones,cancionEjemplo,centroides):
    #Vamos a buscar el centroide mas cercano
    clasificacionDeseada = centroideCercano(cancionEjemplo, centroides)
    
    #Luego, vamos a clasificar todas las canciones por centroides.
    clasificaciones = clasificarPorCentroides(datosCanciones, centroides)
    
    #Finalmente, sacaremos los indices que hacen match entre clasificaciones.
    indices = np.where(clasificaciones == clasificacionDeseada)[0]
    
    #Y regresamos la lista de peliculas.
    return listaDeCanciones[indices]

In [25]:
#Sientete libre de cambiar este valor.
indice_df = 9

#Extrae la película que deseas del dataframe.
cancionElegida = df_canciones.iloc[indice_df]

#Obten las características de la pelicula que elegiste.
caracteristicaCancion = cancionElegida[['Valencia', 'Energía']].to_numpy()

#Obten la lista de recomendaciones
recomendaciones = recomiendameCanciones(df_canciones['Nombre'],x, caracteristicaCancion, centroides)

#E imprime lo que hallaste!
print("Porque escuchaste "+cancionElegida['Nombre']+" ...")
print(recomendaciones)

Porque escuchaste Il Etait Syndiqué ...
1                           Clancy Lowered the Boom
8                       La Mañanita - Remasterizado
9                                 Il Etait Syndiqué
10                  Dans La Vie Faut Pas S'en Faire
11               Por Que Me Dejaste - Remasterizado
                            ...                    
170549    The Man, The Myth, The Legend - Interlude
170579                           Internet Ruined Me
170601                          Que Fue Lo Que Paso
170618                                   What It Is
170646                       NASTY GIRL / ON CAMERA
Name: Nombre, Length: 39331, dtype: object


### Regresión Lineal

In [26]:
# Predecir el precio del oro, usando como entradas los valores que obtuvo en los ultimos 10 años
df.head(4)

Unnamed: 0,Fecha,Precio,Apertura,Máximo,Mínimo
0,2013-01-02,1689.9,1675.8,1695.0,1672.1
1,2013-01-03,1675.6,1688.0,1689.3,1664.3
2,2013-01-04,1649.9,1664.4,1664.4,1630.0
3,2013-01-07,1647.2,1657.3,1663.8,1645.3


In [27]:
# El dato a predecir es Precio, por lo que se definen las siguientes variable independientes y dependiente:
X = df[['Apertura', 'Máximo', 'Mínimo']]
Y = df['Precio']

In [28]:
# División de datos en para entrenamiento-prueba y entrenamiento del regresor lineal
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.4, random_state=5)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

(1549, 3)
(1034, 3)
(1549,)
(1034,)


In [29]:
# Entrenamiento y predicciones
lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)

In [30]:
y_train_predict = lin_model.predict(X_train)
MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = lin_model.predict(X_test)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

Entrenamiento: MSE =29.33762883879572
Pruebas: MSE =28.805792822667094


In [31]:
# Predicciones
df_predicciones = pd.DataFrame({'valor_real':Y_test, 'prediccion':y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

Unnamed: 0,valor_real,prediccion
0,1106.6,1109.644264
1,1792.3,1795.148161
2,1784.3,1789.476003
3,1799.3,1792.513659
4,1179.8,1182.029698
5,1838.8,1839.888902
6,1128.0,1125.049375
7,1572.8,1572.850705
8,1772.8,1775.23509
9,1292.1,1286.491871


### Regresión Lineal Vs Regresión Polinomial

In [32]:
# Se utilizara el mismo dataFrame:
X = df[['Apertura', 'Máximo', 'Mínimo']]
Y = df['Precio']
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.4, random_state=5)


In [33]:
# Regresión Lineal - Error Cuadratico Medio (MSE)
lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)
y_train_predict = lin_model.predict(X_train)
MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = lin_model.predict(X_test)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

df_predicciones = pd.DataFrame({'valor_real':Y_test, 'prediccion':y_test_predict, 'diferencia':Y_test-y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

Entrenamiento: MSE =29.33762883879572
Pruebas: MSE =28.805792822667094


Unnamed: 0,valor_real,prediccion,diferencia
0,1106.6,1109.644264,-3.044264
1,1792.3,1795.148161,-2.848161
2,1784.3,1789.476003,-5.176003
3,1799.3,1792.513659,6.786341
4,1179.8,1182.029698,-2.229698
5,1838.8,1839.888902,-1.088902
6,1128.0,1125.049375,2.950625
7,1572.8,1572.850705,-0.050705
8,1772.8,1775.23509,-2.43509
9,1292.1,1286.491871,5.608129


In [34]:
# Regresión Polinomial (Grado 2) - Error Cuadratico Medio (MSE)
poly_model = LinearRegression()
poly = PolynomialFeatures(degree=2)

Xpolytrain = poly.fit_transform(X_train)
Xpolytest = poly.fit_transform(X_test)

poly_model.fit(Xpolytrain, Y_train)
y_train_predict = poly_model.predict(Xpolytrain)

MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = poly_model.predict(Xpolytest)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

df_predicciones = pd.DataFrame({'valor_real':Y_test, 'prediccion':y_test_predict, 'diferencia':Y_test-y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

Entrenamiento: MSE =29.024270741226236
Pruebas: MSE =28.60142102570497


Unnamed: 0,valor_real,prediccion,diferencia
0,1106.6,1110.081647,-3.481647
1,1792.3,1795.391325,-3.091325
2,1784.3,1789.139796,-4.839796
3,1799.3,1792.511857,6.788143
4,1179.8,1182.431066,-2.631066
5,1838.8,1840.036605,-1.236605
6,1128.0,1125.20296,2.79704
7,1572.8,1572.827667,-0.027667
8,1772.8,1775.499783,-2.699783
9,1292.1,1286.638128,5.461872


### Árboles de Decisión

In [35]:
# Análisis químico de vinos que han crecido en una misma región en Italia
from sklearn.datasets import load_wine
# Carga el conjunto de datos de vino
dataset = load_wine()
x, y = dataset.data, dataset.target


df_vinos = pd.DataFrame(x, columns=dataset.feature_names)
df_vinos['Vinicultor'] = y


In [36]:
# Divide el DataFrame en características (X) y Vinicultor (y)
X = df_vinos.drop('Vinicultor', axis=1)
y = df_vinos['Vinicultor']

In [37]:
# Se divide el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [38]:
# Crea el clasificador Random Forest
clf = RandomForestClassifier(n_estimators = 10, random_state=42)

In [39]:
# Entrenamiento del clasificador
clf.fit(X_train, y_train)

In [40]:
# Se realizan las predicciones en el conjunto de prueba
y_pred = clf.predict(X_test)

In [41]:
# Calcula la precisión del clasificador
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del clasificador Random Forest:", accuracy)

Precisión del clasificador Random Forest: 0.9444444444444444


In [42]:
df_result = pd.concat([X_test, y_test, pd.DataFrame({'Predicciones': y_pred})], axis=1)
# Imprimir la tabla
print(df_result)

     alcohol  malic_acid   ash  alcalinity_of_ash  magnesium  total_phenols  \
19     13.64        3.10  2.56               15.2      116.0           2.70   
45     14.21        4.04  2.44               18.9      111.0           2.85   
140    12.93        2.81  2.70               21.0       96.0           1.54   
30     13.73        1.50  2.70               22.5      101.0           3.00   
67     12.37        1.17  1.92               19.6       78.0           2.11   
..       ...         ...   ...                ...        ...            ...   
28       NaN         NaN   NaN                NaN        NaN            NaN   
32       NaN         NaN   NaN                NaN        NaN            NaN   
33       NaN         NaN   NaN                NaN        NaN            NaN   
34       NaN         NaN   NaN                NaN        NaN            NaN   
35       NaN         NaN   NaN                NaN        NaN            NaN   

     flavanoids  nonflavanoid_phenols  proanthocyan

### Redes Neuronales Artificiales

In [43]:
# Red neuronal que permite realizar la separación en dos clases de un dataset de prueba.
from sklearn.neural_network import MLPClassifier
from sklearn.datasets import load_breast_cancer

# Carga del conjunto de datos
dataset = load_breast_cancer()
x, y = dataset.data, dataset.target

In [44]:
# Dividiendo el conjutno de datos para entrenamiento y prueba.
# Red neuronal de 3 neuronas en una capa y 1 para clasificación binaria
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.4)

redNeuronal = MLPClassifier(hidden_layer_sizes=(3,1),
                            max_iter=20000,
                            activation ='logistic',
                            tol= 1e-7)

redNeuronal.fit(x_train, y_train)
y_pred = redNeuronal.predict(x_test)
print("Entrenamiento completado!")

Entrenamiento completado!


### Matriz de Confusión y Métricas de Desempeño

In [45]:
# Imprimiendo Matriz de Confusión por medio de la funcion matriz_confusion
TP, TN, FP, FN = matriz_confusion(y_test, y_pred)

# Imprimiendo Métricas de Desempeño por medio de las funciones Accuracy, Sensibilidad y Especificidad
acc = calcularAccuracy(TP, TN, FP, FN)
print("\nPrecision:"+str(acc)+"%")

sen = calcularSensibilidad(TP, TN, FP, FN)
print("Sensibilidad:"+str(sen)+"%")

spec = calcularEspecificidad(TP, TN, FP, FN)
print("Especificidad:"+str(spec)+"%")

[[ 76   4]
 [  9 139]]

True positives: 139
True negatives: 76
False positives: 4
False negative: 9

Precision:94.2982456140351%
Sensibilidad:93.91891891891892%
Especificidad:95.0%


### Comparativa de Clasificadores

In [None]:
# Clasificar un dataset binario para la detección del cancer
# Carga del conjunto de datos
dataset_cancer = load_breast_cancer()
x, y = dataset_cancer.data, dataset_cancer.target

In [46]:
# Dividiendo el conjutno de datos para entrenamiento y prueba.
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.4)

### Naïve Bayes:

In [47]:
from sklearn.naive_bayes import GaussianNB
NaiveBayes = GaussianNB()
NaiveBayes.fit(x_train, y_train) 
y_pred_nb = NaiveBayes.predict(x_test) 

In [48]:
# Imprimiendo Matriz de Confusión por medio de la funcion matriz_confusion
TP, TN, FP, FN = matriz_confusion(y_test, y_pred_nb)

# Imprimiendo Métricas de Desempeño por medio de las funciones Accuracy, Sensibilidad y Especificidad
acc = calcularAccuracy(TP, TN, FP, FN)
print("\nPrecision:"+str(acc)+"%")

sen = calcularSensibilidad(TP, TN, FP, FN)
print("Sensibilidad:"+str(sen)+"%")

spec = calcularEspecificidad(TP, TN, FP, FN)
print("Especificidad:"+str(spec)+"%")

[[ 79   9]
 [  3 137]]

True positives: 137
True negatives: 79
False positives: 9
False negative: 3

Precision:94.73684210526315%
Sensibilidad:97.85714285714285%
Especificidad:89.77272727272727%


### Support Vector Machine:

In [49]:
from sklearn.svm import SVC
from sklearn.pipeline import make_pipeline

SupportVectorMachine = SVC()
SupportVectorMachine.fit(x_train, y_train) 
y_pred_svm = SupportVectorMachine.predict(x_test) 

In [50]:
# Imprimiendo Matriz de Confusión por medio de la funcion matriz_confusion
TP, TN, FP, FN = matriz_confusion(y_test, y_pred_svm)

# Imprimiendo Métricas de Desempeño por medio de las funciones Accuracy, Sensibilidad y Especificidad
acc = calcularAccuracy(TP, TN, FP, FN)
print("\nPrecision:"+str(acc)+"%")

sen = calcularSensibilidad(TP, TN, FP, FN)
print("Sensibilidad:"+str(sen)+"%")

spec = calcularEspecificidad(TP, TN, FP, FN)
print("Especificidad:"+str(spec)+"%")

[[ 73  15]
 [  2 138]]

True positives: 138
True negatives: 73
False positives: 15
False negative: 2

Precision:92.54385964912281%
Sensibilidad:98.57142857142858%
Especificidad:82.95454545454545%


### Redes Neuronales Artificiales:

In [51]:
NeuralNetwork = MLPClassifier(hidden_layer_sizes=(10,4),
                            max_iter=20000,
                            activation ='logistic',
                            tol= 1e-8)

NeuralNetwork.fit(x_train, y_train)
y_pred_nn = NeuralNetwork.predict(x_test)

In [52]:
# Imprimiendo Matriz de Confusión por medio de la funcion matriz_confusion
TP, TN, FP, FN = matriz_confusion(y_test, y_pred_nn)

# Imprimiendo Métricas de Desempeño por medio de las funciones Accuracy, Sensibilidad y Especificidad
acc = calcularAccuracy(TP, TN, FP, FN)
print("\nPrecision:"+str(acc)+"%")

sen = calcularSensibilidad(TP, TN, FP, FN)
print("Sensibilidad:"+str(sen)+"%")

spec = calcularEspecificidad(TP, TN, FP, FN)
print("Especificidad:"+str(spec)+"%")

[[ 80   8]
 [  6 134]]

True positives: 134
True negatives: 80
False positives: 8
False negative: 6

Precision:93.85964912280701%
Sensibilidad:95.71428571428572%
Especificidad:90.9090909090909%


### Random Forests:

In [53]:
RandomForest = RandomForestClassifier(n_estimators = 800)
RandomForest.fit(x_train, y_train)
y_pred_rfc = RandomForest.predict(x_test)

In [54]:
# Imprimiendo Matriz de Confusión por medio de la funcion matriz_confusion
TP, TN, FP, FN = matriz_confusion(y_test, y_pred_rfc)

# Imprimiendo Métricas de Desempeño por medio de las funciones Accuracy, Sensibilidad y Especificidad
acc = calcularAccuracy(TP, TN, FP, FN)
print("\nPrecision:"+str(acc)+"%")

sen = calcularSensibilidad(TP, TN, FP, FN)
print("Sensibilidad:"+str(sen)+"%")

spec = calcularEspecificidad(TP, TN, FP, FN)
print("Especificidad:"+str(spec)+"%")

[[ 80   8]
 [  4 136]]

True positives: 136
True negatives: 80
False positives: 8
False negative: 4

Precision:94.73684210526315%
Sensibilidad:97.14285714285714%
Especificidad:90.9090909090909%


### Procesamiento de Imágenes