In [1]:
import numpy as np
import pandas as pd
from sklearn.dummy import DummyClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
from sklearn.model_selection import train_test_split
from sklearn import preprocessing

In [2]:
# Carga de datos.
csv = pd.read_csv('./res/penguins.csv', sep=';')
print(csv.head())




          0         1           2            3    4
0  39.10000  18.70000  181.000000  3750.000000  0.0
1  39.50000  17.40000  186.000000  3800.000000  0.0
2  40.30000  18.00000  195.000000  3250.000000  0.0
3  43.92193  17.15117  200.915205  4201.754386  0.0
4  36.70000  19.30000  193.000000  3450.000000  0.0


In [3]:
# Convertir dataframe en numpy array
data = np.array(csv)
X = data[:,:-1]
y = data[:,-1]

In [4]:
# Mostrar características de la tabla de datos.
print("Tabla de datos: %d instancias y %d atributos" % (X.shape[0], X.shape[1]))
print("Valores de la clase:", set(y))

Tabla de datos: 344 instancias y 4 atributos
Valores de la clase: {0.0, 1.0, 2.0}


In [5]:
# Test: hold-out split 80-20%. PARTICIÓN EXTERNA
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, shuffle=True, random_state=42)

valores_test, ocur_test = np.unique(y_test, return_counts=True)
print('Test: ', 'clases:', valores_test, ' ocurrencias: ', ocur_test)

valores_train, ocur_train = np.unique(y_train, return_counts=True)
print('Entrenamiento: ', ' clases:', valores_train, '  ocurrencias:', ocur_train)

Test:  clases: [0. 1. 2.]  ocurrencias:  [32 24 13]
Entrenamiento:   clases: [0. 1. 2.]   ocurrencias: [120 100  55]


In [6]:
# Estandarizar las características de entrenamiento y de test
standardizer = preprocessing.StandardScaler()
X_train = standardizer.fit_transform(X_train)
X_test = standardizer.transform(X_test)

In [7]:
# Hacemos el cross-validation interno para seleccionar los mejores hiperparámetros
from sklearn.svm import SVC
svc = SVC(C=1, gamma='auto', kernel='linear')
results = cross_val_score(svc, X_train, y_train, cv = KFold(n_splits=5, shuffle=True, random_state=42))
print("Resultados por bolsa: ", results)
print("Accuracy (media +/- desv.): %0.4f +/- %0.4f" % (results.mean(), results.std()))

Resultados por bolsa:  [0.98181818 0.98181818 1.         0.98181818 0.98181818]
Accuracy (media +/- desv.): 0.9855 +/- 0.0073


In [8]:
# Una vez entrenado y validado el modelo para seleccionar los mejores hyperparameters, utilizamos todos los datos de 
# "train" y "val" para entrenar el modelo definitivo

svc = SVC(C=1, gamma='auto', kernel='linear')
svc.fit(X_train, y_train)


SVC(C=1, gamma='auto', kernel='linear')

In [9]:
# Calcular la accuracy del conjunto de test
test_results = svc.score(X_test, y_test)
print('Exactitud en test: ', test_results*100, '%')

Exactitud en test:  97.10144927536231 %


In [11]:
# Extraer las predicciones, en lugar de directamente la accuracy
y_pred = svc.predict(X_test)
print('Predicciones:     ', y_pred)
print('Etiquetas reales: ', y_test)

Predicciones:      [1. 1. 1. 1. 2. 2. 2. 1. 0. 1. 2. 0. 0. 0. 2. 0. 0. 1. 2. 0. 0. 0. 1. 0.
 1. 1. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 2. 1. 0. 1. 2. 2. 2. 0. 2. 0. 1. 0.
 0. 1. 0. 1. 2. 0. 0. 1. 0. 1. 1. 1. 1. 0. 2. 0. 2. 1. 2. 0. 0.]
Etiquetas reales:  [1. 1. 1. 1. 2. 2. 2. 1. 0. 1. 2. 0. 0. 0. 2. 0. 0. 1. 2. 0. 0. 0. 1. 0.
 1. 1. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 2. 1. 0. 1. 2. 2. 2. 0. 0. 0. 1. 0.
 0. 1. 0. 1. 2. 0. 0. 1. 0. 1. 1. 1. 1. 0. 2. 0. 2. 1. 0. 0. 0.]


In [12]:
import sklearn.metrics as metrics

# Presentación de los resultados de la evaluación.
print("Exactitud: %.3f" % (metrics.accuracy_score(y_test, y_pred))) # accuracy
print("Precisión: %.3f" % (metrics.precision_score(y_test, y_pred, average="micro"))) # precision
print("Sensibilidad: %.3f" % (metrics.recall_score(y_test, y_pred, average="micro"))) # sensibilidad
print("F1-score: %.3f" % (metrics.f1_score(y_test, y_pred, average="micro"))) # F-score

Exactitud: 0.971
Precisión: 0.971
Sensibilidad: 0.971
F1-score: 0.971


In [83]:

import json

msg = {
		"text": "*X*",
		"attachments":[{
			"fields": [{
				"title": "Descripción:",
				"value": "x"
			}],
			"mrkdwn_in":["text","pretext"],
			"color": "#00FF7F"
		}]
	}

In [84]:
i=10

msg['text'] = '*Título Personalizado*' ##Personaliza Título
msg['attachments'][0]['fields'][0]['value'] = f'INFO-WPI: MENSAJE PERSONALIZADO {i} merchants' ## Mensaje
msg['attachments'][0]['color']='#FFFFF' ## Personaliza Color

print(msg)



{'text': '*Título Personalizado*', 'attachments': [{'fields': [{'title': 'Descripción:', 'value': 'INFO-WPI: MENSAJE PERSONALIZADO 10 merchants'}], 'mrkdwn_in': ['text', 'pretext'], 'color': '#FFFFF'}]}


{'text': '*Título Personalizado*', 'attachments': [{'fields': [{'title': 'Descripción:', 'value': 'INFO-WPI: MENSAJE PERSONALIZADO 10 merchants'}], 'mrkdwn_in': ['text', 'pretext'], 'color': '#FFFFF'}]}


In [55]:
(msg['attachments'])['fields']

TypeError: list indices must be integers or slices, not str

In [43]:
i=10
message_t=f'INFO-WPI: Se realizó la predicción para {i} merchants'
msg.format(slack_message=message_t)

AttributeError: 'dict' object has no attribute 'format'

In [34]:
 i=10
 message_t=f'INFO-WPI: Se realizó la predicción para {i} merchants'
 encoded_msg = json.dumps(str(msg).format(slack_message=message_t))

KeyError: "'text'"