In [1]:
import numpy as np
import pandas as pd
import nltk
nltk.download('stopwords')
nltk.download('punkt')
import re
import matplotlib.pyplot as plt
plt.style.use('ggplot')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Alex\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Alex\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [2]:
def porcentajeClases(output):
    percent = output.value_counts() 
    clase1 = (percent[0] * 100) / (percent[0] + percent[1])
    clase2 = (percent[1] * 100) / (percent[0] + percent[1])
    return (clase1, clase2)

In [3]:
#Se importan los datos

person = pd.read_csv("C:\\Users\\Alex\\Documents\\scrapy\\finality.csv")
person.columns = ["Nombre", "Universidad", "Profesion", "Ciudad", "Cliente"]
person.head()

Unnamed: 0,Nombre,Universidad,Profesion,Ciudad,Cliente
0,jairo Ricardo Mora Delgado,Universidad del Tolima,Pregrado,Ibagué,Si
1,Alexander Luan Naranjo Ladino,Universidad,HOSPITAL UNIVERSITARIO DE LA SAMARITANA H U S,Colombia,No
2,jairo Ricardo Mora Delgado,Universidad Nacional,Revista de la Facultad de Medicina Veterinaria...,Bogotá,Si
3,jairo Ricardo Mora Delgado,Universidad Javeriana,Cuadernos de Administración,Bogotá,Si
4,Juan Camilo Gutiérrez Meneses,Universidad del Tolima,Pregrado,Ibagué,No
5,Camilo Andrey Bonilla Meneses,Universidad del Tolima,Pregrado,Ibagué,No
6,juan Camilo Fernández Salazar,Universidad del Tolima,Pregrado,Ibagué,Si
7,Carlos Alberto Ceballos Cifuentes,Universidad Nacional,Departamento de Ingeniería Civil,Bogotá,Si
8,Jorge Andrés Pulgarín Giraldo,Universidad Nacional,Departamento de Administración,Bogotá,Si
9,Carlos Alberto Ceballos Cifuentes,Universidad,Investigador,Colombia,Si


In [4]:
#Exploración y preprocesamiento de los datos

print('Tamaño del dataset')
print('Número de ejemplos: {}'.format(person.shape[0]))
print('Número de características: {}'.format(person.shape[1]))

Tamaño del dataset
Número de ejemplos: 33
Número de características: 5


In [5]:
#Balance de los datos(target) en el dataset

print('Número de clientes y no clientes: ')
print(person['Cliente'].value_counts())

Número de clientes y no clientes: 
Si    18
No    15
Name: Cliente, dtype: int64


In [6]:
[nocliente, cliente] = porcentajeClases(person['Cliente'])
print('Porcentaje de personas no clientes: {}%'.format(nocliente))
print('Porcentaje de personas cliente: {}%'.format(cliente))

Porcentaje de personas no clientes: 54.54545454545455%
Porcentaje de personas cliente: 45.45454545454545%


In [7]:
#Limpieza de los textos

from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
#Se convierten las profesiones a minúsculas
person['Profesion'] = person.Profesion.map(lambda x: x.lower())
#Se quitan los signos de puntuación
person['Profesion'] = person.Profesion.replace('[^\w\s]','')
#Se eliminan los números
person['Profesion'] = [re.sub('[0-9]', '', i) for i in person['Profesion']]
#Se hace la tokenización
person['Profesion'] = person['Profesion'].apply(nltk.word_tokenize)
nltk_words = list(stopwords.words('spanish'))
#Lista de "stopwords" en español
for i in range(0,len(person)):
    person['Profesion'][i] = [w for w in person['Profesion'][i] if w not in nltk_words]
#Se convierte la lista de palabras en un string separado por espacios
person['Profesion'] = person['Profesion'].apply(lambda x: ' '.join(x))

In [8]:
#Se verifican los cambios
person.head()

Unnamed: 0,Nombre,Universidad,Profesion,Ciudad,Cliente
0,jairo Ricardo Mora Delgado,Universidad del Tolima,pregrado,Ibagué,Si
1,Alexander Luan Naranjo Ladino,Universidad,hospital universitario samaritana h u s,Colombia,No
2,jairo Ricardo Mora Delgado,Universidad Nacional,revista facultad medicina veterinaria zootecnia,Bogotá,Si
3,jairo Ricardo Mora Delgado,Universidad Javeriana,cuadernos administración,Bogotá,Si
4,Juan Camilo Gutiérrez Meneses,Universidad del Tolima,pregrado,Ibagué,No
5,Camilo Andrey Bonilla Meneses,Universidad del Tolima,pregrado,Ibagué,No
6,juan Camilo Fernández Salazar,Universidad del Tolima,pregrado,Ibagué,Si
7,Carlos Alberto Ceballos Cifuentes,Universidad Nacional,departamento ingeniería civil,Bogotá,Si
8,Jorge Andrés Pulgarín Giraldo,Universidad Nacional,departamento administración,Bogotá,Si
9,Carlos Alberto Ceballos Cifuentes,Universidad,investigador,Colombia,Si


In [9]:
#Creación del espacio vectorial
from sklearn.feature_extraction.text import  CountVectorizer
count_vect = CountVectorizer()

#Se separan los datos del dataset
y = person["Cliente"]
X = person.drop(columns=["Nombre", "Cliente"])

bagofWords = count_vect.fit_transform(person['Profesion'])

print('Tamaño del modelo de espacio vectorial con todas las palabras: ')
print(bagofWords.shape)

Tamaño del modelo de espacio vectorial con todas las palabras: 
(33, 59)


In [10]:
# count = CountVectorizer()
# from sklearn.compose import make_column_transformer
# ct = make_column_transformer((count, person['Profesion']), (count, person['Universidad']))
# ct.fit_transform(x)

In [11]:
import joblib
joblib.dump(count_vect, "bagof.joblib")

['bagof.joblib']

In [12]:
#Separación del dataset en un conjunto de entrenamiento y de prueba
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(bagofWords, y, test_size=0.3, random_state=42)

In [13]:
[nocliente, cliente] = porcentajeClases(y_train)
print('\nPorcentaje de personas no clientes en el conjunto de entrenamiento: {}%'.format(nocliente))
print('Porcentaje de clientes en el conjunto de entrenamiento: {}%'.format(cliente))

[nocliente, cliente] = porcentajeClases(y_test)
print('\nPorcentaje de personas no clientes en el conjunto de prueba: {}%'.format(nocliente))
print('Porcentaje de clientes en el conjunto de prueba: {}%'.format(cliente))


Porcentaje de personas no clientes en el conjunto de entrenamiento: 52.17391304347826%
Porcentaje de clientes en el conjunto de entrenamiento: 47.82608695652174%

Porcentaje de personas no clientes en el conjunto de prueba: 60.0%
Porcentaje de clientes en el conjunto de prueba: 40.0%


In [14]:
#Creación del modelo NB
from sklearn.naive_bayes import MultinomialNB
mnb = MultinomialNB()
mnb = mnb.fit(X_train, y_train)

In [15]:
#Guardar modelo en joblib
import joblib
joblib.dump(mnb, "guardar_prueba.joblib")

['guardar_prueba.joblib']

In [16]:
#Evaluación del modelo y Precisión
from sklearn.metrics import classification_report, accuracy_score
y_pred = mnb.predict(X_train)
train_accuracy = accuracy_score(y_train, y_pred)
print('\nPrecisión en el conjunto de entrenamiento mnb: {}'.format(train_accuracy))

y_pred = mnb.predict(X_test)
test_accuracy = accuracy_score(y_test, y_pred)
print('Precisión en el conjunto de prueba mnb: {}'.format(test_accuracy))


Precisión en el conjunto de entrenamiento mnb: 0.9130434782608695
Precisión en el conjunto de prueba mnb: 0.8


In [20]:
import joblib
model = joblib.load('guardar_prueba.joblib')
bagof = joblib.load('bagof.joblib')

In [21]:

prueba = "Ingeniería en Telecomunicaciones"
prueba1 = bagof.transform([prueba])

In [22]:
j_pred = model.predict(prueba1)
j_pred

array(['Si'], dtype='<U2')