# ¿Guitarra o amplificador esa es la cuestión?


Recientemente estaba en un sitio web al que quería "scrapear" información de instrumentos musicales en venta. Pero me encontré con la curiosidad de que cada anuncio no tiene una categoria designada para cada uno de los instrumentos que se muestran. Simplemente encuentras las fotos, el título y una descripción, pero ningún apartado que diga por ejemplo, si es una "guitarra" o "amplificador".

<img src= "img/amp_gtr.jpg" style="width:580px;height:387px"/>

Con esto me hice varias preguntas. Si quiero tener una base de datos donde pueda guardar: el título, las caracteristicas de la descripción y el número del vendedor. ¿Como podría tener una columna que me diga que insturmento es?, ¿Guitarra o Amplificador?. Asi que para esto utilizaré el Teorema de Bayes.
![](img/bayes.png)

- Primero comenzamos con importar las librerias que necesitamos para manipular datos y arreglos. 
- Después creamos una tabla que contiene el texto que describe al instrumento y al lado el tag al que pertenece. Esto nos va a servir como un set de datos de entrenamiento.


In [551]:
import pandas as pd
import numpy as np


columns = ['sent', 'class']

rows = [['estrena excelentes condiciones Epiphone by Gibson acústica tamaño Big Size excelente sonido y caja de caoba. único en su tipo', 'gtr'], 
        ['sonando y funcionando al 100 , solo tiene los detalles estéticos que se muestran en las fotos.', 'gtr'],
        ['en buen estado y funcionando, detalle estético en la punta del brazo, no afecta en nada su funcionamiento.', 'gtr'],
        ['Excelente sonido sin detalle estetico en el brazo', 'gtr'],
        ['Hecha en Fender Mèxico,Ensenada.', 'gtr'],
        ['Telecaster Custom 60s Classic Vibe by Fender.', 'gtr'],
        ['gibson SG original de 2012, con estuche en muy buenas condiciones', 'gtr'],
        ['Guitarra Gibson 2015 LPM Edición Conmemorativa', 'gtr'],
        ['Guitarra perfecta para principiantes o estudiantes', 'gtr'],
        ['Esta colección de corte doble incluye una amplia variedad de opciones para satisfacer mejor las necesidades de cada guitarrista', 'gtr'],
        ['La guitarra no tiene uso y viene en su caja original', 'gtr'],
        ['Guitarra eléctrica epiphone les Paul SL seminueva, color negro mate con dos pastillas single coil, estuche y plumillas.', 'gtr'],
        ['Guitarra eléctrica de buena calidad casi nueva. Viene con funda, Trémolo y Auxiliar'],
        
        
        ['seminuevo, cero detalles, excelente sonido, cualquier prueba, 100 bancos de efectos. Posible cambio. negociamos.', 'amp'],
        ['Su estado es excelente, es bastante versátil por sus distintas distorsiones, así puedes pasar de un género y sonido diferente con mucha facilidad.', 'amp'],
        ['excelente sonido clásico del rock y metal en su canal distorsionado y super limpio y potente en el canal Clean.', 'amp'],
        ['bulbos, se puede conectar un gabinete adicional, super nuevo', 'amp'],
        ['Suena bastante bien un sonido cristalino de la misma manufactura de Fender. Trae un efecto de distorsión Overdrive, tiene dos entradas para audífonos y auxiliar.','amp'],
        ['Amplificador yamaha en excelentes condiciones funciona al 100% ideal para ensayar en casa.','amp'],
        ['Amplificador Fender', 'amp'],
        ['Trae su cargador, pero también puede utilizarse con pilas. Muy práctico para casa o transportarlo con facilidad.', 'amp'],
        ['Vendo ampli Bugera en perfecto estado, incluye foot switch y soporte fender.', 'amp'],
        ['Marshall DSL 100h en perfecto estado. Al 100%. Poco uso. Puedes configurar a 100w o 50w', 'amp'],
        ['Hermoso cabezal Deluxe Reverb Head completamente a bulbos, estetica de 10', 'amp'],
        ['Amplificador Roland Cube de 15W excelente para ensayar', 'amp'],
        ['Sonido potente de bulbos sin bocina rota', 'amp']]

training_data = pd.DataFrame(rows, columns=columns)
training_data

Unnamed: 0,sent,class
0,estrena excelentes condiciones Epiphone by Gib...,gtr
1,"sonando y funcionando al 100 , solo tiene los ...",gtr
2,"en buen estado y funcionando, detalle estético...",gtr
3,Excelente sonido sin detalle estetico en el brazo,gtr
4,"Hecha en Fender Mèxico,Ensenada.",gtr
5,Telecaster Custom 60s Classic Vibe by Fender.,gtr
6,"gibson SG original de 2012, con estuche en muy...",gtr
7,Guitarra Gibson 2015 LPM Edición Conmemorativa,gtr
8,Guitarra perfecta para principiantes o estudia...,gtr
9,Esta colección de corte doble incluye una ampl...,gtr


# TDM 

Ahora necesitamos contar en número de veces que aparece una palabra en una de las clases. Para esto podemos utilizar **CountVectorizer** de **sklearn**. Y esto nos muestra un *Term Document Matrix* que consiste en una tabla que muestra las frequencias de cada una de las palabras que aparecen en las diferentes clases.

In [552]:
from sklearn.feature_extraction.text import CountVectorizer

gtr_docs = [row['sent'] for index,row in training_data.iterrows() if row['class'] == 'gtr']

vec_g = CountVectorizer()
X_g = vec_g.fit_transform(gtr_docs)
tdm_g = pd.DataFrame(X_g.toarray(), columns=vec_g.get_feature_names())

tdm_g

Unnamed: 0,100,2012,2015,60s,acústica,afecta,al,amplia,big,brazo,...,tamaño,telecaster,tiene,tipo,una,uso,variedad,vibe,viene,único
0,0,0,0,0,1,0,0,0,1,0,...,1,0,0,1,0,0,0,0,0,1
1,1,0,0,0,0,0,1,0,0,0,...,0,0,1,0,0,0,0,0,0,0
2,0,0,0,0,0,1,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,0,0,0,1,0,0,0,0,0,0,...,0,1,0,0,0,0,0,1,0,0
6,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
8,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,1,0,1,0,0,0


In [553]:
amp_docs = [row['sent'] for index,row in training_data.iterrows() if row['class'] == 'amp']

vec_amp = CountVectorizer()
X_amp = vec_amp.fit_transform(amp_docs)
tdm_amp = pd.DataFrame(X_amp.toarray(), columns=vec_amp.get_feature_names())

tdm_amp

Unnamed: 0,10,100,100h,100w,15w,50w,adicional,al,ampli,amplificador,...,también,tiene,trae,transportarlo,un,uso,utilizarse,vendo,versátil,yamaha
0,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,1,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,1,0,0,0,...,0,0,0,0,1,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,1,1,0,2,0,0,0,0,0
5,0,1,0,0,0,0,0,1,0,1,...,0,0,0,0,0,0,0,0,0,1
6,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
7,0,0,0,0,0,0,0,0,0,0,...,1,0,1,1,0,0,1,0,0,0
8,0,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,1,0,0
9,0,1,1,1,0,1,0,1,0,0,...,0,0,0,0,0,1,0,0,0,0


## Lista de palabras y la frequencia con la que aparecen en la clase "guitarra"

In [554]:
word_list_g = vec_g.get_feature_names();    
count_list_g = X_g.toarray().sum(axis=0) 
freq_g = dict(zip(word_list_g,count_list_g))
freq_g

{'100': 1,
 '2012': 1,
 '2015': 1,
 '60s': 1,
 'acústica': 1,
 'afecta': 1,
 'al': 1,
 'amplia': 1,
 'big': 1,
 'brazo': 2,
 'buen': 1,
 'buenas': 1,
 'by': 2,
 'cada': 1,
 'caja': 2,
 'caoba': 1,
 'classic': 1,
 'coil': 1,
 'colección': 1,
 'color': 1,
 'con': 2,
 'condiciones': 2,
 'conmemorativa': 1,
 'corte': 1,
 'custom': 1,
 'de': 5,
 'del': 1,
 'detalle': 2,
 'detalles': 1,
 'doble': 1,
 'dos': 1,
 'edición': 1,
 'el': 1,
 'eléctrica': 1,
 'en': 9,
 'ensenada': 1,
 'epiphone': 2,
 'esta': 1,
 'estado': 1,
 'estetico': 1,
 'estrena': 1,
 'estuche': 2,
 'estudiantes': 1,
 'estético': 1,
 'estéticos': 1,
 'excelente': 2,
 'excelentes': 1,
 'fender': 2,
 'fotos': 1,
 'funcionamiento': 1,
 'funcionando': 2,
 'gibson': 3,
 'guitarra': 4,
 'guitarrista': 1,
 'hecha': 1,
 'incluye': 1,
 'la': 2,
 'las': 2,
 'les': 1,
 'los': 1,
 'lpm': 1,
 'mate': 1,
 'mejor': 1,
 'muestran': 1,
 'muy': 1,
 'mèxico': 1,
 'nada': 1,
 'necesidades': 1,
 'negro': 1,
 'no': 2,
 'opciones': 1,
 'original': 2

## Lista de palabras y la frequencia con la que aparecen en la clase "amplificador"

In [555]:
word_list_amp = vec_amp.get_feature_names();    
count_list_amp = X_amp.toarray().sum(axis=0) 
freq_amp = dict(zip(word_list_amp,count_list_amp))
freq_amp


{'10': 1,
 '100': 3,
 '100h': 1,
 '100w': 1,
 '15w': 1,
 '50w': 1,
 'adicional': 1,
 'al': 2,
 'ampli': 1,
 'amplificador': 3,
 'así': 1,
 'audífonos': 1,
 'auxiliar': 1,
 'bancos': 1,
 'bastante': 2,
 'bien': 1,
 'bocina': 1,
 'bugera': 1,
 'bulbos': 3,
 'cabezal': 1,
 'cambio': 1,
 'canal': 2,
 'cargador': 1,
 'casa': 2,
 'cero': 1,
 'clean': 1,
 'clásico': 1,
 'completamente': 1,
 'con': 3,
 'condiciones': 1,
 'conectar': 1,
 'configurar': 1,
 'cristalino': 1,
 'cualquier': 1,
 'cube': 1,
 'de': 8,
 'del': 1,
 'deluxe': 1,
 'detalles': 1,
 'diferente': 1,
 'distintas': 1,
 'distorsionado': 1,
 'distorsiones': 1,
 'distorsión': 1,
 'dos': 1,
 'dsl': 1,
 'efecto': 1,
 'efectos': 1,
 'el': 1,
 'en': 6,
 'ensayar': 2,
 'entradas': 1,
 'es': 2,
 'estado': 3,
 'estetica': 1,
 'excelente': 4,
 'excelentes': 1,
 'facilidad': 2,
 'fender': 3,
 'foot': 1,
 'funciona': 1,
 'gabinete': 1,
 'género': 1,
 'head': 1,
 'hermoso': 1,
 'ideal': 1,
 'incluye': 1,
 'la': 1,
 'limpio': 1,
 'manufactura'

## Calculamos la probabilidad de cada una de las palabras para cada clase

### Probabilidad de las palabras en la clase "guitarra"

In [556]:
prob_g = []
for word,count in zip(word_list_g, count_list_g):
  prob_g.append(count/len(word_list_g))
dict(zip(word_list_g, prob_g))

{'100': 0.00980392156862745,
 '2012': 0.00980392156862745,
 '2015': 0.00980392156862745,
 '60s': 0.00980392156862745,
 'acústica': 0.00980392156862745,
 'afecta': 0.00980392156862745,
 'al': 0.00980392156862745,
 'amplia': 0.00980392156862745,
 'big': 0.00980392156862745,
 'brazo': 0.0196078431372549,
 'buen': 0.00980392156862745,
 'buenas': 0.00980392156862745,
 'by': 0.0196078431372549,
 'cada': 0.00980392156862745,
 'caja': 0.0196078431372549,
 'caoba': 0.00980392156862745,
 'classic': 0.00980392156862745,
 'coil': 0.00980392156862745,
 'colección': 0.00980392156862745,
 'color': 0.00980392156862745,
 'con': 0.0196078431372549,
 'condiciones': 0.0196078431372549,
 'conmemorativa': 0.00980392156862745,
 'corte': 0.00980392156862745,
 'custom': 0.00980392156862745,
 'de': 0.049019607843137254,
 'del': 0.00980392156862745,
 'detalle': 0.0196078431372549,
 'detalles': 0.00980392156862745,
 'doble': 0.00980392156862745,
 'dos': 0.00980392156862745,
 'edición': 0.00980392156862745,
 'el':

### Probabilidad de las palabras en la clase "amplificador"

In [557]:
prob_amp = []
for count in count_list_amp:
  prob_amp.append(count/len(word_list_amp))
dict(zip(word_list_amp, prob_amp))

{'10': 0.008695652173913044,
 '100': 0.02608695652173913,
 '100h': 0.008695652173913044,
 '100w': 0.008695652173913044,
 '15w': 0.008695652173913044,
 '50w': 0.008695652173913044,
 'adicional': 0.008695652173913044,
 'al': 0.017391304347826087,
 'ampli': 0.008695652173913044,
 'amplificador': 0.02608695652173913,
 'así': 0.008695652173913044,
 'audífonos': 0.008695652173913044,
 'auxiliar': 0.008695652173913044,
 'bancos': 0.008695652173913044,
 'bastante': 0.017391304347826087,
 'bien': 0.008695652173913044,
 'bocina': 0.008695652173913044,
 'bugera': 0.008695652173913044,
 'bulbos': 0.02608695652173913,
 'cabezal': 0.008695652173913044,
 'cambio': 0.008695652173913044,
 'canal': 0.017391304347826087,
 'cargador': 0.008695652173913044,
 'casa': 0.017391304347826087,
 'cero': 0.008695652173913044,
 'clean': 0.008695652173913044,
 'clásico': 0.008695652173913044,
 'completamente': 0.008695652173913044,
 'con': 0.02608695652173913,
 'condiciones': 0.008695652173913044,
 'conectar': 0.008

# ¿Que pasa si queremos clasificar una descripción que contiene una palabra a la cual no le hemos calculado la probailidad?

### Esto nos anularía totalmente el cálculo de la probabilidad y el algoritmo de Bayes no funcionaria. Para evitar esto agregamos *Laplace Smoothing* que nos ayuda a resolver la probabilidad 0  en un algoritmo *Naive Bayes*.
![](img/laplace2.png)

### Para esto necesitamos calcular el total de elementos en el set de entraenamiento.

In [558]:
from sklearn.feature_extraction.text import CountVectorizer

docs = [row['sent'] for index,row in training_data.iterrows()]

vec = CountVectorizer()
X = vec.fit_transform(docs)

total_features = len(vec.get_feature_names())
print(f'Total de elementos en el set de entrenamiento {total_features}')

Total de elementos en el set de entrenamiento 199


In [559]:
total_cnts_features_g = count_list_g.sum(axis=0)
total_cnts_features_amp = count_list_amp.sum(axis=0)

In [560]:
print(f'El total de elementos en la categoria de guitarra es de {total_cnts_features_g} ')
print(f'El total de elementos en la categoria de amplificador es de {total_cnts_features_amp} ')

El total de elementos en la categoria de guitarra es de 139 
El total de elementos en la categoria de amplificador es de 167 


## Ahora podemos introducir una nueva descripción y definir si es una guitarra o amplificador

Esta nueva frase la separamos por palabras para compararla con cada una de las clases y calcular cada una de sus probabilidades

In [561]:
from nltk.tokenize import word_tokenize

new_sentence = 'Guitarra eléctrica de buena calidad casi nueva. Viene con funda, Trémolo y Auxiliar'
new_word_list = word_tokenize(new_sentence)
new_word_list

['Guitarra',
 'eléctrica',
 'de',
 'buena',
 'calidad',
 'casi',
 'nueva',
 '.',
 'Viene',
 'con',
 'funda',
 ',',
 'Trémolo',
 'y',
 'Auxiliar']

### Obtenemos la probabilidad de cada palabra cuando aparece en al clase de guitarra

In [562]:
prob_g_with_ls = []
for word in new_word_list:
    if word in freq_g.keys():
        count = freq_g[word]
    else:
        count = 0
    prob_g_with_ls.append((count + 1)/(total_cnts_features_g + total_features))
dict(zip(new_word_list,prob_g_with_ls))

{'Guitarra': 0.0029585798816568047,
 'eléctrica': 0.005917159763313609,
 'de': 0.01775147928994083,
 'buena': 0.0029585798816568047,
 'calidad': 0.0029585798816568047,
 'casi': 0.0029585798816568047,
 'nueva': 0.0029585798816568047,
 '.': 0.0029585798816568047,
 'Viene': 0.0029585798816568047,
 'con': 0.008875739644970414,
 'funda': 0.0029585798816568047,
 ',': 0.0029585798816568047,
 'Trémolo': 0.0029585798816568047,
 'y': 0.0029585798816568047,
 'Auxiliar': 0.0029585798816568047}

### Obtenemos la probabilidad de cada palabra cuando aparece en la clase de amplificador

In [563]:
prob_amp_with_ls = []
for word in new_word_list:
    if word in freq_amp.keys():
        count = freq_amp[word]
    else:
        count = 0
    prob_amp_with_ls.append((count + 1)/(total_cnts_features_amp + total_features))
dict(zip(new_word_list,prob_amp_with_ls))

{'Guitarra': 0.00273224043715847,
 'eléctrica': 0.00273224043715847,
 'de': 0.02459016393442623,
 'buena': 0.00273224043715847,
 'calidad': 0.00273224043715847,
 'casi': 0.00273224043715847,
 'nueva': 0.00273224043715847,
 '.': 0.00273224043715847,
 'Viene': 0.00273224043715847,
 'con': 0.01092896174863388,
 'funda': 0.00273224043715847,
 ',': 0.00273224043715847,
 'Trémolo': 0.00273224043715847,
 'y': 0.00273224043715847,
 'Auxiliar': 0.00273224043715847}

### Debemos multiplicar cada una de las probabilidades para encontrar el total. Para esto calculamos el producto interno de cada una de las probabilidades de las palabras con **np.prod()** de numpy

In [564]:
prob_g_with_ls = np.prod(prob_g_with_ls)
prob_amp_with_ls = np.prod(prob_amp_with_ls)

total_with_ls = prob_g_with_ls + prob_amp_with_ls

In [565]:
print(f'La probabilidad de que sea una guitarra es del {prob_g_with_ls/total_with_ls}')
print(f'La probabilidad de que sea un amplificador es del {prob_amp_with_ls/total_with_ls}')

La probabilidad de que sea una guitarra es del 0.767422067071112
La probabilidad de que sea un amplificador es del 0.23257793292888784


### Finalmente comparamos los dos resultados para ver cuál es la probabilidad mas grande

In [566]:
if prob_g_with_ls > prob_amp_with_ls :
  print(f'La descripción:\n "{new_sentence}".\n Parece pertenecer a una: Guitarra')
else:
  print(f'La descripción:\n "{new_sentence}".\n Parece pertenecer a un: Amplificador')


La descripción:
 "Guitarra eléctrica de buena calidad casi nueva. Viene con funda, Trémolo y Auxiliar".
 Parece pertenecer a una: Guitarra
