Pronóstico de la popularidad de libros
===

## Descripción del problema

La editorial O'Really desea construir una herramienta analítica que le permita a un editor estimar la popularidad relativa de un nuevo libro antes de su lanzamiento, con el fin de poder priorizar los títulos a publicar e inclusive rechazar posibles proyectos editoriales.

Para resolver este problema se tiene una base de datos con los 100 libros más vendidos por O'Really durante el año 2011. La base contiene el título del libro, su descripción y su ranking en pupularidad. Para este caso se hipotetiza que la aparición de ciertas palabras en la descripción del libro permitirá determinar su popularidad.

## Lectura de datos

In [2]:
import pandas as pd

df = pd.read_csv(
    "https://raw.githubusercontent.com/jdvelasq/datalabs/master/datasets/oreilly.csv",
    sep=",",  # separador de campos
    thousands=None,  # separador de miles para números
    decimal=".",  # separador de los decimales para números
    encoding="latin-1",
)  # idioma

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   IP_Family   100 non-null    object
 1   BOOK title  100 non-null    object
 2   BOOK ISBN   100 non-null    int64 
 3   Rank        100 non-null    int64 
 4   Long Desc.  100 non-null    object
dtypes: int64(2), object(3)
memory usage: 4.0+ KB


In [4]:
df

Unnamed: 0,IP_Family,BOOK title,BOOK ISBN,Rank,Long Desc.
0,9780596000271.IP,"Programming Perl, 3E",9780596000271,1,Perl is a powerful programming language that ...
1,9781565923928.IP,"Javascript: The Definitive Guide, 3E",9781565923928,2,JavaScript is a powerful scripting language th...
2,9780596007126.IP,Head First Design Patterns,9780596007126,3,You're not alone.<br />\r<br />\rAt any given ...
3,9780596009205.IP,"Head First Java, 2E",9780596009205,4,Learning a complex new language is no easy tas...
4,9780596529529.IP,Mac OS X Leopard: The Missing Manual,9780596529529,5,"With Leopard, Apple has unleashed the greatest..."
...,...,...,...,...,...
95,9780596001971.IP,"Java and XML, 2E",9780596001971,96,"While the XML ""buzz"" still dominates talk amon..."
96,9780596004828.IP,"Linux in a Nutshell, 4E",9780596004828,97,"<i>Linux in a Nutshell</i>, now in its fourth ..."
97,9780596004477.IP,Google Hacks,9780596004477,98,The Internet puts a wealth of information at y...
98,9781565924642.IP,Learning Python,9781565924642,99,<i>Learning Python</i> is an introduction to t...


## Construcción de la matriz de términos del documento

In [6]:
#
# Matriz de términos del documento
#
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer(
    analyzer="word",  # a nivel de palabra
    lowercase=True,  # convierte a minúsculas
    stop_words="english",  # stop_words en inglés
    min_df=5,
)  # ignora palabras con baja freq

#
# Aplica la función al texto
#
df_dtm = count_vect.fit_transform(df["Long Desc."])

#
# Las filas contienen los mensajes
# y las columnas los términos
#
df_dtm.shape

(100, 636)

In [8]:
print(df_dtm)

  (0, 420)	18
  (0, 435)	1
  (0, 451)	4
  (0, 319)	6
  (0, 431)	1
  (0, 180)	3
  (0, 55)	8
  (0, 460)	1
  (0, 567)	1
  (0, 313)	1
  (0, 588)	2
  (0, 303)	1
  (0, 205)	1
  (0, 43)	1
  (0, 456)	1
  (0, 90)	1
  (0, 89)	1
  (0, 385)	3
  (0, 547)	1
  (0, 247)	1
  (0, 98)	1
  (0, 259)	1
  (0, 514)	1
  (0, 468)	1
  (0, 627)	1
  :	:
  (99, 331)	2
  (99, 594)	3
  (99, 301)	1
  (99, 58)	8
  (99, 630)	1
  (99, 244)	1
  (99, 198)	1
  (99, 467)	1
  (99, 59)	1
  (99, 178)	2
  (99, 541)	1
  (99, 561)	1
  (99, 418)	1
  (99, 344)	1
  (99, 349)	6
  (99, 498)	1
  (99, 614)	1
  (99, 100)	1
  (99, 185)	1
  (99, 428)	1
  (99, 559)	2
  (99, 599)	1
  (99, 454)	2
  (99, 57)	1
  (99, 113)	1


In [None]:
X = df_dtm.toarray()
X

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 1, ..., 2, 0, 1],
       [0, 0, 0, ..., 1, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

## Modelo de regresión logística

La siguiente línea de código crea un arreglo de NumPy llamado "y" utilizando la función `np.array()`. Este arreglo tiene 100 elementos en total, donde los primeros 50 elementos son el número 1 y los siguientes 50 elementos son el número 0. En resumen, se crea un arreglo "y" que contiene una secuencia de 50 unos seguidos de una secuencia de 50 ceros.

Este tipo de arreglo puede ser útil para el aprendizaje automático, donde se utiliza a menudo para representar etiquetas o clases de un conjunto de datos, como por ejemplo en un problema de clasificación binaria donde se tienen dos clases representadas por los valores 1 y 0.

En el ejemplo dado, el arreglo "y" se crea con 50 elementos de la clase 1 seguidos de 50 elementos de la clase 0, lo que podría ser utilizado en un escenario de clasificación binaria donde se tienen dos clases equilibradas con igual número de ejemplos.



In [None]:
import numpy as np

y = np.array([1] * 50 + [0] * 50)

En este ejemplo se van a categorizar los primeros 50 libros en el ranking como exitosos (1), mientras que los otros 50 son no exitosos (0).

In [None]:
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression(solver="lbfgs", multi_class="auto", max_iter=1000)

clf.fit(X, y)
y_pred = clf.predict(X)
y_pred

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [None]:
clf.score(X, y)

1.0