Pronóstico de la popularidad de libros --- 7:56 min
===

* 7:56 min | Ultima modificación: Abril 14, 2021 | [YouTube](https://youtu.be/eduLZPPnbI8)

## Descripción del problema

La editorial O'Really desea construir una herramienta analítica que le permita a un editor estimar la popularidad relativa de un nuevo libro antes de su lanzamiento, con el fin de poder priorizar los títulos a publicar e inclusive rechazar posibles proyectos editoriales. 

Para resolver este problema se tiene una base de datos con los 100 libros más vendidos por O'Really durante el año 2011. La base contiene el título del libro, su descripción y su ranking en pupularidad. Para este caso se hipotetiza que la aparición de ciertas palabras en la descripción del libro permitirá determinar su popularidad.

## Lectura de datos

In [1]:
import pandas as pd

df = pd.read_csv(
    "https://raw.githubusercontent.com/jdvelasq/datalabs/master/datasets/oreilly.csv",
    sep=",",  # separador de campos
    thousands=None,  # separador de miles para números
    decimal=".",  # separador de los decimales para números
    encoding="latin-1",
)  # idioma

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   IP_Family   100 non-null    object
 1   BOOK title  100 non-null    object
 2   BOOK ISBN   100 non-null    int64 
 3   Rank        100 non-null    int64 
 4   Long Desc.  100 non-null    object
dtypes: int64(2), object(3)
memory usage: 4.0+ KB


## Construcción de la matriz de términos del documento

In [2]:
#
# Matriz de términos del documento
#
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer(
    analyzer="word",  # a nivel de palabra
    lowercase=True,  # convierte a minúsculas
    stop_words="english",  # stop_words en inglés
    min_df=5,
)  # ignora palabras con baja freq

#
# Aplica la función al texto
#
df_dtm = count_vect.fit_transform(df["Long Desc."])

#
# Las filas contienen los mensajes
# y las clomunas los términos
#
df_dtm.shape

(100, 636)

In [3]:
X = df_dtm.toarray()
X

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 1, ..., 2, 0, 1],
       [0, 0, 0, ..., 1, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

## Modelo de regresión logística

In [4]:
import numpy as np

y = np.array([1] * 50 + [0] * 50)

In [5]:
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression(solver="lbfgs", multi_class="auto", max_iter=1000)

clf.fit(X, y)
y_pred = clf.predict(X)
y_pred

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])