# 6.2.3 Pronóstico de la popularidad de libros - Ejercicio

In [8]:
%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [16]:
import pandas as pd 
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression

import warnings
warnings.filterwarnings("ignore")

In [10]:
import sys
sys.path.append("../../../../../") 

from utils.paths import make_dir_line

modality = 'u'
project = 'Analitica predictiva'
data = make_dir_line(modality, project)

raw = data('raw')

## 6.2.3.1 Descripción del problema

La editorial O’Really desea construir una herramienta analítica que le permita a un editor estimar la popularidad relativa de un nuevo libro antes de su lanzamiento, con el fin de poder priorizar los títulos a publicar e inclusive rechazar posibles proyectos editoriales. <br>
Para resolver este problema se tiene una base de datos con los 100 libros más vendidos por O’Really durante el año 2011. La base contiene el título del libro, su descripción y su ranking en pupularidad. Para este caso se hipotetiza que la aparición de ciertas palabras en la descripción del libro permitirá determinar su popularidad.

## 6.2.3.2 Lectura de datos

In [11]:
df = pd.read_csv(
    raw /  "oreilly.csv",
    sep=",",  # separador de campos
    thousands=None,  # separador de miles para números
    decimal=".",  # separador de los decimales para números
    encoding="latin-1",
)

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   IP_Family   100 non-null    object
 1   BOOK title  100 non-null    object
 2   BOOK ISBN   100 non-null    int64 
 3   Rank        100 non-null    int64 
 4   Long Desc.  100 non-null    object
dtypes: int64(2), object(3)
memory usage: 4.0+ KB


## 6.2.3.3 Construcción de la matriz de términos del documento

In [12]:
#
# Matriz de términos del documento
#

count_vect = CountVectorizer(
    analyzer="word",  # a nivel de palabra
    lowercase=True,  # convierte a minúsculas
    stop_words="english",  # stop_words en inglés
    min_df=5,
)  # ignora palabras con baja freq

#
# Aplica la función al texto
#
df_dtm = count_vect.fit_transform(df["Long Desc."])

#
# Las filas contienen los mensajes
# y las columnas los términos
#
df_dtm.shape

(100, 636)

In [13]:
X = df_dtm.toarray()
X

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 1, ..., 2, 0, 1],
       [0, 0, 0, ..., 1, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

## 6.2.3.4 Modelo de regresión logística

In [14]:
y = np.array([1] * 50 + [0] * 50)

In [17]:
clf = LogisticRegression(solver="lbfgs", multi_class="auto", max_iter=1000)

clf.fit(X, y)
y_pred = clf.predict(X)
y_pred

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [18]:
clf.score(X, y)

1.0

In [15]:
print('ok_')

ok_
