In [1]:
import gensim
import nltk
from gensim import corpora
from gensim.models import LdaModel
from gensim.utils import simple_preprocess
from nltk.corpus import stopwords
from pypdf import PdfReader

def get_topics_from_pdf(file, num_topics, words_per_topic):
    """
    Uses LDA algoritm for topic discovery
    Returns: list of num_topics lists with relevant words for each topic (nested list).
    """


    loader = PdfReader(file)

    documents= []
    for page in loader.pages:
        documents.append(page.extract_text())

    # Preprocess the documents
    nltk.download('stopwords')
    stop_words = set(stopwords.words(['english','spanish']))

    def preprocess(text):
        result = []
        for token in simple_preprocess(text, deacc=True):
            if token not in stop_words and len(token) > 3:
                result.append(token)
        return result

    processed_documents = [preprocess(doc) for doc in documents]

    # Create a dictionary and a corpus
    dictionary = corpora.Dictionary(processed_documents)
    corpus = [dictionary.doc2bow(doc) for doc in processed_documents]

    # Build the LDA model
    lda_model = LdaModel(corpus, num_topics=num_topics, id2word=dictionary, passes=15)

    # Print the topics and their corresponding words
    topics = lda_model.print_topics(num_words=words_per_topic)
    topics_ls = []
    for topic in topics:
        words = topic[1].split("+")
        topic_words = [word.split("*")[1].replace('"', '').strip() for word in words]
        topics_ls.append(topic_words)
        
    return topics_ls

In [2]:
from src import get_topics_from_pdf
file = "Philip Kotler, Gary Armstrong - Marketing_ Versión latinoamerica (2007).pdf"
file = "PROGRAMA ANALITICO MÓDULO.pdf"
num_topics = 7
words_per_topic = 30

list_of_topicwords = get_topics_from_pdf(file, num_topics, words_per_topic)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\anton_glfk00f\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [3]:
import gensim
import nltk
from gensim import corpora
from gensim.models import LdaModel
from gensim.utils import simple_preprocess
from nltk.corpus import stopwords
from pypdf import PdfReader

#file = "Philip Kotler, Gary Armstrong - Marketing_ Versión latinoamerica (2007).pdf"
file = "Philip Kotler, Gary Armstrong, Sridhar Balasubramanian - Principles of Marketing-Pearson (2023).pdf"
loader = PdfReader(file)

documents= []
for page in loader.pages:
    documents.append(page.extract_text())

# Preprocess the documents
nltk.download('stopwords')
stop_words = set(stopwords.words(['english','spanish']))

def preprocess(text):
    result = []
    for token in simple_preprocess(text, deacc=True):
        if token not in stop_words and len(token) > 3:
            result.append(token)
    return result

processed_documents = [preprocess(doc) for doc in documents]

# Create a dictionary and a corpus
dictionary = corpora.Dictionary(processed_documents)
corpus = [dictionary.doc2bow(doc) for doc in processed_documents]

# Build the LDA model
lda_model = LdaModel(corpus, num_topics=7, id2word=dictionary, passes=15)

# Print the topics and their corresponding words
topics = lda_model.print_topics(num_words=30)
topics_ls = []
for topic in topics:
    words = topic[1].split("+")
    topic_words = [word.split("*")[1].replace('"', '').strip() for word in words]
    print(topic_words)


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\anton_glfk00f\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['marketing', 'brand', 'advertising', 'sales', 'media', 'campaign', 'product', 'company', 'people', 'world', 'indd', 'costs', 'cost', 'percent', 'digital', 'million', 'market', 'social', 'example', 'brands', 'also', 'even', 'year', 'consumers', 'products', 'content', 'time', 'consumer', 'like', 'customer']
['price', 'pricing', 'prices', 'product', 'market', 'products', 'company', 'value', 'customers', 'companies', 'consumers', 'business', 'buying', 'indd', 'example', 'many', 'customer', 'competitors', 'consumer', 'even', 'high', 'must', 'marketing', 'based', 'buyers', 'brand', 'strategy', 'costs', 'demand', 'also']
['customer', 'sales', 'customers', 'brand', 'product', 'products', 'online', 'marketing', 'consumers', 'company', 'brands', 'store', 'digital', 'service', 'example', 'indd', 'value', 'consumer', 'companies', 'many', 'also', 'retailers', 'media', 'mobile', 'social', 'selling', 'time', 'services', 'stores', 'people']
['https', 'accessed', 'marketing', 'september', 'news', 'dat

In [1]:
from src import get_topics_from_pdf

file = "Philip Kotler, Gary Armstrong - Marketing_ Versión latinoamerica (2007).pdf"
file = "PROGRAMA ANALITICO MÓDULO.pdf"
num_topics = 7
words_per_topic = 30

list_of_topicwords = get_topics_from_pdf(file, num_topics, words_per_topic)
string = ""
for list in list_of_topicwords:
    string += str(list) + "\n"

  from .autonotebook import tqdm as notebook_tqdm
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\anton_glfk00f\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [9]:
string_lda = ""
for list in list_of_topicwords:
    string_lda += str(list) + "\n"

In [10]:
print(string_lda)

['modulo', 'school', 'marketing', 'uagrmbs', 'uagrm', 'business', 'fecha', 'docente', 'bibliografia', 'contenido', 'realizacion', 'desarrollo', 'gestion', 'telefono', 'herramientas', 'santa', 'gral', 'calle', 'empresas', 'academicos', 'maestria', 'solicitudes', 'codigo', 'postgraduantes', 'evaluacion', 'ventas', 'requisitos', 'saavedra', 'siguiente', 'especificacion']
['modulo', 'marketing', 'school', 'uagrm', 'docente', 'fecha', 'bibliografia', 'contenido', 'herramientas', 'desarrollo', 'business', 'aspectos', 'uagrmbs', 'empresariales', 'postgraduantes', 'gestion', 'comercial', 'segun', 'analisis', 'ventas', 'estudio', 'horas', 'evaluacion', 'aplicar', 'santiago', 'formacion', 'realizacion', 'trabajos', 'empresas', 'santa']
['posicionamiento', 'marketing', 'lectura', 'modulo', 'uagrmbs', 'capitulo', 'mapa', 'kotler', 'articulo', 'lecturas', 'practico', 'contenido', 'school', 'especificacion', 'empresa', 'metodologia', 'business', 'armstrong', 'gral', 'mail', 'realizacion', 'fecha', '

In [24]:
template_string = '''Describe el tema de cada una de las listas delimitadas por comillas en una oración sencilla y escribe además tres posibles subtemas diferentes. Las listas son el resultado del algoritmo "Latent Dirichlet Allocation" para descubrir temas.
Utiliza el siguiente Template para la respuesta. No des una introducción ni una conclusión, solo describe los temas 

Tema  1: <<<(oración que describe el tema)>>>
- <<<Frase que describe primer subtema)>>>
- <<<(Frase que describe segundo subtema)>>>
- <<<Frase que describe tercer subtema)>>>

Tema  2: <<<(oración que describe el tema)>>>
- <<<Frase que describe primer subtema)>>>
- <<<(Frase que describe segundo subtema)>>>
- <<<Frase que describe tercer subtema)>>>

Listas: """{string_lda}""" '''

In [27]:
from langchain.prompts import ChatPromptTemplate
from src import LLM_gradioAPI
from langchain.chains import LLMChain

# Define the LLM endpoint
llm = LLM_gradioAPI(n=2000) # hugging face repo
llm.client_api = "https://ysharma-explore-llamav2-with-tgi.hf.space/"
llm.api_name = "/chat_1"


prompt_template = ChatPromptTemplate.from_template(template_string)
chain = LLMChain(llm=llm, prompt=prompt_template)

response = chain.run(string_lda)

Loaded as API: https://ysharma-explore-llamav2-with-tgi.hf.space/ ✔


In [28]:
print(type(response))

<class 'str'>


### Topic extraction

In [2]:
from langchain.prompts import ChatPromptTemplate
from langchain.chains import LLMChain
from src import topics_from_pdf
from src import LLM_gradioAPI

# Define the LLM endpoint
llm = LLM_gradioAPI(n=2000) # hugging face repo
llm.client_api = "https://ysharma-explore-llamav2-with-tgi.hf.space/"
llm.api_name = "/chat_1"

file = "Philip Kotler, Gary Armstrong - Marketing_ Versión latinoamerica (2007).pdf"
file = "PROGRAMA ANALITICO MÓDULO.pdf"
num_topics = 7
words_per_topic = 30

def topics_from_pdf(llm, file, num_topics, words_per_topic):

    # Extract topics and convert to string
    list_of_topicwords = get_topics_from_pdf(file, num_topics, words_per_topic)
    string_lda = ""
    for list in list_of_topicwords:
        string_lda += str(list) + "\n"

    # LLM call
    template_string = '''Describe el tema de cada una de las listas delimitadas por comillas en una oración sencilla y escribe además tres posibles subtemas diferentes. Las listas son el resultado del algoritmo "Latent Dirichlet Allocation" para descubrir temas.
    Utiliza el siguiente Template para la respuesta. No des una introducción ni una conclusión, solo describe los temas 

    Tema  1: <<<(oración que describe el tema)>>>
    - <<<Frase que describe primer subtema)>>>
    - <<<(Frase que describe segundo subtema)>>>
    - <<<Frase que describe tercer subtema)>>>

    Tema  2: <<<(oración que describe el tema)>>>
    - <<<Frase que describe primer subtema)>>>
    - <<<(Frase que describe segundo subtema)>>>
    - <<<Frase que describe tercer subtema)>>>

    Listas: """{string_lda}""" '''

    prompt_template = ChatPromptTemplate.from_template(template_string)
    chain = LLMChain(llm=llm, prompt=prompt_template)
    response = chain.run(string_lda)

    return response


In [25]:
from src import LLM_gradioAPI
from src import topics_from_pdf
import openai

# Define the LLM endpoint
llm = LLM_gradioAPI(n=2000) # hugging face repo
llm.client_api = "https://ysharma-explore-llamav2-with-tgi.hf.space/"
llm.api_name = "/chat_1"

# import os
# from dotenv import load_dotenv, find_dotenv
# _ = load_dotenv(find_dotenv())
# openai.api_key  = os.environ['OPENAI_API_KEY']
# llm = ChatOpenAI(temperature=0)

#file = "Philip Kotler, Gary Armstrong - Marketing_ Versión latinoamerica (2007).pdf"
#file = "PROGRAMA ANALITICO MÓDULO.pdf"
file = "Philip Kotler, Gary Armstrong, Sridhar Balasubramanian - Principles of Marketing-Pearson (2023).pdf"

num_topics = 3
words_per_topic = 30 # optimizar

topics = topics_from_pdf(llm, file, num_topics, words_per_topic)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\anton_glfk00f\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Loaded as API: https://ysharma-explore-llamav2-with-tgi.hf.space/ ✔


In [26]:
print(topics)

Tema 1: Marketing

* Subtema 1: Estrategias de marketing
* Subtema 2: Publicidad y promoción
* Subtema 3: Análisis de mercado y consumidores

Tema 2: Branding

* Subtema 1: Desarrollo y gestión de la marca
* Subtema 2: Comunicación y promoción de la marca
* Subtema 3: Evaluación y medición del éxito de la marca

Tema 3: Ventas y comercio

* Subtema 1: Estrategias de ventas y comercialización
* Subtema 2: Gestión de relaciones con clientes (CRM)
* Subtema 3: Análisis de tendencias y resultados de ventas

Es importante destacar que estos temas y subtemas son solo una posible interpretación de los datos proporcionados y que pueden variar dependiendo del contexto y la perspectiva de cada persona.
