# Import Packages

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Load data

In [7]:
df=pd.read_csv("df_total.csv")
df.head(3)

Unnamed: 0,url,news,Type
0,https://www.larepublica.co/redirect/post/3201905,Durante el foro La banca articulador empresari...,Otra
1,https://www.larepublica.co/redirect/post/3210288,El regulador de valores de China dijo el domin...,Regulaciones
2,https://www.larepublica.co/redirect/post/3240676,En una industria históricamente masculina como...,Alianzas


# Text Preprocessing
- Get the Necessary columns
- Convert text into lower case
- Remove unecessary characrter or puncation
- Convert text into token (word or sentence)
- Remove stop words
- Apply Steming or lemitization
- Convert text into vector

In [8]:
df.head(2)

Unnamed: 0,url,news,Type
0,https://www.larepublica.co/redirect/post/3201905,Durante el foro La banca articulador empresari...,Otra
1,https://www.larepublica.co/redirect/post/3210288,El regulador de valores de China dijo el domin...,Regulaciones


In [12]:
df.drop(columns=['url'],inplace=True)

In [13]:
df.head()

Unnamed: 0,news,Type
0,Durante el foro La banca articulador empresari...,Otra
1,El regulador de valores de China dijo el domin...,Regulaciones
2,En una industria históricamente masculina como...,Alianzas
3,Con el dato de marzo el IPC interanual encaden...,Macroeconomia
4,Ayer en Cartagena se dio inicio a la versión n...,Otra


# Apply Text preprocessing on news columns

In [27]:
import string
import nltk
from nltk.stem import PorterStemmer,WordNetLemmatizer
from nltk.tokenize import word_tokenize,sent_tokenize
from nltk.corpus import stopwords

In [29]:
set(stopwords.words("english"))

{'a',
 'about',
 'above',
 'after',
 'again',
 'against',
 'ain',
 'all',
 'am',
 'an',
 'and',
 'any',
 'are',
 'aren',
 "aren't",
 'as',
 'at',
 'be',
 'because',
 'been',
 'before',
 'being',
 'below',
 'between',
 'both',
 'but',
 'by',
 'can',
 'couldn',
 "couldn't",
 'd',
 'did',
 'didn',
 "didn't",
 'do',
 'does',
 'doesn',
 "doesn't",
 'doing',
 'don',
 "don't",
 'down',
 'during',
 'each',
 'few',
 'for',
 'from',
 'further',
 'had',
 'hadn',
 "hadn't",
 'has',
 'hasn',
 "hasn't",
 'have',
 'haven',
 "haven't",
 'having',
 'he',
 'her',
 'here',
 'hers',
 'herself',
 'him',
 'himself',
 'his',
 'how',
 'i',
 'if',
 'in',
 'into',
 'is',
 'isn',
 "isn't",
 'it',
 "it's",
 'its',
 'itself',
 'just',
 'll',
 'm',
 'ma',
 'me',
 'mightn',
 "mightn't",
 'more',
 'most',
 'mustn',
 "mustn't",
 'my',
 'myself',
 'needn',
 "needn't",
 'no',
 'nor',
 'not',
 'now',
 'o',
 'of',
 'off',
 'on',
 'once',
 'only',
 'or',
 'other',
 'our',
 'ours',
 'ourselves',
 'out',
 'over',
 'own',
 'r

In [66]:
def preprocess(text):
    """
    1- Convert text into lower case
    2- Remove puncation or unecessary char like urls etc
    3- Remove stop words
    4- Convert text into token
    5- Apply steming/lemitization
    """
    
    # Lower case
    text=text.lower()
    
    # Remove Uncecessary char
    text=text.translate(str.maketrans("","",string.punctuation))
    
    # Tokenize the text 
    token=word_tokenize(text)
    
    # Remove stopwords
    process_text=[word for word in token if word not in stopwords.words('spanish')]
    
    # Apply steming porter stemer/wordnetlemitizer
    lemi=WordNetLemmatizer()
    lemitize_text=[lemi.lemmatize(word) for word in process_text]
    
    
    return " ".join(lemitize_text)

# Test function

In [67]:
preprocess('YO SOY SAMIULLAH Y ¿QUIÉN ERES TÚ Y CUÁL ES TU NOMBRE?')

'samiullah ¿quién cuál nombre'

# Apply Fun

In [69]:
df['news_process']=df['news'].apply(preprocess)

In [70]:
df.head(2)

Unnamed: 0,news,Type,news_process
0,Durante el foro La banca articulador empresari...,Otra,foro banca articulador empresarial desarrollo ...
1,El regulador de valores de China dijo el domin...,Regulaciones,regulador valores china dijo domingo buscará c...


# Original text

In [71]:
df['news'][0]

'Durante el foro La banca articulador empresarial para el desarrollo sostenible el director de sostenibilidad y clientes globales de BBVA en Colombia Andrés García aseguró que es importante entender que la sostenibilidad no la podemos asociar a mayores costos. Yo creo que el no tener un concepto de negocio sostenible puede tener un mayor impacto de lo que imaginamos.Para García el reto más importante es no cambiar prioridades ni que compitan entre sí necesariamente. En muchos de los casos se debe tratar de mantener la prioridad en cuanto a la ambición de negocios más sostenibles un reto enorme por la coyuntura. La sostenibilidad nos abre oportunidades a mejores fuentes de financiamiento agregó.El directivo argumentó que lo que se encuentra en juego acá no es un tema de rentabilidad o de negocios en particular es un tema de viabilidad del mundo de los negocios y del mundo físico en general como lo conocemos. Además los riesgos físicos y de transición asociados al cambio climático y a la

# Processs text

In [72]:
df['news_process'][0]

'foro banca articulador empresarial desarrollo sostenible director sostenibilidad clientes globales bbva colombia andrés garcía aseguró importante entender sostenibilidad podemos asociar mayores costos creo tener concepto negocio sostenible puede tener mayor impacto imaginamospara garcía reto importante cambiar prioridades compitan necesariamente casos debe tratar mantener prioridad cuanto ambición negocios sostenibles reto enorme coyuntura sostenibilidad abre oportunidades mejores fuentes financiamiento agregóel directivo argumentó encuentra juego acá tema rentabilidad negocios particular tema viabilidad mundo negocios mundo físico general conocemos además riesgos físicos transición asociados cambio climático inclusión social desarrollo real ahíesto dejó ser aspecto paralelo responsabilidad social corporativa ahora adn estrategias mismo negocio solo manera logran impulsar proyectos específicos van incluidos dentro aspiraciones concluyó'

# Convert text into token
- CountVctorizer
- TFIDF

In [73]:
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

# CountVectorizer

In [80]:
cv=CountVectorizer(max_features=1000)
X_count=cv.fit_transform(df['news_process']).toarray()

# First news Encoded

In [81]:
X_count[0]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 2,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

# First New Original

In [82]:
df['news'][0]

'Durante el foro La banca articulador empresarial para el desarrollo sostenible el director de sostenibilidad y clientes globales de BBVA en Colombia Andrés García aseguró que es importante entender que la sostenibilidad no la podemos asociar a mayores costos. Yo creo que el no tener un concepto de negocio sostenible puede tener un mayor impacto de lo que imaginamos.Para García el reto más importante es no cambiar prioridades ni que compitan entre sí necesariamente. En muchos de los casos se debe tratar de mantener la prioridad en cuanto a la ambición de negocios más sostenibles un reto enorme por la coyuntura. La sostenibilidad nos abre oportunidades a mejores fuentes de financiamiento agregó.El directivo argumentó que lo que se encuentra en juego acá no es un tema de rentabilidad o de negocios en particular es un tema de viabilidad del mundo de los negocios y del mundo físico en general como lo conocemos. Además los riesgos físicos y de transición asociados al cambio climático y a la

# Vocabluary

In [83]:
cv.vocabulary_

{'banca': 121,
 'empresarial': 357,
 'desarrollo': 285,
 'sostenible': 890,
 'director': 304,
 'sostenibilidad': 889,
 'clientes': 188,
 'globales': 463,
 'bbva': 128,
 'colombia': 192,
 'aseguró': 96,
 'importante': 496,
 'entender': 370,
 'podemos': 714,
 'mayores': 580,
 'costos': 239,
 'tener': 922,
 'concepto': 214,
 'negocio': 641,
 'puede': 781,
 'mayor': 579,
 'impacto': 494,
 'reto': 837,
 'cambiar': 151,
 'casos': 166,
 'debe': 272,
 'mantener': 570,
 'cuanto': 254,
 'negocios': 642,
 'sostenibles': 891,
 'oportunidades': 672,
 'mejores': 594,
 'fuentes': 441,
 'financiamiento': 424,
 'encuentra': 362,
 'tema': 919,
 'rentabilidad': 821,
 'particular': 684,
 'mundo': 626,
 'general': 456,
 'además': 47,
 'riesgos': 842,
 'transición': 941,
 'asociados': 99,
 'cambio': 152,
 'climático': 189,
 'inclusión': 502,
 'social': 882,
 'real': 796,
 'ser': 862,
 'ahora': 57,
 'estrategias': 390,
 'mismo': 609,
 'solo': 886,
 'manera': 568,
 'impulsar': 499,
 'proyectos': 773,
 'van': 

In [85]:
cv.get_params()

{'analyzer': 'word',
 'binary': False,
 'decode_error': 'strict',
 'dtype': numpy.int64,
 'encoding': 'utf-8',
 'input': 'content',
 'lowercase': True,
 'max_df': 1.0,
 'max_features': 1000,
 'min_df': 1,
 'ngram_range': (1, 1),
 'preprocessor': None,
 'stop_words': None,
 'strip_accents': None,
 'token_pattern': '(?u)\\b\\w\\w+\\b',
 'tokenizer': None,
 'vocabulary': None}

In [86]:
cv.ngram_range

(1, 1)

# TF-IDF

In [89]:
tf=TfidfVectorizer(max_features=1000,)
X_tfidf=tf.fit_transform(df['news_process']).toarray()

# News 0 encoded(`TFIDF`)

In [91]:
X_tfidf[0]

array([0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.06390215, 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.08448564, 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.     

# New 0 Original

In [93]:
df['news'][0]

'Durante el foro La banca articulador empresarial para el desarrollo sostenible el director de sostenibilidad y clientes globales de BBVA en Colombia Andrés García aseguró que es importante entender que la sostenibilidad no la podemos asociar a mayores costos. Yo creo que el no tener un concepto de negocio sostenible puede tener un mayor impacto de lo que imaginamos.Para García el reto más importante es no cambiar prioridades ni que compitan entre sí necesariamente. En muchos de los casos se debe tratar de mantener la prioridad en cuanto a la ambición de negocios más sostenibles un reto enorme por la coyuntura. La sostenibilidad nos abre oportunidades a mejores fuentes de financiamiento agregó.El directivo argumentó que lo que se encuentra en juego acá no es un tema de rentabilidad o de negocios en particular es un tema de viabilidad del mundo de los negocios y del mundo físico en general como lo conocemos. Además los riesgos físicos y de transición asociados al cambio climático y a la

In [94]:
tf.vocabulary_

{'banca': 121,
 'empresarial': 357,
 'desarrollo': 285,
 'sostenible': 890,
 'director': 304,
 'sostenibilidad': 889,
 'clientes': 188,
 'globales': 463,
 'bbva': 128,
 'colombia': 192,
 'aseguró': 96,
 'importante': 496,
 'entender': 370,
 'podemos': 714,
 'mayores': 580,
 'costos': 239,
 'tener': 922,
 'concepto': 214,
 'negocio': 641,
 'puede': 781,
 'mayor': 579,
 'impacto': 494,
 'reto': 837,
 'cambiar': 151,
 'casos': 166,
 'debe': 272,
 'mantener': 570,
 'cuanto': 254,
 'negocios': 642,
 'sostenibles': 891,
 'oportunidades': 672,
 'mejores': 594,
 'fuentes': 441,
 'financiamiento': 424,
 'encuentra': 362,
 'tema': 919,
 'rentabilidad': 821,
 'particular': 684,
 'mundo': 626,
 'general': 456,
 'además': 47,
 'riesgos': 842,
 'transición': 941,
 'asociados': 99,
 'cambio': 152,
 'climático': 189,
 'inclusión': 502,
 'social': 882,
 'real': 796,
 'ser': 862,
 'ahora': 57,
 'estrategias': 390,
 'mismo': 609,
 'solo': 886,
 'manera': 568,
 'impulsar': 499,
 'proyectos': 773,
 'van': 

In [96]:
tf.get_params()

{'analyzer': 'word',
 'binary': False,
 'decode_error': 'strict',
 'dtype': numpy.float64,
 'encoding': 'utf-8',
 'input': 'content',
 'lowercase': True,
 'max_df': 1.0,
 'max_features': 1000,
 'min_df': 1,
 'ngram_range': (1, 1),
 'norm': 'l2',
 'preprocessor': None,
 'smooth_idf': True,
 'stop_words': None,
 'strip_accents': None,
 'sublinear_tf': False,
 'token_pattern': '(?u)\\b\\w\\w+\\b',
 'tokenizer': None,
 'use_idf': True,
 'vocabulary': None}