# Detecting cybercrimes using similarity models


## OS

In [1]:
import os # The OS module in Python provides a way of using operating system dependent functionality
import pandas as pd # Read data from file

In [2]:
 # Reads and shows files in entered location
os.chdir("C:/Users/Alejandra/Desktop/NLP-Model-for-prevention-of-Cybercrimes/Project/")


## Data

In [3]:
data = pd.read_excel("Bancolombia.xlsx",sheet_name="Archive") # Importing the database (tweets)

In [4]:
data.head() # Returns the first rows of the database

Unnamed: 0,id_str,from_user,text,created_at,time,geo_coordinates,user_lang,in_reply_to_user_id_str,in_reply_to_screen_name,from_user_id_str,in_reply_to_status_id_str,source,profile_image_url,user_followers_count,user_friends_count,user_location,status_url,entities_str
0,1316907621371314176,Mimi_UVasquez,"@Bancolombia El ya radic√≥ la queja, lo que hag...",Fri Oct 16 01:03:38 +0000 2020,2020-10-16 02:03:38,,,48014813.0,Bancolombia,330669613,1.316907e+18,"<a href=""http://twitter.com/download/android"" ...",http://pbs.twimg.com/profile_images/1299536154...,3906.0,1104.0,Ravenclaw,http://twitter.com/Mimi_UVasquez/statuses/1316...,"{""hashtags"":[],""symbols"":[],""user_mentions"":[{..."
1,1316906522295869445,fredysend,@Bancolombia Ya no pudieron eso es de hace muc...,Fri Oct 16 00:59:16 +0000 2020,2020-10-16 01:59:16,,,48014813.0,Bancolombia,517679766,1.3169e+18,"<a href=""http://twitter.com/download/android"" ...",http://pbs.twimg.com/profile_images/8776703045...,23.0,131.0,,http://twitter.com/fredysend/statuses/13169065...,"{""hashtags"":[],""symbols"":[],""user_mentions"":[{..."
2,1316905865040068609,LuchoCandanoza,@Bancolombia @jose_caicedo10,Fri Oct 16 00:56:39 +0000 2020,2020-10-16 01:56:39,,,48014813.0,Bancolombia,109031390,1.316008e+18,"<a href=""http://twitter.com/download/iphone"" r...",http://pbs.twimg.com/profile_images/1280200494...,116.0,539.0,,http://twitter.com/LuchoCandanoza/statuses/131...,"{""hashtags"":[],""symbols"":[],""user_mentions"":[{..."
3,1316902640786300930,Mimi_UVasquez,@Bancolombia varios amigos me reportan que la ...,Fri Oct 16 00:43:51 +0000 2020,2020-10-16 01:43:51,,,48014813.0,Bancolombia,330669613,,"<a href=""http://twitter.com/download/android"" ...",http://pbs.twimg.com/profile_images/1299536154...,3906.0,1104.0,Ravenclaw,http://twitter.com/Mimi_UVasquez/statuses/1316...,"{""hashtags"":[],""symbols"":[],""user_mentions"":[{..."
4,1316854660121219073,betoacevedo,RT @CAMT_1_4: @Bancolombia @OracleLatam encon...,Thu Oct 15 21:33:11 +0000 2020,2020-10-15 22:33:11,,,,,70786127,,"<a href=""http://twitter.com/download/iphone"" r...",http://pbs.twimg.com/profile_images/6193437655...,120.0,188.0,Bogota,http://twitter.com/betoacevedo/statuses/131685...,"{""hashtags"":[],""symbols"":[],""user_mentions"":[{..."


In [5]:
# converting to list the column "text" where it contains the tweets
cols = ['from_user', 'text']
text = data[cols].values.tolist()

In [6]:
print(text) # printing the tweets

[['Mimi_UVasquez', '@Bancolombia El ya radic√≥ la queja, lo que hago es avisar a mis amigos de redes que su app es super insegura'], ['fredysend', '@Bancolombia Ya no pudieron eso es de hace mucho tiempo ,toco llevarnos la cuenta empresa para otro banco.muy regulares en todos los aspectos'], ['LuchoCandanoza', '@Bancolombia @jose_caicedo10'], ['Mimi_UVasquez', '@Bancolombia varios amigos me reportan que la actualizaci√≥n de la app es muy insegura. Ayer a un amigo le robaron un iPhone y seguido de eso le robaron dinero de su cuenta bancaria por transferencia desde la app. Pilas con eso'], ['betoacevedo', 'RT @CAMT_1_4: @Bancolombia @OracleLatam  encontr√© con sorpresa la implementaci√≥n de una dmp dentro del portal transaccional de personas quisiera conocer las pol√≠ticas de manejo de datos digitales y que informaci√≥n nombrada con exactitud est√° guardando la dmp y para que la est√°n utilizando https://t.co/kWAZClLZ9o'], ['midasmckalister', '@Bancolombia Se√±ores @Bancolombia llevan da

In [7]:
text[0][0] # accessing to the first tweet from the list 'text'

'Mimi_UVasquez'

In [8]:
len(text) # number of tweets

783

In [9]:
tweets = [text[i][1] for i in range(len(text))]
tweets
len(tweets) # length of tweets

783

In [10]:
users = [text[i][0] for i in range(len(text))]
users
len(users) # length of users

783

## Data Preparation

- ## Functions to remove URL links, @mention, #hashtags

In [11]:
import string # String contains methods that allow the use of characters which are considered punctuation characters, 
                # digits, uppercase, lowercase, etc.
import re # Regular expression operations

In [12]:
def strip_links(text): # function to remove/strip URL links
    link_regular_expression = re.compile('((https?):((//)|(\\\\))+([\w\d:#@%/;$()~_?\+-=\\\.&](#!)?)*)', re.DOTALL)
    links = re.findall(link_regular_expression, text)
    for link in links:
        text = text.replace(link[0], ', ')   
    return text

In [13]:
def strip_all_entities(text): # function to remove/strip mentions, hashtags, characters from some users
    entity_prefixes = ['@','#','\\','_']
    for separator in  string.punctuation:
        if separator not in entity_prefixes :
            text = text.replace(separator,' ')
    words = []
    for word in text.split():
        word = word.strip()
        if word:
            if word[0] not in entity_prefixes:
                words.append(word)
    return ' '.join(words)

source: https://stackoverflow.com/questions/8376691/how-to-remove-hashtag-user-link-of-a-tweet-using-regular-expression

In [14]:
def strip_all(list_text): # function that removes all URL links, @mention, #hashtags
    list_stripped = []
    for t in list_text:
        word = strip_all_entities(strip_links(t))
        list_stripped.append(word)
    return(list_stripped)

In [15]:
tweets = strip_all([text[i][1] for i in range(len(text))])
text = [[users[i],tweets[i]] for i in range(len(users))]
text

[['Mimi_UVasquez',
  'El ya radic√≥ la queja lo que hago es avisar a mis amigos de redes que su app es super insegura'],
 ['fredysend',
  'Ya no pudieron eso es de hace mucho tiempo toco llevarnos la cuenta empresa para otro banco muy regulares en todos los aspectos'],
 ['LuchoCandanoza', ''],
 ['Mimi_UVasquez',
  'varios amigos me reportan que la actualizaci√≥n de la app es muy insegura Ayer a un amigo le robaron un iPhone y seguido de eso le robaron dinero de su cuenta bancaria por transferencia desde la app Pilas con eso'],
 ['betoacevedo',
  'RT encontr√© con sorpresa la implementaci√≥n de una dmp dentro del portal transaccional de personas quisiera conocer las pol√≠ticas de manejo de datos digitales y que informaci√≥n nombrada con exactitud est√° guardando la dmp y para que la est√°n utilizando'],
 ['midasmckalister',
  'Se√±ores llevan da√±ados los cajeros autom√°ticos de La Calera 8 d√≠as co de sus noches p√©simo servicio cambien esas m√°quinas obsoletas'],
 ['redactor24',
  'pa

- ## Function to convert tweets in lowercase

In [16]:
def lower_case(list_text): # Convert lowercase tweets for language processing
    list_lower_case = []
    for i in list_text:
        word = i.strip()
        new_word = word.lower()
        list_lower_case.append(new_word)
    return(list_lower_case)

In [17]:
tweets = lower_case([text[i][1] for i in range(len(text))])
text = [[users[i],tweets[i]] for i in range(len(users))]
text

[['Mimi_UVasquez',
  'el ya radic√≥ la queja lo que hago es avisar a mis amigos de redes que su app es super insegura'],
 ['fredysend',
  'ya no pudieron eso es de hace mucho tiempo toco llevarnos la cuenta empresa para otro banco muy regulares en todos los aspectos'],
 ['LuchoCandanoza', ''],
 ['Mimi_UVasquez',
  'varios amigos me reportan que la actualizaci√≥n de la app es muy insegura ayer a un amigo le robaron un iphone y seguido de eso le robaron dinero de su cuenta bancaria por transferencia desde la app pilas con eso'],
 ['betoacevedo',
  'rt encontr√© con sorpresa la implementaci√≥n de una dmp dentro del portal transaccional de personas quisiera conocer las pol√≠ticas de manejo de datos digitales y que informaci√≥n nombrada con exactitud est√° guardando la dmp y para que la est√°n utilizando'],
 ['midasmckalister',
  'se√±ores llevan da√±ados los cajeros autom√°ticos de la calera 8 d√≠as co de sus noches p√©simo servicio cambien esas m√°quinas obsoletas'],
 ['redactor24',
  'pa

- ## Replace the emojis for their names

In [18]:
import emoji # Emoji codes

In [19]:
def replace_name_emoji(list_text): # function that replaces emoticons by their names
    list_name_emoji = []
    for l in list_text:
        name_emoji = emoji.demojize(l, delimiters=(' ', ' '))
        list_name_emoji.append(name_emoji) 
    return(list_name_emoji)

In [20]:
tweets = replace_name_emoji([text[i][1] for i in range(len(text))])
tweets = [tweets[i].replace("_"," ") for i in range(len(tweets))]
text = [[users[i],tweets[i]] for i in range(len(users))]
text

[['Mimi_UVasquez',
  'el ya radic√≥ la queja lo que hago es avisar a mis amigos de redes que su app es super insegura'],
 ['fredysend',
  'ya no pudieron eso es de hace mucho tiempo toco llevarnos la cuenta empresa para otro banco muy regulares en todos los aspectos'],
 ['LuchoCandanoza', ''],
 ['Mimi_UVasquez',
  'varios amigos me reportan que la actualizaci√≥n de la app es muy insegura ayer a un amigo le robaron un iphone y seguido de eso le robaron dinero de su cuenta bancaria por transferencia desde la app pilas con eso'],
 ['betoacevedo',
  'rt encontr√© con sorpresa la implementaci√≥n de una dmp dentro del portal transaccional de personas quisiera conocer las pol√≠ticas de manejo de datos digitales y que informaci√≥n nombrada con exactitud est√° guardando la dmp y para que la est√°n utilizando'],
 ['midasmckalister',
  'se√±ores llevan da√±ados los cajeros autom√°ticos de la calera 8 d√≠as co de sus noches p√©simo servicio cambien esas m√°quinas obsoletas'],
 ['redactor24',
  'pa

## Delete repeating tweets

In [21]:
tweets = [text[i][1] for i in range(len(text))]
tweets

['el ya radic√≥ la queja lo que hago es avisar a mis amigos de redes que su app es super insegura',
 'ya no pudieron eso es de hace mucho tiempo toco llevarnos la cuenta empresa para otro banco muy regulares en todos los aspectos',
 '',
 'varios amigos me reportan que la actualizaci√≥n de la app es muy insegura ayer a un amigo le robaron un iphone y seguido de eso le robaron dinero de su cuenta bancaria por transferencia desde la app pilas con eso',
 'rt encontr√© con sorpresa la implementaci√≥n de una dmp dentro del portal transaccional de personas quisiera conocer las pol√≠ticas de manejo de datos digitales y que informaci√≥n nombrada con exactitud est√° guardando la dmp y para que la est√°n utilizando',
 'se√±ores llevan da√±ados los cajeros autom√°ticos de la calera 8 d√≠as co de sus noches p√©simo servicio cambien esas m√°quinas obsoletas',
 'paren ya su acoso ya les dije que no me interesa su cupo de cr√©dito ¬øc√≥mo m√°s hay que decirlo para que dejen de bombardearme con su publ

In [22]:
text2 = []

for i in tweets:
    if i not in text2:
        text2.append(i)
        
print(text2)

['el ya radic√≥ la queja lo que hago es avisar a mis amigos de redes que su app es super insegura', 'ya no pudieron eso es de hace mucho tiempo toco llevarnos la cuenta empresa para otro banco muy regulares en todos los aspectos', '', 'varios amigos me reportan que la actualizaci√≥n de la app es muy insegura ayer a un amigo le robaron un iphone y seguido de eso le robaron dinero de su cuenta bancaria por transferencia desde la app pilas con eso', 'rt encontr√© con sorpresa la implementaci√≥n de una dmp dentro del portal transaccional de personas quisiera conocer las pol√≠ticas de manejo de datos digitales y que informaci√≥n nombrada con exactitud est√° guardando la dmp y para que la est√°n utilizando', 'se√±ores llevan da√±ados los cajeros autom√°ticos de la calera 8 d√≠as co de sus noches p√©simo servicio cambien esas m√°quinas obsoletas', 'paren ya su acoso ya les dije que no me interesa su cupo de cr√©dito ¬øc√≥mo m√°s hay que decirlo para que dejen de bombardearme con su publicidad

In [23]:
len(text2)

732

In [24]:
new_text = list(filter(None, text2))

new_text

['el ya radic√≥ la queja lo que hago es avisar a mis amigos de redes que su app es super insegura',
 'ya no pudieron eso es de hace mucho tiempo toco llevarnos la cuenta empresa para otro banco muy regulares en todos los aspectos',
 'varios amigos me reportan que la actualizaci√≥n de la app es muy insegura ayer a un amigo le robaron un iphone y seguido de eso le robaron dinero de su cuenta bancaria por transferencia desde la app pilas con eso',
 'rt encontr√© con sorpresa la implementaci√≥n de una dmp dentro del portal transaccional de personas quisiera conocer las pol√≠ticas de manejo de datos digitales y que informaci√≥n nombrada con exactitud est√° guardando la dmp y para que la est√°n utilizando',
 'se√±ores llevan da√±ados los cajeros autom√°ticos de la calera 8 d√≠as co de sus noches p√©simo servicio cambien esas m√°quinas obsoletas',
 'paren ya su acoso ya les dije que no me interesa su cupo de cr√©dito ¬øc√≥mo m√°s hay que decirlo para que dejen de bombardearme con su publicida

In [25]:
len(new_text)

731

In [26]:
base = pd.DataFrame(new_text, columns=["tweets"])

In [27]:
base.to_excel('test.xlsx')

## NLP


In [9]:
import spacy
from spacy import displacy
spacy.load('es_core_news_md')

<spacy.lang.es.Spanish at 0x1b666b81188>

In [3]:
nlp = spacy.load('es_core_news_md') #Corpus para an√°lisis y procesamiento

In [4]:
text = "Hay un gato en la casa. Hay una naranja en la nevera. Esta es una tercera frase"

In [5]:
orac = nlp.create_pipe('sentencizer')

In [6]:
nlp.add_pipe(orac, before='parser')

In [7]:
doc = nlp(text)

In [8]:
for orac in doc.sents:
    print(orac)

Hay un gato en la casa.
Hay una naranja en la nevera.
Esta es una tercera frase


In [51]:
#Stop Words de es_core_news_sm
from spacy.lang.es.stop_words import STOP_WORDS
stopwords_spacy = list(STOP_WORDS)
print(stopwords_spacy)
len(stopwords_spacy)

['actualmente', 'dijo', 'quizas', 'creo', 'tengo', 'm√≠', 'ciertas', 'junto', 'diferentes', 'quiz√°s', '√∫ltimo', 'detr√°s', 'esa', 'estoy', 'hacia', 'podr√°n', 'quiere', 'esos', '√∫ltimas', 'enseguida', 'dio', 'm√≠as', 'los', 'aproximadamente', 'modo', '√©stos', 'puedo', 'despues', 'dias', 'raras', 'tan', 'muchos', 'debido', 'decir', 'consiguen', 'debajo', 'poco', 'era', 'mediante', 'mio', 'mayor', 'una', 'trabajo', 'tuyos', 'grandes', 'tuyo', 'deprisa', 'tendr√°n', 'le', 'cu√°l', 'parece', 'verdad', 'tu', 'empleais', 'total', 'dej√≥', 'hicieron', 'luego', 'conocer', 'trabajamos', 'general', 'ten√≠a', 'estaban', 'dieron', 'fuera', 'eras', 'quien', 'lado', 'consigue', 'excepto', 'ninguno', 'quiza', 'medio', 'aqu√©lla', 'cierto', 'ocho', 'estado', 'ejemplo', 'existen', 'sabemos', 'sigue', 'mia', 'solas', 'dado', 'esas', 'eramos', 'haber', 'agreg√≥', 'delante', 'hubo', 'cuantos', 'desde', 'ustedes', 'pues', 'ante', 'algunos', 'estamos', 'incluso', 'todas', 'otros', 'cinco', 'asi', 'la', 

551

In [52]:
for token in doc:
    if token.is_stop == False:
        print(token)

gato
casa
.
naranja
nevera
.
frase


In [13]:
import re, string 
import pandas as pd 
import numpy as np
from time import time  
import re, itertools, random
from collections import defaultdict
import spacy
from sklearn.manifold import TSNE
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.decomposition import TruncatedSVD
from nltk.corpus import stopwords
STOPWORDS = set(stopwords.words('spanish'))
from gensim.models import Word2Vec
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
sns.set_style("darkgrid")
from scipy.spatial.distance import cdist
spacy.load('es_core_news_md')
nlp = spacy.load('es_core_news_md') # disabling Named Entity Recognition for speed

In [35]:
df = pd.read_excel("Bancolombia.xlsx",sheet_name="Archive") # Importing the database (tweets)

In [36]:
df.head(10)

Unnamed: 0,id_str,from_user,text,created_at,time,geo_coordinates,user_lang,in_reply_to_user_id_str,in_reply_to_screen_name,from_user_id_str,in_reply_to_status_id_str,source,profile_image_url,user_followers_count,user_friends_count,user_location,status_url,entities_str
0,1316907621371314176,Mimi_UVasquez,"@Bancolombia El ya radic√≥ la queja, lo que hag...",Fri Oct 16 01:03:38 +0000 2020,2020-10-16 02:03:38,,,48014813.0,Bancolombia,330669613,1.316907e+18,"<a href=""http://twitter.com/download/android"" ...",http://pbs.twimg.com/profile_images/1299536154...,3906.0,1104.0,Ravenclaw,http://twitter.com/Mimi_UVasquez/statuses/1316...,"{""hashtags"":[],""symbols"":[],""user_mentions"":[{..."
1,1316906522295869445,fredysend,@Bancolombia Ya no pudieron eso es de hace muc...,Fri Oct 16 00:59:16 +0000 2020,2020-10-16 01:59:16,,,48014813.0,Bancolombia,517679766,1.3169e+18,"<a href=""http://twitter.com/download/android"" ...",http://pbs.twimg.com/profile_images/8776703045...,23.0,131.0,,http://twitter.com/fredysend/statuses/13169065...,"{""hashtags"":[],""symbols"":[],""user_mentions"":[{..."
2,1316905865040068609,LuchoCandanoza,@Bancolombia @jose_caicedo10,Fri Oct 16 00:56:39 +0000 2020,2020-10-16 01:56:39,,,48014813.0,Bancolombia,109031390,1.316008e+18,"<a href=""http://twitter.com/download/iphone"" r...",http://pbs.twimg.com/profile_images/1280200494...,116.0,539.0,,http://twitter.com/LuchoCandanoza/statuses/131...,"{""hashtags"":[],""symbols"":[],""user_mentions"":[{..."
3,1316902640786300930,Mimi_UVasquez,@Bancolombia varios amigos me reportan que la ...,Fri Oct 16 00:43:51 +0000 2020,2020-10-16 01:43:51,,,48014813.0,Bancolombia,330669613,,"<a href=""http://twitter.com/download/android"" ...",http://pbs.twimg.com/profile_images/1299536154...,3906.0,1104.0,Ravenclaw,http://twitter.com/Mimi_UVasquez/statuses/1316...,"{""hashtags"":[],""symbols"":[],""user_mentions"":[{..."
4,1316854660121219073,betoacevedo,RT @CAMT_1_4: @Bancolombia @OracleLatam encon...,Thu Oct 15 21:33:11 +0000 2020,2020-10-15 22:33:11,,,,,70786127,,"<a href=""http://twitter.com/download/iphone"" r...",http://pbs.twimg.com/profile_images/6193437655...,120.0,188.0,Bogota,http://twitter.com/betoacevedo/statuses/131685...,"{""hashtags"":[],""symbols"":[],""user_mentions"":[{..."
5,1316854329463189505,midasmckalister,@Bancolombia Se√±ores @Bancolombia llevan da√±ad...,Thu Oct 15 21:31:52 +0000 2020,2020-10-15 22:31:52,,,48014813.0,Bancolombia,160555883,1.316853e+18,"<a href=""http://twitter.com/download/android"" ...",http://pbs.twimg.com/profile_images/1303370627...,1969.0,4327.0,"La Calera, Colombia",http://twitter.com/midasmckalister/statuses/13...,"{""hashtags"":[],""symbols"":[],""user_mentions"":[{..."
6,1316854212601491457,redactor24,@Bancolombia: paren ya su ACOSO. Ya les dije q...,Thu Oct 15 21:31:24 +0000 2020,2020-10-15 22:31:24,,,48014813.0,Bancolombia,1306314646941560834,,"<a href=""https://mobile.twitter.com"" rel=""nofo...",http://pbs.twimg.com/profile_images/1306315112...,8.0,86.0,Colombia,http://twitter.com/redactor24/statuses/1316854...,"{""hashtags"":[],""symbols"":[],""user_mentions"":[{..."
7,1316854111330086914,todoparati23,@Bancolombia Por que mi tarjeta d√©bito no tien...,Thu Oct 15 21:31:00 +0000 2020,2020-10-15 22:31:00,,,48014813.0,Bancolombia,169547950,1.068158e+18,"<a href=""https://mobile.twitter.com"" rel=""nofo...",http://pbs.twimg.com/profile_images/1226129925...,62.0,293.0,Bogot√°,http://twitter.com/todoparati23/statuses/13168...,"{""hashtags"":[],""symbols"":[],""user_mentions"":[{..."
8,1316853604976939008,Bancolombia,Creemos m√°s que nunca en su fortaleza y querem...,Thu Oct 15 21:29:00 +0000 2020,2020-10-15 22:29:00,,,48014813.0,Bancolombia,48014813,1.316854e+18,"<a href=""https://mobile.twitter.com"" rel=""nofo...",http://pbs.twimg.com/profile_images/1278077511...,349714.0,48612.0,Todos los d√≠as 6 am - 10 pm,http://twitter.com/Bancolombia/statuses/131685...,"{""hashtags"":[],""symbols"":[],""user_mentions"":[]..."
9,1316853482960322560,JehanAliC,@Bancolombia y su mundo digital: Para facilita...,Thu Oct 15 21:28:30 +0000 2020,2020-10-15 22:28:30,,,48014813.0,Bancolombia,346335302,,"<a href=""http://twitter.com/download/iphone"" r...",http://pbs.twimg.com/profile_images/9158856197...,487.0,1447.0,Bogota,http://twitter.com/JehanAliC/statuses/13168534...,"{""hashtags"":[{""text"":""FelizJueves"",""indices"":[..."


In [37]:
def remove_emoji(string):
    emoji_pattern = re.compile("["
                               u"\U0001F600-\U0001F64F"  # emoticons
                               u"\U0001F300-\U0001F5FF"  # symbols & pictographs
                               u"\U0001F680-\U0001F6FF"  # transport & map symbols
                               u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                               u"\U00002500-\U00002BEF"  # chinese char
                               u"\U00002702-\U000027B0"
                               u"\U00002702-\U000027B0"
                               u"\U000024C2-\U0001F251"
                               u"\U0001f926-\U0001f937"
                               u"\U00010000-\U0010ffff"
                               u"\u2640-\u2642"
                               u"\u2600-\u2B55"
                               u"\u200d"
                               u"\u23cf"
                               u"\u23e9"
                               u"\u231a"
                               u"\ufe0f"  # dingbats
                               u"\u3030"
                               "]+", flags=re.UNICODE)
    return emoji_pattern.sub(r'', string)

df_clean = pd.DataFrame(df.text.apply(lambda x: remove_emoji(x)))
df_clean = df_clean.dropna()
df_clean = df_clean.reset_index(drop=True)

In [None]:
df_clean.head(100)

In [32]:
def clean_text(text):
    '''Make text lowercase, remove text in square brackets, remove punctuation and remove words containing numbers.'''
    if text is None:
        return ''
    text = str(text).replace("nan",'').lower()
    text = re.sub(r'\[.*?\]', '', text)
    text = re.sub(r'[%s]' % re.escape(string.punctuation), '', text)
    text = re.sub(r'\w*\d\w*', '', text)
    text = re.sub(r'rt', '', text)
    # Remove a sentence if it is only one word long
    if len(text) >= 2:
        return ' '.join(word for word in text.split() if word not in STOPWORDS)

df_clean = pd.DataFrame(df.text.apply(lambda x: clean_text(x)))
df_clean = df_clean.dropna()
df_clean = df_clean.reset_index(drop=True)

In [33]:
df_clean.head(10)

Unnamed: 0,text
0,bancolombia radic√≥ queja hago avisar amigos re...
1,bancolombia pudieron hace tiempo toco llevarno...
2,bancolombia
3,bancolombia varios amigos repoan actualizaci√≥n...
4,bancolombia oraclelatam encontr√© sorpresa impl...
5,bancolombia se√±ores bancolombia llevan da√±ados...
6,bancolombia paren acoso dije interesa cupo cr√©...
7,bancolombia tarjeta d√©bito cvv
8,creemos nunca foaleza queremos acompa√±arlas co...
9,bancolombia mundo digital facilitar tr√°mite im...


In [30]:
def lemmatizer(text):        
    sent = []
    doc = nlp(text)
    for word in doc:
        sent.append(word.lemma_)
    return " ".join(sent)

df_clean["text_lemmatize"] = df_clean.apply(lambda x: lemmatizer(x['tweet']), axis=1)

TypeError: <lambda>() got an unexpected keyword argument 'axis'

In [26]:
df_clean.head(100)

Unnamed: 0,text,text_lemmatize
0,bancolombia radic√≥ queja hago avisar amigos re...,bancolombia radicar quejar hacer avisar amigo ...
1,bancolombia pudieron hace tiempo toco llevarno...,bancolombia poder hacer tiempo tocar llevarnos...
2,bancolombia,bancolombia
3,bancolombia varios amigos repoan actualizaci√≥n...,bancolombia vario amigo repoan actualizaci√≥n a...
4,bancolombia oraclelatam encontr√© sorpresa impl...,bancolombia oraclelatam encontrar sorpresa imp...
...,...,...
95,bancolombia puse quejas respondieron pod√≠an re...,bancolombia poner quejar responder poder respo...
96,bancolombia camiiblanco chiste üòÇ,bancolombia camiiblanco chistar üòÇ
97,bancolombia publicidad dice app conveir√≠a empl...,bancolombia publicidad decir app conveir√≠a emp...
98,bancolombia hola inconveniente solucionado,bancolombia hola inconveniente solucionar
