# Extracción y tratamiento de datos en redes sociales con Python. 
## A. Molina 2022 - Universidad Politécnica de Valencia (amolina@upv.es)

# 1. Texto normativo

In [3]:
text = "Pepe, Ana y Pedro juegan en el parque con sus amigos."
print(text)

Pepe, Ana y Pedro juegan en el parque con sus amigos.


## 1.1 El tokenizador más simple

In [4]:
tokens = text.split()
print(tokens)

['Pepe,', 'Ana', 'y', 'Pedro', 'juegan', 'en', 'el', 'parque', 'con', 'sus', 'amigos.']


## 1.2 Tokenizador por expresiones regulares

In [5]:
import re

#r = re.compile('\W')
#text2 = r.sub(' ', text)
text2 = re.sub('\W+', ' ', text.lower())
tokens2 = text2.split()
print('->', text)
print('->', text2)
print()
print(tokens2)

-> Pepe, Ana y Pedro juegan en el parque con sus amigos.
-> pepe ana y pedro juegan en el parque con sus amigos 

['pepe', 'ana', 'y', 'pedro', 'juegan', 'en', 'el', 'parque', 'con', 'sus', 'amigos']


# 2. Texto no normativo (Twitter)

In [6]:
tweet = "@pepe: yoooooooo 😂😻😍SOY el #mejor y tú no :-))))!!!! lol!. 🙂😍 http://www.micasa.com, tucasa.org/comedor/sillon.html"
print(tweet)

@pepe: yoooooooo 😂😻😍SOY el #mejor y tú no :-))))!!!! lol!. 🙂😍 http://www.micasa.com, tucasa.org/comedor/sillon.html


## 2.1 El tokenizador más simple


In [7]:
tokens = tweet.split()
print(tokens)

['@pepe:', 'yoooooooo', '😂😻😍SOY', 'el', '#mejor', 'y', 'tú', 'no', ':-))))!!!!', 'lol!.', '🙂😍', 'http://www.micasa.com,', 'tucasa.org/comedor/sillon.html']


## 2.2 Tokenizador por expresiones regulares

In [8]:
import re

#r = re.compile('\W')
#text2 = r.sub(' ', text)
text2 = re.sub('\W+', ' ', tweet)
tokens2 = text2.split()
print('->', tweet)
print('->', text2)
print()
print(tokens2)

-> @pepe: yoooooooo 😂😻😍SOY el #mejor y tú no :-))))!!!! lol!. 🙂😍 http://www.micasa.com, tucasa.org/comedor/sillon.html
->  pepe yoooooooo SOY el mejor y tú no lol http www micasa com tucasa org comedor sillon html

['pepe', 'yoooooooo', 'SOY', 'el', 'mejor', 'y', 'tú', 'no', 'lol', 'http', 'www', 'micasa', 'com', 'tucasa', 'org', 'comedor', 'sillon', 'html']


## 2.3 El tokenizador para tweets del NLTK: TweetTokenizer

In [9]:
import nltk.tokenize
#dir(nltk.tokenize)

In [10]:
from nltk.tokenize import TweetTokenizer
#help(TweetTokenizer)

In [11]:
#TweetTokenizer(self, preserve_case=True, reduce_len=False, strip_handles=False)

tknzr = TweetTokenizer()
tokens3 = tknzr.tokenize(tweet)

print('->', tweet)
print()
print(tokens3)

-> @pepe: yoooooooo 😂😻😍SOY el #mejor y tú no :-))))!!!! lol!. 🙂😍 http://www.micasa.com, tucasa.org/comedor/sillon.html

['@pepe', ':', 'yoooooooo', '😂', '😻', '😍', 'SOY', 'el', '#mejor', 'y', 'tú', 'no', ':-)', ')', ')', '!', '!', '!', 'lol', '!', '.', '🙂', '😍', 'http://www.micasa.com', ',', 'tucasa.org/comedor/sillon.html']


In [12]:
#TweetTokenizer(self, preserve_case=True, reduce_len=False, strip_handles=False)

tknzr = TweetTokenizer(strip_handles=True) # elimina mencion usuarios
tokens3 = tknzr.tokenize(tweet)

print('->', tweet)
print()
print(tokens3)

-> @pepe: yoooooooo 😂😻😍SOY el #mejor y tú no :-))))!!!! lol!. 🙂😍 http://www.micasa.com, tucasa.org/comedor/sillon.html

[':', 'yoooooooo', '😂', '😻', '😍', 'SOY', 'el', '#mejor', 'y', 'tú', 'no', ':-)', ')', ')', '!', '!', '!', 'lol', '!', '.', '🙂', '😍', 'http://www.micasa.com', ',', 'tucasa.org/comedor/sillon.html']


In [13]:
#TweetTokenizer(self, preserve_case=True, reduce_len=False, strip_handles=False)

tknzr = TweetTokenizer(reduce_len=True) # elimina mas de 3 letras
tokens3 = tknzr.tokenize(tweet)

print('->', tweet)
print()
print(tokens3)

-> @pepe: yoooooooo 😂😻😍SOY el #mejor y tú no :-))))!!!! lol!. 🙂😍 http://www.micasa.com, tucasa.org/comedor/sillon.html

['@pepe', ':', 'yooo', '😂', '😻', '😍', 'SOY', 'el', '#mejor', 'y', 'tú', 'no', ':-)', ')', ')', '!', '!', '!', 'lol', '!', '.', '🙂', '😍', 'http://www.micasa.com', ',', 'tucasa.org/comedor/sillon.html']


In [14]:
#TweetTokenizer(self, preserve_case=True, reduce_len=False, strip_handles=False)

tknzr = TweetTokenizer(preserve_case=False) # pasa a minusculas
tokens3 = tknzr.tokenize(tweet)

print('->', tweet)
print()
print(tokens3)

-> @pepe: yoooooooo 😂😻😍SOY el #mejor y tú no :-))))!!!! lol!. 🙂😍 http://www.micasa.com, tucasa.org/comedor/sillon.html

['@pepe', ':', 'yoooooooo', '😂', '😻', '😍', 'soy', 'el', '#mejor', 'y', 'tú', 'no', ':-)', ')', ')', '!', '!', '!', 'lol', '!', '.', '🙂', '😍', 'http://www.micasa.com', ',', 'tucasa.org/comedor/sillon.html']


In [21]:
tknzr = TweetTokenizer(preserve_case=False, reduce_len=True, strip_handles=True)
tokens3 = tknzr.tokenize(tweet)
print('->', tweet)
print()
print(tokens3)

-> @pepe: yoooooooo 😂😻😍SOY el #mejor y tú no :-))))!!!! lol!. 🙂😍 http://www.micasa.com, tucasa.org/comedor/sillon.html

[':', 'yooo', '😂', '😻', '😍', 'soy', 'el', '#mejor', 'y', 'tú', 'no', ':-)', ')', ')', '!', '!', '!', 'lol', '!', '.', '🙂', '😍', 'http://www.micasa.com', ',', 'tucasa.org/comedor/sillon.html']


# Tweeter-text-parser y Emoji

https://twitter-text-python.readthedocs.io/en/latest/#

https://github.com/carpedm20/emoji/

In [16]:
!pip install twitter-text-parser
!pip install emoji --upgrade

import twitter_text as twt
import emoji
#help(twt)

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting twitter-text-parser
  Downloading twitter_text_parser-3.0.0-py3-none-any.whl (69 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/69.9 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m69.9/69.9 kB[0m [31m3.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: twitter-text-parser
Successfully installed twitter-text-parser-3.0.0
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting emoji
  Downloading emoji-2.5.0.tar.gz (355 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m355.8/355.8 kB[0m [31m8.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: emoji
  Building wheel for emoji (setup.py) ... [?25l[?25hdone
  Created wheel for em

In [17]:
# interpretando emojis

print('->', tweet)
print()
print(emoji.demojize(tweet, language='es'))

-> @pepe: yoooooooo 😂😻😍SOY el #mejor y tú no :-))))!!!! lol!. 🙂😍 http://www.micasa.com, tucasa.org/comedor/sillon.html

@pepe: yoooooooo :cara_llorando_de_risa::gato_sonriendo_con_ojos_de_corazón::cara_sonriendo_con_ojos_de_corazón:SOY el #mejor y tú no :-))))!!!! lol!. :cara_sonriendo_ligeramente::cara_sonriendo_con_ojos_de_corazón: http://www.micasa.com, tucasa.org/comedor/sillon.html


In [18]:
# extraer urls y emojis

print('->', tweet)
print()
print(twt.extract_urls(tweet, extract_urls_without_protocol = True))
print(twt.extract_urls_with_indices(tweet))
print(twt.extract_emojis_with_indices(tweet))
print("==========")
emos = twt.extract_emojis_with_indices(tweet)
for emo in emos:
    print(emo)
    print(emoji.demojize(emo['emoji'], language="es"))
    print('--')

-> @pepe: yoooooooo 😂😻😍SOY el #mejor y tú no :-))))!!!! lol!. 🙂😍 http://www.micasa.com, tucasa.org/comedor/sillon.html

['http://www.micasa.com', 'tucasa.org/comedor/sillon.html']
[{'url': 'http://www.micasa.com', 'indices': [62, 83]}, {'url': 'tucasa.org/comedor/sillon.html', 'indices': [85, 115]}]
[{'emoji': '😂', 'indices': [17, 18]}, {'emoji': '😻', 'indices': [18, 19]}, {'emoji': '😍', 'indices': [19, 20]}, {'emoji': '🙂', 'indices': [59, 60]}, {'emoji': '😍', 'indices': [60, 61]}]
{'emoji': '😂', 'indices': [17, 18]}
:cara_llorando_de_risa:
--
{'emoji': '😻', 'indices': [18, 19]}
:gato_sonriendo_con_ojos_de_corazón:
--
{'emoji': '😍', 'indices': [19, 20]}
:cara_sonriendo_con_ojos_de_corazón:
--
{'emoji': '🙂', 'indices': [59, 60]}
:cara_sonriendo_ligeramente:
--
{'emoji': '😍', 'indices': [60, 61]}
:cara_sonriendo_con_ojos_de_corazón:
--


## EJERCICIO

Crea una función *mi_tokenizador()* que tokenice el texto de entrada  eliminando emojis, urls, menciones, repeticiones y símbolos de puntuación. 
*texto_tokenizado = mi_tokenizador(texto)*

In [39]:
# mi_tokenizador(texto) devuelve la lista de 'tokens' eliminando emojis, urls, menciones, repeticiones y símbolos de puntuación
# utilice: TweetTokenizer, Tweeter-text-parser y Emoji 
def mi_tokenizador(texto):
  
 #escribe aquí tu código

  return tokens

In [40]:
tweet = "@pepe: yoooooooo 😂😻😍SOY el #mejor y tú no :-))))!!!! lol!. 🙂😍 http://www.micasa.com, tucasa.org/comedor/sillon.html"
print('->', tweet)
print()
print('->',mi_tokenizador(tweet))

-> @pepe: yoooooooo 😂😻😍SOY el #mejor y tú no :-))))!!!! lol!. 🙂😍 http://www.micasa.com, tucasa.org/comedor/sillon.html

-> ['yooo', 'soy', 'el', 'mejor', 'y', 'tú', 'no', 'lol']
