<a href="https://colab.research.google.com/github/Daprosero/Procesamiento_Lenguaje_Natural/blob/main/1.%20Conceptos%20Preliminares/Expresiones_Regulares.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![Logo UNAL CHEC](https://www.funcionpublica.gov.co/documents/d/guest/logo-universidad-nacional)



# **Procesamiento de Lenguaje Natural (NLP)**
### Departamento de Ingeniería Eléctrica, Electrónica y Computación
#### Universidad Nacional de Colombia - Sede Manizales

#### Profesor: Diego A. Pérez

**Expresión regular:**
Una expresión regular es un patrón que describe un conjunto de cadenas de texto.

\text{regex} = [0-9]{3}-[0-9]{2}-[0-9]{4}

Este patrón coincide con un número de la forma `123-45-6789`.


In [None]:
import re # Librería para trabajar con expresiones regulares
import pandas as pd # Librería para trabajar con DataFrames

In [None]:
texto = """(Jefe de los Minisupers) 14'49'' Podéis hacerme tres preguntas.
(Apu) 14'58'' Qué bueno, porque sólo necesito una.
(Homer) 15'05'' ¿Usted es el Jefe de los Minisupers?
(Jefe de los Minisupers) 15'13'' Así es.
(Homer) 15'22'' ¿Usted?
(Jefe de los Minisupers) 15'38'' Así es.
(Homer) 15'41'' ¿Está seguro?
(Jefe de los Minisupers) 16' Sí. Espero que los haya iluminado.
(Apu) 16'11'' Pero tengo que...
(Jefe de los Minisupers) 16'2'' Gracias. Vuelva pronto.
(Apu) 16'29'' Pero.
(Jefe de los Minisupers) 16'33'' Graciaaaaas. Vuelva pronto."""

In [None]:
print(texto)

(Jefe de los Minisupers) 14'49'' Podéis hacerme tres preguntas.
(Apu) 14'58'' Qué bueno, porque sólo necesito una.
(Homer) 15'05'' ¿Usted es el Jefe de los Minisupers?
(Jefe de los Minisupers) 15'13'' Así es.
(Homer) 15'22'' ¿Usted?
(Jefe de los Minisupers) 15'38'' Así es.
(Homer) 15'41'' ¿Está seguro?
(Jefe de los Minisupers) 16' Sí. Espero que los haya iluminado.
(Apu) 16'11'' Pero tengo que...
(Jefe de los Minisupers) 16'2'' Gracias. Vuelva pronto.
(Apu) 16'29'' Pero.
(Jefe de los Minisupers) 16'33'' Graciaaaaas. Vuelva pronto.


**Ahora busquemos cómo saber si la frase está en el texto.**

El siguiente bloque revisa si aparece la frase buscada.  
- Si la encuentra, muestra la frase exacta y la posición donde está dentro del texto.  
- Si no aparece, avisa que no está.


In [None]:
# re.search() busca el patron de la expresion regular y devuelve un objeto si lo encuentra
match = re.search(r"Gracias. Vuelva pronto", texto)
match

<re.Match object; span=(432, 454), match='Gracias. Vuelva pronto'>

In [None]:
# el "if" testea si re.search() encontró el patrón;
# match.group() devuelve el primer matcheo
# match.span() el rango de sus indices
if match:
    print("El primer matcheo es:",match.group())
    print("El rango de los indices es:",match.span())
else:
    print("El patron NO esta en el texto")

El primer matcheo es: Gracias. Vuelva pronto
El rango de los indices es: (432, 454)


In [None]:
texto[432:454]

'Gracias. Vuelva pronto'

In [None]:
texto[match.span()[0]:match.span()[1]]

'Gracias. Vuelva pronto'

**Ahora veamos cómo encontrar varias coincidencias dentro de un texto.**

Con `re.findall()` podemos buscar **todas las frases o patrones** que aparezcan, no solo la primera.


In [None]:
# Encuentra todas las veces que aparece la frase (aunque se repita)
#Gracias,Graaaaaacias,Graciiiiiiias,Graciaaaaaaas,
re.findall(r"Gra+ci+a+s. Vu+e+lva+ pronto+", texto)


['Gracias. Vuelva pronto', 'Graciaaaaas. Vuelva pronto']

**También podemos buscar números en cierto formato.**

Por ejemplo, tiempos escritos como `16'33''` (minutos y segundos).


In [None]:
re.findall(r"\d\d'\d\d''", texto)

["14'49''",
 "14'58''",
 "15'05''",
 "15'13''",
 "15'22''",
 "15'38''",
 "15'41''",
 "16'11''",
 "16'29''",
 "16'33''"]

In [None]:
re.findall(r"\d{0,2}'\d{0,2}'{0,2}", texto)

["14'49''",
 "14'58''",
 "15'05''",
 "15'13''",
 "15'22''",
 "15'38''",
 "15'41''",
 "16'",
 "16'11''",
 "16'2''",
 "16'29''",
 "16'33''"]

**Ahora busquemos el contenido que está entre paréntesis.**


In [None]:
re.findall(r"\(.*\)", texto)        # devuelve todo, paréntesis incluidos



['(Jefe de los Minisupers)',
 '(Apu)',
 '(Homer)',
 '(Jefe de los Minisupers)',
 '(Homer)',
 '(Jefe de los Minisupers)',
 '(Homer)',
 '(Jefe de los Minisupers)',
 '(Apu)',
 '(Jefe de los Minisupers)',
 '(Apu)',
 '(Jefe de los Minisupers)']

In [None]:
re.findall(r"\((.*)\)", texto)      # devuelve solo lo de adentro

['Jefe de los Minisupers',
 'Apu',
 'Homer',
 'Jefe de los Minisupers',
 'Homer',
 'Jefe de los Minisupers',
 'Homer',
 'Jefe de los Minisupers',
 'Apu',
 'Jefe de los Minisupers',
 'Apu',
 'Jefe de los Minisupers']

**Podemos combinarlo para separar el personaje, el tiempo y el diálogo.**


In [None]:
script = re.findall(r"\((.*)\) (\d\d'\d{0,2}'{0,2}) (.*)", texto)
df = pd.DataFrame(script)
df.columns = ["personaje","tiempo","texto"]
df

Unnamed: 0,personaje,tiempo,texto
0,Jefe de los Minisupers,14'49'',Podéis hacerme tres preguntas.
1,Apu,14'58'',"Qué bueno, porque sólo necesito una."
2,Homer,15'05'',¿Usted es el Jefe de los Minisupers?
3,Jefe de los Minisupers,15'13'',Así es.
4,Homer,15'22'',¿Usted?
5,Jefe de los Minisupers,15'38'',Así es.
6,Homer,15'41'',¿Está seguro?
7,Jefe de los Minisupers,16',Sí. Espero que los haya iluminado.
8,Apu,16'11'',Pero tengo que...
9,Jefe de los Minisupers,16'2'',Gracias. Vuelva pronto.


**Si además queremos los minutos y segundos por separado, usamos un ciclo.**


In [None]:
script_iterator = re.finditer(r"\((.*)\) (\d\d'\d{0,2}'{0,2}) (.*)", texto)
scripts = []
for match in script_iterator:
    personaje = match.group(1)
    min_ = match.group(2).split("'")[0]
    seg = match.group(2).split("'")[1]
    dialogo = match.group(3)
    indices = match.span()
    scripts.append([personaje, min_, seg, dialogo, indices])

df_scripts = pd.DataFrame(scripts)
df_scripts.columns = ["personaje","min","seg","texto","indices"]
df_scripts


Unnamed: 0,personaje,min,seg,texto,indices
0,Jefe de los Minisupers,14,49.0,Podéis hacerme tres preguntas.,"(0, 63)"
1,Apu,14,58.0,"Qué bueno, porque sólo necesito una.","(64, 114)"
2,Homer,15,5.0,¿Usted es el Jefe de los Minisupers?,"(115, 167)"
3,Jefe de los Minisupers,15,13.0,Así es.,"(168, 208)"
4,Homer,15,22.0,¿Usted?,"(209, 232)"
5,Jefe de los Minisupers,15,38.0,Así es.,"(233, 273)"
6,Homer,15,41.0,¿Está seguro?,"(274, 303)"
7,Jefe de los Minisupers,16,,Sí. Espero que los haya iluminado.,"(304, 367)"
8,Apu,16,11.0,Pero tengo que...,"(368, 399)"
9,Jefe de los Minisupers,16,2.0,Gracias. Vuelva pronto.,"(400, 455)"


**Si queremos limitar a personajes específicos, podemos usar una lista dentro del patrón.**


In [None]:
re.findall(r"\((?:Homer|Apu)\) \d\d'\d{0,2}'{0,2}", texto)


["(Apu) 14'58''",
 "(Homer) 15'05''",
 "(Homer) 15'22''",
 "(Homer) 15'41''",
 "(Apu) 16'11''",
 "(Apu) 16'29''"]

**Finalmente, podemos reemplazar texto.**

- Cambiar lo que está dentro de paréntesis por “nombre:”  
- Cambiar frases específicas por otras.


In [None]:
print(re.sub(r"\((.*)\)", r"\g<1>:", texto))


Jefe de los Minisupers: 14'49'' Podéis hacerme tres preguntas.
Apu: 14'58'' Qué bueno, porque sólo necesito una.
Homer: 15'05'' ¿Usted es el Jefe de los Minisupers?
Jefe de los Minisupers: 15'13'' Así es.
Homer: 15'22'' ¿Usted?
Jefe de los Minisupers: 15'38'' Así es.
Homer: 15'41'' ¿Está seguro?
Jefe de los Minisupers: 16' Sí. Espero que los haya iluminado.
Apu: 16'11'' Pero tengo que...
Jefe de los Minisupers: 16'2'' Gracias. Vuelva pronto.
Apu: 16'29'' Pero.
Jefe de los Minisupers: 16'33'' Graciaaaaas. Vuelva pronto.


In [None]:
print(re.sub(r"Jefe de los Minisupers", "PALABRAS SANTAS", texto))

(PALABRAS SANTAS) 14'49'' Podéis hacerme tres preguntas.
(Apu) 14'58'' Qué bueno, porque sólo necesito una.
(Homer) 15'05'' ¿Usted es el PALABRAS SANTAS?
(PALABRAS SANTAS) 15'13'' Así es.
(Homer) 15'22'' ¿Usted?
(PALABRAS SANTAS) 15'38'' Así es.
(Homer) 15'41'' ¿Está seguro?
(PALABRAS SANTAS) 16' Sí. Espero que los haya iluminado.
(Apu) 16'11'' Pero tengo que...
(PALABRAS SANTAS) 16'2'' Gracias. Vuelva pronto.
(Apu) 16'29'' Pero.
(PALABRAS SANTAS) 16'33'' Graciaaaaas. Vuelva pronto.


### Greedy vs Non-Greedy

**Ahora veamos cómo funcionan las búsquedas “codiciosas” y “no codiciosas”.**

- Una búsqueda *greedy* (`.*`) trata de abarcar el mayor texto posible.  
- Una búsqueda *non-greedy* (`.*?`) se detiene en la primera coincidencia que encuentra.

Esto es útil, por ejemplo, para extraer todas las **preguntas** de un texto.


In [None]:
tex = '''¿Primera pregunta? bla bla ¿Segunda pregunta? ¿Hola Mundo?'''
print(re.findall(r"\¿.*\?", tex))   # Greedy
print(re.findall(r"\¿.*?\?", tex))  # Non-Greedy


['¿Primera pregunta? bla bla ¿Segunda pregunta? ¿Hola Mundo?']
['¿Primera pregunta?', '¿Segunda pregunta?', '¿Hola Mundo?']


### Preprocesamiento de Textos: Normalización

**Ahora veamos cómo limpiar el texto.**

Podemos usar `re.sub` para reemplazar repeticiones de letras o patrones.  
Ejemplo: cambiar `"aaaalgooo"` por `"algo"`.


In [None]:
textos = re.sub(r"a+","a",texto)
print(textos)


(Jefe de los Minisupers) 14'49'' Podéis hacerme tres preguntas.
(Apu) 14'58'' Qué bueno, porque sólo necesito una.
(Homer) 15'05'' ¿Usted es el Jefe de los Minisupers?
(Jefe de los Minisupers) 15'13'' Así es.
(Homer) 15'22'' ¿Usted?
(Jefe de los Minisupers) 15'38'' Así es.
(Homer) 15'41'' ¿Está seguro?
(Jefe de los Minisupers) 16' Sí. Espero que los haya iluminado.
(Apu) 16'11'' Pero tengo que...
(Jefe de los Minisupers) 16'2'' Gracias. Vuelva pronto.
(Apu) 16'29'' Pero.
(Jefe de los Minisupers) 16'33'' Gracias. Vuelva pronto.


### Tokenización de palabras

**Ahora vamos a dividir el texto en piezas más pequeñas llamadas *tokens*.**

Los tokens pueden ser palabras, números, signos de puntuación o incluso emoticones.


In [None]:
tokens = re.split(r"\W+", textos)
print("Hay", len(tokens), "tokens")
pd.Series(tokens).value_counts()


Hay 95 tokens


Unnamed: 0,count
los,8
de,7
Jefe,7
Minisupers,7
15,5
16,5
Apu,3
Homer,3
es,3
Gracias,2


### Tokenización de oraciones

**Ahora aprendamos a dividir el texto en oraciones.**

Podemos usar reglas simples con regex o herramientas de `nltk` para hacerlo más preciso.


In [None]:
dificil_de_tokenizar = "Dr. formulate it to me. I don't know how to tokenize this! it's impossible!"
re.split("[\.!]", dificil_de_tokenizar)


  re.split("[\.!]", dificil_de_tokenizar)


['Dr',
 ' formulate it to me',
 " I don't know how to tokenize this",
 " it's impossible",
 '']

In [None]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')
from nltk import word_tokenize
from nltk import sent_tokenize


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


In [None]:
sent = sent_tokenize(dificil_de_tokenizar)
print(sent)
word_tokenize(sent[2])

['Dr. formulate it to me.', "I don't know how to tokenize this!", "it's impossible!"]


['it', "'s", 'impossible', '!']

### Tokenización en español

**Ahora probemos con un texto en español.**


In [None]:
sents = sent_tokenize(texto, language="spanish")
tokens = word_tokenize(textos, language="spanish")

In [None]:
sents

["(Jefe de los Minisupers) 14'49'' Podéis hacerme tres preguntas.",
 "(Apu) 14'58'' Qué bueno, porque sólo necesito una.",
 "(Homer) 15'05'' ¿Usted es el Jefe de los Minisupers?",
 "(Jefe de los Minisupers) 15'13'' Así es.",
 "(Homer) 15'22'' ¿Usted?",
 "(Jefe de los Minisupers) 15'38'' Así es.",
 "(Homer) 15'41'' ¿Está seguro?",
 "(Jefe de los Minisupers) 16' Sí.",
 'Espero que los haya iluminado.',
 "(Apu) 16'11'' Pero tengo que...\n(Jefe de los Minisupers) 16'2'' Gracias.",
 'Vuelva pronto.',
 "(Apu) 16'29'' Pero.",
 "(Jefe de los Minisupers) 16'33'' Graciaaaaas.",
 'Vuelva pronto.']

In [None]:
tokens

['(',
 'Jefe',
 'de',
 'los',
 'Minisupers',
 ')',
 "14'49",
 "''",
 'Podéis',
 'hacerme',
 'tres',
 'preguntas',
 '.',
 '(',
 'Apu',
 ')',
 "14'58",
 "''",
 'Qué',
 'bueno',
 ',',
 'porque',
 'sólo',
 'necesito',
 'una',
 '.',
 '(',
 'Homer',
 ')',
 "15'05",
 "''",
 '¿Usted',
 'es',
 'el',
 'Jefe',
 'de',
 'los',
 'Minisupers',
 '?',
 '(',
 'Jefe',
 'de',
 'los',
 'Minisupers',
 ')',
 "15'13",
 "''",
 'Así',
 'es',
 '.',
 '(',
 'Homer',
 ')',
 "15'22",
 "''",
 '¿Usted',
 '?',
 '(',
 'Jefe',
 'de',
 'los',
 'Minisupers',
 ')',
 "15'38",
 "''",
 'Así',
 'es',
 '.',
 '(',
 'Homer',
 ')',
 "15'41",
 "''",
 '¿Está',
 'seguro',
 '?',
 '(',
 'Jefe',
 'de',
 'los',
 'Minisupers',
 ')',
 '16',
 "'",
 'Sí',
 '.',
 'Espero',
 'que',
 'los',
 'haya',
 'iluminado',
 '.',
 '(',
 'Apu',
 ')',
 "16'11",
 "''",
 'Pero',
 'tengo',
 'que',
 '...',
 '(',
 'Jefe',
 'de',
 'los',
 'Minisupers',
 ')',
 '16',
 "'",
 '2',
 "''",
 'Gracias',
 '.',
 'Vuelva',
 'pronto',
 '.',
 '(',
 'Apu',
 ')',
 "16'29",
 "''"

In [None]:
# ejemplo: añadir espacios antes de "¿" para que se tokenice bien
textos_retocados = re.sub(r"¿", " ¿ ", textos)
tokens = word_tokenize(textos_retocados, language="spanish")
tokens


['(',
 'Jefe',
 'de',
 'los',
 'Minisupers',
 ')',
 "14'49",
 "''",
 'Podéis',
 'hacerme',
 'tres',
 'preguntas',
 '.',
 '(',
 'Apu',
 ')',
 "14'58",
 "''",
 'Qué',
 'bueno',
 ',',
 'porque',
 'sólo',
 'necesito',
 'una',
 '.',
 '(',
 'Homer',
 ')',
 "15'05",
 "''",
 '¿',
 'Usted',
 'es',
 'el',
 'Jefe',
 'de',
 'los',
 'Minisupers',
 '?',
 '(',
 'Jefe',
 'de',
 'los',
 'Minisupers',
 ')',
 "15'13",
 "''",
 'Así',
 'es',
 '.',
 '(',
 'Homer',
 ')',
 "15'22",
 "''",
 '¿',
 'Usted',
 '?',
 '(',
 'Jefe',
 'de',
 'los',
 'Minisupers',
 ')',
 "15'38",
 "''",
 'Así',
 'es',
 '.',
 '(',
 'Homer',
 ')',
 "15'41",
 "''",
 '¿',
 'Está',
 'seguro',
 '?',
 '(',
 'Jefe',
 'de',
 'los',
 'Minisupers',
 ')',
 '16',
 "'",
 'Sí',
 '.',
 'Espero',
 'que',
 'los',
 'haya',
 'iluminado',
 '.',
 '(',
 'Apu',
 ')',
 "16'11",
 "''",
 'Pero',
 'tengo',
 'que',
 '...',
 '(',
 'Jefe',
 'de',
 'los',
 'Minisupers',
 ')',
 '16',
 "'",
 '2',
 "''",
 'Gracias',
 '.',
 'Vuelva',
 'pronto',
 '.',
 '(',
 'Apu',
 ')',


### Stopwords

**Finalmente, eliminemos las palabras vacías o poco informativas.**

En español, palabras como *de*, *la*, *y*, *que* se consideran stopwords y se pueden quitar.


In [None]:
stoplist

['de',
 'la',
 'que',
 'el',
 'en',
 'y',
 'a',
 'los',
 'del',
 'se',
 'las',
 'por',
 'un',
 'para',
 'con',
 'no',
 'una',
 'su',
 'al',
 'lo',
 'como',
 'más',
 'pero',
 'sus',
 'le',
 'ya',
 'o',
 'este',
 'sí',
 'porque',
 'esta',
 'entre',
 'cuando',
 'muy',
 'sin',
 'sobre',
 'también',
 'me',
 'hasta',
 'hay',
 'donde',
 'quien',
 'desde',
 'todo',
 'nos',
 'durante',
 'todos',
 'uno',
 'les',
 'ni',
 'contra',
 'otros',
 'ese',
 'eso',
 'ante',
 'ellos',
 'e',
 'esto',
 'mí',
 'antes',
 'algunos',
 'qué',
 'unos',
 'yo',
 'otro',
 'otras',
 'otra',
 'él',
 'tanto',
 'esa',
 'estos',
 'mucho',
 'quienes',
 'nada',
 'muchos',
 'cual',
 'poco',
 'ella',
 'estar',
 'estas',
 'algunas',
 'algo',
 'nosotros',
 'mi',
 'mis',
 'tú',
 'te',
 'ti',
 'tu',
 'tus',
 'ellas',
 'nosotras',
 'vosotros',
 'vosotras',
 'os',
 'mío',
 'mía',
 'míos',
 'mías',
 'tuyo',
 'tuya',
 'tuyos',
 'tuyas',
 'suyo',
 'suya',
 'suyos',
 'suyas',
 'nuestro',
 'nuestra',
 'nuestros',
 'nuestras',
 'vuestro'

In [None]:
nltk.download('stopwords')
from nltk.corpus import stopwords
stoplist = stopwords.words("spanish")
palabras = [token.lower() for token in tokens if token.lower() not in stoplist and token.isalpha()]
palabras

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['jefe',
 'minisupers',
 'podéis',
 'hacerme',
 'tres',
 'preguntas',
 'apu',
 'bueno',
 'sólo',
 'necesito',
 'homer',
 'usted',
 'jefe',
 'minisupers',
 'jefe',
 'minisupers',
 'así',
 'homer',
 'usted',
 'jefe',
 'minisupers',
 'así',
 'homer',
 'seguro',
 'jefe',
 'minisupers',
 'espero',
 'iluminado',
 'apu',
 'jefe',
 'minisupers',
 'gracias',
 'vuelva',
 'pronto',
 'apu',
 'jefe',
 'minisupers',
 'gracias',
 'vuelva',
 'pronto']

## Ejercicio 1
### armar un texto que tenga sentido usando las variables a, b, c y d

In [None]:
a = "xxxxxxxxxxxxxxxx veces "
b = 1000
c = "xxxno puedo soñar xxxxx"
d = "xlxaxsx xmxixsxmxaxsx xcxoxsxaxs"

## Ejercicio 2:
### a) cuantas letras hay en la tercer oración?
### b) cuantas palabras hay en todo el texto

In [None]:
texto_ej2 = "Citadme diciendo que me han citado mal. Claro que lo entiendo. Incluso un niño de cinco años podría entenderlo. ¡Que me traigan un niño de cinco años!"

##  Ejercicio 3
### Amar un Regex para extraer todas las fechas mencionadas

In [None]:
texto_ej3="compras de julio: el 02/07 yerba, 5/7/18 azucar y 8/7 cafe. Agosto: 02-08-2018, 15-8-2018 y 29-08 mas yerba "

## Ejercicio 4

### a) Cuales son las 10 palabras mas frecuentes? no contar efecto de si es mayúscula o minúscula.
### b) Cuantas palabras son stopwords? que porcentaje de las palabras son stopwords?
### c) Sacar las tíldes (normalización)
### d) Pasar los millones a números 1.800 millones -> 1.800.000  (normalización)
### e) Extraer los numeros asociados a dolares, pesos y porcentajes
### f) Plotear en eje log-log un la frequencia de las palabras vs su ranking: es decir representar en un scatterplot cuantas veces aparece la palabra mas frecuente (ranking=1), cuantas veces la 2da mas frecuentes (ranking=2)..., la n-esima mas frecuente (ranking = n)

In [None]:
texto_ej4='Jueves 29.3.2018 BUENOS AIRES\n INGRESAR EDICIÓN IMPRESA Suscribirse Onmail\n   SEGUINOS\nPORTADA\t\tPOLÍTICA\tMUNDO\tNACIONAL\t\tINFO. GRAL\t\tESPECTÁCULOS\t\t\n\nambito.comJueves 29.3.2018\n\nECONOMÍA\n\n\n\n\n\nPOR MARIANA LEIVA.- lunes 26 de Marzo de 2018\nEl BCRA intervino por séptima rueda consecutiva y el dólar cedió cinco centavos a $ 20,49\nMariana Leiva \t\nMARIANA LEIVA\n \nCon un Banco Central presente en la rueda por séptima rueda consecutiva, el dólar inició la semana con nueva baja, al ceder cinco centavos a $ 20,49 en agencias y bancos de la city porteña, de acuerdo al promedio de ámbito.com. \n\nEl billete -que anotó su segunda caída consecutiva- se desacopló del segmento mayorista, donde la divisa terminó sin cambios a $ 20,21.\n\nDurante la rueda, la moneda estadounidense tuvo un recorrido muy acotado en una rueda en la que el Banco Central volvió a fijar límites al movimiento de los precios. Operadores estimaron que la autoridad monetaria habría vendido unos u$s 100 millones, con lo que en el mes llevaría desembolsado cerca de u$s 1.800 millones. \n\nA poco de iniciada la sesión se hizo presente una postura de venta en $ 20,21 efectivizada por el BCRA que señaló el límite superior fijado en la banda de fluctuación del tipo de cambio. La presencia oficial, en este sentido, disuadió desde el arranque presiones sobre los precios que merced a una mayor oferta privada descendieron hasta tocar mínimos en los $ 20,163. Al final del día, sus ventas sumaron u$s 69 millones.\n\nLa oferta provino, además, de las liquidaciones de exportadores cerealeros con un promedio u$s 85 millones por día (aumentó 40% que la semana anterior) y también de otros rubros que realimentan la venta de la divisa norteamericana, además de algunos inversores tentados por la tasa de interés en pesos ahora que tienen un dólar con poca oscilación y con un techo de $ 20,4 y un piso de $ 20,2, según puntualizaron de ABC Mercado de Cambios. \n\nDesde PR Corredores de Cambio, indicaron que "el inicio de la semana corta presentó un escenario dominado en forma reiterada por la regulación oficial del tipo de cambio. La estrategia del Banco Central apuntó a dejar sin posibilidad de que los precios del dólar superaran el nivel alcanzado en el cierre de la semana pasada pero sin forzar una nueva caída en su cotización". El volumen operado descendió un 6,5% a u$s 758 millones.\n\n"La suerte de la evolución del dólar en el cierre de marzo parece estar echada y, dadas las características de las últimas regulaciones oficiales su nivel para el miércoles próximo se anticipa que no estará muy alejado del alcanzado en la fecha, un dato que los mercados de futuros descuentan en su cotización de esta rueda", agregaron.\n\nEn el mercado de dinero entre bancos, el "call money" operó estable a un promedio del 25,5% TNA y en "swaps" cambiarios se pactaron u$s 148 millones para tomar y/o colocar fondos en pesos mediante el uso de compra-venta de dólares para el martes y el miércoles. Las Lebac en el circuito secundario se operaban al plazo de 23 días a 23,55% TNA, y la de 268 días al 24,9% TNA.\n\nEn el Rofex, donde se operaron u$s 1.156 millones, más del 40% se operó para fin de mes a $ 20,215 con una tasa implícita del 9% TNA y el plazo más largo fue julio a $ 21,63 a una tasa del 20,50% TNA. \n\nEn la plaza paralela, el blue cayó seis centavos a $ 20,88, según el relevamiento de este medio en cuevas del microcentro porteño. Asimismo, el "contado con liqui" bajó 10 centavos a $ 20,19.\n\nPor último, las reservas del Banco Central aumentaron este lunes u$s 18 millones, hasta los u$s 60.917 millones.\nTAGS\n \n\n\n\n'

In [None]:
print(texto_ej4)

Jueves 29.3.2018 BUENOS AIRES
 INGRESAR EDICIÓN IMPRESA Suscribirse Onmail
   SEGUINOS
PORTADA		POLÍTICA	MUNDO	NACIONAL		INFO. GRAL		ESPECTÁCULOS		

ambito.comJueves 29.3.2018

ECONOMÍA





POR MARIANA LEIVA.- lunes 26 de Marzo de 2018
El BCRA intervino por séptima rueda consecutiva y el dólar cedió cinco centavos a $ 20,49
Mariana Leiva 	
MARIANA LEIVA
 
Con un Banco Central presente en la rueda por séptima rueda consecutiva, el dólar inició la semana con nueva baja, al ceder cinco centavos a $ 20,49 en agencias y bancos de la city porteña, de acuerdo al promedio de ámbito.com. 

El billete -que anotó su segunda caída consecutiva- se desacopló del segmento mayorista, donde la divisa terminó sin cambios a $ 20,21.

Durante la rueda, la moneda estadounidense tuvo un recorrido muy acotado en una rueda en la que el Banco Central volvió a fijar límites al movimiento de los precios. Operadores estimaron que la autoridad monetaria habría vendido unos u$s 100 millones, con lo que en el mes l

## d) pasar los millones a números 1.800 millones -> 1.800.000  (normalización)

## e) extraer los numeros asociados a dolares, pesos y porcentajes