# Spacy

In [5]:
# Detectar fraudes en transacciones
import spacy
# !spacy download es_core_news_sm # descarga modelo en español
nlp = spacy.load("es_core_news_sm")

transaccion = "Transferencia de 1,000,000 soles a cuenta de paraíso fiscal."

doc = nlp(transaccion)

lista_negra = ["paraíso","ilegal","soborno"]

for token in doc:
  if token.text.lower() in lista_negra:
    print(f"Tx sospechosa: {token.text}")
  else:
    print(f"Tx ok: {token.text}")


Tx ok: Transferencia
Tx ok: de
Tx ok: 1,000,000
Tx ok: soles
Tx ok: a
Tx ok: cuenta
Tx ok: de
Tx sospechosa: paraíso
Tx ok: fiscal
Tx ok: .


In [7]:
# Extracción de información de documento contractual financiero
import spacy
nlp = spacy.load("es_core_news_sm")
contrato = "El banco Scotiabank otorga un préstamo de 100,000 soles a Juan Meza con una tasa de interés del 15% anual"
doc = nlp(contrato)

for entidad in doc.ents:
  print(f"{entidad.text}: {entidad.label_}")

Scotiabank: LOC
Juan Meza: PER


# LLM

In [None]:
# Libreria transformers de Huggin Face.
# Libreria free
!pip install transformers

In [10]:
# Resumir texto
from transformers import T5Tokenizer, T5ForConditionalGeneration
model = T5ForConditionalGeneration.from_pretrained("t5-small")
tokenizer = T5Tokenizer.from_pretrained("t5-small")

# texto a resumir
text = """
La velocidad de generación de datos se acelera cada día. Todos los días,
el mundo crea más datos que nunca en la historia. Sería casi imposible analizar
y usar datos sin aprendizaje automático. Por ello, el aprendizaje automático
está abriendo un ámbito completamente nuevo de lo que los humanos pueden hacer
con las computadoras y otras máquinas. El aprendizaje automático ayuda a las
emmpresas fucniones importantes como la detección de fraudes, identificación de
amenazas de seguridad, atención al cliente personalizada, chatbols, traducción,
análisis de datos y mucho más.
El aprendizaje automático también está impulsando la emocionante innovación del
mañana con vehículos autónomos, drones, realidad aumentada y la robótica.
"""

input_text = "summarize: " + text
input_ids = tokenizer.encode(input_text, return_tensors="pt", max_length=512, truncation=True)

summary_ids = model.generate(input_ids, max_length=150, min_length=30, length_penalty=2.0, num_beams=4, early_stopping= True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


el mundo crea más datos que nunca en la historia. el aprendizaje automático está abriendo un ámbito completamente nuevo de lo que los humanos pueden hacer con las computadoras y otras máquinas.


In [20]:
# Respuestas a preguntas
from transformers import pipeline

qa_pipeline = pipeline("question-answering", model = "distilbert-base-cased-distilled-squad")

texto = """
El aprendizaje automático se centra en desarrollar sistemas entrenados con datos y hacer predicciones o decisiones basadas en esos datos.
A diferencia de los sistemas tradicionales de programación, donde se definen reglas explícitas, en el aprendizaje automático, el sistema
aprende patrones y relaciones a partir de los datos. Esto permite crear modelos más fléxibles y adaptables
que pueden mejorar con el tiempo a medida que se proporciona más información.
"""

pregunta = "¿En qué se centra el aprendizaje automático?"

resultado = qa_pipeline(question=pregunta, context = texto)
print(f"Pregunta:{pregunta}")
print(f"Respuesta: {resultado['answer']}")

Pregunta:¿En qué se centra el aprendizaje automático?
Respuesta: desarrollar sistemas entrenados con datos


In [22]:
# Analisis de sentimiento
from transformers import pipeline
analisis_sentimiento = pipeline("sentiment-analysis")

textos = [
    "Me encanta este producto, es increible!",
    "No estoy muy satisfecho con la calidad del producto",
    "Es un servicio decente, aunque podría mejorar",
    "¡Estoy muy feliz con mi compra!"
]

resultado = analisis_sentimiento(textos)
resultado


[{'label': 'POSITIVE', 'score': 0.5165650248527527},
 {'label': 'NEGATIVE', 'score': 0.9960055947303772},
 {'label': 'NEGATIVE', 'score': 0.9460647106170654},
 {'label': 'POSITIVE', 'score': 0.9530931115150452}]

In [26]:
# Traduccion
from transformers import MarianMTModel, MarianTokenizer
model_name = "Helsinki-NLP/opus-mt-en-es"
model = MarianMTModel.from_pretrained(model_name)
tokenizer = MarianTokenizer.from_pretrained(model_name)

texto = "Steve Jobs and Steve Wozniak incorporated Apple Computer on January 3, 1977, in Cupertino, California."
inputs = tokenizer(texto, return_tensors="pt",padding=True)
traducido = model.generate(**inputs)
texto_traducido = tokenizer.decode(traducido[0], skip_especial_tokens=True)
texto_traducido



'<pad> Steve Jobs y Steve Wozniak incorporaron Apple Computer el 3 de enero de 1977, en Cupertino, California.</s>'