In [None]:
text_ai='Las Redes Generativas Antagónicas (GANs, por sus siglas en inglés) son modelos de aprendizaje profundo que permiten generar datos nuevos y realistas. Fueron introducidas por Ian Goodfellow en 2014 y constan de dos redes neuronales enfrentadas: un generador y un discriminador. El generador intenta crear datos sintéticos, como imágenes o texto, mientras que el discriminador evalúa si estos datos son reales o falsos. A través de este proceso competitivo, ambos modelos mejoran constantemente, permitiendo que el generador produzca resultados cada vez más convincentes. Las GANs se aplican en múltiples áreas, como la creación de rostros artificiales, restauración de imágenes, generación de arte y deepfakes. A pesar de su potencial, también enfrentan desafíos como la inestabilidad del entrenamiento, el colapso del modo y preocupaciones éticas sobre el uso indebido. No obstante, representan un gran avance en la inteligencia artificial, especialmente en el ámbito de la generación de contenido sintético de alta calidad.'

In [None]:
import unicodedata
import re
from nltk import ngrams
from collections import Counter

In [None]:
# 1. Convertir a minúsculas
text = text_ai.lower()

# 2. Eliminar signos de puntuación
text = re.sub(r'[^\w\s]', '', text)

# 3. Eliminar tildes
text = ''.join(
    c for c in unicodedata.normalize('NFD', text)
    if unicodedata.category(c) != 'Mn'
)

# 4. Tokenizar (dividir en palabras)
tokens = text.split()

# 5. Crear bigrams
bigrams = list(ngrams(tokens, 2))

# 6. Contar ocurrencias de cada bigrama
counter = Counter(bigrams)

# Imprimir resultado
print(counter)

Counter({('el', 'generador'): 2, ('que', 'el'): 2, ('como', 'la'): 2, ('generacion', 'de'): 2, ('las', 'redes'): 1, ('redes', 'generativas'): 1, ('generativas', 'antagonicas'): 1, ('antagonicas', 'gans'): 1, ('gans', 'por'): 1, ('por', 'sus'): 1, ('sus', 'siglas'): 1, ('siglas', 'en'): 1, ('en', 'ingles'): 1, ('ingles', 'son'): 1, ('son', 'modelos'): 1, ('modelos', 'de'): 1, ('de', 'aprendizaje'): 1, ('aprendizaje', 'profundo'): 1, ('profundo', 'que'): 1, ('que', 'permiten'): 1, ('permiten', 'generar'): 1, ('generar', 'datos'): 1, ('datos', 'nuevos'): 1, ('nuevos', 'y'): 1, ('y', 'realistas'): 1, ('realistas', 'fueron'): 1, ('fueron', 'introducidas'): 1, ('introducidas', 'por'): 1, ('por', 'ian'): 1, ('ian', 'goodfellow'): 1, ('goodfellow', 'en'): 1, ('en', '2014'): 1, ('2014', 'y'): 1, ('y', 'constan'): 1, ('constan', 'de'): 1, ('de', 'dos'): 1, ('dos', 'redes'): 1, ('redes', 'neuronales'): 1, ('neuronales', 'enfrentadas'): 1, ('enfrentadas', 'un'): 1, ('un', 'generador'): 1, ('genera

In [None]:
total_bigrams = sum(counter.values())
print("Total de bigramas:", total_bigrams)

Total de bigramas: 150


In [None]:
from collections import Counter
import math

def entropy(text):
    freq = Counter(text.split())
    print(freq)
    total = sum(freq.values())
    print(total)
    return -sum((f/total) * math.log2(f/total) for f in freq.values())

entropy(text)


Counter({'de': 10, 'el': 6, 'en': 5, 'y': 5, 'la': 4, 'que': 3, 'datos': 3, 'un': 3, 'generador': 3, 'como': 3, 'las': 2, 'redes': 2, 'gans': 2, 'por': 2, 'son': 2, 'modelos': 2, 'discriminador': 2, 'imagenes': 2, 'o': 2, 'a': 2, 'generacion': 2, 'del': 2, 'generativas': 1, 'antagonicas': 1, 'sus': 1, 'siglas': 1, 'ingles': 1, 'aprendizaje': 1, 'profundo': 1, 'permiten': 1, 'generar': 1, 'nuevos': 1, 'realistas': 1, 'fueron': 1, 'introducidas': 1, 'ian': 1, 'goodfellow': 1, '2014': 1, 'constan': 1, 'dos': 1, 'neuronales': 1, 'enfrentadas': 1, 'intenta': 1, 'crear': 1, 'sinteticos': 1, 'texto': 1, 'mientras': 1, 'evalua': 1, 'si': 1, 'estos': 1, 'reales': 1, 'falsos': 1, 'traves': 1, 'este': 1, 'proceso': 1, 'competitivo': 1, 'ambos': 1, 'mejoran': 1, 'constantemente': 1, 'permitiendo': 1, 'produzca': 1, 'resultados': 1, 'cada': 1, 'vez': 1, 'mas': 1, 'convincentes': 1, 'se': 1, 'aplican': 1, 'multiples': 1, 'areas': 1, 'creacion': 1, 'rostros': 1, 'artificiales': 1, 'restauracion': 1, 

6.392558551160222

In [None]:
import numpy as np
import re

def calcular_burstiness(texto):
    # Dividir en oraciones simples
    oraciones = re.split(r'[.!?]', texto)
    oraciones = [o.strip() for o in oraciones if o.strip()]

    # Calcular longitud de cada oración (en palabras)
    longitudes = [len(oracion.split()) for oracion in oraciones]

    # Calcular media y desviación estándar
    media = np.mean(longitudes)
    desviacion = np.std(longitudes)

    print("Longitudes de oraciones:", longitudes)
    print(f"Media de longitudes: {media:.2f}")
    print(f"Burstiness (σ): {desviacion:.2f}")
    return desviacion

In [None]:
print(text_ai)

Las Redes Generativas Antagónicas (GANs, por sus siglas en inglés) son modelos de aprendizaje profundo que permiten generar datos nuevos y realistas. Fueron introducidas por Ian Goodfellow en 2014 y constan de dos redes neuronales enfrentadas: un generador y un discriminador. El generador intenta crear datos sintéticos, como imágenes o texto, mientras que el discriminador evalúa si estos datos son reales o falsos. A través de este proceso competitivo, ambos modelos mejoran constantemente, permitiendo que el generador produzca resultados cada vez más convincentes. Las GANs se aplican en múltiples áreas, como la creación de rostros artificiales, restauración de imágenes, generación de arte y deepfakes. A pesar de su potencial, también enfrentan desafíos como la inestabilidad del entrenamiento, el colapso del modo y preocupaciones éticas sobre el uso indebido. No obstante, representan un gran avance en la inteligencia artificial, especialmente en el ámbito de la generación de contenido si

In [None]:
calcular_burstiness(text_ai)

Longitudes de oraciones: [22, 19, 22, 20, 21, 24, 23]
Media de longitudes: 21.57
Burstiness (σ): 1.59


np.float64(1.5907898179514348)

In [None]:
!pip install transformers



In [None]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer # Importing necessary classes
import torch


In [None]:
model_name = "datificate/gpt2-small-spanish"
model = GPT2LMHeadModel.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)

text = text
input_ids = tokenizer.encode(text, return_tensors='pt')

with torch.no_grad():
    loss = model(input_ids, labels=input_ids).loss
    print("Perplejidad:", torch.exp(loss).item())

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/817 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/510M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/510M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/620 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/850k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/508k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/387 [00:00<?, ?B/s]

`loss_type=None` was set in the config but it is unrecognised.Using the default loss: `ForCausalLMLoss`.


Perplejidad: 293.28271484375


In [None]:
tokens = text.split()
ttr = len(set(tokens)) / len(tokens)
print("TTR:", ttr)

TTR: 0.6887417218543046


## Texto Real

In [None]:
text_real='Pero fue hasta el año de 1956 cuando, en la ciudad de Dartmouth, en una conferencia, se logró dar el término de Inteligencia Artificial. Como sabemos, cada invento que ha sido realizado o creado a lo largo de la historia tiene que ver con alguna duda o inquietud sobre algún tema. Algo que en lo particular me llama mucho la atención es que la inteligencia artificial, como la conocemos hoy en día, surgió a partir de que un señor de apellido Turing propuso en un artículo una pregunta, la cual era: ¿puede pensar una máquina? Esto causó bastante interés y suspicacia entre los grandes científicos e ingenieros de aquellos tiempos, y a raíz de eso se comenzó con una serie de experimentos y proyectos de software que pretendían ver si una máquina, mediante un programador, era capaz de realizar las tareas que un ser humano realizaba. De esta manera, poco a poco se fue perfeccionando la IA hasta hoy en día, donde tiene una gran influencia en casi todos los trabajos que se realizan, sin límite alguno en la rama que sea: en la ingeniería, en la medicina, e incluso hoy en día en las actividades primarias como la agricultura y la ganadería, la IA tiene un amplio desarrollo en dichas actividades.'


In [None]:
# 1. Convertir a minúsculas
text = text_real.lower()

# 2. Eliminar signos de puntuación
text = re.sub(r'[^\w\s]', '', text)

# 3. Eliminar tildes
text = ''.join(
    c for c in unicodedata.normalize('NFD', text)
    if unicodedata.category(c) != 'Mn'
)

# 4. Tokenizar (dividir en palabras)
tokens = text.split()

# 5. Crear bigrams
bigrams = list(ngrams(tokens, 2))

# 6. Contar ocurrencias de cada bigrama
counter = Counter(bigrams)

# Imprimir resultado
print(counter)

Counter({('en', 'la'): 4, ('hoy', 'en'): 3, ('en', 'dia'): 3, ('inteligencia', 'artificial'): 2, ('artificial', 'como'): 2, ('como', 'la'): 2, ('que', 'un'): 2, ('una', 'maquina'): 2, ('la', 'ia'): 2, ('pero', 'fue'): 1, ('fue', 'hasta'): 1, ('hasta', 'el'): 1, ('el', 'ano'): 1, ('ano', 'de'): 1, ('de', '1956'): 1, ('1956', 'cuando'): 1, ('cuando', 'en'): 1, ('la', 'ciudad'): 1, ('ciudad', 'de'): 1, ('de', 'dartmouth'): 1, ('dartmouth', 'en'): 1, ('en', 'una'): 1, ('una', 'conferencia'): 1, ('conferencia', 'se'): 1, ('se', 'logro'): 1, ('logro', 'dar'): 1, ('dar', 'el'): 1, ('el', 'termino'): 1, ('termino', 'de'): 1, ('de', 'inteligencia'): 1, ('como', 'sabemos'): 1, ('sabemos', 'cada'): 1, ('cada', 'invento'): 1, ('invento', 'que'): 1, ('que', 'ha'): 1, ('ha', 'sido'): 1, ('sido', 'realizado'): 1, ('realizado', 'o'): 1, ('o', 'creado'): 1, ('creado', 'a'): 1, ('a', 'lo'): 1, ('lo', 'largo'): 1, ('largo', 'de'): 1, ('de', 'la'): 1, ('la', 'historia'): 1, ('historia', 'tiene'): 1, ('tie

In [None]:
total_bigrams = sum(counter.values())
print("Total de bigramas:", total_bigrams)

Total de bigramas: 211


In [None]:
def entropy(text):
    freq = Counter(text.split())
    print(freq)
    total = sum(freq.values())
    print(total)
    return -sum((f/total) * math.log2(f/total) for f in freq.values())

entropy(text)

Counter({'en': 13, 'la': 13, 'de': 12, 'que': 9, 'una': 6, 'un': 5, 'se': 4, 'a': 4, 'y': 4, 'como': 3, 'tiene': 3, 'hoy': 3, 'dia': 3, 'fue': 2, 'hasta': 2, 'el': 2, 'inteligencia': 2, 'artificial': 2, 'o': 2, 'lo': 2, 'ver': 2, 'con': 2, 'era': 2, 'maquina': 2, 'los': 2, 'e': 2, 'las': 2, 'poco': 2, 'ia': 2, 'actividades': 2, 'pero': 1, 'ano': 1, '1956': 1, 'cuando': 1, 'ciudad': 1, 'dartmouth': 1, 'conferencia': 1, 'logro': 1, 'dar': 1, 'termino': 1, 'sabemos': 1, 'cada': 1, 'invento': 1, 'ha': 1, 'sido': 1, 'realizado': 1, 'creado': 1, 'largo': 1, 'historia': 1, 'alguna': 1, 'duda': 1, 'inquietud': 1, 'sobre': 1, 'algun': 1, 'tema': 1, 'algo': 1, 'particular': 1, 'me': 1, 'llama': 1, 'mucho': 1, 'atencion': 1, 'es': 1, 'conocemos': 1, 'surgio': 1, 'partir': 1, 'senor': 1, 'apellido': 1, 'turing': 1, 'propuso': 1, 'articulo': 1, 'pregunta': 1, 'cual': 1, 'puede': 1, 'pensar': 1, 'esto': 1, 'causo': 1, 'bastante': 1, 'interes': 1, 'suspicacia': 1, 'entre': 1, 'grandes': 1, 'cientific

6.445376713144709

In [None]:
calcular_burstiness(text_real)

Longitudes de oraciones: [24, 27, 44, 51, 66]
Media de longitudes: 42.40
Burstiness (σ): 15.55


np.float64(15.551205741035002)

In [None]:
model_name = "datificate/gpt2-small-spanish"
model = GPT2LMHeadModel.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)

text = text
input_ids = tokenizer.encode(text, return_tensors='pt')

with torch.no_grad():
    loss = model(input_ids, labels=input_ids).loss
    print("Perplejidad:", torch.exp(loss).item())

Perplejidad: 134.02117919921875


In [None]:
tokens = text.split()
ttr = len(set(tokens)) / len(tokens)
print("TTR:", ttr)

TTR: 0.5943396226415094
