In [1]:
!pip install transformers



In [3]:
!pip install nltk



## Sección 1

### N-Gramas

In [14]:
from nltk import ngrams
from collections import Counter

text = "El contenido generado por IA puede parecer humano"
tokens = text.lower().split()
bigrams = list(ngrams(tokens, 2))
print(Counter(bigrams))

Counter({('el', 'contenido'): 1, ('contenido', 'generado'): 1, ('generado', 'por'): 1, ('por', 'ia'): 1, ('ia', 'puede'): 1, ('puede', 'parecer'): 1, ('parecer', 'humano'): 1})


In [18]:
# Texto de ejemplo (simulando IA)
texto_ia = ("La inteligencia artificial está avanzando rápidamente. "
            "Es utilizada en múltiples campos. "
            "La medicina, la educación y la industria son beneficiadas. "
            "También presenta desafíos. "
            "La ética es un tema importante."
            "La ética es deteminante a la hora de utilizar la inteligencia artificial .")
tokens = texto_ia.lower().split()
bigrams = list(ngrams(tokens, 2))
print(Counter(bigrams))

Counter({('la', 'inteligencia'): 2, ('inteligencia', 'artificial'): 2, ('ética', 'es'): 2, ('artificial', 'está'): 1, ('está', 'avanzando'): 1, ('avanzando', 'rápidamente.'): 1, ('rápidamente.', 'es'): 1, ('es', 'utilizada'): 1, ('utilizada', 'en'): 1, ('en', 'múltiples'): 1, ('múltiples', 'campos.'): 1, ('campos.', 'la'): 1, ('la', 'medicina,'): 1, ('medicina,', 'la'): 1, ('la', 'educación'): 1, ('educación', 'y'): 1, ('y', 'la'): 1, ('la', 'industria'): 1, ('industria', 'son'): 1, ('son', 'beneficiadas.'): 1, ('beneficiadas.', 'también'): 1, ('también', 'presenta'): 1, ('presenta', 'desafíos.'): 1, ('desafíos.', 'la'): 1, ('la', 'ética'): 1, ('es', 'un'): 1, ('un', 'tema'): 1, ('tema', 'importante.la'): 1, ('importante.la', 'ética'): 1, ('es', 'deteminante'): 1, ('deteminante', 'a'): 1, ('a', 'la'): 1, ('la', 'hora'): 1, ('hora', 'de'): 1, ('de', 'utiliza'): 1, ('utiliza', 'la'): 1, ('artificial', '.'): 1})


### Entropia Léxica

In [22]:
from collections import Counter
import math

def entropy(text):
    freq = Counter(text.split())
    print(freq)
    total = sum(freq.values())
    print(total)
    return -sum((f/total) * math.log2(f/total) for f in freq.values())
entropy('El contenido generado por IA puede parecer humano sin embargo, puede tener ciertas diferencias con el contenido humano')

Counter({'contenido': 2, 'puede': 2, 'humano': 2, 'El': 1, 'generado': 1, 'por': 1, 'IA': 1, 'parecer': 1, 'sin': 1, 'embargo,': 1, 'tener': 1, 'ciertas': 1, 'diferencias': 1, 'con': 1, 'el': 1})
18


3.8365916681089787

In [23]:
entropy('El contenido generado por IA puede parecer humano sin embargo, puede tener ciertas diferencias con el texto desarrollado de manera natural.')

Counter({'puede': 2, 'El': 1, 'contenido': 1, 'generado': 1, 'por': 1, 'IA': 1, 'parecer': 1, 'humano': 1, 'sin': 1, 'embargo,': 1, 'tener': 1, 'ciertas': 1, 'diferencias': 1, 'con': 1, 'el': 1, 'texto': 1, 'desarrollado': 1, 'de': 1, 'manera': 1, 'natural.': 1})
21


4.297079327540665

In [24]:
entropy('Aunque el contenido producido mediante inteligencia artificial puede asemejarse notablemente al redactado por una persona, suele presentar matices distintivos que lo diferencian del lenguaje generado de forma orgánica y espontánea por un ser humano.')

Counter({'por': 2, 'Aunque': 1, 'el': 1, 'contenido': 1, 'producido': 1, 'mediante': 1, 'inteligencia': 1, 'artificial': 1, 'puede': 1, 'asemejarse': 1, 'notablemente': 1, 'al': 1, 'redactado': 1, 'una': 1, 'persona,': 1, 'suele': 1, 'presentar': 1, 'matices': 1, 'distintivos': 1, 'que': 1, 'lo': 1, 'diferencian': 1, 'del': 1, 'lenguaje': 1, 'generado': 1, 'de': 1, 'forma': 1, 'orgánica': 1, 'y': 1, 'espontánea': 1, 'un': 1, 'ser': 1, 'humano.': 1})
34


5.028639311838573

### Burstiness (variabilidad estructural)

In [12]:
import numpy as np
import re

def calcular_burstiness(texto):
    # Dividir en oraciones simples
    oraciones = re.split(r'[.!?]', texto)
    oraciones = [o.strip() for o in oraciones if o.strip()]

    # Calcular longitud de cada oración (en palabras)
    longitudes = [len(oracion.split()) for oracion in oraciones]

    # Calcular media y desviación estándar
    media = np.mean(longitudes)
    desviacion = np.std(longitudes)

    print("Longitudes de oraciones:", longitudes)
    print(f"Media de longitudes: {media:.2f}")
    print(f"Burstiness (σ): {desviacion:.2f}")
    return desviacion

# Texto de ejemplo (simulando IA)
texto_ia = ("La inteligencia artificial está avanzando rápidamente. "
            "Es utilizada en múltiples campos. "
            "La medicina, la educación y la industria son beneficiadas. "
            "También presenta desafíos. "
            "La ética es un tema importante.")

# Texto de ejemplo (simulando humano)
texto_humano = ("Vivimos en una era de cambios rápidos y constantes. "
                "En todos los ámbitos, la inteligencia artificial ha empezado a jugar un papel fundamental. "
                "A veces la abrazamos, a veces nos asusta. "
                "¿Estamos preparados para lo que viene?")

print("\n--- Texto IA ---")
calcular_burstiness(texto_ia)

print("\n--- Texto Humano ---")
calcular_burstiness(texto_humano)



--- Texto IA ---
Longitudes de oraciones: [6, 5, 9, 3, 6]
Media de longitudes: 5.80
Burstiness (σ): 1.94

--- Texto Humano ---
Longitudes de oraciones: [9, 14, 8, 6]
Media de longitudes: 9.25
Burstiness (σ): 2.95


np.float64(2.947456530637899)

### Perplejidad

In [5]:
model_name = "datificate/gpt2-small-spanish"
model = GPT2LMHeadModel.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)

text = "Había una vez un rey sabio que gobernaba con justicia y compasión."
input_ids = tokenizer.encode(text, return_tensors='pt')

with torch.no_grad():
    loss = model(input_ids, labels=input_ids).loss
    print("Perplejidad:", torch.exp(loss).item())

Perplejidad: 74.96932983398438


In [11]:
model_name = "datificate/gpt2-small-spanish"
model = GPT2LMHeadModel.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)

text = "La dinámica de los sistemas complejos requiere modelos matemáticos avanzados para describir sus comportamientos emergentes."
input_ids = tokenizer.encode(text, return_tensors='pt')

with torch.no_grad():
    loss = model(input_ids, labels=input_ids).loss
    print("Perplejidad:", torch.exp(loss).item())

Perplejidad: 116.9688949584961


## Sección 2

In [6]:
from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('all-MiniLM-L6-v2')
emb1 = model.encode("Los perros son animales domésticos.", convert_to_tensor=True)
emb2 = model.encode("Las computadoras procesan datos.", convert_to_tensor=True)

score = util.pytorch_cos_sim(emb1, emb2)
print("Similitud:", score.item())

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.5k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Similitud: 0.456956684589386


### Medición de fluidez: varianza en longitud

In [7]:
frases = ["Esto es una frase corta.", "Aquí tenemos otra.", "Además, una tercera frase también."]
longitudes = [len(f.split()) for f in frases]

media = sum(longitudes) / len(longitudes)
varianza = sum((l - media) ** 2 for l in longitudes) / len(longitudes)
print("Varianza:", varianza)

Varianza: 0.888888888888889


### Tipo-Token Ratio (TTR)

In [8]:
tokens = "el gato duerme en el sillón y el gato es gris".split()
ttr = len(set(tokens)) / len(tokens)
print("TTR:", ttr)

TTR: 0.7272727272727273


### Repetición textual

In [10]:
import difflib
s1 = "El cambio climático afecta al planeta."
s2 = "El cambio climático es un problema para el planeta."

similarity = difflib.SequenceMatcher(None, s1, s2).ratio()
print("Similitud:", similarity)

Similitud: 0.7640449438202247
