<a href="https://colab.research.google.com/github/maxlopvaz/maxlopvaz/blob/main/letras_NPL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [15]:
import re
from collections import Counter
from textblob import TextBlob  # Para el análisis de sentimiento

def leer_letra(cancion):
    with open(cancion, 'r') as file:
        # Leer líneas del archivo y omitir las líneas de acordes y espacios vacíos
        lineas = [linea.strip() for linea in file.readlines() if not re.match(r'^[-]+ Acordes [-]+$', linea) and linea.strip()]
        return ' '.join(lineas).lower()

def dividir_palabras(letra):
    # Dividir la letra en palabras
    return re.findall(r'\b\w+\b', letra)

def encontrar_rimas(palabras):
    # Identificar las últimas sílabas de cada palabra como posible rima
    return [re.findall(r'[aeiou]+[^aeiou]*$', palabra) for palabra in palabras]

def analizar_sentimiento(letra):
    # Utilizar TextBlob para el análisis de sentimiento
    blob = TextBlob(letra)
    return blob.sentiment.polarity

def analizar_bigramas_trigramas(palabras):
    bigramas = [f"{palabras[i]} {palabras[i + 1]}" for i in range(len(palabras) - 1)]
    trigramas = [f"{palabras[i]} {palabras[i + 1]} {palabras[i + 2]}" for i in range(len(palabras) - 2)]

    contador_bigramas = Counter(bigramas)
    contador_trigramas = Counter(trigramas)

    return contador_bigramas.most_common(5), contador_trigramas.most_common(5)

def analizar_letra(cancion):
    letra = leer_letra(cancion)
    palabras = dividir_palabras(letra)
    rimas = encontrar_rimas(palabras)

    # Eliminar palabras vacías
    palabras = [palabra for palabra in palabras if palabra not in ['and', 'the', 'is', 'i', 'you', 'it', 'for', 'my', 'to', 'in', 'of', 'a', 'but', 'me']]

    # Contar palabras más frecuentes
    contador_palabras = Counter(palabras)
    palabras_comunes = contador_palabras.most_common(10)

    # Análisis de sentimiento
    sentimiento = analizar_sentimiento(letra)

    # Análisis de bigramas y trigramas
    bigramas, trigramas = analizar_bigramas_trigramas(palabras)

    print(f"Rimas encontradas: {rimas}")
    print(f"Palabras más comunes: {palabras_comunes}")
    print(f"Sentimiento de la canción: {sentimiento}")
    print(f"Bigramas más comunes: {bigramas}")
    print(f"Trigramas más comunes: {trigramas}")

In [16]:
cancion = "/content/drive/MyDrive/LETRAS/Taylor Swift - Fortnight (feat. Post Malone).txt"  # Path
analizar_letra(cancion)

Rimas encontradas: [['or'], ['ift'], ['ight'], ['eat'], ['ost'], ['e'], ['e'], [], [], ['i'], ['as'], ['ed'], ['o'], ['e'], ['ent'], ['ay'], [], [], [], [], ['ut'], ['ey'], ['ot'], ['o'], ['e'], ['and'], ['et'], ['e'], ['e'], [], [], ['i'], ['as'], ['a'], ['ing'], ['ic'], ['ill'], ['ody'], [], [], [], [], ['ed'], [], ['ew'], ['ic'], ['e'], [], [], [], [], ['all'], ['of'], ['is'], ['o'], ['ay'], ['i'], ['e'], ['ou'], ['e'], ['ay'], [], [], ['ut'], ['ou'], ['e'], ['e'], ['on'], ['e'], [], [], ['and'], ['o'], ['e'], ['e'], [], ['o'], ['e'], [], [], [], [], ['ut'], ['at'], ['out'], ['our'], ['uiet'], ['on'], ['e'], [], [], ['and'], ['or'], ['a'], ['ight'], ['e'], ['e'], ['e'], ['er'], ['ing'], ['o'], ['ou'], [], [], [], ['es'], ['ask'], ['out'], ['e'], ['er'], ['e'], [], [], ['ow'], ['ou'], ['e'], ['in'], [], ['ard'], ['ed'], ['o'], ['ood'], ['ours'], [], [], [], ['our'], ['e'], ['ers'], ['ers'], ['i'], ['a'], ['ill'], ['er'], ['e'], [], ['all'], [], ['ings'], ['e'], ['ays'], [], [], [], [

In [17]:
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist
import nltk
nltk.download('punkt')

def analizar_estructura(letra):
    estrofas = letra.split('\n\n')
    num_estrofas = len(estrofas)
    num_lineas_por_estrofa = [len(estrofa.split('\n')) for estrofa in estrofas if estrofa]

    return num_estrofas, num_lineas_por_estrofa

def analizar_tema_topicos(letra):
    # Lista de temas o tópicos principales que puedes expandir
    temas = ['amor', 'desamor', 'nostalgia', 'angustia', 'esperanza', 'alegría', 'tristeza']
    temas_encontrados = {tema: letra.lower().count(tema) for tema in temas}

    return temas_encontrados

def analizar_lexico(letra):
    tokens = word_tokenize(letra)
    frecuencia_palabras = FreqDist(tokens)

    return frecuencia_palabras.most_common(10)

def analizar_repeticion(letra):
    tokens = word_tokenize(letra)
    repetidos = [item for item, count in Counter(tokens).items() if count > 1]

    return repetidos

def analizar_letra(cancion):
    letra = leer_letra(cancion)
    palabras = dividir_palabras(letra)
    rimas = encontrar_rimas(palabras)

    # Eliminar palabras vacías
    palabras = [palabra for palabra in palabras if palabra not in ['and', 'the', 'is', 'i', 'you', 'it', 'for', 'my', 'to', 'in', 'of', 'a', 'but', 'me']]

    # Contar palabras más frecuentes
    contador_palabras = Counter(palabras)
    palabras_comunes = contador_palabras.most_common(10)

    # Análisis de sentimiento
    sentimiento = analizar_sentimiento(letra)

    # Análisis de estructura
    estructura = analizar_estructura(letra)

    # Análisis de temas/tópicos
    temas = analizar_tema_topicos(letra)

    # Análisis léxico
    lexico = analizar_lexico(letra)

    # Palabras repetidas
    repetidos = analizar_repeticion(letra)

    print(f"Rimas encontradas: {rimas}")
    print(f"Palabras más comunes: {palabras_comunes}")
    print(f"Sentimiento de la canción: {sentimiento}")
    print(f"Estructura de la letra: {estructura}")
    print(f"Temas/Tópicos principales: {temas}")
    print(f"Uso léxico: {lexico}")
    print(f"Palabras repetidas: {repetidos}")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [18]:
cancion = "/content/drive/MyDrive/LETRAS/Taylor Swift - Fortnight (feat. Post Malone).txt"  # Path
analizar_letra(cancion)

Rimas encontradas: [['or'], ['ift'], ['ight'], ['eat'], ['ost'], ['e'], ['e'], [], [], ['i'], ['as'], ['ed'], ['o'], ['e'], ['ent'], ['ay'], [], [], [], [], ['ut'], ['ey'], ['ot'], ['o'], ['e'], ['and'], ['et'], ['e'], ['e'], [], [], ['i'], ['as'], ['a'], ['ing'], ['ic'], ['ill'], ['ody'], [], [], [], [], ['ed'], [], ['ew'], ['ic'], ['e'], [], [], [], [], ['all'], ['of'], ['is'], ['o'], ['ay'], ['i'], ['e'], ['ou'], ['e'], ['ay'], [], [], ['ut'], ['ou'], ['e'], ['e'], ['on'], ['e'], [], [], ['and'], ['o'], ['e'], ['e'], [], ['o'], ['e'], [], [], [], [], ['ut'], ['at'], ['out'], ['our'], ['uiet'], ['on'], ['e'], [], [], ['and'], ['or'], ['a'], ['ight'], ['e'], ['e'], ['e'], ['er'], ['ing'], ['o'], ['ou'], [], [], [], ['es'], ['ask'], ['out'], ['e'], ['er'], ['e'], [], [], ['ow'], ['ou'], ['e'], ['in'], [], ['ard'], ['ed'], ['o'], ['ood'], ['ours'], [], [], [], ['our'], ['e'], ['ers'], ['ers'], ['i'], ['a'], ['ill'], ['er'], ['e'], [], ['all'], [], ['ings'], ['e'], ['ays'], [], [], [], [