# Análisis de sentimientos de White Album

En esta ocasión, nos tocó hacer un análisis de sentimientos del famoso álbum "The Beatles" de la banda británica con el mismo nombre.
Bajo las tensiones de unos beatles ya forjando distintos caminos, la aparición de Yoko Ono y la influencia de la cultura hindú nace el conocido "White Album", mostrándo el lado más creativo y vanguardista de cada Beatle por separado con la química instrumental que los caracteriza.

En el presente proyecto, se empezará desde la extracción de datos hasta la muestra gráfica e identificación de las palabras.

## Web Scraping: Canción por Canción

El álbum consta de 30 canciones compuestas por cada miembro de la banda: John, Paul, George y Ringo.
Para hacer el web scraping, utilizaremos la famosa web Genius.
Lo primero que haremos es establecer conexión con la página para obtener el HTML.

!["The Beatles"](https://upload.wikimedia.org/wikipedia/en/f/f2/White_album_front2.jpg)

In [12]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

url = 'https://genius.com/albums/The-beatles/The-beatles-white-album'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')


Luego de establecer la conexión, obtenemos los enlaces de cada canción.

In [13]:
links = soup.find_all('a',class_ = "u-display_block", href=True)
enlaces = []
for link in links:
    enlaces.append(link['href'])

In [14]:
enlaces

['https://genius.com/The-beatles-back-in-the-ussr-lyrics',
 'https://genius.com/The-beatles-dear-prudence-lyrics',
 'https://genius.com/The-beatles-glass-onion-lyrics',
 'https://genius.com/The-beatles-ob-la-di-ob-la-da-lyrics',
 'https://genius.com/The-beatles-wild-honey-pie-lyrics',
 'https://genius.com/The-beatles-the-continuing-story-of-bungalow-bill-lyrics',
 'https://genius.com/The-beatles-while-my-guitar-gently-weeps-lyrics',
 'https://genius.com/The-beatles-happiness-is-a-warm-gun-lyrics',
 'https://genius.com/The-beatles-martha-my-dear-lyrics',
 'https://genius.com/The-beatles-im-so-tired-lyrics',
 'https://genius.com/The-beatles-blackbird-lyrics',
 'https://genius.com/The-beatles-piggies-lyrics',
 'https://genius.com/The-beatles-rocky-raccoon-lyrics',
 'https://genius.com/The-beatles-dont-pass-me-by-lyrics',
 'https://genius.com/The-beatles-why-dont-we-do-it-in-the-road-lyrics',
 'https://genius.com/The-beatles-i-will-lyrics',
 'https://genius.com/The-beatles-julia-lyrics',
 

Después de tener todos los enlaces, definiremos la función `lyrics()`, la cual hará un web scraping de cada enlace obtenido anteriormente para extraer el nombre y la letra de cada canción en minúscula y listo para poder analizar las palabras.

In [15]:
import re
import string

def lyrics(urls):
    df = []
    ls = []
    titles = []
    for url in urls:
        response = requests.get(url)
        soup = BeautifulSoup(response.text, 'html.parser')
        text = soup.find_all('div', attrs= {"class":"Lyrics__Container-sc-1ynbvzw-1 kUgSbL"})
        title = soup.find('span',attrs={'class':'SongHeaderdesktop__HiddenMask-sc-1effuo1-11 iMpFIj'}).get_text()
        lyric = []
        for t in text:
            y = t.get_text(' ').lower()
            lyric.append(re.sub(r'\[.*?\]', '', y))
        lyric_s = [ly.replace('\u200b', '').translate(str.maketrans('', '', string.punctuation)).replace('  ',' ').strip() for ly in lyric]
        df.append(lyric_s)
        titles.append(title)
    for a in df:
        ls.append(''.join(a))
    data = pd.DataFrame({'Título':titles, 'Letra':ls})
     
    return data
        

In [16]:
lyric = lyrics(enlaces) # Almacenamos los resultados
lyric.to_csv('lyrics_white_album.csv') # Exportamos el CSV

In [17]:
lyric

Unnamed: 0,Título,Letra
0,Back in the U.S.S.R.,oh flew in from miami beach boac didnt get to ...
1,Dear Prudence,dear prudence wont you come out to play dear p...
2,Glass Onion,i told you about strawberry fields you know th...
3,"Ob-La-Di, Ob-La-Da",desmond has a barrow in the marketplace molly ...
4,Wild Honey Pie,honey pie honey pie honey pie honey pie hone...
5,The Continuing Story of Bungalow Bill,hey bungalow bill what did you kill bungalow b...
6,While My Guitar Gently Weeps,i look at you all see the love there thats sle...
7,Happiness is a Warm Gun,shes not a girl who misses much do do do do do...
8,Martha My Dear,martha my dear though i spend my days in conve...
9,I’m So Tired,im so tired i havent slept a wink im so tired ...


## Creación de tokens

Luego de terminar el proceso de extracción y limpieza de datos, debemos tokenizar cada texto para poder hacer un text mining, este consiste en separar las palabras para poder analizar estas.

In [18]:
lyric['Tokens'] = [letra.split() for letra in lyric['Letra']]
lyric.head(5)

Unnamed: 0,Título,Letra,Tokens
0,Back in the U.S.S.R.,oh flew in from miami beach boac didnt get to ...,"[oh, flew, in, from, miami, beach, boac, didnt..."
1,Dear Prudence,dear prudence wont you come out to play dear p...,"[dear, prudence, wont, you, come, out, to, pla..."
2,Glass Onion,i told you about strawberry fields you know th...,"[i, told, you, about, strawberry, fields, you,..."
3,"Ob-La-Di, Ob-La-Da",desmond has a barrow in the marketplace molly ...,"[desmond, has, a, barrow, in, the, marketplace..."
4,Wild Honey Pie,honey pie honey pie honey pie honey pie hone...,"[honey, pie, honey, pie, honey, pie, honey, pi..."


## Obteniendo las Stopwords

Tras haber obtenido los tokens, podemos observar que hay varias palabras que resultarán inútiles para el análisis, por ejemplo: 'and', 'oh', 'a', etc.
Para entender mejor, las stopwords son aquellas palabras que son artículos, preposiciones o pronombres y no suman ninguna información esencial en el análisis.

Gracias al paquete NLTK, tenemos stopwords para poder trabajar con textos en inglés.

In [19]:
import nltk
nltk.download('stopwords') # Descargamos las stopwords

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\maaf1\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [20]:
from nltk.corpus import stopwords

# Obtén las palabras vacías en inglés
stop_words = list(stopwords.words('english'))
stop_words = [re.sub("'", '', x) for x in stop_words] # Debido a que quitamos todo signo de puntuación en las letras, acá tambien lo hacemos
stop_words.extend(['oh','us','im','hey','yeah']) # Se agregan algunas stopwords según el contexto

In [21]:
def eliminar_stopwords(lista): # Definimos la función 'eliminar_stopwords'
    return list(filter(lambda x: x not in stop_words, lista))

# Eliminar las stopwords de cada lista
lyric['without_stop_words'] = list(map(eliminar_stopwords, lyric['Tokens']))
lyric.head(5)

Unnamed: 0,Título,Letra,Tokens,without_stop_words
0,Back in the U.S.S.R.,oh flew in from miami beach boac didnt get to ...,"[oh, flew, in, from, miami, beach, boac, didnt...","[flew, miami, beach, boac, get, bed, last, nig..."
1,Dear Prudence,dear prudence wont you come out to play dear p...,"[dear, prudence, wont, you, come, out, to, pla...","[dear, prudence, come, play, dear, prudence, g..."
2,Glass Onion,i told you about strawberry fields you know th...,"[i, told, you, about, strawberry, fields, you,...","[told, strawberry, fields, know, place, nothin..."
3,"Ob-La-Di, Ob-La-Da",desmond has a barrow in the marketplace molly ...,"[desmond, has, a, barrow, in, the, marketplace...","[desmond, barrow, marketplace, molly, singer, ..."
4,Wild Honey Pie,honey pie honey pie honey pie honey pie hone...,"[honey, pie, honey, pie, honey, pie, honey, pi...","[honey, pie, honey, pie, honey, pie, honey, pi..."


## Gráfico de palabras más utilizadas por canción

In [38]:
from collections import Counter
word_freq = Counter()

lyric['word_count'] = lyric['without_stop_words'].apply(Counter)

for index, row in lyric.iterrows():
    print(f"Palabras más comunes en la canción '{row['Título']}':")
    word_freq = row['word_count']
    most_common_words = word_freq.most_common(10)  # Cambia 10 por el número deseado de palabras más comunes
    for word, freq in most_common_words:
        print(f"{word}: {freq}")
    print()

Palabras más comunes en la canción 'Back in the U.S.S.R.':
back: 14
ussr: 9
oohoohooh: 6
know: 4
lucky: 4
girls: 4
ooh: 4
leave: 3
way: 2
boy: 2

Palabras más comunes en la canción 'Dear Prudence':
round: 23
prudence: 12
dear: 11
come: 4
play: 4
see: 4
look: 3
around: 3
let: 3
smile: 3

Palabras más comunes en la canción 'Glass Onion':
looking: 5
glass: 4
told: 3
place: 3
well: 3
heres: 3
another: 3
onion: 3
man: 3
know: 2

Palabras más comunes en la canción 'Ob-La-Di, Ob-La-Da':
life: 16
goes: 16
ha: 11
molly: 8
obladi: 8
oblada: 8
brah: 8
lala: 8
desmond: 7
home: 6

Palabras más comunes en la canción 'Wild Honey Pie':
honey: 9
pie: 9
love: 1

Palabras más comunes en la canción 'The Continuing Story of Bungalow Bill':
bungalow: 28
bill: 28
kill: 16
children: 4
tiger: 2
sing: 2
went: 1
hunting: 1
elephant: 1
gun: 1

Palabras más comunes en la canción 'While My Guitar Gently Weeps':
look: 6
guitar: 6
gently: 6
weeps: 6
know: 4
see: 3
love: 3
still: 3
thats: 2
sleeping: 2

Palabras más c