# **DESAFÍO K-POP**

Paula Cabrera Garcia

El objetivo de este proyecto era crear un festival de verano de música K-Pop para que el género incremente su popularidad.

Para ello hemos analizado las 4 bases de datos de las que disponíamos, además de enriquecer nuestro trabajo con información extra, y con ese análisis hemos seleccionado los 10 grupos que van a formar parte de nuestro festival.

Vamos a empezar a explicar el análisis de nuestros datos.

Para empezar, vamos a importar las librerías necesarias para realizar el proyecto.

In [None]:
import pandas as pd
import numpy as np
from datetime import datetime
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import warnings
warnings.filterwarnings('ignore')

A continuación vamos a cargar las bases de datos poco a poco. Esto lo hacemos para trabajar las bases de datos individualmente en profundidad.

Primero importamos la base de datos kpop_idols, para conocer y analizar a los fans de música k-pop.

In [None]:
df1=pd.read_csv('/content/kpop_idols.csv')
df1

Unnamed: 0,Stage Name,Full Name,Korean Name,K. Stage Name,Date of Birth,Group,Country,Birthplace,Other Group,Gender
0,A.M,Seong Hyunwoo,성현우,에이엠,1996-12-31,Limitless,South Korea,,,M
1,Ace,Jang Wooyoung,장우영,에이스,1992-08-28,VAV,South Korea,,,M
2,Aeji,Kwon Aeji,권애지,애지,1999-10-25,Hashtag,South Korea,Daegu,,F
3,AhIn,Lee Ahin,이아인,아인,1999-09-27,MOMOLAND,South Korea,Wonju,,F
4,Ahra,Go Ahra,고아라,아라,2001-02-21,Favorite,South Korea,Yeosu,,F
...,...,...,...,...,...,...,...,...,...,...
1305,Ziu,Park Heejun,박희준,지우,1997-06-16,VAV,South Korea,,,M
1306,ZN,Bae Jinye,배진예,지엔,1994-06-09,LABOUM,South Korea,Bucheon,UNI.T,F
1307,Zoa,Cho Hyewon,조혜원,조아,2005-05-31,Weeekly,South Korea,,,F
1308,Zuho,Bae Juho,백주호,주호,1996-07-04,SF9,South Korea,,,M


In [None]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1310 entries, 0 to 1309
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Stage Name     1310 non-null   object
 1   Full Name      1304 non-null   object
 2   Korean Name    1304 non-null   object
 3   K. Stage Name  1309 non-null   object
 4   Date of Birth  1310 non-null   object
 5   Group          1219 non-null   object
 6   Country        1310 non-null   object
 7   Birthplace     689 non-null    object
 8   Other Group    122 non-null    object
 9   Gender         1310 non-null   object
dtypes: object(10)
memory usage: 102.5+ KB


Vemos que contamos con 1310 registros y 10 columnas.

En algunas columnas contamos con nulos, pero de momento no los vamos a tratar, si no a explicar.

Las columnas con las que vamos a trabajar van a ser:
-  'Full Name' y 'Korean Name' que corresponden con los nombres de los fans-
- 'Date of Birth' que es la fecha de nacimiento de los fans, a esta columna le cambiaremos el tipo de dato ya que es un object pero nosotros la queremos de tipo date.
- 'Group' que es el grupo favorito de los fans.
- 'Country' que es el país de nacimiento de los fans.
- 'Other Group' que es el segundo grupo favorito de los fans. Esta columna tiene muchos nulos, pero no vamos a tenerlos en cuenta para nuestro análisis.
- 'Gender' que es el género de los fans.

In [None]:
df1=df1.drop(['Stage Name','K. Stage Name','Birthplace'],axis=1)

Vamos a comprobar si hay algún dato repetido por error.

In [None]:
duplicated_names_df1 = df1[df1.duplicated(subset=['Full Name'], keep=False)]
duplicated_names_df1

Unnamed: 0,Full Name,Korean Name,Date of Birth,Group,Country,Other Group,Gender
1,Jang Wooyoung,장우영,1992-08-28,VAV,South Korea,,M
14,Lee Seoyoung,이서영,2000-10-17,GWSN,South Korea,,F
28,Lee Minhyuk,이민혁,1990-12-14,Block B,South Korea,Bastarz,M
44,Choi Yuna,최윤아,1999-02-02,ELRIS,South Korea,,F
58,Kim Jiwon,김지원,1995-12-21,iKON,South Korea,,M
...,...,...,...,...,...,...,...
1244,Jung Yoonhye,정윤혜,1990-04-14,Rainbow,South Korea,,F
1245,Jung Yoonhye,정윤혜,2001-10-04,FANATICS,South Korea,FANATICS FLAVOR,F
1246,,,1998-07-21,Lusty,South Korea,,F
1267,Park Subin,박수빈,1996-12-25,H.U.B,South Korea,,F


En un principio observamos que tenemos algún nombre repetido, pero parece ser que son personas diferentes, ya que tienen fechas de nacimiento diferentes.

A continuación, como ya hemos dicho, vamos a cambiar el tipo de dato de la columna 'Date of Birth' a tipo fecha.

Además, vamos a calcular una nueva columna con la edad de los fans para un mejor análisis.

In [None]:
df1['Date of Birth'] = pd.to_datetime(df1['Date of Birth'], errors='coerce')

today = datetime.today()

# Función para calcular la edad
def calculate_age(born):
    if pd.isnull(born):
        return None
    return today.year - born.year - ((today.month, today.day) < (born.month, born.day))

df1['Age'] = df1['Date of Birth'].apply(calculate_age)

df1

Unnamed: 0,Full Name,Korean Name,Date of Birth,Group,Country,Other Group,Gender,Age
0,Seong Hyunwoo,성현우,1996-12-31,Limitless,South Korea,,M,28
1,Jang Wooyoung,장우영,1992-08-28,VAV,South Korea,,M,32
2,Kwon Aeji,권애지,1999-10-25,Hashtag,South Korea,,F,25
3,Lee Ahin,이아인,1999-09-27,MOMOLAND,South Korea,,F,25
4,Go Ahra,고아라,2001-02-21,Favorite,South Korea,,F,23
...,...,...,...,...,...,...,...,...
1305,Park Heejun,박희준,1997-06-16,VAV,South Korea,,M,27
1306,Bae Jinye,배진예,1994-06-09,LABOUM,South Korea,UNI.T,F,30
1307,Cho Hyewon,조혜원,2005-05-31,Weeekly,South Korea,,F,19
1308,Bae Juho,백주호,1996-07-04,SF9,South Korea,,M,28


A continuación vamos a realiar algún gráfico para tener una visión global de lo que nos encontramos.

In [None]:
fig1=px.histogram(df1, x='Age',
            title='Edades de los Fans',
            color_discrete_sequence=px.colors.qualitative.Bold,
            template='plotly_white')

fig1.update_layout(
    font = {
        'family':"Times New Roman",
        'size':16,
        'color':'black'
        },
    title={
        'y':0.95,
        'x':0.5,
        'xanchor': 'center',
        'yanchor': 'top',
        'font_family':"Times New Roman",
        'font_size':25,
        'font_color':'black'},
    showlegend=True,
    bargap=0.01)

fig1.update_yaxes(
        title_font = {'size':20, 'color':'black'}, # Customización Elementos del Título.
        ticks="outside", tickwidth=2, tickcolor='black', ticklen=5, # Customización de los Ticks.
        showline=True, linewidth=2, linecolor='black', # Customizacion Axis Line (lineas de ejes)
        showgrid=True, gridwidth=0.1, gridcolor='grey', griddash='dash', minor_griddash=None, # Customización del GRID
        zeroline=False, zerolinewidth=2, zerolinecolor='black', # Customizando 0.
        range=[None, None]
        )

fig1.update_xaxes(
        title_font = {'size':20, 'color':'black'}, # Customización Elementos del Título.
        ticks="outside", tickwidth=2, tickcolor='black', ticklen=10, # Customización de los Ticks.
        showline=True, linewidth=2, linecolor='black', # Customizacion Axis Line (lineas de ejes)
        showgrid=True, gridwidth=0.1, gridcolor='grey', griddash='dash', minor_griddash="dot",  # Customización del GRID
        zeroline=False, zerolinewidth=2, zerolinecolor='black', # Customizando 0.
        range=[None, None]
        )
fig1.show()

In [None]:
df_pie = pd.DataFrame(df1.groupby(['Country']).size().reset_index(name='Total'))

fig2 = px.pie(df_pie, values='Total', names='Country',
             title='Total de usuarios de cada país',
              color_discrete_sequence=px.colors.qualitative.Bold,
              template='plotly_white'
             )
fig2.update_layout(
    font = {
        'family':"Times New Roman",
        'size':16,
        'color':'black'
        },
    title={
        'y':0.95,
        'x':0.5,
        'xanchor': 'left',
        'yanchor': 'top',
        'font_family':"Times New Roman",
        'font_size':25,
        'font_color':'black'},
    showlegend=True,
    bargap=0.01)

fig2.update_yaxes(
        title_font = {'size':20, 'color':'black'}, # Customización Elementos del Título.
        ticks="outside", tickwidth=2, tickcolor='black', ticklen=5, # Customización de los Ticks.
        showline=True, linewidth=2, linecolor='black', # Customizacion Axis Line (lineas de ejes)
        showgrid=True, gridwidth=0.1, gridcolor='grey', griddash='dash', minor_griddash=None, # Customización del GRID
        zeroline=False, zerolinewidth=2, zerolinecolor='black', # Customizando 0.
        range=[None, None]
        )

fig2.update_xaxes(
        title_font = {'size':20, 'color':'black'}, # Customización Elementos del Título.
        ticks="outside", tickwidth=2, tickcolor='black', ticklen=10, # Customización de los Ticks.
        showline=True, linewidth=2, linecolor='black', # Customizacion Axis Line (lineas de ejes)
        showgrid=True, gridwidth=0.1, gridcolor='grey', griddash='dash', minor_griddash="dot",  # Customización del GRID
        zeroline=False, zerolinewidth=2, zerolinecolor='black', # Customizando 0.
        range=[None, None]
        )
fig2.show();

In [None]:
fig3=px.histogram(df1, x='Gender',
            color='Gender',
            title='Hombres y Mujeres',
            color_discrete_sequence=px.colors.qualitative.Bold,
            template='plotly_white')

fig3.update_layout(
    font = {
        'family':"Times New Roman",
        'size':16,
        'color':'black'
        },
    title={
        'y':0.95,
        'x':0.5,
        'xanchor': 'center',
        'yanchor': 'top',
        'font_family':"Times New Roman",
        'font_size':25,
        'font_color':'black'},
    showlegend=True,
    bargap=0.01)

fig3.update_yaxes(
        title_font = {'size':20, 'color':'black'}, # Customización Elementos del Título.
        ticks="outside", tickwidth=2, tickcolor='black', ticklen=5, # Customización de los Ticks.
        showline=True, linewidth=2, linecolor='black', # Customizacion Axis Line (lineas de ejes)
        showgrid=True, gridwidth=0.1, gridcolor='grey', griddash='dash', minor_griddash=None, # Customización del GRID
        zeroline=False, zerolinewidth=2, zerolinecolor='black', # Customizando 0.
        range=[None, None]
        )

fig3.update_xaxes(
        title_font = {'size':20, 'color':'black'}, # Customización Elementos del Título.
        ticks="outside", tickwidth=2, tickcolor='black', ticklen=10, # Customización de los Ticks.
        showline=True, linewidth=2, linecolor='black', # Customizacion Axis Line (lineas de ejes)
        showgrid=True, gridwidth=0.1, gridcolor='grey', griddash='dash', minor_griddash="dot",  # Customización del GRID
        zeroline=False, zerolinewidth=2, zerolinecolor='black', # Customizando 0.
        range=[None, None]
        )
fig3.show()

Para realizar los gráficos hemso utilizado la librería interactiva Plotly, que nos permite, además de visualizar los datos de forma elegante, ahorrarnos algún cáclulo externo.

- En el primer gráfico podemos ver como las edades de los usuarios se encuentran comprendidas entre los 19 y los 47 años, siendo entre los 24 y los 30 años donde se encuentran gran cantidad de los fans.
- En el segundo gráfico podemos observar que los fans provienen de 12 países distintos, pero que la gran mayoría de los usuarios son de Corea del Sur.
- En el tercer gráfico hemos comprobado la proporción de hombres y mujeres en la base de datos. Podemos ver que es bastante homogénea en cuanto a género teniendo un total de 676 hombres y 634 mujeres.

A continuación vamos a comprobar cuantos grupos únicos tenemos en el dataset como favoritos. Además de los segundos grupos favoritos.

Esto lo hacemos para conocer los gustos de los fans para tenerlo en cuenta a la hora de hacer nuestro festival.

In [None]:
grupos=list(df1['Group'].dropna().unique())
print(f' Grupos favoritos: ',len(grupos))
print(grupos)

 Grupos favoritos:  208
['Limitless', 'VAV', 'Hashtag', 'MOMOLAND', 'Favorite', 'Dal Shabet', 'P.O.P', 'Pink Fantasy', 'Everglow', 'Hello Venus', 'CRAVITY', 'f(x)', 'GWSN', 'VARSITY', 'Tahiti', 'RedSquare', 'MIXX', 'Oh My Girl', "NU'EST", 'Treasure', "Ladies' Code", 'NATURE', 'ENOi', 'Block B', 'Topp Dogg', '14U', 'Lovelyz', 'Hinapia', 'NeonPunch', 'EXO', 'GOT7', 'Stray Kids', 'B1A4', '1TEAM', 'DUSTIN', 'ELRIS', 'Cignature', 'B.I.G', 'TXT', 'ANS', 'MCND', 'Hot Blood Youth', 'MONT', 'UP10TION', 'Pungdeng-E', 'KARD', 'SPICA', 'iKON', 'SIGNAL', '2NE1', 'Apink', 'Golden Child', 'Cosmic Girls', 'Dreamnote', 'SISTAR', 'Cherry Bullet', 'T-ara', 'CIX', 'VICTON', 'Teen Top', 'Fiestar', 'CROSS GENE', 'N.Flying', 'Bonus Baby', 'MYNAME', 'APRIL', 'FANATICS', 'ITZY', 'IZ*ONE', 'CRAXY', 'DIA', 'Busters', 'Twice', 'fromis_9', 'MELODYDAY', 'A.C.E', 'TOO', 'UNVS', 'BtoB', '24K', 'SF9', 'AoA', '2PM', '100%', 'D-CRUNCH', 'NCT', 'Ho1iday', 'Crayon Pop', 'LOONA', 'Newkidd', 'Onewe', 'Sonamoo', 'AB6IX', 'B.

In [None]:
otros_grupos=list(df1['Other Group'].dropna().unique())
print(f' Otros grupos favoritos: ',len(otros_grupos))
print(otros_grupos)

 Otros grupos favoritos:  55
["NU'EST W", 'Bastarz', 'EXO-CBX, SuperM', '3RACHA', 'SPICA-S', 'C.I.V.A, I.B.I', 'I.O.I', 'UNB', 'EXO-CBX', 'NCT Dream', 'FANATICS FLAVOR', 'Loona Odd Eye Circle', 'Loona yyxy', 'Super Junior-M', 'MXM', 'Infinite H', 'I.O.I, WJMK', 'NCT U, NCT 127', 'UNI.T', 'Pristin V', 'GD&TOP', '2YOON', 'NCT 127, NCT Dream', 'IM', 'Loona 1/3', '9MUSES A', 'Gugudan Oguogu', 'Big Byung', 'Troublemaker', 'Rainbow Blaxx, Rainbow Pixie', 'Rainbow Blaxx', 'AOA BLACK', 'Rainbow Pixie', 'NCT 127', 'BinChaenHyunSeuS', 'SuperM', 'Toheart', 'JBJ', 'C.I.V.A', 'I.O.I, Pristin V', 'Infinite F', 'VIXX LR', 'Orange Caramel', 'WJMK', 'NCT U, NCT 127, NCT Dream, SuperM', "NU'EST", 'TTS', 'VICTON', 'UNIQ', 'L.U.B', 'HOTSHOT', 'TTS, Oh!GG', 'NCT U, NCT 127,SuperM', 'NCT U,SuperM', 'UP10TION']


In [None]:
df1.groupby('Group').size().sort_values(ascending=False)

Unnamed: 0_level_0,0
Group,Unnamed: 1_level_1
NCT,18
14U,14
Cosmic Girls,13
Seventeen,13
IZ*ONE,12
...,...
15&,2
Super Junior-M,2
Good Day,1
Nature,1


In [None]:
df1.groupby('Other Group').size().sort_values(ascending=False)

Unnamed: 0_level_0,0
Other Group,Unnamed: 1_level_1
Super Junior-M,6
Loona 1/3,5
NCT Dream,5
SPICA-S,4
9MUSES A,4
UNI.T,4
NU'EST W,4
Loona yyxy,4
Pristin V,3
3RACHA,3


Vamos a realizar a continuación una lista con los grupos favoritos y segundos favoritos, para ello primero comprobamos si se repite algún grupo para poder tener los nombres únicos.

In [None]:
ambos=[]
nuevos_grupos=[]
for i in otros_grupos:
  if i in grupos:
    ambos.append(i)
  else:
    nuevos_grupos.append(i)

print(f'Grupos nuevos entre los otros favoritos: ',len(nuevos_grupos))

Grupos nuevos entre los otros favoritos:  46


In [None]:
grupos=grupos+nuevos_grupos
print(f'Grupos favoritos: ', len(grupos))
print(grupos)

Grupos favoritos:  254
['Limitless', 'VAV', 'Hashtag', 'MOMOLAND', 'Favorite', 'Dal Shabet', 'P.O.P', 'Pink Fantasy', 'Everglow', 'Hello Venus', 'CRAVITY', 'f(x)', 'GWSN', 'VARSITY', 'Tahiti', 'RedSquare', 'MIXX', 'Oh My Girl', "NU'EST", 'Treasure', "Ladies' Code", 'NATURE', 'ENOi', 'Block B', 'Topp Dogg', '14U', 'Lovelyz', 'Hinapia', 'NeonPunch', 'EXO', 'GOT7', 'Stray Kids', 'B1A4', '1TEAM', 'DUSTIN', 'ELRIS', 'Cignature', 'B.I.G', 'TXT', 'ANS', 'MCND', 'Hot Blood Youth', 'MONT', 'UP10TION', 'Pungdeng-E', 'KARD', 'SPICA', 'iKON', 'SIGNAL', '2NE1', 'Apink', 'Golden Child', 'Cosmic Girls', 'Dreamnote', 'SISTAR', 'Cherry Bullet', 'T-ara', 'CIX', 'VICTON', 'Teen Top', 'Fiestar', 'CROSS GENE', 'N.Flying', 'Bonus Baby', 'MYNAME', 'APRIL', 'FANATICS', 'ITZY', 'IZ*ONE', 'CRAXY', 'DIA', 'Busters', 'Twice', 'fromis_9', 'MELODYDAY', 'A.C.E', 'TOO', 'UNVS', 'BtoB', '24K', 'SF9', 'AoA', '2PM', '100%', 'D-CRUNCH', 'NCT', 'Ho1iday', 'Crayon Pop', 'LOONA', 'Newkidd', 'Onewe', 'Sonamoo', 'AB6IX', 'B.A

Para terminar con esta base de datos la información más importante que vamos a rescatar es la lista de los grupos favoritos de los fans. Esta lista la vamos a tener muy en cuenta a la hora de realizar nuestro festival de k-pop.

A continuación vamos a analizar la base de datos de kpop_idols_boy_groups. Esta base de datos contiene la información de las bandas de música de k-pop masculinas.

In [None]:
df2=pd.read_csv('/content/kpop_idols_boy_groups.csv')
df2

Unnamed: 0,Name,Short,Korean Name,Debut,Company,Members,Orig. Memb.,Fanclub Name,Active
0,100%,,백퍼센트,2012-09-18,TOP Media,4,7,Perfection,Yes
1,14U,,원포유,2017-04-17,BG,14,14,,Yes
2,1the9,,원더나인,2019-02-09,MBK,9,9,,Yes
3,24K,,투포케이,2012-09-06,Choeun,8,6,24U,Yes
4,2AM,,투에이엠,2008-06-21,"JYP, Big Hit",4,4,I Am,No
...,...,...,...,...,...,...,...,...,...
142,VROMANCE,,브로맨스,2016-06-12,RBW,4,4,,Yes
143,Wanna One,,워너원,2017-08-07,YMC,11,11,Wannable,No
144,We In The Zone,,위인더존,2019-05-27,Choon,5,5,,Yes
145,WINNER,,위너,2014-08-12,YG,4,5,Ace,Yes


In [None]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 147 entries, 0 to 146
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Name          147 non-null    object
 1   Short         18 non-null     object
 2   Korean Name   147 non-null    object
 3   Debut         147 non-null    object
 4   Company       146 non-null    object
 5   Members       147 non-null    int64 
 6   Orig. Memb.   147 non-null    int64 
 7   Fanclub Name  61 non-null     object
 8   Active        147 non-null    object
dtypes: int64(2), object(7)
memory usage: 10.5+ KB


En esta base de datos contamos con 147 grupos masculinos distintos y 9 columnas.

Observamos que la columna 'Short' contienen una gran cantidad de nulos y es información no relevante para nuestro análisis, por lo que la vamos a eliminar, y la columna 'Orig. Memb.' también la vamos a eliminar por el mismo motivo. Por lo que nos vamos a quedar con las columnas siguientes:

- 'Name' y 'Korean Name' que son el nombre de la banda.
- 'Debut' que corresponde con el debut de la banda. Observamos que el tipo de dato es object, por lo que lo cambiaremos a tipo fecha.
- 'Company' que corresponde con la discográfica de la banda.
- 'Members' que corresponde con los miembros con los que cuenta la banda.
- 'Fanclub Name' que es el nombre del club de fans de la banda si tienen.
- 'Active' que nos dice si la banda sigue en activo o por lo contrario ya no actúan.

In [None]:
df2['Debut'] = pd.to_datetime(df2['Debut'], errors='coerce')
df2=df2.drop(['Short','Orig. Memb.'],axis=1)
df2

Unnamed: 0,Name,Korean Name,Debut,Company,Members,Fanclub Name,Active
0,100%,백퍼센트,2012-09-18,TOP Media,4,Perfection,Yes
1,14U,원포유,2017-04-17,BG,14,,Yes
2,1the9,원더나인,2019-02-09,MBK,9,,Yes
3,24K,투포케이,2012-09-06,Choeun,8,24U,Yes
4,2AM,투에이엠,2008-06-21,"JYP, Big Hit",4,I Am,No
...,...,...,...,...,...,...,...
142,VROMANCE,브로맨스,2016-06-12,RBW,4,,Yes
143,Wanna One,워너원,2017-08-07,YMC,11,Wannable,No
144,We In The Zone,위인더존,2019-05-27,Choon,5,,Yes
145,WINNER,위너,2014-08-12,YG,4,Ace,Yes


A continuación vamos a ver cuantos miembros tienen los grupos mediante un histograma, para hacernos una idea de como se distribuye.

In [None]:
fig4=px.histogram(df2, x='Members',
            title='Miembros en las boy bands',
            color_discrete_sequence=px.colors.qualitative.Bold,
            template='plotly_white')

fig4.update_layout(
    font = {
        'family':"Times New Roman",
        'size':16,
        'color':'black'
        },
    title={
        'y':0.95,
        'x':0.5,
        'xanchor': 'center',
        'yanchor': 'top',
        'font_family':"Times New Roman",
        'font_size':25,
        'font_color':'black'},
    showlegend=True,
    bargap=0.01)

fig4.update_yaxes(
        title_font = {'size':20, 'color':'black'}, # Customización Elementos del Título.
        ticks="outside", tickwidth=2, tickcolor='black', ticklen=5, # Customización de los Ticks.
        showline=True, linewidth=2, linecolor='black', # Customizacion Axis Line (lineas de ejes)
        showgrid=True, gridwidth=0.1, gridcolor='grey', griddash='dash', minor_griddash=None, # Customización del GRID
        zeroline=False, zerolinewidth=2, zerolinecolor='black', # Customizando 0.
        range=[None, None]
        )

fig4.update_xaxes(
        title_font = {'size':20, 'color':'black'}, # Customización Elementos del Título.
        ticks="outside", tickwidth=2, tickcolor='black', ticklen=10, # Customización de los Ticks.
        showline=True, linewidth=2, linecolor='black', # Customizacion Axis Line (lineas de ejes)
        showgrid=True, gridwidth=0.1, gridcolor='grey', griddash='dash', minor_griddash="dot",  # Customización del GRID
        zeroline=False, zerolinewidth=2, zerolinecolor='black', # Customizando 0.
        range=[None, None]
        )
fig4.show()

Podemos ver como, aunque la mayoría de grupos tienen un número de miembros entre 4 y 7, hay grupos que cuentan con más de 10 miembros, e incluso un grupo que cuenta con 18 miembros.

Para realizar después nosotros la selección de grupos con los que vamos a contar en el festival primero vamos a hacer 2 filtros.

Para empezar, creeamos que un grupo con club de fans atrae a más gente que uno sin club de fans, y lo que nosotros buscamos en nustro festival es darle visibilidad al género del K-Pop, por lo que nos vamos a quedar únicamente con los grupos con club de fans.

Por otra parte, es importante saber si el grupo sigue en activo o por lo contrario ya no da conciertos, por lo que nos vamos a quedar solo con los grupos en activo, porque lo que nos interesa es que toquen en nustro festival.

In [None]:
df2_filtrado=df2.dropna(subset=['Fanclub Name'])
df2_filtrado=df2_filtrado.loc[df2_filtrado['Active']=='Yes']
df2_filtrado.head()

Unnamed: 0,Name,Korean Name,Debut,Company,Members,Fanclub Name,Active
0,100%,백퍼센트,2012-09-18,TOP Media,4,Perfection,Yes
3,24K,투포케이,2012-09-06,Choeun,8,24U,Yes
5,2PM,투피엠,2008-07-04,JYP,6,Hottest,Yes
8,A.C.E,에이스,2017-05-23,Beat,5,Choice,Yes
11,AB6IX,에이비식스,2019-05-22,Brand New,5,ABNEW,Yes


In [None]:
df2_filtrado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 45 entries, 0 to 145
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   Name          45 non-null     object        
 1   Korean Name   45 non-null     object        
 2   Debut         45 non-null     datetime64[ns]
 3   Company       45 non-null     object        
 4   Members       45 non-null     int64         
 5   Fanclub Name  45 non-null     object        
 6   Active        45 non-null     object        
dtypes: datetime64[ns](1), int64(1), object(5)
memory usage: 2.8+ KB


A continuación nos vamos a quedar con los nombres de las boy bands filtradas.

In [None]:
boy_groups_cf=list(df2_filtrado['Name'].unique())
print(f'Número de boy groups en activo y con club de fans: ',len(boy_groups_cf))

Número de boy groups en activo y con club de fans:  45


En el primer dataset hemos sacado el nombre de 254 grupos favoritos entre los fans del k-pop, ahora vamos a comprobar cuantos de los 45 grupos masculinos aparecen en estos grupos favoritos.

In [None]:
favoritos_h_cf=[]
no_fh_cf=[]
for i in boy_groups_cf:
  if i in grupos:
    favoritos_h_cf.append(i)
  else:
    no_fh_cf.append(i)
print(f'Grupos favoritos:' ,len(favoritos_h_cf))
print(f'Grupos no favoritos:' ,len(no_fh_cf))


Grupos favoritos: 38
Grupos no favoritos: 7


Como resumen de este dataset nos vamos a quedar con que contamos con 38 bandas masculinas de k-pop con club de fans, en activo y que estan entre las favoritas de los fans del k-pop.

A continuación vamos a hacer lo mismo pero con el dataset kpop_idols_girl_groups. Esta base de datos contiene la información de los grupos de k-pop femeninos.

In [None]:
df3=pd.read_csv('/content/kpop_idols_girl_groups.csv')
df3

Unnamed: 0,Name,Short,Korean Name,Debut,Company,Members,Orig. Memb.,Fanclub Name,Active
0,(G)I-DLE,,(여자)아이들,2018-05-02,Cube,6,6,,Yes
1,15&,,피프틴앤드,2012-10-05,JYP,2,2,,No
2,2EYES,,투아이즈,2013-07-20,SidusHQ,4,5,,No
3,2NE1,,투애니원,2009-05-06,YG,4,4,Blackjack,No
4,3YE,,써드아이,2019-05-21,GH,3,3,,Yes
...,...,...,...,...,...,...,...,...,...
147,We Girls,,위걸스,2018-08-31,Afternoon,8,8,,Yes
148,Weki Meki,WeMe,위키미키,2017-08-08,Fantagio,8,8,,Yes
149,WJSN,Cosmic Girls,우주소녀,2016-02-25,Starship,13,12,Ujung,Yes
150,Wonder Girls,WG,원더걸스,2007-02-13,JYP,4,5,Wonderful,No


In [None]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 152 entries, 0 to 151
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Name          152 non-null    object
 1   Short         21 non-null     object
 2   Korean Name   152 non-null    object
 3   Debut         152 non-null    object
 4   Company       152 non-null    object
 5   Members       152 non-null    int64 
 6   Orig. Memb.   152 non-null    int64 
 7   Fanclub Name  46 non-null     object
 8   Active        152 non-null    object
dtypes: int64(2), object(7)
memory usage: 10.8+ KB


 Como en el dataset anterior, hay columnas que no son relevantes para nuestro análisis, estas son 'Short' y 'Orig. Memb.', por lo que las vamos a eliminar.
 Además, también vamos a cambiar el tipo de dato de la columna 'Debut' para que esté en formato fecha y no object.

 Las columnas son exactamente iguales que las del dataset anterior.

In [None]:
df3['Debut'] = pd.to_datetime(df3['Debut'], errors='coerce')
df3=df3.drop(['Short','Orig. Memb.'],axis=1)
df3

Unnamed: 0,Name,Korean Name,Debut,Company,Members,Fanclub Name,Active
0,(G)I-DLE,(여자)아이들,2018-05-02,Cube,6,,Yes
1,15&,피프틴앤드,2012-10-05,JYP,2,,No
2,2EYES,투아이즈,2013-07-20,SidusHQ,4,,No
3,2NE1,투애니원,2009-05-06,YG,4,Blackjack,No
4,3YE,써드아이,2019-05-21,GH,3,,Yes
...,...,...,...,...,...,...,...
147,We Girls,위걸스,2018-08-31,Afternoon,8,,Yes
148,Weki Meki,위키미키,2017-08-08,Fantagio,8,,Yes
149,WJSN,우주소녀,2016-02-25,Starship,13,Ujung,Yes
150,Wonder Girls,원더걸스,2007-02-13,JYP,4,Wonderful,No


In [None]:
fig5=px.histogram(df3, x='Members',
            title='Miembros en las girl bands',
            color_discrete_sequence=px.colors.qualitative.Bold,
            template='plotly_white')

fig5.update_layout(
    font = {
        'family':"Times New Roman",
        'size':16,
        'color':'black'
        },
    title={
        'y':0.95,
        'x':0.5,
        'xanchor': 'center',
        'yanchor': 'top',
        'font_family':"Times New Roman",
        'font_size':25,
        'font_color':'black'},
    showlegend=True,
    bargap=0.01)

fig5.update_yaxes(
        title_font = {'size':20, 'color':'black'}, # Customización Elementos del Título.
        ticks="outside", tickwidth=2, tickcolor='black', ticklen=5, # Customización de los Ticks.
        showline=True, linewidth=2, linecolor='black', # Customizacion Axis Line (lineas de ejes)
        showgrid=True, gridwidth=0.1, gridcolor='grey', griddash='dash', minor_griddash=None, # Customización del GRID
        zeroline=False, zerolinewidth=2, zerolinecolor='black', # Customizando 0.
        range=[None, None]
        )

fig5.update_xaxes(
        title_font = {'size':20, 'color':'black'}, # Customización Elementos del Título.
        ticks="outside", tickwidth=2, tickcolor='black', ticklen=10, # Customización de los Ticks.
        showline=True, linewidth=2, linecolor='black', # Customizacion Axis Line (lineas de ejes)
        showgrid=True, gridwidth=0.1, gridcolor='grey', griddash='dash', minor_griddash="dot",  # Customización del GRID
        zeroline=False, zerolinewidth=2, zerolinecolor='black', # Customizando 0.
        range=[None, None]
        )
fig5.show()

Observamos como en los grupos femeninos los miembros van desde los 2 hasta los 13 miembros, aunque lo que más predomina en el dataset son los grupos con 4 o 5 miembros.

A continuación vamos a realizar los mismos 2 filtros que en el dataset anterior para quedarnos con los grupos en activo y que tienen club de fans.

In [None]:
df3_filtrado=df3.dropna(subset=['Fanclub Name'])
df3_filtrado=df3_filtrado.loc[df3_filtrado['Active']=='Yes']
df3_filtrado.head()

Unnamed: 0,Name,Korean Name,Debut,Company,Members,Fanclub Name,Active
13,AOA,에이오에이,2012-07-30,FNC,5,ELVIS,Yes
14,Apink,에이핑크,2011-04-19,Plan A,6,Pink Panda,Yes
16,April,에이프릴,2015-08-24,DSP,6,Fineapple,Yes
29,Brown Eyed Girls,브라운 아이드 걸스,2006-03-02,Mystic,4,Everlasting,Yes
31,Busters,버스터즈,2017-11-27,JTG,5,Bu-Chu,Yes


In [None]:
df3_filtrado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 22 entries, 13 to 149
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   Name          22 non-null     object        
 1   Korean Name   22 non-null     object        
 2   Debut         22 non-null     datetime64[ns]
 3   Company       22 non-null     object        
 4   Members       22 non-null     int64         
 5   Fanclub Name  22 non-null     object        
 6   Active        22 non-null     object        
dtypes: datetime64[ns](1), int64(1), object(5)
memory usage: 1.4+ KB


Podemos ver que tenemos 22 grupos femeninos de k-pop en activo y con club de fans.
A continuación vamos a obtener los nombres de las bandas y las vamos a almacenar como antes.

In [None]:
girl_groups_cf=list(df3_filtrado['Name'].unique())
print(f'Número de girl groups en activo con club de fans: ',len(girl_groups_cf))
print(girl_groups_cf)

Número de girl groups en activo con club de fans:  22
['AOA', 'Apink', 'April', 'Brown Eyed Girls', 'Busters', 'CLC', 'DIA', 'EXID', 'Gfriend', "Girls' Generation", 'GWSN', 'HighSchool', 'ITZY', 'Laboum', 'Lovelyz', 'Mamamoo', 'Oh My Girl', 'PURPLEBECK', 'Sonamoo', 'TWICE', 'Wanna.B', 'WJSN']


Ahora vamos a hacer como antes y vamos a comprobar cuantos de los 22 grupos anteriores aparecen entre los favoritos de los fans.

In [None]:
favoritos_m_cf=[]
no_fm_cf=[]
for i in girl_groups_cf:
  if i in grupos:
    favoritos_m_cf.append(i)
  else:
    no_fm_cf.append(i)
print(f'Número de grupos favoritos: ',len(favoritos_m_cf))
print(f'Número de grupos no favoritos: ',len(no_fm_cf))

Número de grupos favoritos:  13
Número de grupos no favoritos:  9


Igual que anteriormente, nos vamos a quedar con la lista de los 13 nombres de grupos femeninos de k-pop en activo y con club de fans para posteriormente hacer la selección de los 10 grupos de nuestro festival.

A continuación vamos a cargar el último dataset.

Este dataset contiene los videos y enlaces de youtube de las canciones de algunos grupos.

In [None]:
df4=pd.read_csv('/content/kpop_music_videos.csv')
df4

Unnamed: 0,Date,Artist,Song Name,Korean Name,Director,Video,Type,Release
0,2020-05-22,Agust D,Daechwita,대취타,,https://youtu.be/qGjAWJ2zWWI,Boy Solo,Major
1,2020-05-21,Yubin,yaya (Me Time),넵넵,,https://youtu.be/BJD0arHF_5c,Girl Solo,Major
2,2020-05-21,OnlyOneOf,Angel (prod. GRAY),,,https://youtu.be/vVTo8p72FxQ,Boy,Major
3,2020-05-20,Ryu Sujeong,Tiger Eyes,,,https://youtu.be/aE6curPGQRY,Girl Solo,Major
4,2020-05-20,Crush,Mayday feat. Joy (Red Velvet),자나깨나,,https://youtu.be/29ycT6fA-Rs,Boy Solo,Major
...,...,...,...,...,...,...,...,...
3767,1994-08-08,Seo Taiji and Boys,Eternity,영원,,https://youtu.be/74usU0gB7r0,Boy,Minor
3768,1993-06-06,Seo Taiji and Boys,Anyhow Song,하여가,,https://youtu.be/L-AxO7EPU8c,Boy,Major
3769,1993-06-06,Seo Taiji and Boys,To You,너에게,,https://youtu.be/cxIAiAUyvXo,Boy,Minor
3770,1992-03-23,Seo Taiji and Boys,I Know,난 알아요,,https://youtu.be/OEDHEzs5kyk,Boy,Major


In [None]:
df4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3772 entries, 0 to 3771
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Date         3772 non-null   object
 1   Artist       3772 non-null   object
 2   Song Name    3771 non-null   object
 3   Korean Name  2786 non-null   object
 4   Director     627 non-null    object
 5   Video        3772 non-null   object
 6   Type         3772 non-null   object
 7   Release      3759 non-null   object
dtypes: object(8)
memory usage: 235.9+ KB


Podemos ver que el dataset contiene 3772 registros y 8 columnas.
Como en los datasets anteriores, no nos vamos a quedar con todas las columnas, solo con las siguientes:
- 'Date' es la fecha en la que salió la canción. Esta columna la cambiaremos de formato porque la queremos en formato fecha.
Además, crearemos una nueva columna 'Year' con el año de lanzamiento de las canciones.
- 'Artist' que es el nombre del artista de la canción.
- 'Song Name' y 'Korean Name' que es el nombre de la canción.
- 'Video' es el enlace al video de youtube.
- 'Type' que es el tipo de artista.

Esto significa que las columnas 'Director' y 'Release' las vamos a eliminar porque no son relevantes para nuestro análisis.


In [None]:
df4['Date'] = pd.to_datetime(df4['Date'], errors='coerce')
df4['Year'] = df4['Date'].dt.year
df4=df4.drop(['Director','Release'],axis=1)
df4

Unnamed: 0,Date,Artist,Song Name,Korean Name,Video,Type,Year
0,2020-05-22,Agust D,Daechwita,대취타,https://youtu.be/qGjAWJ2zWWI,Boy Solo,2020
1,2020-05-21,Yubin,yaya (Me Time),넵넵,https://youtu.be/BJD0arHF_5c,Girl Solo,2020
2,2020-05-21,OnlyOneOf,Angel (prod. GRAY),,https://youtu.be/vVTo8p72FxQ,Boy,2020
3,2020-05-20,Ryu Sujeong,Tiger Eyes,,https://youtu.be/aE6curPGQRY,Girl Solo,2020
4,2020-05-20,Crush,Mayday feat. Joy (Red Velvet),자나깨나,https://youtu.be/29ycT6fA-Rs,Boy Solo,2020
...,...,...,...,...,...,...,...
3767,1994-08-08,Seo Taiji and Boys,Eternity,영원,https://youtu.be/74usU0gB7r0,Boy,1994
3768,1993-06-06,Seo Taiji and Boys,Anyhow Song,하여가,https://youtu.be/L-AxO7EPU8c,Boy,1993
3769,1993-06-06,Seo Taiji and Boys,To You,너에게,https://youtu.be/cxIAiAUyvXo,Boy,1993
3770,1992-03-23,Seo Taiji and Boys,I Know,난 알아요,https://youtu.be/OEDHEzs5kyk,Boy,1992


Para hacernos una idea de como están distribuidas las canciones del dataset a lo largo del tiempo vamos a realizar un histograma de los años.

In [None]:
fig6=px.histogram(df4, x='Year',
            title='Entre cuantos años tenemos datos?',
            color_discrete_sequence=px.colors.qualitative.Bold,
            template='plotly_white')

fig6.update_layout(
    font = {
        'family':"Times New Roman",
        'size':16,
        'color':'black'
        },
    title={
        'y':0.95,
        'x':0.5,
        'xanchor': 'center',
        'yanchor': 'top',
        'font_family':"Times New Roman",
        'font_size':25,
        'font_color':'black'},
    showlegend=True,
    bargap=0.01)

fig6.update_yaxes(
        title_font = {'size':20, 'color':'black'}, # Customización Elementos del Título.
        ticks="outside", tickwidth=2, tickcolor='black', ticklen=5, # Customización de los Ticks.
        showline=True, linewidth=2, linecolor='black', # Customizacion Axis Line (lineas de ejes)
        showgrid=True, gridwidth=0.1, gridcolor='grey', griddash='dash', minor_griddash=None, # Customización del GRID
        zeroline=False, zerolinewidth=2, zerolinecolor='black', # Customizando 0.
        range=[None, None]
        )

fig6.update_xaxes(
        title_font = {'size':20, 'color':'black'}, # Customización Elementos del Título.
        ticks="outside", tickwidth=2, tickcolor='black', ticklen=10, # Customización de los Ticks.
        showline=True, linewidth=2, linecolor='black', # Customizacion Axis Line (lineas de ejes)
        showgrid=True, gridwidth=0.1, gridcolor='grey', griddash='dash', minor_griddash="dot",  # Customización del GRID
        zeroline=False, zerolinewidth=2, zerolinecolor='black', # Customizando 0.
        range=[None, None]
        )
fig6.show()

Podemos ver en el histograma que los datos van desde el año 1992 hasta el 2020. Además, podemos ver como cuanto más antiguo, menos videos tenemos, por lo que el groso de los registros son entre los 2010 más o menos y la actualidad.

Vamos a obtener los nombres de los artistas únicos que aparecen en el dataset, para tener una idea más general de los datos que tenemos.

In [None]:
artists=list(df4['Artist'].dropna().unique())
print(f'Número de artistas únicos: ',len(artists))

Número de artistas únicos:  856


Si recordamos, anteriormente, en el primer dataset, hemos sacado una lista de 254 grupos favoritos entre los fans, ahora podemos preguntarnos, cuántos de estos 856 artistas aparecen entre nuestras bandas favoritas?

In [None]:
artists_en_grupos=[]
artists_no_grupos=[]
for i in artists:
  if i in grupos:
    artists_en_grupos.append(i)
  else:
    artists_no_grupos.append(i)
print(f'Artistas entre los favoritos: ',len(artists_en_grupos))
print(f'Artistas entre los no favoritos: ',len(artists_no_grupos))

Artistas entre los favoritos:  186
Artistas entre los no favoritos:  670


Observamos que entre los 856, solo 186 grupos aparecen entre los favoritos.

Anteriormente hemos sacado dos listas. Una de bandas en activo y con club de fans maculinas y otra de bandas femeninas. A continuación vamos a juntarlas en una sola para obtener un listado de todas las bandas.

In [None]:
grupos_cf=favoritos_m_cf+favoritos_h_cf
print(f'Número de bandas totales: ',len(grupos_cf))

Número de bandas totales:  51


Entre estas 51 bandas favoritas, en activo y con club de fans, vamos a ver cuantas aparecen entre los artistas favoritos anteriores que han sacado canciones.

In [None]:
aux=[]
for i in grupos_cf:
  if i in artists_en_grupos:
    aux.append(i)
print(f'Número de bandas favoritas que aparecen en el dataset de las canciones: ',len(aux))

Número de bandas favoritas que aparecen en el dataset de las canciones:  47


Observamos que hemos reducido la lista a únicamente 47 bandas.

Vamos a analizar ahora las canciones.

De los 47 grupos anteriores vamos a sacar algunos datos.

In [None]:
df4_artistas=df4[df4['Artist'].isin(aux)]
df4_artistas

Unnamed: 0,Date,Artist,Song Name,Korean Name,Video,Type,Year
8,2020-05-18,N.Flying,Amnesia,,https://youtu.be/UcxNeKzdDN4,Boy,2020
11,2020-05-15,Oh My Girl,Dolphin,,https://youtu.be/oaRTMjLdiDw,Girl,2020
13,2020-05-13,Busters,Paeonia,피오니아,https://youtu.be/ocFqqAMooSk,Girl,2020
17,2020-05-11,NU'EST,I'm In Trouble,,https://youtu.be/4Lm9u-iXrDc,Boy,2020
24,2020-05-04,ASTRO,Knock,널 찾아가,https://youtu.be/Zz7YZtpz2Ek,Boy,2020
...,...,...,...,...,...,...,...
3672,2006-03-09,Brown Eyed Girls,Come Closer,다가와서,https://youtu.be/W__OBj1Suwc,Girl,2006
3673,2006-02-24,Super Junior,Miracle,미라클,https://youtu.be/JDgtTGcEJtE,Boy,2006
3676,2005-11-21,BIGBANG,Forever With U,포에버 윗 유,https://youtu.be/GYCD2KUB3WQ,Boy,2005
3677,2005-11-21,BIGBANG,Goodbye Baby,굿바이 베이비,https://youtu.be/smKuwvakHd0,Boy,2005


In [None]:
fig7=px.histogram(df4_artistas, x='Type',
            color='Type',
            title='Tipo de bandas',
            color_discrete_sequence=px.colors.qualitative.Bold,
            template='plotly_white')

fig7.update_layout(
    font = {
        'family':"Times New Roman",
        'size':16,
        'color':'black'
        },
    title={
        'y':0.95,
        'x':0.5,
        'xanchor': 'center',
        'yanchor': 'top',
        'font_family':"Times New Roman",
        'font_size':25,
        'font_color':'black'},
    showlegend=True,
    bargap=0.01)

fig7.update_yaxes(
        title_font = {'size':20, 'color':'black'}, # Customización Elementos del Título.
        ticks="outside", tickwidth=2, tickcolor='black', ticklen=5, # Customización de los Ticks.
        showline=True, linewidth=2, linecolor='black', # Customizacion Axis Line (lineas de ejes)
        showgrid=True, gridwidth=0.1, gridcolor='grey', griddash='dash', minor_griddash=None, # Customización del GRID
        zeroline=False, zerolinewidth=2, zerolinecolor='black', # Customizando 0.
        range=[None, None]
        )

fig7.update_xaxes(
        title_font = {'size':20, 'color':'black'}, # Customización Elementos del Título.
        ticks="outside", tickwidth=2, tickcolor='black', ticklen=10, # Customización de los Ticks.
        showline=True, linewidth=2, linecolor='black', # Customizacion Axis Line (lineas de ejes)
        showgrid=True, gridwidth=0.1, gridcolor='grey', griddash='dash', minor_griddash="dot",  # Customización del GRID
        zeroline=False, zerolinewidth=2, zerolinecolor='black', # Customizando 0.
        range=[None, None]
        )
fig7.show()

Observando este gráfico podemos afirmar casi con certeza que en nuestro festival vamos a contar con más bandas masculinas que femeninas, ya que en el dataset contamos con 673 videos de canciones de hombres y con 171 de mujeres.

Vamos a ver ahora qué bandas tienen más videos en la base de datos.

In [None]:
fig8=px.histogram(df4_artistas, x='Artist',
            color='Artist',
            title='Quién tiene más videos?',
            color_discrete_sequence=px.colors.qualitative.Bold,
            template='plotly_white')

fig8.update_layout(
    font = {
        'family':"Times New Roman",
        'size':16,
        'color':'black'
        },
    title={
        'y':0.95,
        'x':0.5,
        'xanchor': 'center',
        'yanchor': 'top',
        'font_family':"Times New Roman",
        'font_size':25,
        'font_color':'black'},
    showlegend=True,
    bargap=0.01)

fig8.update_yaxes(
        title_font = {'size':20, 'color':'black'}, # Customización Elementos del Título.
        ticks="outside", tickwidth=2, tickcolor='black', ticklen=5, # Customización de los Ticks.
        showline=True, linewidth=2, linecolor='black', # Customizacion Axis Line (lineas de ejes)
        showgrid=True, gridwidth=0.1, gridcolor='grey', griddash='dash', minor_griddash=None, # Customización del GRID
        zeroline=False, zerolinewidth=2, zerolinecolor='black', # Customizando 0.
        range=[None, None]
        )

fig8.update_xaxes(
        title_font = {'size':20, 'color':'black'}, # Customización Elementos del Título.
        ticks="outside", tickwidth=2, tickcolor='black', ticklen=10, # Customización de los Ticks.
        showline=True, linewidth=2, linecolor='black', # Customizacion Axis Line (lineas de ejes)
        showgrid=True, gridwidth=0.1, gridcolor='grey', griddash='dash', minor_griddash="dot",  # Customización del GRID
        zeroline=False, zerolinewidth=2, zerolinecolor='black', # Customizando 0.
        range=[None, None]
        )
fig8.show()

Podemos ver como entre estas 47 bandas, la que menos videos tiene cuenta con 3 videos y la que más con 57, esto puede ser por muchas razones, como por ejemplo que la banda con los 3 videos sea más antigua y que la mayoría de canciones no estén subidas a la plataforma, por lo que no vamos a tener en cuenta este dato para elegir nuestras 10 bandas finales.

A continuación vamos a encaminarnos a nuestra base de datos final con la elección de los grupos.
Para ello vamos a hacer un nuevo dataframe que contenga los grupos con club de fans y en activo. Anteriormente hemos decidido que la cantidad de videos en youtube podía estar sesgada por el año de debut de los grurpos, por lo que vamos a utlizar la base de datos de 51 grupos en vez de la de 47.

In [None]:
todos_artistas=df2[df2['Name'].isin(grupos_cf)]
todos_artistas_1=df3[df3['Name'].isin(grupos_cf)]
todos_artistas=pd.concat([todos_artistas,todos_artistas_1])
todos_artistas

Unnamed: 0,Name,Korean Name,Debut,Company,Members,Fanclub Name,Active
0,100%,백퍼센트,2012-09-18,TOP Media,4,Perfection,Yes
3,24K,투포케이,2012-09-06,Choeun,8,24U,Yes
5,2PM,투피엠,2008-07-04,JYP,6,Hottest,Yes
8,A.C.E,에이스,2017-05-23,Beat,5,Choice,Yes
11,AB6IX,에이비식스,2019-05-22,Brand New,5,ABNEW,Yes
13,ASTRO,아스트로,2016-02-23,Fantagio,6,AROHA,Yes
18,B1A4,비원에이포,2010-04-19,WM,5,BANA,Yes
21,BIGBANG,빅뱅,2006-08-19,YG,4,VIP,Yes
27,Block B,블락비,2011-04-13,KQ,7,BBC,Yes
30,BtoB,비투비,2012-03-21,Cube,7,Melody,Yes


En este dataframe obtenemos los 51 grupos con el día de debut, la productora, los miembros que tiene cada banda, el nombre del club de fans y, como ya sabíamos, la columna de si la banda sigue en activo, con todos los registros es sí, por lo que esta columna la podemos eliminar.

Además, vamos a añadir una columna que nos diga si el grupo es femenino o masculino.

In [None]:
# Función para clasificar los grupos
def clasificar_grupo(artista, lista_masculinos):
    if artista in lista_masculinos:
        return 'Boy'
    else:
        return 'Girl'

todos_artistas['Gender'] = todos_artistas['Name'].apply(clasificar_grupo, args=(favoritos_h_cf,))
todos_artistas=todos_artistas.drop(['Active'], axis=1)
todos_artistas

Unnamed: 0,Name,Korean Name,Debut,Company,Members,Fanclub Name,Gender
0,100%,백퍼센트,2012-09-18,TOP Media,4,Perfection,Boy
3,24K,투포케이,2012-09-06,Choeun,8,24U,Boy
5,2PM,투피엠,2008-07-04,JYP,6,Hottest,Boy
8,A.C.E,에이스,2017-05-23,Beat,5,Choice,Boy
11,AB6IX,에이비식스,2019-05-22,Brand New,5,ABNEW,Boy
13,ASTRO,아스트로,2016-02-23,Fantagio,6,AROHA,Boy
18,B1A4,비원에이포,2010-04-19,WM,5,BANA,Boy
21,BIGBANG,빅뱅,2006-08-19,YG,4,VIP,Boy
27,Block B,블락비,2011-04-13,KQ,7,BBC,Boy
30,BtoB,비투비,2012-03-21,Cube,7,Melody,Boy


In [None]:
todos_artistas.info()

<class 'pandas.core.frame.DataFrame'>
Index: 51 entries, 0 to 132
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   Name          51 non-null     object        
 1   Korean Name   51 non-null     object        
 2   Debut         51 non-null     datetime64[ns]
 3   Company       51 non-null     object        
 4   Members       51 non-null     int64         
 5   Fanclub Name  51 non-null     object        
 6   Gender        51 non-null     object        
dtypes: datetime64[ns](1), int64(1), object(5)
memory usage: 3.2+ KB


Como anteriormente en este tipo de dataframes, vamos a sacar el año de debut de los grupos.

In [None]:
todos_artistas['Year'] = todos_artistas['Debut'].dt.year
todos_artistas

Unnamed: 0,Name,Korean Name,Debut,Company,Members,Fanclub Name,Gender,Year
0,100%,백퍼센트,2012-09-18,TOP Media,4,Perfection,Boy,2012
3,24K,투포케이,2012-09-06,Choeun,8,24U,Boy,2012
5,2PM,투피엠,2008-07-04,JYP,6,Hottest,Boy,2008
8,A.C.E,에이스,2017-05-23,Beat,5,Choice,Boy,2017
11,AB6IX,에이비식스,2019-05-22,Brand New,5,ABNEW,Boy,2019
13,ASTRO,아스트로,2016-02-23,Fantagio,6,AROHA,Boy,2016
18,B1A4,비원에이포,2010-04-19,WM,5,BANA,Boy,2010
21,BIGBANG,빅뱅,2006-08-19,YG,4,VIP,Boy,2006
27,Block B,블락비,2011-04-13,KQ,7,BBC,Boy,2011
30,BtoB,비투비,2012-03-21,Cube,7,Melody,Boy,2012


In [None]:
todos_artistas=todos_artistas.sort_values(by='Year', ascending=False)
todos_artistas

Unnamed: 0,Name,Korean Name,Debut,Company,Members,Fanclub Name,Gender,Year
11,AB6IX,에이비식스,2019-05-22,Brand New,5,ABNEW,Boy,2019
89,ITZY,있지,2019-02-12,JYP,5,Mitzy,Girl,2019
77,GWSN,공원소녀,2018-09-05,Kiwi Pop,7,Groo,Girl,2018
31,Busters,버스터즈,2017-11-27,JTG,5,Bu-Chu,Girl,2017
8,A.C.E,에이스,2017-05-23,Beat,5,Choice,Boy,2017
91,NCT,엔시티,2016-04-09,SM,18,NCTzen,Boy,2016
70,KNK,크나큰,2016-03-03,YNB,5,Tinker Bell,Boy,2016
13,ASTRO,아스트로,2016-02-23,Fantagio,6,AROHA,Boy,2016
106,SF9,에스에프나인,2016-10-05,FNC,9,Fantasy,Boy,2016
139,VICTON,빅톤,2016-11-09,Plan A,7,Alice,Boy,2016


Los datos que tenemos en el proyecto van únicamente hasta el 2020, por lo que vamos a ampliar esta información hasta el 2024.

Hemos buscado los grupos de k-pop más influyentes en los últimos 4 años. Esto es importante porque los grupos que han triunfado en los últimos años suele ser más probable que sigan triunfando en los años próximos.

Enlace página grupos k-pop 2024: https://routenote.com/es/blog/los-10-artistas-de-k-pop-mas-seguidos-en-spotify-en-2024/

In [None]:
grupos_2024=['BTS','BLACKPINK','TWICE','V','j-hope','RM','Stray Kids','Jung Kook','Agust D','SEVETEEN']

Enlace página grupos k-pop 2023: https://www.publimetro.com.mx/entretenimiento/2023/12/11/kpop-spotify-lo-mas-escuchado-de-2023-bts-blackpink-newjeans-artistas-y-grupos/

In [None]:
grupos_2023=['BTS','BLACKPINK','Jung Kook','NewJeans','Stray Kids','Jimin','TWICE','SEVENTEEN',
             'TXT','LE SSERAFIM','V','ENHYPEN','FIFTY FIFTY','(G)I-DALE','IVE',
             'Agust D','aespa','NCT DREAM','LISA','j-hope']

Enlace página grupos k-pop 2022: https://www.univision.com/musica/bts-ateez-txt-straykids-los-grupos-de-k-pop-que-rompieron-este-2022-y-no-pueden-faltar-en-tu-2023-playlist

In [None]:
grupos_2022=['BTS','STRAY KIDS','ATEEZ','DRIPPIN','BLACKPINK','BIGANG','TWICE','TXT','ITZY','ENHYPEN']

Enlace página grupos k-pop 2021: https://www.soundpark.news/noticias/Conoce-el-top-10-de-los-grupos-de-K-Pop-mas-influyentes-de-2021-en-el-mundo-20210706-0010.html

In [None]:
grupos_2021=['NCT','BTS','BAEKHYUN','EXO','SEVENTEEN','IU','Rosé','TXT','BLACKPINK','TWICE']

Una vez ya tenemos toda la información de los últimos 4 años en listas vamos a comprobar con cuanta frecuencia se repiten estos nombres.

In [None]:
conteo_grupos = {}
for grupo in grupos_2021:
    if grupo in conteo_grupos:
        conteo_grupos[grupo] += 1
    else:
        conteo_grupos[grupo] = 1

In [None]:
for grupo in grupos_2022:
    if grupo in conteo_grupos:
        conteo_grupos[grupo] += 1
    else:
        conteo_grupos[grupo] = 1

In [None]:
for grupo in grupos_2023:
    if grupo in conteo_grupos:
        conteo_grupos[grupo] += 1
    else:
        conteo_grupos[grupo] = 1

In [None]:
for grupo in grupos_2024:
    if grupo in conteo_grupos:
        conteo_grupos[grupo] += 1
    else:
        conteo_grupos[grupo] = 1

In [None]:
df_grupos_nuevos=pd.DataFrame(list(conteo_grupos.items()), columns=['Grupo', 'Frecuencia'])
df_grupos_nuevos=df_grupos_nuevos.sort_values(by='Frecuencia', ascending=False)
df_grupos_nuevos

Unnamed: 0,Grupo,Frecuencia
9,TWICE,4
1,BTS,4
8,BLACKPINK,4
7,TXT,3
21,V,2
15,ENHYPEN,2
25,Agust D,2
16,Jung Kook,2
4,SEVENTEEN,2
29,j-hope,2


Podemos ver que, en los últimos 4 años, hay 3 gruoos que están presentes en todos estos años y 1 grupo que está presente en 3 de los últimos 4 años.

Estos 4 grupos van a ser los primeros elegidos para nuestro festival.

In [None]:
df_grupos_nuevos=df_grupos_nuevos[:4]
df_grupos_nuevos

Unnamed: 0,Grupo,Frecuencia
9,TWICE,4
1,BTS,4
8,BLACKPINK,4
7,TXT,3


Como hemos dicho al principio, los clubs de fans son muy importantes.
Un grupo con club de fans mueve a mucha más gente que uno sin, y nosotros queremos que a nuestro festival venga el máximo número de gente posible, por lo que vamos a analizar cuales son los Fandoms más potentes en el mundo del k-pop actualmente.

Enlace principales fandoms: https://es.quora.com/Aparte-de-Army-cu%C3%A1les-son-los-fandoms-m%C3%A1s-grande-dentro-del-K-pop

In [None]:
nombres_cf=['ARMY','BLINK','ONCE','STAY','NCTzen','EXO-L','MOA','CARAT']

Ahora vamos a ver cuales de estos fandoms aparecen en nuestro dataset.

In [None]:
nombres_fandoms=list(todos_artistas['Fanclub Name'])
nombres_fandoms

['ABNEW',
 'Mitzy',
 'Groo',
 'Bu-Chu',
 'Choice',
 'NCTzen',
 'Tinker Bell',
 'AROHA',
 'Fantasy',
 'Alice',
 'iKONIC',
 'HONEY10',
 'AID',
 'Chesire',
 'N.Fia',
 'Buddy',
 'Miracle',
 'Carat',
 'Ace',
 'Lovelinus',
 'Unicorn',
 'Moomoo',
 'Solbangul',
 'Monbebe',
 'I GOT7',
 'ARMY',
 'Perfection',
 'Starlight',
 '24U',
 'LOΛΕ',
 'Melody',
 'LEGO',
 'Chromosome',
 'EXO-L',
 'BBC',
 'Pink Panda',
 'MYgirl',
 'Inspirit',
 'Angel',
 'Boice',
 'Cassiopeia',
 'BANA',
 'B2uty',
 'A+',
 'Kissme',
 'Shawol',
 'Hottest',
 'Primadonna',
 'Everlasting',
 'VIP',
 'ELF']

In [None]:
mejores_fandoms=[]
for i in nombres_fandoms:
  if i in nombres_cf:
    mejores_fandoms.append(i)
print(f'Fandoms en nuestra base de datos: ', mejores_fandoms)

Fandoms en nuestra base de datos:  ['NCTzen', 'ARMY', 'EXO-L']


Pero, ¿a qué grupo hace referencia cada fandom?

In [None]:
fandoms = todos_artistas[todos_artistas['Fanclub Name'].isin(mejores_fandoms)]
lista_def=list(fandoms['Name'])
print(f'Grupos con los fandoms más potentes: ', lista_def)

Grupos con los fandoms más potentes:  ['NCT', 'BTS', 'EXO']


Vamos a ir haciendo nuestra lista final añadiendo a los grupos que acabamos de obtener.

In [None]:
lista_def1=list(df_grupos_nuevos['Grupo'])
for i in lista_def1:
  if i not in lista_def:
    lista_def.append(i)
print(f'Lista provisional: ',lista_def, len(lista_def))

Lista provisional:  ['NCT', 'BTS', 'EXO', 'TWICE', 'BLACKPINK', 'TXT'] 6


A continuación, vamos a hacer un análisis de las mejores discográficas, ya que, depende de la discográfica, un grupo se puede hacer más famoso y puede ir a más eventos o festivales, por lo que se hace más conocido y más seguido.

Enlace mejores sellos discográficos de k-pop: https://www.eleconomista.es/mercados-cotizaciones/noticias/12306353/06/23/la-fiebre-del-kpop-se-aduena-de-los-mercados-con-subidas-del-100-y-conquista-a-los-analistas.html

In [None]:
mejores_sellos_discográficos=['Hybe','SM','YG','JYP']

Comprobamos de todos los grupos anteriores cuantos están asociados a los sellos anteriores.

In [None]:
sellos = todos_artistas[todos_artistas['Company'].isin(mejores_sellos_discográficos)]
sellos

Unnamed: 0,Name,Korean Name,Debut,Company,Members,Fanclub Name,Gender,Year
89,ITZY,있지,2019-02-12,JYP,5,Mitzy,Girl,2019
91,NCT,엔시티,2016-04-09,SM,18,NCTzen,Boy,2016
59,iKON,아이콘,2015-09-15,YG,6,iKONIC,Boy,2015
145,WINNER,위너,2014-08-12,YG,4,Ace,Boy,2014
48,GOT7,갓세븐,2014-01-16,JYP,7,I GOT7,Boy,2014
43,EXO,엑소,2012-04-08,SM,9,EXO-L,Boy,2012
108,SHINee,샤이니,2008-05-22,SM,4,Shawol,Boy,2008
5,2PM,투피엠,2008-07-04,JYP,6,Hottest,Boy,2008
21,BIGBANG,빅뱅,2006-08-19,YG,4,VIP,Boy,2006
116,Super Junior,슈퍼주니어,2005-11-06,SM,11,ELF,Boy,2005


Vemos que entre estos grupos aparecen algunos que ya teníamos, por lo que vamos a eliminarlos para que no nos molesten.

In [None]:
sellos = sellos.drop([91,43])
sellos

Unnamed: 0,Name,Korean Name,Debut,Company,Members,Fanclub Name,Gender,Year
89,ITZY,있지,2019-02-12,JYP,5,Mitzy,Girl,2019
59,iKON,아이콘,2015-09-15,YG,6,iKONIC,Boy,2015
145,WINNER,위너,2014-08-12,YG,4,Ace,Boy,2014
48,GOT7,갓세븐,2014-01-16,JYP,7,I GOT7,Boy,2014
108,SHINee,샤이니,2008-05-22,SM,4,Shawol,Boy,2008
5,2PM,투피엠,2008-07-04,JYP,6,Hottest,Boy,2008
21,BIGBANG,빅뱅,2006-08-19,YG,4,VIP,Boy,2006
116,Super Junior,슈퍼주니어,2005-11-06,SM,11,ELF,Boy,2005


Como hemos dicho antes, el año es muy importante, ya que, aunque pueden haber grupos con un debut anterior y que sigan siendo de los más seguidos, la realidad es que los grupos con unos 5 años de antigüedad suelen ser los más consolidados, ya que han pasado por el principio, se han ganado su fama y ahora tienen a sus seguidores muy claros. Por contra, un grupo que lleva 20 años encima de los escenarios suele ser menos seguido, ya que los fans de estos grupos han cambiado de época en su vida y puede ser que escuchen sus canciones en casa pero que no vayan a los conciertos.

Por este motivo, vamos a coger los 4 primeros grupos, ordenados por año de debut, para completar la lista de los 10 grupos para nuestro festival.

In [None]:
sellos=sellos[:4]
sellos

Unnamed: 0,Name,Korean Name,Debut,Company,Members,Fanclub Name,Gender,Year
89,ITZY,있지,2019-02-12,JYP,5,Mitzy,Girl,2019
59,iKON,아이콘,2015-09-15,YG,6,iKONIC,Boy,2015
145,WINNER,위너,2014-08-12,YG,4,Ace,Boy,2014
48,GOT7,갓세븐,2014-01-16,JYP,7,I GOT7,Boy,2014


Obtenemos ahora los nombres de estos grupos.

In [None]:
sellos_names=list(sellos['Name'])
for i in sellos_names:
  lista_def.append(i)

In [None]:
lista_def

['NCT',
 'BTS',
 'EXO',
 'TWICE',
 'BLACKPINK',
 'TXT',
 'ITZY',
 'iKON',
 'WINNER',
 'GOT7']

Para terminar realizamos el dataframe final con todos los datos que queremos.

In [None]:
df_final1=df2[df2['Name'].isin(lista_def)]
df_final2=df3[df3['Name'].isin(lista_def)]
df_final=pd.concat([df_final1,df_final2])
df_final=df_final.reset_index()
df_final=df_final.drop(['index','Active'],axis=1)
df_final['Gender'] = ['Boy','Boy','Boy','Boy','Boy','Boy','Boy','Girl','Girl','Girl']
df_final

Unnamed: 0,Name,Korean Name,Debut,Company,Members,Fanclub Name,Gender
0,BTS,방탄소년단,2013-06-13,Big Hit,7,ARMY,Boy
1,EXO,엑소,2012-04-08,SM,9,EXO-L,Boy
2,GOT7,갓세븐,2014-01-16,JYP,7,I GOT7,Boy
3,iKON,아이콘,2015-09-15,YG,6,iKONIC,Boy
4,NCT,엔시티,2016-04-09,SM,18,NCTzen,Boy
5,TXT,투모로우바이투게더,2019-03-04,Big Hit,5,,Boy
6,WINNER,위너,2014-08-12,YG,4,Ace,Boy
7,BLACKPINK,블랙핑크,2016-08-08,YG,4,,Girl
8,ITZY,있지,2019-02-12,JYP,5,Mitzy,Girl
9,TWICE,트와이스,2015-10-20,JYP,9,Once,Girl


Aunque este dataframe sale que TXT y BLACKPINK no tiene club de fans esto no es la realidad, por lo que vamos a cambiar esto para tener la base de datos bien.

In [None]:
df_final.iloc[5,5]='MOA'
df_final.iloc[7,5]='BLINK'
df_final

Unnamed: 0,Name,Korean Name,Debut,Company,Members,Fanclub Name,Gender
0,BTS,방탄소년단,2013-06-13,Big Hit,7,ARMY,Boy
1,EXO,엑소,2012-04-08,SM,9,EXO-L,Boy
2,GOT7,갓세븐,2014-01-16,JYP,7,I GOT7,Boy
3,iKON,아이콘,2015-09-15,YG,6,iKONIC,Boy
4,NCT,엔시티,2016-04-09,SM,18,NCTzen,Boy
5,TXT,투모로우바이투게더,2019-03-04,Big Hit,5,MOA,Boy
6,WINNER,위너,2014-08-12,YG,4,Ace,Boy
7,BLACKPINK,블랙핑크,2016-08-08,YG,4,BLINK,Girl
8,ITZY,있지,2019-02-12,JYP,5,Mitzy,Girl
9,TWICE,트와이스,2015-10-20,JYP,9,Once,Girl


In [None]:
df_final.to_csv('df_final.csv', index=False)