In [41]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import ttest_ind
import plotly.express as px

In [42]:
import pandas as pd

# Ruta del archivo
file_path = 'Top_Youtubers_Dataset.csv'

# Intentar leer el archivo con un códec diferente
try:
    df = pd.read_csv(file_path, encoding='latin1')
    print(df.head())
except UnicodeDecodeError as e:
    print(f"Error al decodificar el archivo: {e}")

   Rank                    Youtuber  Subscribers   Video Views  Video Count  \
0     1                     MrBeast    284000000  5.240290e+10          803   
1     2                    T-Series    268000000  2.586240e+11        21237   
2     3              YouTube Movies    181000000  0.000000e+00            0   
3     4  Cocomelon - Nursery Rhymes    177000000  1.828810e+11         1188   
4     5                   SET India    174000000  1.653950e+11       139720   

           Category  Started  
0     Entertainment     2012  
1             Music     2006  
2  Film & Animation     2015  
3         Education     2006  
4             Shows     2006  


In [43]:
# poner el nombre de las columnas en minuscula y los espacios los cambiamos por "_"
df.columns = [col.lower().replace(' ', '_') for col in df.columns]
df.head(10)


Unnamed: 0,rank,youtuber,subscribers,video_views,video_count,category,started
0,1,MrBeast,284000000,52402900000.0,803,Entertainment,2012
1,2,T-Series,268000000,258624000000.0,21237,Music,2006
2,3,YouTube Movies,181000000,0.0,0,Film & Animation,2015
3,4,Cocomelon - Nursery Rhymes,177000000,182881000000.0,1188,Education,2006
4,5,SET India,174000000,165395000000.0,139720,Shows,2006
5,6,? Kids Diana Show,123000000,103973000000.0,1230,People & Blogs,2015
6,7,Music,121000000,0.0,0,,2013
7,8,Vlad and Niki,120000000,91646190000.0,730,Entertainment,2018
8,9,Like Nastya,116000000,101394000000.0,886,People & Blogs,2016
9,10,PewDiePie,111000000,29321160000.0,4767,Gaming,2010


In [28]:
#número de suscriptores por categorías
subscribers_by_category = df.groupby('category')['subscribers'].sum().reset_index()
subscribers_by_category = subscribers_by_category.sort_values(by='subscribers', ascending=False)
subscribers_by_category

Unnamed: 0,category,subscribers
3,Entertainment,6732200000
8,Music,5093800000
11,People & Blogs,3792300000
5,Gaming,2181800000
1,Comedy,1732400000
4,Film & Animation,1473900000
2,Education,1278700000
6,Howto & Style,678300000
9,News & Politics,662600000
14,Shows,605200000


In [50]:
# Crear el gráfico de barras interactivo con Plotly Express
fig = px.bar(subscribers_by_category, x='category', y='subscribers', 
             title='Número de Suscriptores por Categoría', text='subscribers', color='category')

# Ocultar las etiquetas del eje x
fig.update_xaxes(showticklabels=False)

# Mostrar el gráfico
fig.show()

Podemos observar que la categoría de Entretenimiento domina claramente en YouTube, atrayendo a casi 6.7 mil millones de suscriptores. Esta cifra destaca la popularidad y el amplio alcance de los contenidos de entretenimiento en la plataforma. En segundo lugar, la categoría de Música también muestra un gran atractivo, con un total de 5 mil millones de suscriptores. Estas cifras reflejan las preferencias de los usuarios de YouTube, que gravitan en gran medida hacia contenidos que ofrecen diversión y música.

In [57]:
top_channels = df.nlargest(10, 'subscribers')

# Crear el gráfico de barras interactivo con Plotly Express
fig = px.bar(top_channels, x='youtuber', y='subscribers', 
             title='Top 10 YouTubers by Subscribers', text='youtuber', color='youtuber')

# Ocultar las etiquetas del eje x
fig.update_xaxes(showticklabels=False)

# Mostrar el gráfico
fig.show()

MrBeast es extremadamente popular en YouTube, acumulando un impresionante total de 284 millones de suscriptores en su canal. Además, observamos una gran popularidad en los canales de música provenientes de la India, lo que probablemente se deba a la alta población del país. Otro aspecto destacado es la prevalencia de canales especializados para niños en el top 10. Esto sugiere que los niños de temprana edad son grandes consumidores de contenido en YouTube, dedicando una parte significativa de su tiempo diario a ver videos en la plataforma.



In [61]:
# Analizar cuántas vistas tienen los videos de cada categoría para identificar cuáles generan más engagement.
# Agrupar y sumar vistas de videos por categoría
views_by_category = df.groupby('category')['video_views'].sum().reset_index()

# Ordenar por vistas de videos de mayor a menor
views_by_category = views_by_category.sort_values(by='video_views', ascending=False)

# Crear el gráfico de barras interactivo con Plotly Express
fig = px.bar(views_by_category, x='category', y='video_views', 
             title='Número de Vistas x billones de Videos por Categoría', text='category', color='category')

# Ocultar las etiquetas del eje x
fig.update_xaxes(showticklabels=False)

# Mostrar el gráfico
fig.show()

La categoría de Entretenimiento es la más consumida en YouTube, acumulando un asombroso total de 3.5 Trillones de visitas. Le sigue de cerca la categoría de Música, con 3.1 trillones de visitas. En tercer lugar, encontramos People & Blogs, que alcanza 1.8 trillones de visitas. Juntas, estas tres categorías representan más del 50% del consumo total en YouTube, lo que subraya su enorme popularidad y la preferencia de los usuarios por estos tipos de contenido.

In [67]:
# Ordenar por número de videos publicados de mayor a menor
df_sorted_video_count = df.sort_values(by='video_count', ascending=False)

# Seleccionar los 20 Youtubers más populares por número de videos publicados
df_top_20_video_count = df_sorted_video_count.head(20)

# Crear el gráfico de barras interactivo con Plotly Express
fig = px.bar(df_top_20_video_count, x='youtuber', y='video_count', 
             title='Top 20 canales Youtube por Número de Videos Publicados', text='video_count', color='youtuber')

# Ocultar las etiquetas del eje x
fig.update_xaxes(showticklabels=False)

# Mostrar el gráfico
fig.show()

Se puede desmentir la teoría de que publicar más videos garantiza mayor popularidad en YouTube. Los datos sugieren que los usuarios consumen contenido basado en sus intereses y preferencias personales. Un ejemplo de esto es el canal TV9, que ha subido una gran cantidad de contenido debido a su naturaleza como canal de televisión y noticias en India. Aunque TV9 puede ser popular a nivel nacional, no todos los usuarios globales están interesados en las noticias de ese país, lo que limita su popularidad internacional.

In [81]:
# Contar el número de Youtubers que iniciaron en cada año
started_counts = df['started'].value_counts().reset_index()


fig = px.pie(started_counts, 
             names='started', 
             values='count', 
             title='Número de Youtubers que Iniciaron por Año')
# Mostrar el gráfico
fig.show()

Entre los 1000 canales más populares de YouTube, el 10% corresponde a canales que iniciaron en el año 2014, lo que significa que llevan más de 10 años en el mercado compartiendo información y creando contenido. Esto demuestra la importancia de la persistencia y el tiempo en la plataforma. En contraste, los canales que comenzaron recientemente, en los años 2022 y 2023, aún no han alcanzado la misma popularidad. Estos nuevos canales probablemente necesiten perseverar y continuar creciendo, ya que la industria de seguidores en YouTube es altamente competitiva y agresiva. La competencia es intensa debido a las significativas ganancias que se pueden obtener a nivel mundial.