En la última década, las plataformas de streaming han transformado la manera en que consumimos entretenimiento, ofreciendo un medio interactivo y en tiempo real para conectar a creadores con sus audiencias. Entre estas plataformas, **Twitch** se ha consolidado como el líder indiscutible en la transmisión de contenido en vivo, especialmente en el ámbito de los videojuegos. Durante la pandemia, Twitch experimentó un boom de creadores y espectadores, y mi mejor amigo fue uno de ellos. Empezó como un hobby, transmitiendo juegos y creando una pequeña comunidad que, con el tiempo, ha ido creciendo. Aunque aún no es famoso, sueña con vivir de esto y convertirlo en su carrera.

Siempre me ha interesado cómo funciona Twitch, y viendo su esfuerzo diario, decidí ayudarlo. Quiero analizar datos de la plataforma para identificar qué estrategias, comportamientos o patrones pueden hacer que un streamer destaque y crezca más rápido. Mi objetivo es responder a la pregunta: **"¿De qué forma sería más fácil que mi amigo se haga famoso y pueda vivir de Twitch?"** y ofrecerle recomendaciones claras basadas en evidencia.

<b>El siguiente proyecto se dividirá en 3 secciones:</p></b>
<li>Limpieza y carga de datos
<li>Análisis exploratorio univariado
<li>Análisis exploratorio bivariado </li>

<b><h3> Limpieza y Carga de Datos </h3></b>

Como primer paso, debemos instalar los paquetes que utilizaremos en este proyecto:

In [3]:
library(readr)
library(tidyverse)
library(dplyr)
library(naniar)
library(knitr)
library(ggcorrplot)

In [6]:
tabla_descripcion <- data.frame(
  Variable = c("RANK", "NAME", "LANGUAGE", "TYPE", "MOST_STREAMED_GAME", 
               "2ND_MOST_STREAMED_GAME", "AVERAGE_STREAM_DURATION", 
               "FOLLOWERS_GAINED_PER_STREAM", "AVG_VIEWERS_PER_STREAM",
               "AVG_GAMES_PER_STREAM","TOTAL_TIME_STREAMED","TOTAL_FOLLOWERS",
               "TOTAL_VIEWS", "TOTAL_GAMES_STREAMED", "ACTIVE_DAYS_PER_WEEK",
               "MOST_ACTIVE_DAY", "DAY_WITH_MOST_FOLLOWERS_GAINED"),
  Descripcion = c("Ranking del streamer", "Nickname del streamer", 
                  "Idioma del stream", "Tipo de stream", 
                  "Juego más streameado", "Segundo juego más streameado", 
                  "Duración del stream en horas", "Seguidores ganados por stream", 
                  "Cantidad de viewers por stream", "Cantidad de juegos por stream",
                  "Tiempo total stremeado en horas", "Cantidad total de seguidores",
                  "Cantidad total de vistas", "Cantidad total de juegos streameados",
                  "Cantidad de días activo por semana","Día más activo", 
                  "Día con más seguidores conseguidos"))

In [7]:
kable(tabla_descripcion)



|Variable                       |Descripcion                          |
|:------------------------------|:------------------------------------|
|RANK                           |Ranking del streamer                 |
|NAME                           |Nickname del streamer                |
|LANGUAGE                       |Idioma del stream                    |
|TYPE                           |Tipo de stream                       |
|MOST_STREAMED_GAME             |Juego más streameado                 |
|2ND_MOST_STREAMED_GAME         |Segundo juego más streameado         |
|AVERAGE_STREAM_DURATION        |Duración del stream en horas         |
|FOLLOWERS_GAINED_PER_STREAM    |Seguidores ganados por stream        |
|AVG_VIEWERS_PER_STREAM         |Cantidad de viewers por stream       |
|AVG_GAMES_PER_STREAM           |Cantidad de juegos por stream        |
|TOTAL_TIME_STREAMED            |Tiempo total stremeado en horas      |
|TOTAL_FOLLOWERS                |Cantidad total de seguidores 

En este proyecto me voy a enfocar en distintas métricas que permitan responder a la pregunta inicial. Estas serán principalmente el **IDIOMA, JUEGOS MÁS STREMEADOS, DÍAS MÁS ACTIVOS, DURACIÓN PROMEDIO DE STREAMS, SEGUIDORES GANADOS POR STREAM**. Si bien esta data representa el TOP 1000 de Streamers en la plataforma, nos da una visión general del comportamiento y/o tendencias para posteriormente, realizar conclusiones propias.

In [8]:
data_twitch <- read_csv("dataset/datasetV2.csv")

[1mRows: [22m[34m999[39m [1mColumns: [22m[34m17[39m
[36m──[39m [1mColumn specification[22m [36m────────────────────────────────────────────────────────[39m
[1mDelimiter:[22m ","
[31mchr[39m  (7): NAME, LANGUAGE, TYPE, MOST_STREAMED_GAME, 2ND_MOST_STREAMED_GAME, ...
[32mdbl[39m (10): RANK, AVERAGE_STREAM_DURATION, FOLLOWERS_GAINED_PER_STREAM, AVG_VI...

[36mℹ[39m Use `spec()` to retrieve the full column specification for this data.
[36mℹ[39m Specify the column types or set `show_col_types = FALSE` to quiet this message.


In [9]:
head(data_twitch, 20)

RANK,NAME,LANGUAGE,TYPE,MOST_STREAMED_GAME,2ND_MOST_STREAMED_GAME,AVERAGE_STREAM_DURATION,FOLLOWERS_GAINED_PER_STREAM,AVG_VIEWERS_PER_STREAM,AVG_GAMES_PER_STREAM,TOTAL_TIME_STREAMED,TOTAL_FOLLOWERS,TOTAL_VIEWS,TOTAL_GAMES_STREAMED,ACTIVE_DAYS_PER_WEEK,MOST_ACTIVE_DAY,DAY_WITH_MOST_FOLLOWERS_GAINED
<dbl>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>,<chr>
1,kaicenat,English,personality,Just Chatting,I'm Only Sleeping,7.6,18405,15852,2.3,4698,10600000,9150000,194,3.6,Friday,Saturday
2,jynxzi,English,personality,Tom Clancy's Rainbow Six Siege,NBA 2K20,5.4,3386,1145,1.2,8407,5760000,1950000,54,5.6,Tuesday,Sunday
3,caedrel,English,personality,League of Legends,I'm Only Sleeping,6.3,689,12331,1.3,6728,797000,14200000,111,2.8,Thursday,Sunday
4,caseoh_,English,personality,NBA 2K23,Just Chatting,4.6,7185,0,3.6,2554,4220000,53,385,6.2,Friday,Monday
5,ibai,Spanish,personality,Just Chatting,League of Legends,4.1,8289,190714,1.5,6865,15600000,359000000,149,4.3,Wednesday,Saturday
6,auronplay,Spanish,personality,Minecraft,Just Chatting,3.7,1326,213849,1.8,4482,16300000,263000000,169,5.0,Wednesday,Sunday
7,zerator,French,personality,World of Warcraft,VALORANT,5.1,6670,70813,1.6,9845,1570000,156000000,448,5.0,Sunday,Sunday
8,tarik,English,personality,VALORANT,Counter-Strike,7.6,2013,6043,1.3,10995,3110000,93300000,78,3.7,Thursday,Sunday
9,riotgames,English,esports,League of Legends,League of Legends: Wild Rift,8.5,3434,346968,1.0,9459,6860000,1339000,8,2.8,Saturday,Sunday
10,papaplatte,German,personality,Just Chatting,Minecraft,7.6,1273,48758,2.8,13979,2410000,92800000,503,4.7,Wednesday,Saturday


In [10]:
miss_var_summary(data_twitch)

variable,n_miss,pct_miss
<chr>,<int>,<num>
2ND_MOST_STREAMED_GAME,77,7.71
RANK,0,0.0
NAME,0,0.0
LANGUAGE,0,0.0
TYPE,0,0.0
MOST_STREAMED_GAME,0,0.0
AVERAGE_STREAM_DURATION,0,0.0
FOLLOWERS_GAINED_PER_STREAM,0,0.0
AVG_VIEWERS_PER_STREAM,0,0.0
AVG_GAMES_PER_STREAM,0,0.0


Después de analizar a que corresponde cada variable y que información nos van a dar a lo largo del proyecto, vemos que las "clases" están definidas correctamente.

También se analizan los datos faltantes de nuestra base para decidir que hacer con ellos. En este caso, podemos ver que solo existe una variable con **n_miss** y es la **2ND_MOST_STREAMED_GAME**. Esto tiene sentido, ya que existen streamers que solo se muestran jugando un juego y por ende esta variable quedaría sin información. Para efectos de manipulación de los títulos, los cambiaremos a letras minúsculas y la variable **2ND_MOST_STREAMED_GAME** será modificada solamente por letras.Reemplazaremos los valores faltantes de esta variable por la etiqueta **Sin juego**.

In [11]:
data_twitch <- rename(data_twitch, SECOND_MOST_STREAMED_GAME = `2ND_MOST_STREAMED_GAME`)

In [12]:
print(data_twitch)

[90m# A tibble: 999 × 17[39m
    RANK NAME       LANGUAGE TYPE      MOST_STREAMED_GAME SECOND_MOST_STREAMED…¹
   [3m[90m<dbl>[39m[23m [3m[90m<chr>[39m[23m      [3m[90m<chr>[39m[23m    [3m[90m<chr>[39m[23m     [3m[90m<chr>[39m[23m              [3m[90m<chr>[39m[23m                 
[90m 1[39m     1 kaicenat   English  personal… Just Chatting      I'm Only Sleeping     
[90m 2[39m     2 jynxzi     English  personal… Tom Clancy's Rain… NBA 2K20              
[90m 3[39m     3 caedrel    English  personal… League of Legends  I'm Only Sleeping     
[90m 4[39m     4 caseoh_    English  personal… NBA 2K23           Just Chatting         
[90m 5[39m     5 ibai       Spanish  personal… Just Chatting      League of Legends     
[90m 6[39m     6 auronplay  Spanish  personal… Minecraft          Just Chatting         
[90m 7[39m     7 zerator    French   personal… World of Warcraft  VALORANT              
[90m 8[39m     8 tarik      English  personal… VALORAN

In [13]:
names(data_twitch) <- str_to_lower(names(data_twitch))

In [14]:
data_twitch <- data_twitch %>%
  mutate(second_most_streamed_game = replace_na(second_most_streamed_game, "Sin juego"))

In [15]:
print(data_twitch)

[90m# A tibble: 999 × 17[39m
    rank name       language type      most_streamed_game second_most_streamed…¹
   [3m[90m<dbl>[39m[23m [3m[90m<chr>[39m[23m      [3m[90m<chr>[39m[23m    [3m[90m<chr>[39m[23m     [3m[90m<chr>[39m[23m              [3m[90m<chr>[39m[23m                 
[90m 1[39m     1 kaicenat   English  personal… Just Chatting      I'm Only Sleeping     
[90m 2[39m     2 jynxzi     English  personal… Tom Clancy's Rain… NBA 2K20              
[90m 3[39m     3 caedrel    English  personal… League of Legends  I'm Only Sleeping     
[90m 4[39m     4 caseoh_    English  personal… NBA 2K23           Just Chatting         
[90m 5[39m     5 ibai       Spanish  personal… Just Chatting      League of Legends     
[90m 6[39m     6 auronplay  Spanish  personal… Minecraft          Just Chatting         
[90m 7[39m     7 zerator    French   personal… World of Warcraft  VALORANT              
[90m 8[39m     8 tarik      English  personal… VALORAN

Corroboramos que se hayan aplicado los cambios y que ya no tenemos valores faltantes:

In [16]:
filtro_sin_juego <- data_twitch %>% 
  filter(second_most_streamed_game == "Sin juego") %>% 
  group_by(second_most_streamed_game) %>% 
  summarize(count = n())

In [17]:
print(filtro_sin_juego)

[90m# A tibble: 1 × 2[39m
  second_most_streamed_game count
  [3m[90m<chr>[39m[23m                     [3m[90m<int>[39m[23m
[90m1[39m Sin juego                    77


In [None]:
miss_var_summary(data_twitch)

variable,n_miss,pct_miss
<chr>,<int>,<num>
rank,0,0
name,0,0
language,0,0
type,0,0
most_streamed_game,0,0
second_most_streamed_game,0,0
average_stream_duration,0,0
followers_gained_per_stream,0,0
avg_viewers_per_stream,0,0
avg_games_per_stream,0,0


Finalizando el primer paso del proyecto correspondiente a la limpieza y carga de datos, podemos ver que no tenemos datos faltantes y podrémos iniciar con el análisis exploratorio.





