<a href="https://colab.research.google.com/github/httpsemilly/webtoon-comics-analysis/blob/main/webtoon_comics_analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Webtoon Comics Analysis

## 1. Introdução

Nos últimos anos, o mercado de *webtoons*, histórias em quadrinhos feitas para o meio digital, teve um crescimento significativo e conquistou uma vasta audiência ao redor do mundo. Devido a isso, a análise de dados de plataformas como o Webtoon oferece uma oportunidade de se compreender as preferências dos leitores e as dinâmicas que veem impulsionando a popularidade desse tipo de obra.

Esse projeto visa explorar as tendências e os padrões presentes no dataset [Webtoon Comics Dataset](https://www.kaggle.com/datasets/swarnimrai/webtoon-comics-dataset/data), o qual possui informações de mais de 500 webtoons originais da plataforma Webtoon. Serão usadas métricas como curtidas, assinaturas, avaliações e gêneros com objetivo de desvendar padrões de popularidade, entender as preferências dos leitores e identificar fatores que contribuem para o engajamento e o sucesso dos webtoons.

A partir da análise dos dados, busca-se responder as seguintes perguntas:

1. Quais gêneros de webtoons têm, em média, mais curtidas ou assinantes?
2. Existe alguma correlação entre a avaliação média (rating) e o número de curtidas ou assinantes?
3. Quais são os webtoons mais bem avaliados em cada gênero?
4. Existe uma relação entre a frequência de atualizações e a avaliação dos webtoons?
5. Existe um dia da semana que é mais comum para lançamentos de novos capítulos?
6. Quais dias da semana geram mais interação (curtidas, assinantes) com os webtoons?
7. Há um padrão de popularidade com base no dia de atualização?
8. Quais gêneros são mais populares em termos de assinantes, curtidas e avaliações?
9. Autores que escrevem para vários gêneros têm resultados diferentes dependendo do gênero?

## 2. Carregamento de bibliotecas

A seguir são carregadas as principais bibliotecas que serão usadas nesse projeto.

In [53]:
import pandas as pd
import numpy as np
import plotly.express as px

## 3. Coleta e importação de dados

Os dados utilizados nesse projeto vêm do dataset [Webtoon Comics Dataset](https://www.kaggle.com/datasets/swarnimrai/webtoon-comics-dataset/data) disponibilizado no Kaggle pelo Swarnim Rai.

A seguir está o código que importa o dataset e mostra as 15 primeiras linhas disponíveis nele.

In [115]:
url = 'webtoon_comics_dataset.csv'
df_webtoon_comics = pd.read_csv(url)
df_webtoon_comics.head(n = 15)

Unnamed: 0,id,Name,Writer,Likes,Genre,Rating,Subscribers,Summary,Update,Reading Link
0,0,Let's Play,Leeanne M. Krecic (Mongie),30.6M,Romance,9.62,4.2M,"She's young, single and about to achieve her d...",UP EVERY TUESDAY,https://www.webtoons.com/en/romance/letsplay/l...
1,1,True Beauty,Yaongyi,39.9M,Romance,9.6,6.4M,"After binge-watching beauty videos online, a s...",UP EVERY WEDNESDAY,https://www.webtoons.com/en/romance/truebeauty...
2,2,Midnight Poppy Land,Lilydusk,10.4M,Romance,9.81,2.1M,After making a grisly discovery in the country...,UP EVERY SATURDAY,https://www.webtoons.com/en/romance/midnight-p...
3,3,Age Matters,Enjelicious,25.9M,Romance,9.79,3.5M,She's a hopeless romantic who's turning 30's ...,UP EVERY WEDNESDAY,https://www.webtoons.com/en/romance/age-matter...
4,4,Unholy Blood,Lina Im / Jeonghyeon Kim,9.9M,Supernatural,9.85,1.5M,When vampires destroy her chance to have the n...,UP EVERY THURSDAY,https://www.webtoons.com/en/supernatural/unhol...
5,5,LUMINE,Emma Krogell,18.9M,Fantasy,9.82,3M,"A runaway werewolf, Lumine, meets a witch boy ...",UP EVERY SUNDAY,https://www.webtoons.com/en/fantasy/lumine/lis...
6,6,Jackson's Diary,Paola Batalla,2.9M,Supernatural,9.66,649K,"The year is 1989, and Jackson is starting his ...",UP EVERY SUNDAY,https://www.webtoons.com/en/supernatural/jacks...
7,7,Teenage Mercenary,YC / Rakyeon,929796,Action,9.87,537.6K,"At the age of eight, Ijin Yu lost his parents ...",UP EVERY WEDNESDAY,https://www.webtoons.com/en/action/teenage-mer...
8,8,Nice To Meet You,Wishroomness,5.8M,Romance,9.82,1.1M,A ditsy university student Mew finds a lost st...,UP EVERY MONDAY,https://www.webtoons.com/en/romance/nice-to-me...
9,9,I Love Yoo,Quimchee,29M,Drama,9.78,4.3M,Dogged by pain and misfortune from the very be...,UP EVERY FRIDAY,https://www.webtoons.com/en/drama/i-love-yoo/l...


## 4. Pré-processamento dos dados

In [109]:
df_webtoon_comics.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   id            569 non-null    int64  
 1   Name          569 non-null    object 
 2   Writer        568 non-null    object 
 3   Likes         569 non-null    object 
 4   Genre         569 non-null    object 
 5   Rating        569 non-null    float64
 6   Subscribers   569 non-null    object 
 7   Summary       569 non-null    object 
 8   Update        569 non-null    object 
 9   Reading Link  569 non-null    object 
dtypes: float64(1), int64(1), object(8)
memory usage: 44.6+ KB


In [116]:
df_webtoon_comics = df_webtoon_comics.drop(["id", "Summary", "Reading Link"], axis='columns')

In [117]:
df_webtoon_comics = df_webtoon_comics.iloc[:, [0, 1, 3, 2, 5, 4, 6]]
df_webtoon_comics.head(n = 10)

Unnamed: 0,Name,Writer,Genre,Likes,Subscribers,Rating,Update
0,Let's Play,Leeanne M. Krecic (Mongie),Romance,30.6M,4.2M,9.62,UP EVERY TUESDAY
1,True Beauty,Yaongyi,Romance,39.9M,6.4M,9.6,UP EVERY WEDNESDAY
2,Midnight Poppy Land,Lilydusk,Romance,10.4M,2.1M,9.81,UP EVERY SATURDAY
3,Age Matters,Enjelicious,Romance,25.9M,3.5M,9.79,UP EVERY WEDNESDAY
4,Unholy Blood,Lina Im / Jeonghyeon Kim,Supernatural,9.9M,1.5M,9.85,UP EVERY THURSDAY
5,LUMINE,Emma Krogell,Fantasy,18.9M,3M,9.82,UP EVERY SUNDAY
6,Jackson's Diary,Paola Batalla,Supernatural,2.9M,649K,9.66,UP EVERY SUNDAY
7,Teenage Mercenary,YC / Rakyeon,Action,929796,537.6K,9.87,UP EVERY WEDNESDAY
8,Nice To Meet You,Wishroomness,Romance,5.8M,1.1M,9.82,UP EVERY MONDAY
9,I Love Yoo,Quimchee,Drama,29M,4.3M,9.78,UP EVERY FRIDAY


In [118]:
df_webtoon_comics['Update'] = df_webtoon_comics['Update'].str.replace('UP EVERY', '')
df_webtoon_comics['Update'] = df_webtoon_comics['Update'].str.strip()
df_webtoon_comics.head()

Unnamed: 0,Name,Writer,Genre,Likes,Subscribers,Rating,Update
0,Let's Play,Leeanne M. Krecic (Mongie),Romance,30.6M,4.2M,9.62,TUESDAY
1,True Beauty,Yaongyi,Romance,39.9M,6.4M,9.6,WEDNESDAY
2,Midnight Poppy Land,Lilydusk,Romance,10.4M,2.1M,9.81,SATURDAY
3,Age Matters,Enjelicious,Romance,25.9M,3.5M,9.79,WEDNESDAY
4,Unholy Blood,Lina Im / Jeonghyeon Kim,Supernatural,9.9M,1.5M,9.85,THURSDAY


In [124]:
def convert_to_number(value):
  if isinstance(value, str):
    value = value.replace(',', '').replace('.', '')

    if 'M' in value:
      return float(value.replace('M', '').replace('m', '')) * 1e6
    elif 'K' in value or 'k' in value:
      return float(value.replace('K', '').replace('k', '')) * 1e3
    else:
      return float(value)
  else:
    return value

In [126]:
df_webtoon_comics['Likes'] = df_webtoon_comics['Likes'].apply(convert_to_number).astype(int)
df_webtoon_comics['Subscribers'] = df_webtoon_comics['Subscribers'].apply(convert_to_number).astype(int)

df_webtoon_comics.head(n = 10)

Unnamed: 0,Name,Writer,Genre,Likes,Subscribers,Rating,Update
0,Let's Play,Leeanne M. Krecic (Mongie),Romance,306000000,42000000,9.62,TUESDAY
1,True Beauty,Yaongyi,Romance,399000000,64000000,9.6,WEDNESDAY
2,Midnight Poppy Land,Lilydusk,Romance,104000000,21000000,9.81,SATURDAY
3,Age Matters,Enjelicious,Romance,259000000,35000000,9.79,WEDNESDAY
4,Unholy Blood,Lina Im / Jeonghyeon Kim,Supernatural,99000000,15000000,9.85,THURSDAY
5,LUMINE,Emma Krogell,Fantasy,189000000,3000000,9.82,SUNDAY
6,Jackson's Diary,Paola Batalla,Supernatural,29000000,649000,9.66,SUNDAY
7,Teenage Mercenary,YC / Rakyeon,Action,929796,5376000,9.87,WEDNESDAY
8,Nice To Meet You,Wishroomness,Romance,58000000,11000000,9.82,MONDAY
9,I Love Yoo,Quimchee,Drama,29000000,43000000,9.78,FRIDAY


In [127]:
df_webtoon_comics.describe()

Unnamed: 0,Likes,Subscribers,Rating
count,569.0,569.0,569.0
mean,27128340.0,4298543.0,9.418998
std,62705430.0,6629919.0,0.557571
min,2434.0,31000.0,5.41
25%,234342.0,918000.0,9.31
50%,903057.0,2075000.0,9.58
75%,25000000.0,5063000.0,9.73
max,506000000.0,64000000.0,9.93


## 5. Análise exporatório dos dados (EDA)

## 6. Conclusões e resultados