## **1. Introdução**

Tendo em vista a influência que os K-Dramas, novelas coreanas, tem ao redor do mundo, esse projeto tem como intuito prever a média da avaliação dos usuários tendo como base vários elementos da obra. O conjunto de dados utilizado consiste na lista dos 100 *doramas* mais assistidos pelo público do site *MyDramaList*, uma rede social para acompanhar lançamentos de filmes e séries asiáticas.

#### **Descrição e classificação das variáveis:**

1. **Qualitativas nominais:**
  * **Name:** O título da obra.
  * **Aired On:** O(s) dia(s) da semana em que os episódios eram lançados.
  * **Genres:** Os principais gêneros da obra.
  * **Tags:** As principais dinâmicas e o estilo da obra.
  * **Main Actors:** Os atores principais, com maior aparição.

2. **Quantitativas discretas:**
  * **Year:** O ano de lançamento.
  * **Episodes:** O número de episódios.

3. **Quantitativas contínuas:**
  * **Ep. Duration:** A duração do episódio em horas.
  * **Watchers:** A quantidade de pessoas que assistiram. Também é utilizado para ranquear a popularidade.
  * **Rating:** É a média das avaliações, servindo como um parâmetro para entender a recepção do público para aquele conteúdo. É a variável que se dependente desse trabalho, seu foco de estudo.


## **2. Pré-processamento dos dados**

### **2.1. Inicialização do conjunto:**

In [408]:
import pandas as pd
import numpy as np

drama = pd.read_csv('https://raw.githubusercontent.com/VitoriaPontes/AmostragemTabelasKDrama/refs/heads/main/top%20100%20most%20popular%20k-dramas.csv')
drama.info()
drama.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Name          100 non-null    object 
 1   Year          100 non-null    int64  
 2   Rating        100 non-null    float64
 3   Watchers      100 non-null    object 
 4   Episodes      100 non-null    int64  
 5   Ep. Duration  100 non-null    object 
 6   Aired On      100 non-null    object 
 7   Genres        100 non-null    object 
 8   Tags          100 non-null    object 
 9   Main Actors   100 non-null    object 
dtypes: float64(1), int64(2), object(7)
memory usage: 7.9+ KB


Unnamed: 0,Name,Year,Rating,Watchers,Episodes,Ep. Duration,Aired On,Genres,Tags,Main Actors
0,Goblin,2016,8.8,254985,16,01:22,"Friday, Saturday","Comedy,Romance,Fantasy,Melodrama","Older Man/Younger Woman,Interspecies Romance,D...","Gong Yoo,Kim Go Eun,Lee Dong Wook,Yoo In Na,Yo..."
1,Strong Woman Do Bong Soon,2016,8.7,239773,16,01:07,"Friday, Saturday","Action,Comedy,Romance,Supernatural","Superhuman Strenght,Love Triangle,Nice Male Le...","Park Bo Young,Park Hyung Sik,Kim Ji Soo"
2,It's Okay to Not Be Okay,2020,8.9,215957,16,01:15,"Saturday, Sunday","Psychological,Comedy,Romance,Drama","Independent Female Lead,Possessive Female Lead...","Kim Soo Hyun,Seo Yea Ji,Oh Jung Se"
3,Descendants of the Sun,2016,8.6,213187,16,01:00,"Wednesday, Thursday","Action,Comedy,Romance,Supernatural","Military,Bromance,Multiple Couples,Hardworking...","Song Joong Ki,Song Hye Kyo,Jin Goo,Kim Ji Won"
4,What's Wrong with Secretary Kim,2018,8.5,212766,16,01:09,"Wednesday, Thursday","Business,Comedy,Romance","Boss-Employee Relationship,Rich Male Lead,Adap...","Park Min Young,Park Seo Joon"


O dataset **drama** possui 10 variáveis e 100 valores não-nulos, sendo necessário algumas mudanças iniciais para melhor utilização dos dados.

### **2.2. Ajustando o conjunto**

Visualizando as informações e os primeiros elementos da tabela, é possível perceber que a variável **Watchers** está incorretamente atribuida como *object*, quando deveria ser *int*. Além disso, as variáveis **Genres**, **Tags** e **Main Actors** devem ser transformadas em listas de objetos com o intuito de visualizar melhor cada elemento.

In [409]:
drama['Watchers'] = drama['Watchers'].str.replace(',', '')
drama['Watchers'] = drama['Watchers'].astype(int)
drama['Genres'] = drama['Genres'].str.split(',')
drama['Tags'] = drama['Tags'].str.split(',')
drama['Main Actors'] = drama['Main Actors'].str.split(',')

In [410]:
drama.info()
drama.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Name          100 non-null    object 
 1   Year          100 non-null    int64  
 2   Rating        100 non-null    float64
 3   Watchers      100 non-null    int64  
 4   Episodes      100 non-null    int64  
 5   Ep. Duration  100 non-null    object 
 6   Aired On      100 non-null    object 
 7   Genres        100 non-null    object 
 8   Tags          100 non-null    object 
 9   Main Actors   100 non-null    object 
dtypes: float64(1), int64(3), object(6)
memory usage: 7.9+ KB


Unnamed: 0,Name,Year,Rating,Watchers,Episodes,Ep. Duration,Aired On,Genres,Tags,Main Actors
0,Goblin,2016,8.8,254985,16,01:22,"Friday, Saturday","[Comedy, Romance, Fantasy, Melodrama]","[Older Man/Younger Woman, Interspecies Romance...","[Gong Yoo, Kim Go Eun, Lee Dong Wook, Yoo In N..."
1,Strong Woman Do Bong Soon,2016,8.7,239773,16,01:07,"Friday, Saturday","[Action, Comedy, Romance, Supernatural]","[Superhuman Strenght, Love Triangle, Nice Male...","[Park Bo Young, Park Hyung Sik, Kim Ji Soo]"
2,It's Okay to Not Be Okay,2020,8.9,215957,16,01:15,"Saturday, Sunday","[Psychological, Comedy, Romance, Drama]","[Independent Female Lead, Possessive Female Le...","[Kim Soo Hyun, Seo Yea Ji, Oh Jung Se]"
3,Descendants of the Sun,2016,8.6,213187,16,01:00,"Wednesday, Thursday","[Action, Comedy, Romance, Supernatural]","[Military, Bromance, Multiple Couples, Hardwor...","[Song Joong Ki, Song Hye Kyo, Jin Goo, Kim Ji ..."
4,What's Wrong with Secretary Kim,2018,8.5,212766,16,01:09,"Wednesday, Thursday","[Business, Comedy, Romance]","[Boss-Employee Relationship, Rich Male Lead, A...","[Park Min Young, Park Seo Joon]"


Agora, com os dados corretamente ajustados, podemos seguir com a criação das amostras.

## **3. Tamanho da amostra**

Para construir o tamanho da amostra com um **nível de confiança de 95%** e uma **margem de erro de até 20%**, será utilizado a seguinte fórmula:

n = ((Z*σ)/E)²

Para uma confiança de 95%, o valor de **Z** deve ser de **1.96**. Enquanto **E**, que representa a margem de erro de 20%, deve ser **0.20**. Para concluir a fórmula, será preciso encontrar o desvio padrão da variável **Rating**.

**Observação:** especialmente por causa do tamanho da população ser de apenas 100 elementos, foi necessário assumir uma margem de erro maior para poder criar amostras com maior variedade entre a população.

In [411]:
desvio_padrao = drama['Rating'].std()

n = ((1.96*desvio_padrao)/0.2)**2
print(n)

19.892503272727268


Portanto, o tamanho da amostra deve ser de aproxidamente **20 elementos**.

## **4. Amostra aleatória simples**

Uma **amostra aleatória simples** é uma seleção de elementos que possuem a mesma probabilidade de serem escolhidos, pois são aleatórios.

In [412]:
tamanho_amostra = int(n) + 1
amostra_simples = drama.sample(n = tamanho_amostra)

In [413]:
amostra_simples.head()

Unnamed: 0,Name,Year,Rating,Watchers,Episodes,Ep. Duration,Aired On,Genres,Tags,Main Actors
54,Oh My Venus,2015,8.2,106826,16,1:00,"Monday, Tuesday","[Comedy, Law, Romance, Life]","[Weight Loss, Makeover, Cohabitation, Bromance...","[So Ji Sub, Shin Min Ah, Jung Gyu Woon, Yoo In..."
37,Sweet Home,2020,8.7,119232,10,0:52,Friday,"[Action, Horror, Drama, Sci-Fi]","[Monster, Survival, Character Development, Gor...","[Song Kang, Lee Jin Wook, Lee Si Young, Lee Do..."
75,He Is Psychometric,2019,8.3,96254,16,1:04,"Monday, Tuesday","[Thriller, Mystery, Romance, Supernatural]","[Psychometry, Nice Male Lead, Smart Female Lea...","[Park Jin Young, Shin Ye Eun, Kim Kwon, Kim Da..."
28,Extraordinary You,2019,8.3,136969,32,0:35,"Wednesday, Thursday","[Comedy, Romance, Youth, Fantasy]","[Sassy Female Lead, Nice Male Lead, Adapted Fr...","[Kim Hye Yoon, Ro Woon, Lee Jae Wook, Lee Na E..."
29,Hometown Cha-Cha-Cha,2021,8.7,132071,16,1:20,"Saturday, Sunday","[Comedy, Romance, Life, Drama]","[Nice Male Lead, Character Development, Nice F...","[Shin Min Ah, Kim Seon Ho, Lee Sang Yi]"


In [414]:
amostra_simples.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20 entries, 54 to 47
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Name          20 non-null     object 
 1   Year          20 non-null     int64  
 2   Rating        20 non-null     float64
 3   Watchers      20 non-null     int64  
 4   Episodes      20 non-null     int64  
 5   Ep. Duration  20 non-null     object 
 6   Aired On      20 non-null     object 
 7   Genres        20 non-null     object 
 8   Tags          20 non-null     object 
 9   Main Actors   20 non-null     object 
dtypes: float64(1), int64(3), object(6)
memory usage: 2.3+ KB


Com a amostra coletada, será calculado a média da variável **Rating** nela.

In [415]:
simples_media = amostra_simples['Rating'].mean()

A **média** gerada na amostra simples aleatória foi de:

In [416]:
print(simples_media)

8.52


## **5. Amostra aleatória sistemática**

Para construir uma **amostra aleatória sistémica**, o primeiro elemento é escolhido aleatoriamente e os demais são escolhidos baseado em um intervalo **K**. O cálculo de **K** é K = (tamanho da população)/(tamanho da amostra).

In [417]:
intervalo = len(drama) // 20
inicio = np.random.randint(0, intervalo)

amostra_sistematica = drama.iloc[inicio::intervalo]

In [418]:
amostra_sistematica.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 3 to 98
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Name          20 non-null     object 
 1   Year          20 non-null     int64  
 2   Rating        20 non-null     float64
 3   Watchers      20 non-null     int64  
 4   Episodes      20 non-null     int64  
 5   Ep. Duration  20 non-null     object 
 6   Aired On      20 non-null     object 
 7   Genres        20 non-null     object 
 8   Tags          20 non-null     object 
 9   Main Actors   20 non-null     object 
dtypes: float64(1), int64(3), object(6)
memory usage: 1.7+ KB


In [419]:
amostra_sistematica.head()

Unnamed: 0,Name,Year,Rating,Watchers,Episodes,Ep. Duration,Aired On,Genres,Tags,Main Actors
3,Descendants of the Sun,2016,8.6,213187,16,01:00,"Wednesday, Thursday","[Action, Comedy, Romance, Supernatural]","[Military, Bromance, Multiple Couples, Hardwor...","[Song Joong Ki, Song Hye Kyo, Jin Goo, Kim Ji ..."
8,Hotel del Luna,2019,8.6,183598,16,01:19,"Saturday, Sunday","[Horror, Comedy, Romance, Fantasy]","[Supernatural, Boss-Employee Relationship, Gho...","[IU, Yeo Jin Goo]"
13,The Heirs,2013,7.6,169096,20,1:00,"Wednesday, Thursday","[Comedy, Romance, Drama, Melodrama]","[High School, Family Pressure, Love Triangle, ...","[Lee Min Ho, Park Shin Hye, Kim Woo Bin]"
18,Moon Lovers: Scarlet Heart Ryeo,2016,8.7,156474,20,1:00,"Monday, Tuesday","[Historical, Romance, Fantasy, Melodrama]","[Goryeo Dynasty, Rivalry, Smart Male Lead, Lov...","[Lee Joon Gi, IU, Kang Ha Neul]"
23,I'm Not a Robot,2017,8.3,146959,32,0:35,"Wednesday, Thursday","[Comedy, Romance, Drama, Sci-Fi]","[Haphephobia, Rich Male Lead, Robot, Eccentric...","[Yoo Seung Ho, Chae Soo Bin, Uhm Ki Joon]"


Agora, será calculado a média da variável **Rating** para a amostra aleatória sistémica coletada.

In [420]:
sistemica_media = amostra_sistematica['Rating'].mean()

A **média** gerada na amostra sistémica aleatória foi de:

In [421]:
print(sistemica_media)

8.275


## **6. Amostra aleatória estratificada proporcional**

Essa técnica de amostagrem utiliza uma variável para gerar amostras que sejam proporcionais a sua distribuição na população. Para isso, a variável **Aired On** será a utilizada para a criação dessa amostra.


In [422]:
print(drama['Aired On'].value_counts())

Aired On
Wednesday, Thursday    32
Monday, Tuesday        26
Friday, Saturday       15
Saturday, Sunday       14
Friday                  8
Thursday                2
Sunday, Saturday        1
Saturday                1
Wednesday               1
Name: count, dtype: int64


In [423]:
estratos = drama.groupby('Aired On')

proporcao_WedThur = len(estratos.get_group('Wednesday, Thursday')) / len(drama)
proporcao_MonTue = len(estratos.get_group('Monday, Tuesday')) / len(drama)
proporcao_FriSat = len(estratos.get_group('Friday, Saturday')) / len(drama)
proporcao_SatSun = len(estratos.get_group('Saturday, Sunday')) / len(drama)
proporcao_Fri = len(estratos.get_group('Friday')) / len(drama)
proporcao_Thur = len(estratos.get_group('Thursday')) / len(drama)
proporcao_Sat = len(estratos.get_group('Saturday')) / len(drama)
proporcao_Wed = len(estratos.get_group('Wednesday')) / len(drama)

tamanho_amostra = 20

n_WedThur = int(proporcao_WedThur * tamanho_amostra)
n_MonTue = int(proporcao_MonTue * tamanho_amostra)
n_FriSat = int(proporcao_FriSat * tamanho_amostra)
n_SatSun = int(proporcao_SatSun * tamanho_amostra)
n_Fri = int(proporcao_Fri * tamanho_amostra)
n_Thur = int(proporcao_Thur * tamanho_amostra)
n_Sat = int(proporcao_Sat * tamanho_amostra)
n_Wed = int(proporcao_Wed * tamanho_amostra)

amostra_WedThur = estratos.get_group('Wednesday, Thursday').sample(n=n_WedThur)
amostra_MonTue = estratos.get_group('Monday, Tuesday').sample(n=n_MonTue)
amostra_FriSat = estratos.get_group('Friday, Saturday').sample(n=n_FriSat)
amostra_SatSun = estratos.get_group('Saturday, Sunday').sample(n=n_SatSun)
amostra_Fri = estratos.get_group('Friday').sample(n=n_Fri)
amostra_Thur = estratos.get_group('Thursday').sample(n=n_Thur)
amostra_Sat = estratos.get_group('Saturday').sample(n=n_Sat)
amostra_Wed = estratos.get_group('Wednesday').sample(n=n_Wed)

amostra_estratificada = pd.concat([amostra_WedThur, amostra_MonTue, amostra_FriSat, amostra_SatSun, amostra_Fri, amostra_Thur, amostra_Sat, amostra_Wed])

amostra_estratificada.to_csv('amostra_estratificada.csv', index=False)

In [424]:
amostra_estratificada.head()

Unnamed: 0,Name,Year,Rating,Watchers,Episodes,Ep. Duration,Aired On,Genres,Tags,Main Actors
92,Prison Playbook,2017,8.9,86122,16,1:32,"Wednesday, Thursday","[Comedy, Crime, Life, Drama]","[Life Lesson, Prison Setting, Bromance, Wrongf...","[Park Hae Soo, Jung Kyung Ho]"
79,"It's Okay, That's Love",2014,8.6,93742,16,1:00,"Wednesday, Thursday","[Comedy, Romance, Drama, Melodrama]","[Trauma, Healing, Cohabitation, Rich Male Lead...","[Zo In Sung, Gong Hyo Jin]"
73,Angel's Last Mission: Love,2019,8.4,96957,32,0:35,"Wednesday, Thursday","[Comedy, Romance, Drama, Fantasy]","[Nice Male Lead, Warm Man/Cold Woman, Orphan F...","[L, Shin Hye Sun, Lee Dong Gun, Kim Bo Mi]"
13,The Heirs,2013,7.6,169096,20,1:00,"Wednesday, Thursday","[Comedy, Romance, Drama, Melodrama]","[High School, Family Pressure, Love Triangle, ...","[Lee Min Ho, Park Shin Hye, Kim Woo Bin]"
91,Uncontrollably Fond,2016,8.1,86949,20,1:00,"Wednesday, Thursday","[Comedy, Romance, Drama, Melodrama]","[Terminal Illness, Tearjerker, Male Chases Fem...","[Kim Woo Bin, Bae Suzy, Im Joo Hwan, Im Ju Eun]"


In [425]:
amostra_estratificada['Aired On'].value_counts()

Unnamed: 0_level_0,count
Aired On,Unnamed: 1_level_1
"Wednesday, Thursday",6
"Monday, Tuesday",5
"Friday, Saturday",3
"Saturday, Sunday",2
Friday,1


Nesse caso, os valores **Wednesday**, **Saturday** e **Thursday** não entraram na amostra pois a sua proporção é muito pequena para que tenha um grande impacto na amostra.

Com isso, será calculado a média da variável **Rating** em uma amostra aleatória estratificada.

In [426]:
estratificada_media = amostra_estratificada['Rating'].mean()

A **média** gerada por essa amostra aleatória estratificada foi de:

In [427]:
print(estratificada_media)

8.405882352941177


## **7. Comparação entre amostras e resultados**


Por fim, será comparado o **Erro Relativo** das médias de cada amostra com a população, para identificar o comportamento de cada uma delas com os dados originais.

In [428]:
media = drama['Rating'].mean()
print(media)

8.412


In [429]:
erro_relativo_simples = (abs(simples_media - media) / media) * 100
erro_relativo_sistematica = (abs(sistemica_media - media) / media) * 100
erro_relativo_estratificada = (abs(estratificada_media - media) / media) * 100

In [430]:
print(erro_relativo_simples)
print(erro_relativo_sistematica)
print(erro_relativo_estratificada)

1.283880171184008
1.6286257727056639
0.07272523845487405


Com os resultados, é possível notar que todas as amostras tiveram uma **margem de erro baixa**, se aproximando dos valores esperados na própria população. Portanto, as três amostras podem trazer resultados impactantes em relação ao conjunto real, sendo que a aproximação vai depender do conjunto aleatoriamente gerado.