IMPORT ALL DEPENDENCIES AND SETUP DATABASE PATH

In [15]:
import pandas as pd
import kagglehub
import os


dataset_path = kagglehub.dataset_download("smayanj/netflix-users-database")

# Lista os arquivos dentro do diretório baixado
files = os.listdir(dataset_path)
print("Arquivos no diretório:", files)

# Encontra o arquivo CSV
csv_file = next((f for f in files if f.endswith(".csv")), None)

if not csv_file:
    print("Nenhum arquivo CSV encontrado no diretório.")
    exit(1)

csv_path = os.path.join(dataset_path, csv_file)
df = pd.read_csv(csv_path)
print("Arquivo CSV lido com sucesso!")
df

Arquivos no diretório: ['netflix_users.csv']
Arquivo CSV lido com sucesso!


Unnamed: 0,User_ID,Name,Age,Country,Subscription_Type,Watch_Time_Hours,Favorite_Genre,Last_Login
0,1,James Martinez,18,France,Premium,80.26,Drama,2024-05-12
1,2,John Miller,23,USA,Premium,321.75,Sci-Fi,2025-02-05
2,3,Emma Davis,60,UK,Basic,35.89,Comedy,2025-01-24
3,4,Emma Miller,44,USA,Premium,261.56,Documentary,2024-03-25
4,5,Jane Smith,68,USA,Standard,909.30,Drama,2025-01-14
...,...,...,...,...,...,...,...,...
24995,24996,David Miller,18,Australia,Premium,183.88,Horror,2025-01-18
24996,24997,Jane Miller,17,USA,Premium,112.37,Drama,2024-06-29
24997,24998,Sarah Miller,14,USA,Premium,351.80,Action,2024-10-16
24998,24999,Michael Williams,71,USA,Basic,655.89,Action,2024-08-27


DEFININDO FUNÇÕES DE PROBABILIDADE

In [16]:
def probabilidade_uniao(prob_A, prob_B, prob_intersection):
    if prob_intersection is None:
        prob_intersection = prob_A * prob_B
    return prob_A + prob_B - prob_intersection

def probabilidade_intersecao(p_a, p_b, p_b_given_a=None):
    if p_b_given_a is None:
        return p_a * p_b
    else:
        return p_a * p_b_given_a

CÁLCULO MÉDIA DAS IDADES

In [17]:
soma_idades = 0
cont = 0

for index, age in df['Age'].items():
    if not pd.isnull(age):
        soma_idades += age
        cont += 1

if cont > 0:
    media_idades = soma_idades / cont
else:
    media_idades = float('nan')

print("Média das idades:", media_idades)

Média das idades: 46.48288


LIMPEZA DOS DADOS E CONTAGEM POR PAÍS

In [18]:

df_clean = df[df['Country'].notna()]
country_counts = df_clean['Country'].str.strip().str.lower().value_counts()

brasileiro    = country_counts.get('brazil', 0)
mexicano      = country_counts.get('mexico', 0)
indiano       = country_counts.get('india', 0)
australiano   = country_counts.get('australia', 0)
canadense     = country_counts.get('canada', 0)
estadunidense = country_counts.get('usa', 0)
alemao        = country_counts.get('germany', 0)
japones       = country_counts.get('japan', 0)
ingles        = country_counts.get('uk', 0)
frances       = country_counts.get('france', 0)

print("\nContagem de pessoas por país:")
print("Brasileiro:", brasileiro)
print("Mexicano:", mexicano)
print("Indiano:", indiano)
print("Australiano:", australiano)
print("Canadense:", canadense)
print("Estadunidense:", estadunidense)
print("Alemão:", alemao)
print("Japonês:", japones)
print("Inglês:", ingles)
print("Francês:", frances)

# Percentual de cada país (já em porcentagem)
country_percentages = df_clean['Country'].value_counts(normalize=True) * 100
print("\nPercentual de pessoas por país:")
for pais, perc in country_percentages.items():
    print(f"{pais.capitalize()}: {perc:.2f}%")


Contagem de pessoas por país:
Brasileiro: 2503
Mexicano: 2493
Indiano: 2505
Australiano: 2437
Canadense: 2490
Estadunidense: 2503
Alemão: 2547
Japonês: 2457
Inglês: 2592
Francês: 2473

Percentual de pessoas por país:
Uk: 10.37%
Germany: 10.19%
India: 10.02%
Usa: 10.01%
Brazil: 10.01%
Mexico: 9.97%
Canada: 9.96%
France: 9.89%
Japan: 9.83%
Australia: 9.75%


PROCESSAMENTO DE ASSINATURAS

In [19]:
assinaturas = df_clean['Subscription_Type'].str.strip().str.lower()

quant_premium  = assinaturas.eq('premium').sum()
quant_basic    = assinaturas.eq('basic').sum()
quant_standard = assinaturas.eq('standard').sum()

assinaturas_total = quant_premium + quant_basic + quant_standard

assinaturas_porcentagem_premium  = (quant_premium / assinaturas_total) * 100
assinaturas_porcentagem_basic    = (quant_basic / assinaturas_total) * 100
assinaturas_porcentagem_standard = (quant_standard / assinaturas_total) * 100

print("\nInformações sobre assinaturas:")
print("Quantidade Premium:", quant_premium)
print("Quantidade Basic:", quant_basic)
print("Quantidade Standard:", quant_standard)
print("Porcentagem Premium: {:.2f}%".format(assinaturas_porcentagem_premium))
print("Porcentagem Basic: {:.2f}%".format(assinaturas_porcentagem_basic))
print("Porcentagem Standard: {:.2f}%".format(assinaturas_porcentagem_standard))


Informações sobre assinaturas:
Quantidade Premium: 8402
Quantidade Basic: 8356
Quantidade Standard: 8242
Porcentagem Premium: 33.61%
Porcentagem Basic: 33.42%
Porcentagem Standard: 32.97%


PROCESSAMENTO DOS GÊNEROS FAVORITOS

In [20]:
generos = df_clean['Favorite_Genre'].str.strip().str.lower()

quant_drama       = generos.eq('drama').sum()
quant_documentary = generos.eq('documentary').sum()
quant_comedy      = generos.eq('comedy').sum()
quant_horror      = generos.eq('horror').sum()
quant_action      = generos.eq('action').sum()
quant_sci         = generos.eq('sci-fi').sum()

print("\nQuantidade de cada gênero favorito:")
print("Drama:", quant_drama)
print("Documentary:", quant_documentary)
print("Comedy:", quant_comedy)
print("Horror:", quant_horror)
print("Action:", quant_action)
print("Sci-Fi:", quant_sci)

# Porcentagens dos gêneros (baseado no total de assinaturas)
drama_porcentagem       = (quant_drama / assinaturas_total) * 100
documentary_porcentagem = (quant_documentary / assinaturas_total) * 100
comedy_porcentagem      = (quant_comedy / assinaturas_total) * 100
horror_porcentagem      = (quant_horror / assinaturas_total) * 100
action_porcentagem      = (quant_action / assinaturas_total) * 100
sci_porcentagem         = (quant_sci / assinaturas_total) * 100

print("\nPorcentagem dos gêneros (baseado no total de assinaturas):")
print("Drama: {:.2f}%".format(drama_porcentagem))
print("Documentary: {:.2f}%".format(documentary_porcentagem))
print("Comedy: {:.2f}%".format(comedy_porcentagem))
print("Horror: {:.2f}%".format(horror_porcentagem))
print("Action: {:.2f}%".format(action_porcentagem))
print("Sci-Fi: {:.2f}%".format(sci_porcentagem))


Quantidade de cada gênero favorito:
Drama: 3533
Documentary: 3636
Comedy: 3561
Horror: 3654
Action: 3589
Sci-Fi: 3455

Porcentagem dos gêneros (baseado no total de assinaturas):
Drama: 14.13%
Documentary: 14.54%
Comedy: 14.24%
Horror: 14.62%
Action: 14.36%
Sci-Fi: 13.82%


CÁLCULO DE PROBABILIDADE DE INTERSEÇÃO


In [21]:
# Probabilidade de ser estadunidense

probabilidade_estadunidense = (estadunidense / assinaturas_total)
print("\nProbabilidade de uma pessoa ser estadunidense: {:.2f}%".format(probabilidade_estadunidense * 100))

# Probabilidade de ser estadunidense e ter o gênero favorito 'horror'
df_usa_horror = df_clean[
    (df_clean['Country'].str.strip().str.lower() == 'usa') &
    (df_clean['Favorite_Genre'].str.strip().str.lower() == 'horror')
]
quantidade_usa_horror = df_usa_horror.shape[0]
print("\nQuantidade de pessoas estadunidenses com gênero favorito 'horror':", quantidade_usa_horror)

probabilidade_usa_terror = quantidade_usa_horror / estadunidense if estadunidense != 0 else 0
print("Probabilidade de ser estadunidense e ter 'horror' como gênero favorito: {:.2f}%".format(probabilidade_usa_terror * 100))

# Probabilidade de ser brasileiro e ter assinatura premium
probabilidade_brasileiro = (brasileiro / assinaturas_total)
brasileiro_e_drama = df_clean[
    (df_clean['Country'].str.strip().str.lower() == 'usa') &
    (df_clean['Favorite_Genre'].str.strip().str.lower() == 'horror')
]
quantidade_brasileiro_e_drama = brasileiro_e_drama.shape[0]
print("\nQuantidade de pessoas brasileiras com gênero favorito 'horror':", quantidade_brasileiro_e_drama)


Probabilidade de uma pessoa ser estadunidense: 10.01%

Quantidade de pessoas estadunidenses com gênero favorito 'horror': 351
Probabilidade de ser estadunidense e ter 'horror' como gênero favorito: 14.02%

Quantidade de pessoas brasileiras com gênero favorito 'horror': 351


PROBABILIDADES BASEADAS EM CONDIÇÕES DE IDADE E HORAS ASSISTIDAS


In [22]:
maior_50_idade = 0
maior_300_horas = 0

for index, age in df['Age'].items():
    if age >= 50:
        maior_50_idade += 1

for index, horas in df['Watch_Time_Hours'].items():
    if horas >= 300:
        maior_300_horas += 1

probabilidade_maior_300 = (maior_300_horas / assinaturas_total)
probabilidade_maior_50  = (maior_50_idade / assinaturas_total)
maior = probabilidade_intersecao(probabilidade_maior_300, probabilidade_maior_50)
print("\nProbabilidade de ter 300+ horas assistidas e 50+ anos: {:.2f}%".format(maior * 100))


Probabilidade de ter 300+ horas assistidas e 50+ anos: 31.95%


PROBABILIDADE DE UNIÃO: ESTADUNIDENSES COM GÊNERO FAVORITO 'Horror'

In [23]:
df_usa_horror = df_clean[
    (df_clean['Country'].str.strip().str.lower() == 'usa') |
    (df_clean['Favorite_Genre'].str.strip().str.lower() == 'horror')
]
quantidade_usa_horror = df_usa_horror.shape[0]
print("\nQuantidade de pessoas (ou) com país 'usa' ou gênero 'horror':", quantidade_usa_horror)

probabilidade_usa_terror = quantidade_usa_horror / estadunidense if estadunidense != 0 else 0
print("Probabilidade de ser estadunidense e ter 'horror' como gênero favorito: {:.2f}%".format(probabilidade_usa_terror * 100))


Quantidade de pessoas (ou) com país 'usa' ou gênero 'horror': 5806
Probabilidade de ser estadunidense e ter 'horror' como gênero favorito: 231.96%


PROBABILIDADE PARA BRASILEIROS COM ASSINATURA PREMIUM

In [24]:
df_brazil_premium = df_clean[
    (df_clean['Country'].str.strip().str.lower() == 'brazil') |
    (df_clean['Subscription_Type'].str.strip().str.lower() == 'premium')
]
quantidade_brazil_premium = df_brazil_premium.shape[0]
print("\nQuantidade de pessoas brasileiras com assinatura premium:", quantidade_brazil_premium)


Quantidade de pessoas brasileiras com assinatura premium: 10047


CHANCE DE TER IDADE >= 50 OU MAIS DE 300 HORAS ASSISTIDAS


In [25]:
df_valid = df[df['Age'].notna() & df['Watch_Time_Hours'].notna()]
df_condition = df_valid[(df_valid['Age'] >= 50) | (df_valid['Watch_Time_Hours'] > 300)]
chance = df_condition.shape[0] / df_valid.shape[0]
print("\nChance de ter idade >= 50 ou mais de 300 horas assistidas: {:.2f}%".format(chance * 100))



Chance de ter idade >= 50 ou mais de 300 horas assistidas: 83.78%


FINAL DATAFRAME


In [26]:
df

Unnamed: 0,User_ID,Name,Age,Country,Subscription_Type,Watch_Time_Hours,Favorite_Genre,Last_Login
0,1,James Martinez,18,France,Premium,80.26,Drama,2024-05-12
1,2,John Miller,23,USA,Premium,321.75,Sci-Fi,2025-02-05
2,3,Emma Davis,60,UK,Basic,35.89,Comedy,2025-01-24
3,4,Emma Miller,44,USA,Premium,261.56,Documentary,2024-03-25
4,5,Jane Smith,68,USA,Standard,909.30,Drama,2025-01-14
...,...,...,...,...,...,...,...,...
24995,24996,David Miller,18,Australia,Premium,183.88,Horror,2025-01-18
24996,24997,Jane Miller,17,USA,Premium,112.37,Drama,2024-06-29
24997,24998,Sarah Miller,14,USA,Premium,351.80,Action,2024-10-16
24998,24999,Michael Williams,71,USA,Basic,655.89,Action,2024-08-27
