<a href="https://colab.research.google.com/github/WilPassion/DataViz_FATEC/blob/main/DataViz_FATEC%20/01-Visualizacao_Conceitual/netflix_engagement_etl.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Netflix Engagement Dataset ETL

Este notebook tem como finalidade a limpeza, transformação e preparação dos dados do conjunto "Netflix Engagement Dataset", disponível no Kaggle. Os dados serão tratados para viabilizar a criação de uma visualização conceitual no formato de Treemap

Fonte: https://www.kaggle.com/datasets/honeybearugly/netflix-engagment-dataset/data

In [18]:
# Importando pandas
import pandas as pd

In [19]:
df = pd.read_csv('Netflix Engagement Dataset.csv', delimiter=',', encoding='utf-8')

df.head()

Unnamed: 0,Customer ID,Subscription Length (Months),Customer Satisfaction Score (1-10),Daily Watch Time (Hours),Engagement Rate (1-10),Device Used Most Often,Genre Preference,Region,Payment History (On-Time/Delayed),Subscription Plan,Churn Status (Yes/No),Support Queries Logged,Age,Monthly Income ($),Promotional Offers Used,Number of Profiles Created
0,1,15,8,4.6,6,Mobile,Action,Europe,On-Time,Premium,Yes,10,50,4495,Yes,3
1,2,58,3,3.0,6,Laptop,Comedy,Oceania,On-Time,Basic,No,4,54,4580,No,4
2,3,51,9,3.94,4,Mobile,Drama,Asia,Delayed,Standard,Yes,2,34,9707,Yes,4
3,4,46,10,3.59,10,Smart TV,Comedy,Asia,Delayed,Basic,No,1,43,2236,Yes,1
4,5,42,6,3.53,5,Laptop,Action,Oceania,On-Time,Basic,Yes,3,58,6454,No,1


In [20]:
# Removendo colunas
remocao_colunas = [
    'Customer ID', 'Subscription Length (Months)', 'Customer Satisfaction Score (1-10)',
    'Engagement Rate (1-10)', 'Device Used Most Often', 'Genre Preference',
    'Payment History (On-Time/Delayed)', 'Subscription Plan', 'Churn Status (Yes/No)',
    'Support Queries Logged', 'Age', 'Monthly Income ($)', 'Promotional Offers Used',
    'Number of Profiles Created'
]

df.drop(columns=remocao_colunas, axis=1, inplace=True)

In [21]:
# Renomeando colunas
df2 = df.rename(columns = {
    'Daily Watch Time (Hours)': 'Horas Diárias Assistidas',
    'Region': 'Região'
})

In [22]:
#Renomeando valores
regiao = {
    'Europe': 'Europe',
    'Asia': 'Ásia',
    'Oceania': 'Oceania',
    'North America': 'América do Norte',
    'South America': 'América do Sul',
    'Africa': 'África'
}

df2['Região'] = df2['Região'].map(regiao)

df2.head(10)

Unnamed: 0,Horas Diárias Assistidas,Região
0,4.6,Europe
1,3.0,Oceania
2,3.94,Ásia
3,3.59,Ásia
4,3.53,Oceania
5,1.31,América do Norte
6,3.1,América do Sul
7,5.75,Oceania
8,1.83,Ásia
9,1.83,África


In [23]:
#Checando nulos
df2.isnull().sum()

Unnamed: 0,0
Horas Diárias Assistidas,0
Região,0


# Plotagem - Treemap

O treemap abaixo representa uma **visualização de dados conceitual exploratória** possibilitando a investigação e descoberta de padrões sobre a distribuição de horas assistidas do serviço de streaming Netflix por região (continente).

In [24]:
# Import plotly
import plotly.express as px
import plotly.graph_objects as go

In [25]:
# Definindo cores
cores = {
    'África': '#f51212',
    'Ásia': '#e30060',
    'Oceania': '#ae308c',
    'Europe': '#6a4b96',
    'América do Sul': '#344f7f',
    'América do Norte': '#2f4858'
}

# Criando treemap
fig = px.treemap(
    df2, path=['Região'], values='Horas Diárias Assistidas',
    title='Horas Assistidas por Região',
    color='Região',  # Adicionando cor com base na 'Região'
    color_discrete_map=cores  # Mapeamento de cores
)

# Ajustando layout
fig.update_layout(
    grid=dict(columns=3, rows=2),
    margin={"t": 60, "l": 0, "r": 0, "b": 0},
    height=600,  # Ajuste de altura
    paper_bgcolor="#f57070",  # Background
    title_x=0.5  # Centraliza o título
)

fig.show()
