PROJETO 1
VISUALIZAÇÃO DADOS (LECD) 2023/2024
NOME: Guilherme Cardoso

INTRODUÇÃO

Este conjunto de dados contém informações relativas de cada filme/programa da Netflix, presente no Dataset. Nem todas as variáveis deste serão importantes para o estudo em causa, logo vão ser realizadas algumas alterações:

- As variáveis importantes para a análise em questão serão: 'Género ('type')', 'Páis de Origem ('country')', 'Ano de Lançamento ('release_year'), uma vez que vão ser as que se vão relacionar para darem a resposta/visualização às questões colocadas:
          - Existe um aumento mundial dos filmes/programas lançados ao longo dos anos? E num país específico?
          - Os países realizam mais filmes ou programas de TV? É uma constante ou varia de ano para ano?
  
- Além das três variáveis que foram usadas, para evitar erros no Dataset, foram implementadas quatra condições obrigatórias para os dados serem válidos:
          - Cada filme tinha que ter um e apenas um país de origem, uma vez que não faz sentido ter mais que um.
          - Todos os filmes têm que ter um ano de lançamento e um género/tipo.

O Dataset em análise, apresenta 6656 filmes/programas de TV, cada um com as necessidades referidas acima.

Os métodos utilizados foram selecionados pela qualidade com que se consegue analisar os dados, tendo sido estes quatro os escolhidos, dentro de outras opções. Em cada método é pedido ao utilizador para escolher o país que quer observar, uma vez que isso proporciona uma melhor qualidade de visualização. 

In [None]:
import pandas as pd

dataset = "netflix_titles.csv"

ds = pd.read_csv(dataset)

variaveis = ['type', 'country', 'release_year'] #apenas as variáveis importantes
ds = ds[variaveis]

ds = ds[ds['country'].str.count(',') == 0] #apenas um país de origem

ds = ds.dropna(subset = ['release_year']) #todos os filmes têm de ter um ano de lançamento
ds = ds.dropna(subset = ['type']) #todos os filmes têm de ter um tipo
ds = ds.dropna(subset = ['country']) #todos os filmes têm de ter um país de origem

print(ds)

SCATTER PLOT

In [None]:
# implementation of Scatter Plot

import plotly.graph_objects as go

# Pergunta ao user o país desejado.
user_input = input("Digite o nome do país desejado: ")

# Filtra os dados com base no país inserido pelo user.
filtered_ds = ds[ds['country'] == user_input].copy()

if filtered_ds.empty:
    print('O país não se encontra nos dados.')
else:
    filtered_ds['Contagem'] = filtered_ds.groupby(['release_year', 'type'])['release_year'].transform('count')

color_mapping = {
    'Movie'  : 'red',
    'TV Show' : 'blue'
}

filtered_ds['color'] = filtered_ds['type'].map(color_mapping)

fig = go.Figure()

for year in ds['release_year'].unique():
    data = filtered_ds[filtered_ds['release_year'] == year]
    fig.add_trace(
        go.Scatter(
            x = data['release_year'],
            y = data['Contagem'],
            mode = 'markers',
            marker = dict(size = 10, color = data['color']),
            text = data['country'],
            name = str(year)
        )
    )

fig.update_layout(
    xaxis = dict(title = 'Ano de Lançamento'),
    yaxis = dict(title = 'Número de Filmes'),
    title_text = 'Scatter Plot',
    showlegend = True,
    height = 800, 
    width = 1200
)

fig.show()

PIE CHART

In [None]:
import plotly.graph_objects as go

# Pergunta ao user o ano desejado.
chosen_year = int(input("Digite o ano desejado: "))

# Pergunta ao user o país desejado.
chosen_country = input("Digite o país desejado: ")

# Filtrar o DataFrame para incluir apenas os dados do país escolhido
filtered_ds = ds[(ds['country'] == chosen_country)]

# Crie uma função que calcula a contagem dos tipos de filme para o ano escolhido
def calculate_type_count(year):
    return filtered_ds[filtered_ds['release_year'] == year]['type'].value_counts()

# Chame a função para calcular a contagem dos tipos de filme para o ano escolhido
type_counts = calculate_type_count(chosen_year)

# Crie um gráfico de pizza com base nos resultados
fig = go.Figure(go.Pie(
    labels = type_counts.index,
    values = type_counts,
    hole = 0.4,
    pull = [0.1, 0.1],
    marker = dict(colors=['red', 'blue']),
))

fig.update_layout(
    title = 'Pie Chart',
    showlegend = True,
    height = 800,
    width = 1200
)

fig.show()


BUBBLE CHART

In [None]:
# implementation of Bubble Chart

import plotly.graph_objects as go

# Pergunta ao user o país desejado.
user_input = input("Digite o nome do país desejado: ")

# Filtra os dados com base no país inserido pelo user.
filtered_ds = ds[ds['country'] == user_input].copy()

if filtered_ds.empty:
    print('O país não se encontra nos dados.')
else:
    filtered_ds['Contagem'] = filtered_ds.groupby(['release_year', 'type'])['release_year'].transform('count')

color_mapping = {
    'Movie'  : 'red',
    'TV Show' : 'blue'
}

filtered_ds['color'] = filtered_ds['type'].map(color_mapping)

fig = go.Figure()

for year in ds['release_year'].unique():
    data = filtered_ds[filtered_ds['release_year'] == year]
    fig.add_trace(
        go.Scatter(
            x = data['release_year'],
            y = data['Contagem'],
            mode = 'markers',
            marker = dict(
                size = data['Contagem'],
                color = data['color'],
                opacity = 0.7
            ), 
            text = data['country'],
            name = str(year)
        )
    )
    
fig.update_layout(
    xaxis = dict(title = 'Ano de Lançamento'),
    yaxis = dict(title = 'Número de Filmes'),
    title_text = 'Bubble Chart',
    showlegend = True,
    height = 800, 
    width = 1200
)   

fig.show()


STACKED BAR CHART

In [None]:
# implementation of Stacked Bar Chart

import plotly.graph_objects as go

# Pergunta ao user o país desejado.
user_input = input("Digite o nome do país desejado: ")

# Filtra os dados com base no país inserido pelo user.
filtered_ds = ds[ds['country'] == user_input].copy()

if filtered_ds.empty:
    print(f"Nenhum dado encontrado para o país {user_input}.")
else:
    filtered_ds['Contagem'] = filtered_ds.groupby(['release_year', 'type'])['release_year'].transform('count')

color_mapping = {
    'Movie': 'red',
    'TV Show': 'blue'
}

fig = go.Figure()

for category in ds['type'].unique():
    data = filtered_ds[filtered_ds['type'] == category]
    cont = data.groupby('release_year')['type'].count()
        
    fig.add_trace(go.Bar(
        x = cont.index,
        y = cont.values,
        name = category,
        marker_color = color_mapping[category]
    )
)

fig.update_layout(
    xaxis = dict(title = 'Ano de Lançamento'),
    yaxis = dict(title = 'Número de Filmes'),
    title_text = 'Stacked Bar Chart',
    barmode = 'stack',  #empilha as barras.
    height = 800, 
    width = 1200
)

fig.show()


CONCLUSÃO

Como referido na Introdução, o fator principal para a escolha dos modelos foi a sua qualidade de visualização, a forma como permite ao utilizador visualizar, entender e estudar/interpretar os dados. No entanto, outros fatores foram determinantes para a escolha ou não de todos os modelos analisados.

Modelos Escolhidos: 

    - Scatter Plot: O modelo mais simples dos escolhidos. Visualmente, este modelo permite uma fácil interpretação dos dados. As principais vantagens deste modelo é a sua capacidade de detetar outliers, identificar padrões, analisar correlações. 

    - Pie Chart: Visualmente, este é o modelo que mais se distancia dos outros. Um modelo com uma clara e simples representação, uma vez que inclui apenas "duas zonas", facilita a interpretação dos dados através da dimensão das proporções, onde se percebe logo quais os dados mais relevantes.

    - Bubble Chart: Este modelo é uma extensão de um modelo já mencionado, Scatter Plot. No entanto, visualmente, este modelo facilita a comparação dos dados, uma vez que as dimensões das bolhas são relacionadas com o tamanho dos dados, algo que no Scatter Plot não acontecia pois as bolhas têm a mesma dimensão. 

    - Stacked Bar Chart: Dos modelos antes apresentados, este é o único modelo que oferece uma comparação direta entre os dados, uma vez que estes aparecem seguidos e juntos. Além desta facilidade na comparação dos dados, consegue-se analisar, facilmente, as diferenças ao longos dos anos.

Modelos Estudados, Não Escolhidos:

    - Map Plot: Embora seja o modelo que oferece uma visualização diferente do habitual, a sua implementação revela algumas dificuldades. Os dados geoespaciais são complexos e variados, necessitando de trabalhar com coordenadas geográficas que estão sujeitas a mudanças, limites terrotoriais, etc. Visualmente, embora apelativo, não iria facilitar a análise dos dados uma vez que os dados não seriam fáceis de visualizar.

    - Grouped Bar Chart: Em termos de implementação, este modelo não é um modelo muito complicado de realizar-se. No entanto, visualmente não faciilita a interpretação ao utilizador. Tem uma certa dificulade de leitura (com muitas barras a leitura dos dados fica cada vez mais complexa e confusa), uma interpretação ambígua (com muitas barras, a interpretação dos dados pode ser enganosa e levar a conclusões que não estão corretas) e oclusão dos dados (quando há muitas barras no mesmo grupo, é possível que elas se sobreponham, tornando difícil a visualização delas todas e das suas diferenças).

    - Heat Map: Visualmente, muito pouco apelativo e confuso quanto à dispersão dos dados. É um modelo que facilmente pode sofrer overplotting (os elementos individuais no gráfico se sobrepõem, o que complica a visualização dos padrões) e manipulação de outliers. Além disso, é um modelo complexo de implementar, uma vez que requer um alto umaescolha apropriada de paletas de cores, escalas de cores e técnicas de organização de dados para garantir que a visualização seja informativa e não enganosa. 

Concluindo, acho que o melhor modelo de visualização escolhido foi o Stacked Bar Chart uma vez que visualmente consegue-se logo comparar os dois tipos de filmes, a quantidade deles e a relação destes ao longos dos anos. Fácil de interpretar e nada confuso. 

REFERÊNCIAS

Plotly Community Forum - https://community.plotly.com;

Site Oficial do Plotly - https://plotly.com/python/reference/;

Dados ao Cubo - https://dadosaocubo.com/visualizacao-de-dados-com-plotly-python/;

ChatGPT;

sigMoidal - https://sigmoidal.ai/como-criar-graficos-interativos-usando-plotly-e-python/;

Material das Aulas.