# Análise de Serviços de Streaming
Esse notebook tem como objetivo analisar preferências e padrões de consumo de serviços de streaming no estado de São Paulo, Brasil. Foi realizada uma pesquisa com 213 pessoas, disponível em https://forms.gle/X9kQZXN3WRQaw6ry9 . Trata-se de um projeto semestral da disciplina de Estatística, do Instituto Mauá de Tecnologia.

<h1>Sumário<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Análise-de-Serviços-de-Streaming" data-toc-modified-id="Análise-de-Serviços-de-Streaming-1">Análise de Serviços de Streaming</a></span><ul class="toc-item"><li><span><a href="#Dependências" data-toc-modified-id="Dependências-1.1">Dependências</a></span></li><li><span><a href="#Lendo-dados" data-toc-modified-id="Lendo-dados-1.2">Lendo dados</a></span></li><li><span><a href="#Tratamento-e-Limpeza-de-Dados" data-toc-modified-id="Tratamento-e-Limpeza-de-Dados-1.3">Tratamento e Limpeza de Dados</a></span><ul class="toc-item"><li><span><a href="#Renomeando-Colunas" data-toc-modified-id="Renomeando-Colunas-1.3.1">Renomeando Colunas</a></span></li><li><span><a href="#Serviços-conhecidos,-assinados-e-favoritos" data-toc-modified-id="Serviços-conhecidos,-assinados-e-favoritos-1.3.2">Serviços conhecidos, assinados e favoritos</a></span></li><li><span><a href="#Idade" data-toc-modified-id="Idade-1.3.3">Idade</a></span></li><li><span><a href="#Dispositivos-utilizados" data-toc-modified-id="Dispositivos-utilizados-1.3.4">Dispositivos utilizados</a></span></li><li><span><a href="#Renda" data-toc-modified-id="Renda-1.3.5">Renda</a></span></li><li><span><a href="#Melhorias" data-toc-modified-id="Melhorias-1.3.6">Melhorias</a></span></li></ul></li><li><span><a href="#Análise-Exploratória-dos-Dados" data-toc-modified-id="Análise-Exploratória-dos-Dados-1.4">Análise Exploratória dos Dados</a></span><ul class="toc-item"><li><span><a href="#Informações-dos-entrevistados" data-toc-modified-id="Informações-dos-entrevistados-1.4.1">Informações dos entrevistados</a></span></li><li><span><a href="#Serviços-e-comportamento-do-usuário" data-toc-modified-id="Serviços-e-comportamento-do-usuário-1.4.2">Serviços e comportamento do usuário</a></span><ul class="toc-item"><li><span><a href="#Serviços-conhecidos,-assinados-e-favoritos" data-toc-modified-id="Serviços-conhecidos,-assinados-e-favoritos-1.4.2.1">Serviços conhecidos, assinados e favoritos</a></span></li><li><span><a href="#Preço" data-toc-modified-id="Preço-1.4.2.2">Preço</a></span></li><li><span><a href="#Como-a-idade-influencia-no-comportamento-do-usuário?" data-toc-modified-id="Como-a-idade-influencia-no-comportamento-do-usuário?-1.4.2.3">Como a idade influencia no comportamento do usuário?</a></span></li><li><span><a href="#Quem-assiste-mais-e-quem-assiste-menos-conteúdo?" data-toc-modified-id="Quem-assiste-mais-e-quem-assiste-menos-conteúdo?-1.4.2.4">Quem assiste mais e quem assiste menos conteúdo?</a></span></li></ul></li></ul></li><li><span><a href="#Categoria-das-variáveis" data-toc-modified-id="Categoria-das-variáveis-1.5">Categoria das variáveis</a></span><ul class="toc-item"><li><span><a href="#Quantitativas" data-toc-modified-id="Quantitativas-1.5.1">Quantitativas</a></span></li><li><span><a href="#Qualitativas" data-toc-modified-id="Qualitativas-1.5.2">Qualitativas</a></span></li></ul></li><li><span><a href="#Ideias-de-Análise" data-toc-modified-id="Ideias-de-Análise-1.6">Ideias de Análise</a></span></li></ul></li></ul></div>

## Dependências

In [1]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots

## Lendo dados

In [2]:
df = pd.read_csv("data/Pesquisa - Serviços de Streaming.csv")
df.head() # exibe as 5 primeiras linhas

Unnamed: 0,Carimbo de data/hora,Quais serviços você conhece? (selecione uma ou mais),Quais serviços você ou sua família assinam? (selecione uma ou mais),Quais serviços você mais gosta? (selecione uma ou mais),Idade,Gênero,Ocupação,Quantas crianças (menor de 10 anos) moram com você?,Tipo de conteúdo preferido:,"Durante a semana, quantas horas você assiste de streaming por dia?","De final de semana, quantas horas você assiste de streaming por dia?",Quais dispositivos você utiliza para assistir streaming? (selecione uma ou mais),Qual preço você julga justo assinar?,Qual sua renda familiar mensal?,O que poderia melhorar nos serviços de streaming que você assina?
0,2022/05/03 10:21:32 AM GMT-3,Netflix;Disney+;Star+;Prime Video;HBO Max;Hulu...,Netflix;Prime Video;HBO Max,Disney+;Prime Video,20,Masculino,Estudando,0,Séries,1,2,Celular,"R$15,00 - R$25,00","R$10.000,00 - R$20.000,00",Maior catálogo de filmes e séries
1,2022/05/03 10:27:36 AM GMT-3,Netflix;Disney+;Prime Video;HBO Max;Hulu;Globo...,Netflix;Prime Video;Crunchyroll,Netflix;Prime Video;HBO Max,20,Masculino,Estudando,0,Séries,0,1,Smart TV,"R$15,00 - R$25,00","Mais de R$20.000,00",Maior catálogo de filmes e séries;Conexão;Inte...
2,2022/05/03 10:29:52 AM GMT-3,Netflix;Disney+;Star+;Prime Video;HBO Max;Hulu...,Netflix;Disney+;Star+;Prime Video;HBO Max;NBA ...,Netflix;Disney+;Star+;HBO Max,19,Masculino,Estudando,0,Séries,1,1,Smart TV;Google Chromecast ou similar;Tablet o...,"R$15,00 - R$25,00","R$10.000,00 - R$20.000,00",Preço
3,2022/05/03 10:49:56 AM GMT-3,Netflix;Disney+;Star+;Prime Video;HBO Max,Netflix;Disney+;Prime Video;HBO Max,Netflix;Disney+;HBO Max,22,Masculino,Estudando e Trabalhando,0,Séries,5,6,Notebook ou PC,"R$25,00 - R$35,00","R$1.000,00 - R$5.000,00",Preço;Maior catálogo de filmes e séries
4,2022/05/03 10:50:22 AM GMT-3,Netflix;Disney+;Star+;Prime Video;HBO Max;Hulu...,Netflix;Disney+;Star+;Prime Video;HBO Max,Netflix;Disney+;Prime Video;HBO Max;Globoplay,20 anos,Feminino,Estudando e Trabalhando,0,Séries,4,6,Smart TV;Celular,"R$15,00 - R$25,00","R$5.000,00 - R$10.000,00",Preço;Maior catálogo de filmes e séries


## Tratamento e Limpeza de Dados
Antes de analisar os dados da pesquisa, é necessário tratá-los e limpá-los. Nós iremos corrigir alguns erros de digitação, deletar colunas desnecessárias para análise, e procurar melhores formas de acessar as informações importantes.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 213 entries, 0 to 212
Data columns (total 15 columns):
 #   Column                                                                            Non-Null Count  Dtype 
---  ------                                                                            --------------  ----- 
 0   Carimbo de data/hora                                                              213 non-null    object
 1   Quais serviços você conhece? (selecione uma ou mais)                              213 non-null    object
 2   Quais serviços você ou sua família assinam? (selecione uma ou mais)               213 non-null    object
 3   Quais serviços você mais gosta? (selecione uma ou mais)                           213 non-null    object
 4   Idade                                                                             213 non-null    object
 5   Gênero                                                                            213 non-null    object
 6   Ocupação  

In [4]:
df.drop(columns=["Carimbo de data/hora"], inplace=True)

Como obtemos os dados a partir de um questionário do Google Forms, os nomes de cada coluna é a respectiva pergunta (o que são textos muito grandes!). Assim, vamos renomear as colunas para facilitar análise dos dados.

### Renomeando Colunas

In [5]:
df.rename(columns={
    "Quais serviços você conhece? (selecione uma ou mais)": "servicos_conhecidos",
    "Quais serviços você ou sua família assinam? (selecione uma ou mais)": "servicos_assinados",
    "Quais serviços você mais gosta? (selecione uma ou mais)": "servicos_gosto",
    "Idade": "idade",
    "Gênero": "genero",
    "Ocupação": "ocupacao",
    "Quantas crianças (menor de 10 anos) moram com você?": "n_criancas",
    "Tipo de conteúdo preferido:": "conteudo_preferido",
    "Durante a semana, quantas horas você assiste de streaming por dia?": "hrs_semana",
    "De final de semana, quantas horas você assiste de streaming por dia?": "hrs_fds",
    "Quais dispositivos você utiliza para assistir streaming? (selecione uma ou mais)": "dispositivos",
    "Qual preço você julga justo assinar?": "preco_justo",
    "Qual sua renda familiar mensal?": "renda",
    "O que poderia melhorar nos serviços de streaming que você assina?": "melhorias",
}, inplace=True)

In [6]:
df.head(2)

Unnamed: 0,servicos_conhecidos,servicos_assinados,servicos_gosto,idade,genero,ocupacao,n_criancas,conteudo_preferido,hrs_semana,hrs_fds,dispositivos,preco_justo,renda,melhorias
0,Netflix;Disney+;Star+;Prime Video;HBO Max;Hulu...,Netflix;Prime Video;HBO Max,Disney+;Prime Video,20,Masculino,Estudando,0,Séries,1,2,Celular,"R$15,00 - R$25,00","R$10.000,00 - R$20.000,00",Maior catálogo de filmes e séries
1,Netflix;Disney+;Prime Video;HBO Max;Hulu;Globo...,Netflix;Prime Video;Crunchyroll,Netflix;Prime Video;HBO Max,20,Masculino,Estudando,0,Séries,0,1,Smart TV,"R$15,00 - R$25,00","Mais de R$20.000,00",Maior catálogo de filmes e séries;Conexão;Inte...


Bem melhor! Agora vamos tratar individualmente as colunas.

### Serviços conhecidos, assinados e favoritos
Como em nossas perguntas sobre serviços conhecidos, assinados e favoritos poderia selecionar mais de uma alternativa, os dados delas vieram da seguinte forma:

In [7]:
df.servicos_conhecidos[0]

'Netflix;Disney+;Star+;Prime Video;HBO Max;Hulu;Globoplay'

Assim, precisamos realizar uma contagem para cada serviço, para então analisar as preferências dos consumidores. Além disso, como havia a opção de digitar outro serviço, ocorreram muitos erros de digitação (por exemplo, digitaram Paramount ao invés de Paramount+). Vamos então tratar esses erros e realizar nossas contagens.

In [8]:
def conta_coluna_lista(df):
    """Realiza uma contagem de quantos valores diferentes existem no dataframe

    Args:
        df (pandas DataFrame): DataFrame a ser analisado
    """
    dic_principal = {}
    for col in df.columns:
        dic_aux = dict(df.iloc[:, col].value_counts()) # contagem específica de cada coluna
        for k, v in dic_aux.items(): # se o valor não existe no dicionário principal, adiciona
            if k not in dic_principal: # caso contrário, soma
                dic_principal[k] = v
            else:
                dic_principal[k] += v
    try:
        dic_principal.pop("") # remove o valor nulo
    except KeyError:
        pass
    return dict(sorted(dic_principal.items(), key=lambda x: x[1], reverse=False)) # retorna o dicionário ordenado
    

def conta_servicos(df, col):
    """Corrige erros de digitação e retorna a contagem de serviços

    Args:
        df (pandas DataFrame): DataFrame a ser analisado
        col (string): Nome da coluna a ser analisada
    """
    
    # na opção "outro", alguns digitaram mais de um serviço. Assim, como todos valores estão separados
    # por ";", vamos substituir outros separadores por ";"
    df[col] = df[col].str.replace(",", ";")
    df[col] = df[col].str.replace(" e ", ";")
    df[col] = df[col].str.replace(" - ", ";")
    
    df_servicos = df[col].str.split(";", expand=True) # separa os valores da coluna em um DataFrame
    
    valores_errados = {
        "Amazon": "Prime Video",
        "Discovery +": "Discovery+",
        "crunchyroll": "Crunchyroll",
        'Apple TV': 'Apple TV+',
        'stremio >:)': None,
        'Direct Go': 'DirecTV Go',
        'Crunchyroll ': 'Crunchyroll',
        'Amazon ': 'Prime Video',
        ' Mubi': 'Mubi',
        'Tele Cine': 'Telecine',
        'AppleTV': 'Apple TV+',
        'Amazon Prime': 'Prime Video',
        'Directvgo': 'DirecTV Go',
        ' Crunchyroll': 'Crunchyroll',
        'Apple+': 'Apple TV+',
        'Paramount plus ': 'Paramount+',
        ' appletv': 'Apple TV+',
        ' Crunchroll': 'Crunchyroll',
        ' premiere': 'Premiere',
        'Amzon Prime': 'Prime Video',
        'APPLE TV ': 'Apple TV+',
        'Crunchroll': 'Crunchyroll',
        'Paramount': 'Paramount+',
    }
    df_servicos.replace(valores_errados, inplace=True)
    
    df_servicos.fillna("", inplace=True) # substitui valores nulos por ""
    df[col] = df_servicos.apply(lambda x: ";".join(x).rstrip(";"), axis=1) # junta os valores em uma string separada por ";"
    return conta_coluna_lista(df_servicos) # retorna o dicionário com a contagem de valores

In [9]:
count_servicos_conhecidos = conta_servicos(df, "servicos_conhecidos")
count_servicos_assinados = conta_servicos(df, "servicos_assinados")
count_servicos_gosto = conta_servicos(df, "servicos_gosto")

### Idade
O único problema de `idade` é que alguns digitaram apenas a idade, outros digitaram "x anos". Então vamos coletar apenas os dígitos.

In [10]:
df["idade"] = df.idade.apply(lambda x: x[0:2]).astype(int)

### Dispositivos utilizados
Aqui separamos também nossa coluna para realizar a contagem de dispositivos utilizados. Também trocamos a opção "Google Chromecast ou similar" pelo nome técnico "Dongle".

In [11]:
df_dispositivos = df.dispositivos.str.split(";", expand=True)
df_dispositivos.replace({
    'Google Chromecast ou similar': 'Dongle'
}, inplace=True)
count_dispositivos = conta_coluna_lista(df_dispositivos)

### Renda

In [12]:
df.renda.fillna("Não respondeu", inplace=True) # substituindo valores nulos por "Não respondeu"
df.renda.value_counts()

R$10.000,00 - R$20.000,00    64
Mais de R$20.000,00          53
R$5.000,00 - R$10.000,00     46
R$1.000,00 - R$5.000,00      28
Não respondeu                19
R$0,00 - R$1.000,00           3
Name: renda, dtype: int64

### Melhorias
A coluna `melhorias` possui os mesmos erros que os serviços conhecidos, assinados e preferidos.

In [13]:
def conta_melhorias(df, col):
    """Corrige erros de digitação e retorna a contagem de melhorias

    Args:
        df (pandas DataFrame): DataFrame a ser analisado
        col (string): Nome da coluna a ser analisada
    """
    df[col] = df[col].str.replace(", ", ";")
    df_melhorias = df[col].str.split(";", expand=True)
    
    valores_errados = {
        '8': None,
        'Filmes adultos': None,
        'Esportes Internacionais ao Vivo': None,
        'menos demora pro lançamento ': 'Menos demora para o lançamento dos conteúdos',
        'Combo ou integração de serviços no mesmo pacote e aplicativo. Mto ruim ficar procurando conteudo e assinando varias plataformas simultaneamente.':'Combo ou integração de serviços no mesmo pacote e aplicativo. Muito ruim ficar procurando conteúdo e assinando várias plataformas simultaneamente',
        'Não incluir anuncios (Prime video e hulu)': "Não incluir anúncios",
    }
    df_melhorias.replace(valores_errados, inplace=True)
    
    df_melhorias.fillna("", inplace=True)
    df[col] = df_melhorias.apply(lambda x: ";".join(x).rstrip(";"), axis=1)
    return conta_coluna_lista(df_melhorias)

In [14]:
count_melhorias = conta_melhorias(df, "melhorias")

Pronto, já podemos começar a Análise Exploratória dos Dados! Vamos antes salvar nossos dados tratados.

In [15]:
df.to_csv("data/dados_pesquisa_tratados.csv", index=False)

## Análise Exploratória dos Dados
### Informações dos entrevistados

In [16]:
df_genero = df.genero.value_counts(normalize=True)
df_genero

Masculino    0.723005
Feminino     0.267606
Outro        0.009390
Name: genero, dtype: float64

In [17]:
fig = go.Figure(go.Box(y=df.idade, name="", boxmean=True))
fig.update_layout(template="plotly_white", 
                title="Idade dos entrevistados",
                yaxis={"title": "Idade",
                        "showgrid": False,},
                width=600,
                height=500,
                )
fig.show()

A distribuição da idade dos participantes da pesquisa se alinha com o mercado consumidor de serviços de streaming, que é um público majoritariamente jovem.

In [18]:
df_ocupacao = df.ocupacao.value_counts().sort_values(ascending=True)
fig = go.Figure(go.Bar(y=df_ocupacao.index, x=df_ocupacao.values, orientation="h", name="",
                       text=df_ocupacao.values, textposition="outside",))
fig.update_layout(template="plotly_white",
                title="Ocupação dos entrevistados", 
                yaxis={"showgrid": False,},
                xaxis={"showgrid": False,
                       "visible": False},
                width=800,
                height=500,
                )
            
fig.show()

In [19]:
df_renda = df.renda.value_counts()
fig = go.Figure(go.Bar(y=df_renda.index[::-1], x=df_renda.values[::-1], orientation="h", name="",
                       text=df_renda.values[::-1], textposition="outside",))
fig.update_layout(template="plotly_white",
                title="Renda familiar mensal", 
                yaxis={"showgrid": False,},
                xaxis={"showgrid": False,
                       "visible": False},
                width=800,
                height=500,
                )
            
fig.show()

### Serviços e comportamento do usuário

#### Serviços conhecidos, assinados e favoritos

In [20]:
df["n_servicos_conhecidos"] = df.servicos_conhecidos.apply(lambda x: len(x.split(";")))
df["n_servicos_assinados"] = df.servicos_assinados.apply(lambda x: len(x.split(";")))

In [21]:
fig = make_subplots(rows=1, cols=2, shared_yaxes=True)
fig.add_trace(go.Box(y=df.n_servicos_conhecidos, name="Conhecidos", boxmean=True), row=1, col=1)
fig.add_trace(go.Box(y=df.n_servicos_assinados, name="Assinados", boxmean=True), row=1, col=2)
fig.update_layout(template="plotly_white",
                    title="Quantidade de serviços conhecidos e assinados",
                    yaxis={"title": "nº de serviços",
                    },
                    width=800,
                    height=500,
                    showlegend=False,
                        )
fig.show()

Em média, as pessoas assinam 3 serviços de streaming, enquanto conhecem 6. Ao analisar o gráfico acima, nos perguntamos, por que 75% dos entrevistados assinam 2 ou mais serviços? Se a ideia dos serviços é garantir o cliente só para eles, estão fazendo um bom trabalho? O que falta para que apenas um serviço garanta a total necessidade de seu consumidor? Para entender melhor, vamos analisar quais são os serviços mais assinados.

In [22]:
escala_servicos = ["#00001a", "#0064ff", "#999966", "#f57421", "#1a0033", "#fd411d", "#7120d9", "#101037", "#068bb9", "#db080c"]

fig = go.Figure(go.Bar(y=list(count_servicos_assinados.keys())[-10:], 
                     x=list(count_servicos_assinados.values())[-10:], 
                     orientation="h", 
                     name="",
                     text=list(count_servicos_assinados.values())[-10:],
                     textposition="outside",
                     marker_color=escala_servicos),
                     )
fig.update_layout(template="plotly_white",
                  title="Top 10 serviços mais assinados",
                  xaxis_visible=False,
                  width=700,
                  height=500,
)
fig.show()

Sabendo quais serviços os entrevistados são consumidores, o que poderia melhorar neles?

In [23]:
fig = go.Figure(go.Bar(y=list(count_melhorias.keys())[-6:], x=list(count_melhorias.values())[-6:], 
                       orientation="h", name="",
                       text=list(count_melhorias.values())[-6:], textposition="outside",
                       marker_color="#E9897E"))
fig.update_layout(template="plotly_white",
                title="O que poderia melhorar nos serviços?", 
                yaxis={"showgrid": False,},
                xaxis={"showgrid": False,
                       "visible": False},
                width=900,
                height=400,
                )
fig.update_traces(width=0.7)
fig.show()

Podemos observar que de longe um maior catálogo de conteúdo é a principal reclamação dos usuários. Quais são os tipos de conteúdo preferidos deles?

In [24]:
df_conteudo_pref = df.conteudo_preferido.value_counts().sort_values(ascending=True)
fig = go.Figure(go.Bar(y=df_conteudo_pref.index, x=df_conteudo_pref.values, orientation="h", name="",
                       text=df_conteudo_pref.values, textposition="outside",
                       marker_color="#00A170"))
fig.update_layout(template="plotly_white",
                title="Conteúdos Preferidos", 
                yaxis={"showgrid": False,},
                xaxis={"showgrid": False,
                       "visible": False},
                width=700,
                height=400,
                )
fig.update_traces(width=0.7)
fig.show()

Analisando os tipos de conteúdo preferidos, assim como a grande maioria dos entrevistados pediu por um maior catálogo de filmes e séries, também tem como preferência de conteúdo séries (113) e filmes (72), quando comparados com esportes (16) e documentários (12), demonstrando que é essencial que os serviços invistam em um maior catálogo desses dois tipos de conteúdo.

Agora, será que as pessoas que pediram por um maior catálogo assinam mais serviços do que as outras para suprir essa necessidade?

In [25]:
df_catalogo = df[df.melhorias.str.contains("Maior catálogo de filmes e séries")]
df_nao_catalogo = df[~df.melhorias.str.contains("Maior catálogo de filmes e séries")]

In [26]:
fig = make_subplots(rows=1, cols=3, shared_yaxes=True)
fig.add_trace(go.Box(y=df.n_servicos_assinados, name="Todos entrevistados", boxmean=True), 
              row=1, col=1)
fig.add_trace(go.Box(y=df_catalogo.n_servicos_assinados, name="Pediram por maior catálogo", boxmean=True), 
              row=1, col=2)
fig.add_trace(go.Box(y=df_nao_catalogo.n_servicos_assinados, name="Não pediram por maior catálogo", boxmean=True),
              row=1, col=3)
fig.update_xaxes(visible=False)
fig.update_yaxes(showgrid=False)
fig.update_layout(template="plotly_white",
                title="Quantidade de serviços assinados",
                yaxis={"title": "nº de serviços assinados"},
                width=800,
                height=500,
)
fig.show()

Comparando o boxplot de todos entrevistados, os que pediram por maior catálogo e os que não pediram pelo mesmo, não verificamos grande diferença quanto ao número de serviços assinados, sendo todos majoritariamente acima de 1. Então por que se assina mais de um serviço?

De acordo com os nossos dados das entrevistas, não encontramos uma conclusão sobre. Seria interessante um aprofundamento nesse tópico, como talvez uma amostra maior e também perguntas mais direcionadas a esse assunto. Agora vamos analisar as outras reclamações.

#### Preço
A segunda maior reclamação (115 dos entrevistados) foi do alto preço dos serviços. Será que realmente os preços são mais altos do que o público gostaria de pagar ou a alta quantidade de serviços assinados influencia nessa opinião, já que se assina em média 3 serviços por família?

In [27]:
df_preco = df.preco_justo.value_counts()
fig = go.Figure(go.Bar(y=df_preco.index[::-1], x=df_preco.values[::-1], orientation="h", name="",
                       text=df_preco.values[::-1], textposition="outside",
                       marker_color="#00A170"))
fig.update_layout(template="plotly_white",
                title="Preço considerado justo pelos entrevistados", 
                yaxis={"showgrid": False,},
                xaxis={"showgrid": False,
                       "visible": False},
                width=700,
                height=400,
                )
fig.update_traces(width=0.7)
fig.show()

Qual o preço do plano padrão de cada serviço? (10 mais assinados)

In [28]:
precos_servicos = pd.read_csv("data/precos_streamings.csv")

In [29]:
precos_servicos.sort_values(by="preco_plano_padrao", ascending=True, inplace=True)
fig = go.Figure(go.Bar(y=precos_servicos.servico, x=precos_servicos.preco_plano_padrao, 
                       orientation="h", name="",
                       text=precos_servicos.preco_plano_padrao, textposition="inside",
                       texttemplate="%{text:.2f}",
                       marker_color="#0072B5"))
fig.update_layout(template="plotly_white",
                title="Preço do plano padrão de cada serviço (R$)", 
                yaxis={"showgrid": False,},
                xaxis={"showgrid": False,
                       "visible": False,
                       "range":[0,85]},
                width=700,
                height=400,
                )
fig.add_vrect(x0=15, x1=25, fillcolor="green", opacity=0.4)
fig.add_annotation(x=40, y=0, text="Faixa considerada mais justa<br>R$15.00-R$25.00", showarrow=False, yref="paper", xref="x")
fig.show()

É possível verificar que dos 10 serviços mais assinados, 6 são considerados caros para a grande maioria dos entrevistados. Agora, será que o preço influencia na preferência pelo serviço?

In [30]:
count_servicos_gosto_top10 = {
  'Apple TV+': 1,
  'Prime Video': 71,
  'Globoplay': 18,
  'HBO Max': 91,
  'Disney+': 73,
  'Paramount+': 0,
  'Crunchyroll': 4,
  'Star+': 27,
  'Netflix': 176,
  'DirecTV Go': 0,
}

precos_servicos["n_favoritos"] = count_servicos_gosto_top10.values()

In [31]:
escala_servicos = ['#00001a',
 '#068bb9',
 '#0064ff',
 '#fd411d',
 '#7120d9',
 '#101037',
 '#f57421',
 '#1a0033',
 '#db080c',
 '#00001a']

In [32]:
fig = px.scatter(precos_servicos, x="preco_plano_padrao", y="n_favoritos", color="servico",
color_discrete_sequence=escala_servicos,
text="servico",
)
fig.update_layout(template="plotly_white",
                title="nº de pessoas que gostam do serviço pelo preço (R$)", 
                yaxis={"showgrid": False,
                       "zeroline": False,
                       "title":"nº de pessoas que gostam do serviço"},
                xaxis={"showgrid": False,
                       "zeroline": False,
                       "title": "Preço do plano padrão",
                       "range":[0,100]
                       },
                showlegend=False,
                width=700,
                height=400,
                )
fig.update_traces(textposition="top center", textfont_size=8)
fig.show()

Analisando o gráfico, entendemos que existe um padrão dentro do mercado de streaming, o qual mostra que a maioria dos serviços possuem uma popularidade similar independentemente do seu preço. Entretanto, identificamos que a Netflix e DirecTV Go se distoam desse comportamento; o primeiro apesar de entregar um serviço muito parecido com os demais, possivelmente por ter sido um dos primeiros no mercado, possui um branding e uma estratégia de marketing melhor, mesmo com um preço mais elevado que os demais é de longe o preferido pelos entrevistados. Quanto ao DirecTV Go, há alguns fatores que o distoam dos demais - é um serviço relativamente novo (lançado em 2020), além de oferecer um serviço diferente dos outros, já que ele oferece acesso a inúmeros canais ao vivo, característica que ainda não é muito difundida no mercado, além do usual de um serviço de streaming. Além disso, apenas 2 entrevistados assinam o DirecTV Go, o que é um valor pouco expressivo, e pode trazer conclusões precipitadas sobre a qualidade e preferência pelo serviço.

Agora vamos analisar outras características dos usuários de streaming.

#### Como a idade influencia no comportamento do usuário?

In [33]:
df[["idade", "conteudo_preferido"]].groupby("conteudo_preferido").idade.agg(["mean", "median"])

Unnamed: 0_level_0,mean,median
conteudo_preferido,Unnamed: 1_level_1,Unnamed: 2_level_1
Documentários,45.583333,49.0
Esportes,31.625,21.0
Filmes,39.388889,42.5
Séries,29.00885,20.0


Analisando a tabela acima, é possível identificar que pessoas mais jovens preferem séries e esportes, enquanto mais velhas preferem documentários e filmes. E quanto aos dispositivos utilizados para acessar os serviços?

In [39]:
df["n_dispositivos"] = df.dispositivos.apply(lambda x: len(x.split(";")))
df[["idade", "n_dispositivos"]].groupby("n_dispositivos").idade.agg(["mean", "median"])

Unnamed: 0_level_0,mean,median
n_dispositivos,Unnamed: 1_level_1,Unnamed: 2_level_1
1,41.128205,45.0
2,32.013158,21.0
3,27.857143,20.0
4,19.363636,20.0
5,23.833333,20.0


Quanto a quantidade de dispositivos, quanto mais jovem a pessoa, mais aparelhos diferentes ela tende a utilizar. Quais os dispositivos mais utilizados?

In [42]:
fig = go.Figure(go.Bar(y=list(count_dispositivos.keys()), 
                     x=list(count_dispositivos.values()), 
                     orientation="h", 
                     name="",
                     text=list(count_dispositivos.values()),
                     textposition="outside",
                     marker_color="royalblue"),
                     )
fig.update_layout(template="plotly_white",
                  title="Top 10 serviços mais assinados",
                  xaxis_visible=False,
                  width=700,
                  height=400,
)
fig.show()

#### Quanto tempo as pessoas passam assistindo à streaming e <br> o que influencia esse tempo de consumo?

In [34]:
### Horas de uso
fig = make_subplots(rows=1, cols=2, shared_yaxes=True)
fig.add_trace(go.Box(y=df.hrs_semana, name="Semanal", boxmean=True), row=1, col=1)
fig.add_trace(go.Box(y=df.hrs_fds, name="Final de semana", boxmean=True), row=1, col=2)
fig.update_layout(template="plotly_white",
                  title="Horas de uso",
                  yaxis={"title": "Horas de uso",
                  },
                  width=800,
                  height=500,
                  showlegend=False,
                  )
fig.show()

A média de horas assistidas por dia no final de semana é 50% maior do que durante a semana.

In [45]:
df["horas_total"] = (df.hrs_semana + df.hrs_fds) / 2

In [62]:
fig = make_subplots(rows=1, cols=3, subplot_titles=("Ocupação", "Idade", "Nº de serviços assinados"), shared_yaxes=True)
fig.add_trace(go.Box(y=df.horas_total, x=df.ocupacao, name="Ocupação")
                , row=1, col=1)
fig.add_trace(go.Scatter(y=df.horas_total, x=df.idade, name="Idade", mode="markers",)
                , row=1, col=2)
fig.add_trace(go.Box(y=df.horas_total, x=df.n_servicos_assinados, name="Nº de assinados")
                , row=1, col=3)
fig.update_layout(template="plotly_white",
                    title="Relação de horas de uso com outras variáveis",
                    yaxis={"title": "Horas de uso"},
                    width=800,
                    height=500,
                    showlegend=False,
                    )
fig.show()

Fazendo uma análise multivariada de horas de uso com ocupação, idade e nº de serviços assinados, é possível concluir que:
- Não há uma relação evidente entre idade e ocupação com horas de uso por semana;
- Há uma relação crescente entre nº de serviços assinados e horas de uso por semana, o que provavelmente indica que as pessoas que assinam mais serviços tem o streaming como sua prioridade de entretenimento.

## Categoria das variáveis
### Quantitativas
- n_servicos_conhecidos
- n_servicos_assinados
- idade
- hrs_semana
- hrs_fds

### Qualitativas
- servicos_gosto
- genero
- ocupacao
- n_criancas
- conteudo_preferido
- dispositivos
- preco_justo
- renda
- melhorias