# Análise de Serviços de Streaming

## Dependências

In [176]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
import plotly.express as px

## Lendo dados

In [177]:
df = pd.read_csv("data/Pesquisa - Serviços de Streaming.csv")
df.head()

Unnamed: 0,Carimbo de data/hora,Quais serviços você conhece? (selecione uma ou mais),Quais serviços você ou sua família assinam? (selecione uma ou mais),Quais serviços você mais gosta? (selecione uma ou mais),Idade,Gênero,Ocupação,Quantas crianças (menor de 10 anos) moram com você?,Tipo de conteúdo preferido:,"Durante a semana, quantas horas você assiste de streaming por dia?","De final de semana, quantas horas você assiste de streaming por dia?",Quais dispositivos você utiliza para assistir streaming? (selecione uma ou mais),Qual preço você julga justo assinar?,Qual sua renda familiar mensal?,O que poderia melhorar nos serviços de streaming que você assina?
0,2022/05/03 10:21:32 AM GMT-3,Netflix;Disney+;Star+;Prime Video;HBO Max;Hulu...,Netflix;Prime Video;HBO Max,Disney+;Prime Video,20,Masculino,Estudando,0,Séries,1,2,Celular,"R$15,00 - R$25,00","R$10.000,00 - R$20.000,00",Maior catálogo de filmes e séries
1,2022/05/03 10:27:36 AM GMT-3,Netflix;Disney+;Prime Video;HBO Max;Hulu;Globo...,Netflix;Prime Video;Crunchyroll,Netflix;Prime Video;HBO Max,20,Masculino,Estudando,0,Séries,0,1,Smart TV,"R$15,00 - R$25,00","Mais de R$20.000,00",Maior catálogo de filmes e séries;Conexão;Inte...
2,2022/05/03 10:29:52 AM GMT-3,Netflix;Disney+;Star+;Prime Video;HBO Max;Hulu...,Netflix;Disney+;Star+;Prime Video;HBO Max;NBA ...,Netflix;Disney+;Star+;HBO Max,19,Masculino,Estudando,0,Séries,1,1,Smart TV;Google Chromecast ou similar;Tablet o...,"R$15,00 - R$25,00","R$10.000,00 - R$20.000,00",Preço
3,2022/05/03 10:49:56 AM GMT-3,Netflix;Disney+;Star+;Prime Video;HBO Max,Netflix;Disney+;Prime Video;HBO Max,Netflix;Disney+;HBO Max,22,Masculino,Estudando e Trabalhando,0,Séries,5,6,Notebook ou PC,"R$25,00 - R$35,00","R$1.000,00 - R$5.000,00",Preço;Maior catálogo de filmes e séries
4,2022/05/03 10:50:22 AM GMT-3,Netflix;Disney+;Star+;Prime Video;HBO Max;Hulu...,Netflix;Disney+;Star+;Prime Video;HBO Max,Netflix;Disney+;Prime Video;HBO Max;Globoplay,20 anos,Feminino,Estudando e Trabalhando,0,Séries,4,6,Smart TV;Celular,"R$15,00 - R$25,00","R$5.000,00 - R$10.000,00",Preço;Maior catálogo de filmes e séries


## Tratamento e Limpeza de Dados

In [178]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 213 entries, 0 to 212
Data columns (total 15 columns):
 #   Column                                                                            Non-Null Count  Dtype 
---  ------                                                                            --------------  ----- 
 0   Carimbo de data/hora                                                              213 non-null    object
 1   Quais serviços você conhece? (selecione uma ou mais)                              213 non-null    object
 2   Quais serviços você ou sua família assinam? (selecione uma ou mais)               213 non-null    object
 3   Quais serviços você mais gosta? (selecione uma ou mais)                           213 non-null    object
 4   Idade                                                                             213 non-null    object
 5   Gênero                                                                            213 non-null    object
 6   Ocupação  

In [179]:
df.drop(columns=["Carimbo de data/hora"], inplace=True)

### Renomeando Colunas

In [180]:
df.rename(columns={
    "Quais serviços você conhece? (selecione uma ou mais)": "servicos_conhecidos",
    "Quais serviços você ou sua família assinam? (selecione uma ou mais)": "servicos_assinados",
    "Quais serviços você mais gosta? (selecione uma ou mais)": "servicos_gosto",
    "Idade": "idade",
    "Gênero": "genero",
    "Ocupação": "ocupacao",
    "Quantas crianças (menor de 10 anos) moram com você?": "n_criancas",
    "Tipo de conteúdo preferido:": "conteudo_preferido",
    "Durante a semana, quantas horas você assiste de streaming por dia?": "hrs_semana",
    "De final de semana, quantas horas você assiste de streaming por dia?": "hrs_fds",
    "Quais dispositivos você utiliza para assistir streaming? (selecione uma ou mais)": "dispositivos",
    "Qual preço você julga justo assinar?": "preco_justo",
    "Qual sua renda familiar mensal?": "renda",
    "O que poderia melhorar nos serviços de streaming que você assina?": "melhorias",
}, inplace=True)

In [181]:
df.head(2)

Unnamed: 0,servicos_conhecidos,servicos_assinados,servicos_gosto,idade,genero,ocupacao,n_criancas,conteudo_preferido,hrs_semana,hrs_fds,dispositivos,preco_justo,renda,melhorias
0,Netflix;Disney+;Star+;Prime Video;HBO Max;Hulu...,Netflix;Prime Video;HBO Max,Disney+;Prime Video,20,Masculino,Estudando,0,Séries,1,2,Celular,"R$15,00 - R$25,00","R$10.000,00 - R$20.000,00",Maior catálogo de filmes e séries
1,Netflix;Disney+;Prime Video;HBO Max;Hulu;Globo...,Netflix;Prime Video;Crunchyroll,Netflix;Prime Video;HBO Max,20,Masculino,Estudando,0,Séries,0,1,Smart TV,"R$15,00 - R$25,00","Mais de R$20.000,00",Maior catálogo de filmes e séries;Conexão;Inte...


### Serviços conhecidos, assinados e favoritos

In [182]:
def conta_coluna_lista(df):
    """_summary_

    Args:
        df (_type_): _description_
        col (_type_): _description_
    """
    dic_principal = {}
    for col in df.columns:
        dic_aux = dict(df.iloc[:, col].value_counts())
        for k, v in dic_aux.items():
            if k not in dic_principal:
                dic_principal[k] = v
            else:
                dic_principal[k] += v
    dic_principal
    return dic_principal
    

def conta_servicos(df, col):
    """_summary_

    Args:
        df (_type_): _description_
        col (_type_): _description_
    """
    df[col] = df[col].str.replace(",", ";")
    df[col] = df[col].str.replace(" e ", ";")
    df[col] = df[col].str.replace(" - ", ";")
    
    df_servicos = df[col].str.split(";", expand=True)
    
    valores_errados = {
        "Amazon": "Prime Video",
        "Discovery +": "Discovery+",
        "crunchyroll": "Crunchyroll",
        'Apple TV': 'Apple TV+',
        'stremio >:)': None,
        'Direct Go': 'DirecTV Go',
        'Crunchyroll ': 'Crunchyroll',
        'Amazon ': 'Prime Video',
        ' Mubi': 'Mubi',
        'Tele Cine': 'Telecine',
        'AppleTV': 'Apple TV+',
        'Amazon Prime': 'Prime Video',
        'Directvgo': 'DirecTV Go',
        ' Crunchyroll': 'Crunchyroll',
        'Apple+': 'Apple TV+',
        'Paramount plus ': 'Paramount+',
        ' appletv': 'Apple TV+',
        ' Crunchroll': 'Crunchyroll',
        ' premiere': 'Premiere',
        'Amzon Prime': 'Prime Video',
        'APPLE TV ': 'Apple TV+',
        'Crunchroll': 'Crunchyroll',
        'Paramount': 'Paramount+',
    }
    df_servicos.replace(valores_errados, inplace=True)
    
    df_servicos.fillna("", inplace=True)
    df[col] = df_servicos.apply(lambda x: ";".join(x), axis=1)
    return conta_coluna_lista(df_servicos)

In [183]:
count_servicos_conhecidos = conta_servicos(df, "servicos_conhecidos")
count_servicos_assinados = conta_servicos(df, "servicos_assinados")
count_servicos_gosto = conta_servicos(df, "servicos_gosto")

In [184]:
df

Unnamed: 0,servicos_conhecidos,servicos_assinados,servicos_gosto,idade,genero,ocupacao,n_criancas,conteudo_preferido,hrs_semana,hrs_fds,dispositivos,preco_justo,renda,melhorias
0,Netflix;Disney+;Star+;Prime Video;HBO Max;Hulu...,Netflix;Prime Video;HBO Max;;;;;,Disney+;Prime Video;;;;,20,Masculino,Estudando,0,Séries,1,2,Celular,"R$15,00 - R$25,00","R$10.000,00 - R$20.000,00",Maior catálogo de filmes e séries
1,Netflix;Disney+;Prime Video;HBO Max;Hulu;Globo...,Netflix;Prime Video;Crunchyroll;;;;;,Netflix;Prime Video;HBO Max;;;,20,Masculino,Estudando,0,Séries,0,1,Smart TV,"R$15,00 - R$25,00","Mais de R$20.000,00",Maior catálogo de filmes e séries;Conexão;Inte...
2,Netflix;Disney+;Star+;Prime Video;HBO Max;Hulu...,Netflix;Disney+;Star+;Prime Video;HBO Max;NBA ...,Netflix;Disney+;Star+;HBO Max;;,19,Masculino,Estudando,0,Séries,1,1,Smart TV;Google Chromecast ou similar;Tablet o...,"R$15,00 - R$25,00","R$10.000,00 - R$20.000,00",Preço
3,Netflix;Disney+;Star+;Prime Video;HBO Max;;;;;,Netflix;Disney+;Prime Video;HBO Max;;;;,Netflix;Disney+;HBO Max;;;,22,Masculino,Estudando e Trabalhando,0,Séries,5,6,Notebook ou PC,"R$25,00 - R$35,00","R$1.000,00 - R$5.000,00",Preço;Maior catálogo de filmes e séries
4,Netflix;Disney+;Star+;Prime Video;HBO Max;Hulu...,Netflix;Disney+;Star+;Prime Video;HBO Max;;;,Netflix;Disney+;Prime Video;HBO Max;Globoplay;,20 anos,Feminino,Estudando e Trabalhando,0,Séries,4,6,Smart TV;Celular,"R$15,00 - R$25,00","R$5.000,00 - R$10.000,00",Preço;Maior catálogo de filmes e séries
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
208,Netflix;Prime Video;HBO Max;Globoplay;;;;;;,Netflix;Prime Video;;;;;;,Netflix;Prime Video;;;;,76,Masculino,Aposentado,0,Séries,2,2,Smart TV,"Mais de R$35,00","R$10.000,00 - R$20.000,00",Maior catálogo de filmes e séries
209,Netflix;Disney+;Star+;Prime Video;HBO Max;Glob...,Netflix;Disney+;Star+;Prime Video;HBO Max;Glob...,Netflix;Star+;Prime Video;;;,44,Masculino,Trabalhando,1-2,Esportes,5,1,Smart TV;Celular,"R$15,00 - R$25,00","Mais de R$20.000,00",Preço;Maior catálogo de filmes e séries;Mais p...
210,Netflix;Disney+;Prime Video;HBO Max;Globoplay;...,Netflix;Prime Video;;;;;;,Netflix;Disney+;Prime Video;;;,19,Feminino,Estudando,0,Séries,3,0,Smart TV;Celular;Notebook ou PC,"R$15,00 - R$25,00",,Preço;Interface
211,Netflix;Disney+;Star+;Prime Video;HBO Max;Hulu...,Netflix;Disney+;HBO Max;;;;;,Netflix;;;;;,21,Masculino,Estudando,0,Filmes,0,0,Celular,"R$25,00 - R$35,00","R$10.000,00 - R$20.000,00",Preço;Maior catálogo de filmes e séries


### Idade

In [185]:
df["idade"] = df.idade.apply(lambda x: x[0:2]).astype(int)

In [186]:
df.head()

Unnamed: 0,servicos_conhecidos,servicos_assinados,servicos_gosto,idade,genero,ocupacao,n_criancas,conteudo_preferido,hrs_semana,hrs_fds,dispositivos,preco_justo,renda,melhorias
0,Netflix;Disney+;Star+;Prime Video;HBO Max;Hulu...,Netflix;Prime Video;HBO Max;;;;;,Disney+;Prime Video;;;;,20,Masculino,Estudando,0,Séries,1,2,Celular,"R$15,00 - R$25,00","R$10.000,00 - R$20.000,00",Maior catálogo de filmes e séries
1,Netflix;Disney+;Prime Video;HBO Max;Hulu;Globo...,Netflix;Prime Video;Crunchyroll;;;;;,Netflix;Prime Video;HBO Max;;;,20,Masculino,Estudando,0,Séries,0,1,Smart TV,"R$15,00 - R$25,00","Mais de R$20.000,00",Maior catálogo de filmes e séries;Conexão;Inte...
2,Netflix;Disney+;Star+;Prime Video;HBO Max;Hulu...,Netflix;Disney+;Star+;Prime Video;HBO Max;NBA ...,Netflix;Disney+;Star+;HBO Max;;,19,Masculino,Estudando,0,Séries,1,1,Smart TV;Google Chromecast ou similar;Tablet o...,"R$15,00 - R$25,00","R$10.000,00 - R$20.000,00",Preço
3,Netflix;Disney+;Star+;Prime Video;HBO Max;;;;;,Netflix;Disney+;Prime Video;HBO Max;;;;,Netflix;Disney+;HBO Max;;;,22,Masculino,Estudando e Trabalhando,0,Séries,5,6,Notebook ou PC,"R$25,00 - R$35,00","R$1.000,00 - R$5.000,00",Preço;Maior catálogo de filmes e séries
4,Netflix;Disney+;Star+;Prime Video;HBO Max;Hulu...,Netflix;Disney+;Star+;Prime Video;HBO Max;;;,Netflix;Disney+;Prime Video;HBO Max;Globoplay;,20,Feminino,Estudando e Trabalhando,0,Séries,4,6,Smart TV;Celular,"R$15,00 - R$25,00","R$5.000,00 - R$10.000,00",Preço;Maior catálogo de filmes e séries


### Dispositivos utilizados

In [187]:
df_dispositivos = df.dispositivos.str.split(";", expand=True)
df_dispositivos.replace({
    'Google Chromecast ou similar': 'Dongle'
}, inplace=True)
count_dispositivos = conta_coluna_lista(df_dispositivos)

### Renda

In [188]:
df.renda.fillna("Não respondeu", inplace=True)
df.renda.value_counts()

R$10.000,00 - R$20.000,00    64
Mais de R$20.000,00          53
R$5.000,00 - R$10.000,00     46
R$1.000,00 - R$5.000,00      28
Não respondeu                19
R$0,00 - R$1.000,00           3
Name: renda, dtype: int64

### Melhorias

In [189]:
def conta_melhorias(df, col):
    """_summary_

    Args:
        df (_type_): _description_
        col (_type_): _description_
    """
    df[col] = df[col].str.replace(", ", ";")
    df_melhorias = df[col].str.split(";", expand=True)
    
    valores_errados = {
        '8': None,
        'Filmes adultos': None,
        'Esportes Internacionais ao Vivo': None,
        'menos demora pro lançamento ': 'Menos demora para o lançamento dos conteúdos',
        'Combo ou integração de serviços no mesmo pacote e aplicativo. Mto ruim ficar procurando conteudo e assinando varias plataformas simultaneamente.':'Combo ou integração de serviços no mesmo pacote e aplicativo. Muito ruim ficar procurando conteúdo e assinando várias plataformas simultaneamente',
        'Não incluir anuncios (Prime video e hulu)': "Não incluir anúncios",
    }
    df_melhorias.replace(valores_errados, inplace=True)
    
    df_melhorias.fillna("", inplace=True)
    df[col] = df_melhorias.apply(lambda x: ";".join(x), axis=1)
    return conta_coluna_lista(df_melhorias)

In [190]:
count_melhorias = conta_melhorias(df, "melhorias")

In [192]:
df.to_csv("data/dados_pesquisa_tratados.csv", index=False)

## Análise Exploratória dos Dados