## Case JCPM - Cientista de Dados Jr

O uso estratégico e inteligente de conteúdo premium restrito (conhecido como paywalls), é uma consideração importante para empresas de comunicação, como jornais e revistas. Essa situação pode ser bem desafiadora, pois a adequada segmentação do conteúdo, definição de preços adequados e equilíbrio entre acesso gratuito e premium são aspectos complexos de serem equilibrados e que demandam uma abordagem cuidadosa.

Segundo dados da Associação Nacional de Jornais (ANJ), o uso de paywalls tem apresentado um crescimento significativo nos últimos anos. Estatísticas mostram que cerca de 70% dos principais jornais online adotaram alguma forma de paywall em suas plataformas, destacando a relevância dessa estratégia na monetização de conteúdo digital.

<center>
<img src = "../reports/figures/2420657.jpg" width = "30%">
<a <a href="https://www.freepik.com/free-vector/news-concept-landing-page_4661087.htm#query=jornal%20digital&position=34&from_view=search&track=ais&uuid=4d046285-ec37-4ee0-9c00-0c45427c96a3">Image by pikisuperstar</a> on Freepik
</center>

Estes dados destacam a importância de uma análise estratégica na implementação de paywalls, com o objetivo de maximizar receitas e garantir a qualidade de conteúdo e a satisfação dos usuários.

### Business Understanding

No contexto atual de crescente disseminação de informação gratuita, entender como atrair leitores fiéis e dispostos a pagar por conteúdos de qualidade é crucial para estratégias de marketing eficazes das empresas.

Pensando nisso, é importante entender que a JCPM possui um grande destaque no setor de comunicação, como os de rádio e jornal. No que diz respeito a essa área, a empresa desempenha um papel importante na disseminação de informações e no engajamento da audiência por meio do seu site: jc.ne10.uol.com.br.

Nesse contexto, é fundamental analisar como a implementação do paywall afeta a monetização da empresa, a partir dos registros de acessos dos usuários que foram impactados pelo paywal enquanto estavam logados no site.

**Tipos de Análise Realizados:**
- Bloqueios de Conteúdo
- Coversão de Assinaturas
- Comportamento do Usuário

**Principais Indicadores Chave de Desempenho:**
- Taxa de Conversão
- Número de Bloqueios de Conteúdo
- Perfil Demográfico dos Usuários

#### Importando os pacotes necessários

In [None]:
# Bibliotecas padrão
import ast
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
df1 = pd.read_csv('../data/raw/585696c7-537d-45bc-8b93-e6fecadd1e63.csv', sep=',')
df2 = pd.read_csv('../data/raw/77548291-5a08-41b6-a0b8-819889a5dfc7.csv', sep=',')

## **Análise dos Dados**

Esta seção fornece uma visão detalhada da estrutura e do significado dos dados que estão sendo analisados.

### **Dicionário de Variáveis - Arquivos Enviados**

- **`device_id `**:
  - **Descrição:** identificador do dispositivo do usuário
  - **Finalidade:** [Insira Finalidade]

- **`event_id `**:
  - **Descrição:** identificador do evento (este id é único por evento)
  - **Finalidade:** [Insira Finalidade]

- **`address `**:
  - **Descrição:** url onde ocorreu o evento
  - **Finalidade:** [Insira Finalidade]

- **`referer `**:
  - **Descrição:** referenciador do acesso (em caso de nulo admite-se acesso direto)
  - **Finalidade:** [Insira Finalidade]

- **`tag `**:
  - **Descrição:** tag de conteúdo
  - **Finalidade:** serve para classificar sobre os assuntos abordados no conteúdo

- **`metadata `**:
  - **Descrição:** metadados do evento
  - **Finalidade:** serve para informar o que ocorreu naquele evento (se o usuário foi barrado, se não foi, se realizou uma compra, etc)

- **`visit_created_at `**:
  - **Descrição:** Data/hora da criação do evento em UTC
  - **Finalidade:** [Insira Finalidade]

- **`fingerprint_components `**:
  - **Descrição:** dados técnicos sobre o dispositivo que o usuário utilizou durante o evento
  - **Finalidade:** [Insira Finalidade]

- **`user_gender `**:
  - **Descrição:** gênero do usuário (se existir)
  - **Finalidade:** [Insira Finalidade]

- **`user_age_range `**:
  - **Descrição:** faixa etária do usuário (se existir)
  - **Finalidade:** [Insira Finalidade]

### **Dicionário de Variáveis - Metadata***

- **`variável `**:
  - **Descrição:**
  - **Finalidade:**

### Perguntas a serem respondidas:

1. `Quantas assinaturas foram realizadas no período?`

2. `Quantos bloqueios foram realizados?`

3. `Qual o tipo de conteúdo que mais converteu assinaturas?`

4. `Que tipo de conteúdo gerou mais bloqueios?`

5. `Qual a taxa de conversão?`

6. `Qual o perfil de quem leu? Existe uma diferença de perfil entre leitores normais e assinantes?`

7. `Quantos bloqueios, em média, um usuário leva antes de realizar uma assinatura?`


### Análise exploratória dos dados

In [None]:
# Ver as cinco primeiras entradas
df1.head()

In [None]:
# Ver as cinco primeiras entradas
df2.head()

É possível notar que:

- Há uma boa varição de idades que acessam o site
- Existe uma metadata a ser tratada
- A maioria dos usuários acessam o site pelo navegador. Poucos pelo mobile


In [None]:
# Visualizar o tamanho do dataframe
print("Dataframe 1:")
print(f"Entradas: {df1.shape[0]}")
print(f"Colunas: {df1.shape[1]}")

print("\nDataframe 2:")
print(f"Entradas: {df2.shape[0]}")
print(f"Colunas: {df2.shape[1]}")

In [None]:
# Extrair nome das colunas
print("Dataframe 1:")
print(f"Colunas: {df1.columns}")

print("\nDataframe 2:")
print(f"Colunas: {df2.columns}")

*Com base na verificação de colunas, é possível concluir que:*

As colunas apresentam os mesmos índices e trazem informações variadas a respeito do conteúdo acessado, data de acesso, identificação do usuário, dentre outros.

In [None]:
# Extrair o tipo das variáveis
df1.dtypes
#visit_created_at para data -> mudar para padrão dd/mm/yyyy

In [None]:
# Extrair o tipo das variáveis
df2.dtypes

*Com base na verificação dos tipos das variáveis, é possível notar que:*

A variável `visit_created_at` não está no formato de data. Como farei a visualização por data, é interessante alterar o tipo posteriormente. Para as outras variáveis, não devemos realizar modificações. Apesar dos id's estarem como inteiro, não iremos usá-los para fins de cálculo (Nem devemos! Por padrão, ele deve ser string)

In [None]:
# Porcentagem de itens nulos
(df1.isnull().sum()/df1.shape[0] * 100).round(2)

In [None]:
# Porcentagem de itens nulos
(df2.isnull().sum()/df2.shape[0] * 100).round(2)

*Com base na quantidade de nulos, é possível afirmar que:*

Os nulos devem sem mantidos na base, pois são tabelas que iremos usar ao longo da análise. Devemos excluí-los apenas se existirem colunas com 100% de nulos ao juntar as bases.

In [None]:
# Verificando a existência de duplicados:
df1.duplicated().sum()

In [None]:
# Verificando a existência de duplicados:
df2.duplicated().sum()

In [None]:
# Comparação de colunas de ids
df1.device_id.isin(df2.device_id).value_counts()

In [None]:
# Comparação de colunas de ids
df1.event_id.isin(df2.event_id).value_counts()

*Com base na comparação de colunas, é possível notar que:*

Se o intuito é facilitar a manipulação dos dados, devemos escolher um método que una as duas tabelas. Como ambos os IDs não estão presentes, em sua maioria, em ambas as tabelas, não seria válido usarmos `merge`, pois haveria perda de informações. No entanto, podemos usar o `concat`, já que temos as mesmas colunas e não teríamos perda de informações.

### Manipulação dos dados

#### Concatenação de DataFrames

In [None]:
#Concatenando as bases
df_concat = pd.concat([df1, df2]).reset_index(drop=True)

In [None]:
# Verificando tabela
df_concat.head()

In [None]:
df_concat.shape

In [None]:
# Função para converter a string de metadados em um DataFrame com uma única linha
def extract_metadata(metadata_str, device_id, event_id):
  metadata_str = metadata_str.strip("()").split(", ")
  metadata_dict = {}

  for item in metadata_str:
    key, value = item.split("=")
    metadata_dict[key] = ast.literal_eval(value)

  metadata_dict['device_id_new'] = device_id
  metadata_dict['event_id_new'] = event_id

  return metadata_dict

# Aplicar a função para extrair os metadados
df_metadata = pd.DataFrame(df_concat.apply(lambda row: extract_metadata(row['metadata'], df_concat.loc[row.name, 'device_id'], df_concat.loc[row.name, 'event_id']), axis=1).to_list())

In [None]:
# Conferindo tamanho
df_metadata.shape

In [None]:
# Conferindo igualdade entre dados
df_concat.device_id.isin(df_metadata.device_id_new).value_counts()

In [None]:
# Conferindo igualdade entre dados
df_concat.event_id.isin(df_metadata.event_id_new).value_counts()

In [None]:
# Concatenar o DataFrame original com o metadata
df_merge = pd.concat([df_concat, df_metadata], axis=1)

In [None]:
df_merge.head()

#### Manipulação no tipo e padrão da data


#### Extração dos dados usados na coluna `metadata`

Escolhi esse tipo de formatação, pois os segundos e milésimos não são levados em consideração nas análises. Logo, é mais fácil visualizar os dados no padrão: dd-mm-yyyy

In [None]:
df_merge.visit_created_at = pd.to_datetime(df_merge.visit_created_at)

df_merge['visit_created_at'] = df_merge['visit_created_at'].dt.strftime("%Y-%m-%d")

In [None]:
df_merge.head()

Adicionarei uma niva coluna apenas com mês e ano, para ser usada posteriormente.

In [None]:
df_merge['visit_created_at'] = pd.to_datetime(df_merge['visit_created_at'])

# Formata a data como "ano-mês"
df_merge['visit_created_at_month_year'] = df_merge['visit_created_at'].dt.strftime("%Y-%m")

In [None]:

df_merge['visit_created_at_month_year'].unique()

In [None]:
df_merge.head()

#### Seleção de colunas a serem usadas no DataFrame

A primeira análise que devemos fazer é a de dados nulos, pois apenas olhando por cima, é possível ver que muitas das colunas que acabaram de entrar na base, possuem diversos nulos

In [None]:
# Porcentagem de itens nulos
pd.DataFrame((df_merge.isnull().sum()/df_merge.shape[0] * 100).round(2))

A partir do observado, optei por excluir as colunas abaixo:

- **`address`**:
  - **Razão:** Retornava apenas a URL onde ocorreu o evento. Como já temos as tags dos assuntos, essa coluna tornou-se inutilizada

- **`referer`**:
  - **Razão:** Assinalazava de onde vinha o acesso e como nosso foco não é esse, optei por retirar

- **`'fingerprint_components`**:
  - **Razão:** Retornava apenas informações de fábrica do aparelho, não é algo que acrescentará nas análises

- **`metadata`**:
  - **Razão:** Já extraímos os dados necessários dela

- **`device_id_new`**:
  - **Razão:** Já está presente na base

- **`event_id_new`**:
  - **Razão:** Já está presente na base

- **`author`**:
  - **Razão:** Nào precisaremos do nome do autor para a análise
  
- **Extração por apresentar 100% de nulos:**
  - **`amp_url, api_event, api_type, brand, categories, digital_access, facebook_uid, page_info_yy, signinwall, signinwall_loginstatus`**

As demais colunas com mais de 50% de nulos não serão excluídas, pois serão necessárias para as análises

In [None]:
# Selecao de colunas relevantes para o que queremos:
df = df_merge[['device_id', 'event_id', 'tag', 'visit_created_at', 'visit_created_at_month_year', 'user_gender', 'user_age_range',
                'event', 'paywall_selected_plan', 'paywall_selected_plan_type',
                'paywall_subscription_payment_type', 'paywall_subscription_product_id',
                'paywall_subscription_product_name', 'paywall_subscription_status',
                'screen', 'signinwall', 'signinwall_loginstatus']]

In [None]:
df.head()

In [None]:
# Visualizando o comportamento dos dados

print(f'event: \n{df.event.value_counts()}\n')
print(f'paywall_selected_plan: \n{df.paywall_selected_plan.value_counts()}\n')
print(f'paywall_selected_plan_type: \n{df.paywall_selected_plan_type.value_counts()}\n')
print(f'paywall_subscription_payment_type: \n{df.paywall_subscription_payment_type.value_counts()}\n')
print(f'paywall_subscription_product_id: \n{df.paywall_subscription_product_id.value_counts()}\n')
print(f'paywall_subscription_product_name: \n{df.paywall_subscription_product_name.value_counts()}\n')
print(f"paywall_subscription_status: \n{df.paywall_subscription_status.value_counts()}\n")

In [None]:
print(f'screen: \n{df.screen.value_counts()}\n')
print(f'signinwall: \n{df.signinwall.value_counts()}\n')
print(f'signinwall_loginstatus: \n{df.signinwall_loginstatus.value_counts()}\n')

### Quantas assinaturas foram realizadas no período?

Vamos assumir que para acharmos esse valor, devemos identificar aqueles usuários que possuem a feature `signinwall_loginstatus` com o valor `success`, representando a transação aprovada.

Além disso, como dito no enunciado, a pipeline usada para a coluna metadata(atualmente destrinchada) pode repetir as linhas, mudando apenas a taga. Ou seja, um mesmo usuário pode acessar diferentes tags e gerar diferentes registros de logs. Pensando nisso, iremos remover as duplicatas

In [None]:
# Preencher os dados nulos da coluna signinwall_loginstatus com 'connected'
#df['signinwall_loginstatus'].fillna('connected', inplace=True)

In [None]:
# Filtrando os dados apenas por status de conexão 'connected'
#df = df[df.signinwall_loginstatus == 'connected']
#df

In [None]:
df.columns

In [None]:
# Filtro das colunas relacionadas à assinatura:
df_assinaturas = df[['device_id', 'event_id', 'visit_created_at_month_year', 'paywall_subscription_status', 'signinwall']]

In [None]:
df_assinaturas = df_assinaturas[df_assinaturas.paywall_subscription_status == 'success']
df_assinaturas.drop_duplicates(inplace=True)

In [None]:
# Agrupar por data e contar o número de aparecimentos
grouped_data = df_assinaturas.groupby(df_assinaturas['visit_created_at_month_year']).size()

plt.figure(figsize=(20, 6))
sns.barplot(x=grouped_data.index, y=grouped_data.values, palette='Dark2')
plt.xlabel('Mês - Ano')
plt.ylabel('Contagem de Assinaturas')
plt.title('Contagem de Assinaturas por Mês e Ano')
plt.gca().spines[['top', 'right']].set_visible(False)
plt.show()

In [None]:
df_assinaturas.shape

### 3 Quantos bloqueios foram realizados?

Vamos assumir que para acharmos esse valor, devemos identificar aqueles usuários que possuem a feature `signinwall` com o valor `block`, representando o bloqueio do conteúdo.

Além disso, como dito no enunciado, a pipeline usada para a coluna metadata(atualmente destrinchada) pode repetir as linhas, mudando apenas a taga. Ou seja, um mesmo usuário pode acessar diferentes tags e gerar diferentes registros de logs. Pensando nisso, iremos remover as duplicatas

In [None]:
df_bloqueios = df[['device_id', 'event_id', 'visit_created_at_month_year', 'signinwall', 'signinwall_loginstatus']]

In [None]:
df_bloqueios = df_bloqueios[df_bloqueios.signinwall == 'block']
df_bloqueios.drop_duplicates(inplace=True)

In [None]:
df_bloqueios.shape

In [None]:
# Agrupar por data e contar o número de aparecimentos
grouped_data = df_bloqueios.groupby(df_bloqueios['visit_created_at_month_year']).size()

plt.figure(figsize=(20, 6))
sns.barplot(x=grouped_data.index, y=grouped_data.values, palette='Dark2')
plt.xlabel('Mês - Ano')
plt.ylabel('Contagem de Bloqueios')
plt.title('Contagem de Bloqueios por Mês e Ano')
plt.gca().spines[['top', 'right']].set_visible(False)
plt.show()

In [None]:
print(f'Quantidade total de bloqueios: {df_bloqueios.shape[0]}')

### 3 Qual o tipo de conteúdo que mais converteu assinaturas?


In [None]:
df_conversao_assinaturas = df[['device_id', 'event_id', 'tag', 'visit_created_at_month_year', 'paywall_subscription_status', 'signinwall']]

In [None]:
df_conversao_assinaturas = df_conversao_assinaturas[df_conversao_assinaturas.paywall_subscription_status == 'success']
df_conversao_assinaturas
df_conversao_assinaturas.head()

In [None]:
df_conversao_assinaturas.shape

In [None]:
pd.DataFrame(df_conversao_assinaturas.groupby("paywall_subscription_status")["tag"].value_counts())

In [None]:
print(f'Conteúdo que mais converteu assinaturas: covid 19 e economia')

In [None]:
df_conversao_assinaturas.groupby("paywall_subscription_status")["tag"].value_counts().head(5).plot(kind="bar")
plt.show()


### 4 Que tipo de conteúdo gerou mais bloqueios?

In [None]:
df_conversao_bloqueios = df[['device_id', 'event_id', 'visit_created_at_month_year', 'tag', 'signinwall', 'signinwall_loginstatus']]
df_conversao_bloqueios = df_conversao_bloqueios[df_conversao_bloqueios.signinwall == 'block']
df_conversao_bloqueios.head()

In [None]:
pd.DataFrame(df_conversao_bloqueios.groupby("signinwall")["tag"].value_counts())

In [None]:
df_conversao_bloqueios.groupby("signinwall")["tag"].value_counts().head(5).plot(kind="bar")
plt.show()

Podemos concluir que o conteúdo relacionado a `Pernambuco` teve o maior destaque dentro os outros. Sabendo que a empresa atual principalmente em Recife e Pernambuco, devido às suas sedes, esse resultado faz bastante sentido

### 5 Qual a taxa de conversão?

Para a taxa de criação iremos dividir em duas:
1. taxa de conversão total, considerando a taxa de todos os 3 meses
2. taxa de conversão mensal, considerando a taxa de cada mês

Para montar a equação, filtrei o dataset pelos usuários que aderiram à compra do plano. Em seguida, calculei o tamanho do dataset filtrado e dividi pelo tamanho total do mesmo

In [None]:
#TAXA DE CONVERSAO TOTAL

# Filtro
df_taxa_conversao = df[df["paywall_subscription_status"] == "success"]

# Cálculo da taxa
taxa = (len(df_taxa_conversao) / len(df)) * 100

print(f"Taxa de conversao total: {taxa}%")

In [None]:
#TAXA DE CONVERSAO MENSAL

# Filtro
df_taxa_conversao_mes = df[df["paywall_subscription_status"] == "success"]

# Cálculo da taxa
taxa_mensal = df_taxa_conversao_mes.groupby(df_taxa_conversao_mes["visit_created_at_month_year"].dt.month)["device_id"].count()
quantidade_usuarios = df.groupby(df["visit_created_at_month_year"].dt.month)["device_id"].nunique()

taxa_conversao_mes = taxa_mensal / quantidade_usuarios * 100

# Resultado
print("Taxa de conversão por mês:")
for mes, taxa_conversao_mes in taxa_conversao_mes.items():
  print(f"- Mês {mes}: {taxa_conversao_mes:.2f}%")

In [None]:
# linhas

### 6 Qual o perfil de quem leu? Existe uma diferença de perfil entre leitores normais e assinantes?

In [None]:
# Divisão entre os tipos de perfis
inscritos = df[df['paywall_subscription_status'] == 'success']
nao_inscritos = df[df['paywall_subscription_status'] != 'success']


In [None]:
# Comparativo
print("Comparativo entre inscritos e suas idades:")
print(pd.crosstab(inscritos['user_gender'], inscritos['user_age_range']))

print("Comparativo entre não inscritos e suas idades:")
print(pd.crosstab(nao_inscritos['user_gender'], nao_inscritos['user_age_range']))


É possível ver que há uma grande diferente de público ao analisarmos os perfis dos leitores. Repare:

1. Para leitores assinantes, todos são homens e a maioria se encontra na faixa dos 35 - 110 anos
2. Para leitores não assinantes, a maioria ainda é homem, mas a quantidade de mulheres é mais expressiva que antes.
3. A maior quantidade de homens e de mulheres está na faixa dos 35 - 110 anos


### 7 Quantos bloqueios, em média, um usuário leva antes de realizar uma assinatura?

In [None]:
# Criar dicionário para armazenar bloqueios por usuário
user_blocks = {}
for i in range(df.shape[0]):
  row = df.iloc[i]
  device_id = row['device_id']
  event = row['event']
  signinwall = row['signinwall']

  # Avalia se há um bloqueio. Caso sim, soma uma unidade ao contador
  if event == 'signinwall' and signinwall == 'block':
    if device_id not in user_blocks:
      user_blocks[device_id] = 0
    user_blocks[device_id] += 1

# Calcular número médio de bloqueios
average_blocks = np.mean(list(user_blocks.values()))

print(f"Número médio de bloqueios antes da assinatura: {average_blocks:.2f}")


Podemos dizer que, em média, um usuário precisa levar em torno de 4~5 blocks para realizar uma assinatura