# Análise de Retenção de Usuários

## Limpeza das bases de dados

Agora que temos as 3 bases de dados em mãos, hora de verificar como estão os dados, seus formatos, suas características, possíveis problemas.

O intuito desse notebook é preparar os dados para utilizá-los nas análises seguintes.

In [1]:
# Importar bibliotecas

import pandas as pd

In [2]:
# Bases de dados que serão utilizadas

users = pd.read_csv('/dev/data/users.csv')
usage = pd.read_csv('/dev/data/usage.csv')
transactions = pd.read_csv('/dev/data/transactions.csv')

# Tabela `users`

In [3]:
users.head()

Unnamed: 0,user_id,signup_date,last_active_date,subscription_type
0,1,2024-03-29,2024-09-02,free
1,2,2020-06-15,2024-09-02,free
2,3,2022-05-06,2024-09-02,premium
3,4,2020-10-23,2024-09-01,premium
4,5,2023-12-23,2024-09-01,free


In [None]:
users.shape

(1000, 4)

In [None]:
users.dtypes

Unnamed: 0,0
user_id,int64
signup_date,object
last_active_date,object
subscription_type,object


In [6]:
# converter colunas de date para o formato correto

users['signup_date'] = pd.to_datetime(users['signup_date'])
users['last_active_date'] = pd.to_datetime(users['last_active_date'])

users.dtypes

Unnamed: 0,0
user_id,int64
signup_date,datetime64[ns]
last_active_date,datetime64[ns]
subscription_type,object


# Tabela `usage`

In [9]:
usage.head()

Unnamed: 0,user_id,activity_date,activity_type
0,2566,2024-03-16,login
1,2905,2024-02-07,login
2,342,2024-05-18,review
3,1705,2024-04-21,login
4,1644,2024-01-31,review


In [10]:
usage.shape

(9000, 3)

In [11]:
usage.dtypes

Unnamed: 0,0
user_id,int64
activity_date,object
activity_type,object


In [12]:
# converter colunas de date para o formato correto

usage['activity_date'] = pd.to_datetime(usage['activity_date'])

usage.dtypes

Unnamed: 0,0
user_id,int64
activity_date,datetime64[ns]
activity_type,object


# Tabela `transactions`

In [13]:
transactions.head()

Unnamed: 0,user_id,transaction_date,amount
0,4225,2024-01-30,45.59
1,2576,2024-08-26,83.37
2,1342,2024-08-11,66.22
3,3022,2024-01-31,6.79
4,1483,2024-01-27,18.99


In [14]:
transactions.shape

(10000, 3)

In [15]:
transactions.dtypes

Unnamed: 0,0
user_id,int64
transaction_date,object
amount,float64


In [16]:
# converter colunas de date para o formato correto

transactions['transaction_date'] = pd.to_datetime(transactions['transaction_date'])

transactions.dtypes

Unnamed: 0,0
user_id,int64
transaction_date,datetime64[ns]
amount,float64


In [17]:
# Verificar valores faltantes
users.isnull().sum()
usage.isnull().sum()
transactions.isnull().sum()

Unnamed: 0,0
user_id,0
transaction_date,0
amount,0


# Buscar transações e uso apenas dos ids presentes em `users`

Como existem transações e uso de ids não existentes na tabela de usuários, vamos fazer um filtro nessas 2 tabelas, para exibir apenas os dados referentes a essas informações

In [22]:
# Obter os user_ids da tabela users
user_ids = users['user_id']

# Filtrar a tabela transactions
transactions = transactions[transactions['user_id'].isin(user_ids)]

# Filtrar a tabela usage
usage = usage[usage['user_id'].isin(user_ids)]

In [23]:
users.shape

(1000, 4)

In [24]:
transactions.shape

(1958, 3)

In [25]:
usage.shape

(2917, 3)

# Gerando novos arquivos

Agora que temos os arquivos com os dados manipulados, vamos gerar novos arquivos, que utilizaremos para fazer os próximos passos das análises

In [26]:
# Salvar transactions em um novo arquivo
transactions.to_csv('transactions_processed.csv', index=False)

# Salvar users em um novo arquivo
users.to_csv('users_processed.csv', index=False)

# Salvar usage em um novo arquivo
usage.to_csv('usage_processed.csv', index=False)