# Análise de Retenção de Usuários

O primeiro passo para conseguirmos iniciar as nossas análises é conseguir extrair os dados que vamos utilizar. Como o case trata de uma empresa fictícia, vamos realizar a tratativa dos dados utilizando a biblioteca `faker` dentro desse notebook.

O objetivo desse notebook é gerar os arquivos necessários para manipularmos em análises posteriores

## Restrições:

* Os arquivos devem ser gerados em csv
* Os arquivos devem retornar a quantidade de registros abaixo:
  * `users`: 1000 registros
  * `usage`: 3000 registros
  * `transactions`: 5000 registros

In [3]:
# Instalação das bibliotecas

!pip install faker

Collecting faker
  Downloading Faker-28.1.0-py3-none-any.whl.metadata (15 kB)
Downloading Faker-28.1.0-py3-none-any.whl (1.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.8/1.8 MB[0m [31m19.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-28.1.0


In [11]:
# Importar Bibliotecas

from faker import Faker
import pandas as pd
import random
import numpy as np
import os

In [9]:
# Inicializando o faker

fake = Faker()

In [12]:
# Número de registros fictícios
num_records = 1000

# Gerar dados fictícios para a tabela `Users`
users_data = {
    "user_id": [i for i in range(1, num_records + 1)],
    "signup_date": [fake.date_this_decade() for _ in range(num_records)],
    "last_active_date": [fake.date_this_month() for _ in range(num_records)],
    "subscription_type": [random.choice(["free", "premium"]) for _ in range(num_records)]
}

users_df = pd.DataFrame(users_data)

# Criar o diretório data se não existir
os.makedirs('data', exist_ok=True)

# Salvar os DataFrames em arquivos CSV
users_df.to_csv('data/users.csv', index=False)

print("Dados fictícios gerados e salvos em 'data/'")

Dados fictícios gerados e salvos em 'data/'


In [13]:
# Número de registros fictícios
num_records = 3000

# Gerar dados fictícios para a tabela `Usage`
usage_data = {
    "user_id": [random.randint(1, num_records) for _ in range(num_records * 3)],
    "activity_date": [fake.date_this_year() for _ in range(num_records * 3)],
    "activity_type": [random.choice(["login", "subscription", "review"]) for _ in range(num_records * 3)]
}

usage_df = pd.DataFrame(usage_data)

# Salvar os DataFrames em arquivos CSV
usage_df.to_csv('data/usage.csv', index=False)

print("Dados fictícios gerados e salvos em 'data/'")

Dados fictícios gerados e salvos em 'data/'


In [14]:
# Número de registros fictícios
num_records = 5000

# Gerar dados fictícios para a tabela `Transactions`
transactions_data = {
    "user_id": [random.randint(1, num_records) for _ in range(num_records * 2)],
    "transaction_date": [fake.date_this_year() for _ in range(num_records * 2)],
    "amount": [round(random.uniform(1.0, 100.0), 2) for _ in range(num_records * 2)]
}

transactions_df = pd.DataFrame(transactions_data)

# Criar o diretório data se não existir
os.makedirs('data', exist_ok=True)

# Salvar os DataFrames em arquivos CSV
transactions_df.to_csv('data/transactions.csv', index=False)

print("Dados fictícios gerados e salvos em 'data/'")

Dados fictícios gerados e salvos em 'data/'
