In [1]:
# Importando as bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as m
import seaborn as sns
import statsmodels.api as sm
from statsmodels.tsa.seasonal import seasonal_decompose

In [3]:
# Formatação dos gráficos e tabelas
plt.style.use('ggplot')
pd.set_option('display.expand_frame_repr', False)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

In [4]:
# Formatando os labels dos gráficos
m.rcParams['axes.labelsize'] = 14
m.rcParams['xtick.labelsize'] = 12
m.rcParams['ytick.labelsize'] = 12
m.rcParams['text.color'] = 'k'

### Carregando e Explorando os Dados

In [6]:
# Carregando os dados
dados = pd.read_csv(r'C:\Users\user\Documents\website_user_forecasting\data\dataset.csv', header=None)

In [7]:
# Visualizando os dados
dados.head()

Unnamed: 0,0,1
0,2013-01,110
1,2013-02,121
2,2013-03,135
3,2013-04,127
4,2013-05,128


In [17]:
# Ajustando o nome de cada coluna
dados.columns = ['mes', 'usuários_ativos']

In [18]:
# Visualizando os dados
dados.head()

Unnamed: 0,mes,usuários_ativos
0,2013-01,110
1,2013-02,121
2,2013-03,135
3,2013-04,127
4,2013-05,128


In [19]:
# Shape dos dados
dados.shape

(144, 2)

In [20]:
# Tipos dos dados
dados.dtypes

mes                object
usuários_ativos     int64
dtype: object

In [12]:
# Tipo do objeto
type(dados)

pandas.core.frame.DataFrame

In [21]:
# Resumo estatístico da variável usuários_ativos. A média é de 280
dados.describe()

Unnamed: 0,usuários_ativos
count,144.0
mean,280.416667
std,119.825543
min,104.0
25%,180.0
50%,265.5
75%,360.5
max,622.0


In [22]:
# Mês com o maior número de usuários ativos
dados.max()

mes                2024-12
usuários_ativos        622
dtype: object

In [24]:
4# Coletando o período completo da série temporal
print('Inicio do Período de tempo: {}\nFinal do Período de tempo: {}'.format(dados.mes.min(), dados.mes.max()))

Inicio do Período de tempo: 2013-01
Final do Período de tempo: 2024-12


### Processamento e Visualização dos Dados

In [45]:
# Visualizando os Dados
dados.head()

Unnamed: 0,mes,usuários_ativos
0,2013-01-01,110
1,2013-02-01,121
2,2013-03-01,135
3,2013-04-01,127
4,2013-05-01,128


In [46]:
# Tipos de Dados
dados.dtypes

mes                datetime64[ns]
usuários_ativos             int64
dtype: object

In [47]:
# Convertendo a coluna data de object para datetime
dados['mes'] = pd.to_datetime(dados['mes'], format= '%Y-%m')

In [48]:
# Tipos de Dados
dados.dtypes

mes                datetime64[ns]
usuários_ativos             int64
dtype: object

In [49]:
# Visualizando os Dados
dados.head()

Unnamed: 0,mes,usuários_ativos
0,2013-01-01,110
1,2013-02-01,121
2,2013-03-01,135
3,2013-04-01,127
4,2013-05-01,128


In [50]:
# Transformando a coluna data no indice do conjunto de dados
dados_serie = dados.set_index('mes')

In [51]:
# Visualizando os dados
dados_serie.head()

Unnamed: 0_level_0,usuários_ativos
mes,Unnamed: 1_level_1
2013-01-01,110
2013-02-01,121
2013-03-01,135
2013-04-01,127
2013-05-01,128


In [52]:
# Visualizando o indice
dados_serie.index

DatetimeIndex(['2013-01-01', '2013-02-01', '2013-03-01', '2013-04-01', '2013-05-01', '2013-06-01', '2013-07-01', '2013-08-01', '2013-09-01', '2013-10-01',
               ...
               '2024-03-01', '2024-04-01', '2024-05-01', '2024-06-01', '2024-07-01', '2024-08-01', '2024-09-01', '2024-10-01', '2024-11-01', '2024-12-01'], dtype='datetime64[ns]', name='mes', length=144, freq=None)

In [53]:
# Verificando valores nulos
dados_serie.isnull().sum()

usuários_ativos    0
dtype: int64