### Teste técnico da área de Análise de Dados

Mais detalhes vide README.md

**Etapas da análise:**

1. Importação de bibliotecas
2. Leitura e pré-processamento dos dados
3. Análise exploratória geral
4. Métricas de Engajamento
5. Métricas de Desempenho
6. Padrões de Uso
7. Segmentações
8. Recomendações baseadas nos dados



In [20]:
import warnings
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import seaborn as sns

warnings.filterwarnings("ignore")
warnings.filterwarnings('ignore', category=DeprecationWarning)

# Configuração para exibir todas as colunas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 10)
pd.options.display.float_format = '{:.2f}'.format

In [21]:
# Leitura do arquivo CSV
df_raw = pd.read_csv("Dados/Dados.csv", encoding='latin1', sep=';')
df_raw.head()


Unnamed: 0,ID,Data,Hora,Região,Estudante,Curso,Feature,Nota
0,1,06/08/2023,08:28:21,Sudeste,Cintia Nogueira,Literatura,Simulados,59
1,2,05/08/2023,05:51:54,Sudeste,Caio Damasco,Física,Ebooks,X
2,3,07/08/2023,10:46:16,Sudeste,Caio Damasco,Física,Simulados,245
3,4,14/08/2023,22:44:25,Norte,Yuri Kepler,Física,Aulas Online,X
4,5,08/08/2023,00:41:16,Norte,Daniel Dalembert,Literatura,Aulas Online,X


In [None]:
# Informações sobre o DataFrame
df_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 8 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   ID         200 non-null    int64 
 1   Data       200 non-null    object
 2   Hora       200 non-null    object
 3   Região     200 non-null    object
 4   Estudante  200 non-null    object
 5   Curso      200 non-null    object
 6   Feature    200 non-null    object
 7   Nota       200 non-null    object
dtypes: int64(1), object(7)
memory usage: 12.6+ KB


In [24]:
df_raw.isnull().sum()

ID           0
Data         0
Hora         0
Região       0
Estudante    0
Curso        0
Feature      0
Nota         0
dtype: int64

In [26]:
# Fazendo uma copia do DataFrame
df = df_raw.copy()

# Substituindo vírgula por ponto e convertendo a coluna Nota
df["Nota"] = df["Nota"].str.replace(",", ".")
df["Nota"] = pd.to_numeric(df["Nota"], errors="coerce")

# Convertendo data e hora para um formato mais adequado
df["Data"] = pd.to_datetime(df["Data"], format="%d/%m/%Y")
df["Hora"] = pd.to_datetime(df["Hora"], format="%H:%M:%S").dt.time

# Criando novas colunas de dias da semana e hora do dia
df["Dia da Semana"] = df["Data"].dt.day_name()
df["Hora do Dia"] = df["Hora"].apply(lambda x: x.hour)

# Verificando o resultado
df.head()


Unnamed: 0,ID,Data,Hora,Região,Estudante,Curso,Feature,Nota,Dia da Semana,Hora do Dia
0,1,2023-08-06,08:28:21,Sudeste,Cintia Nogueira,Literatura,Simulados,5.9,Sunday,8
1,2,2023-08-05,05:51:54,Sudeste,Caio Damasco,Física,Ebooks,,Saturday,5
2,3,2023-08-07,10:46:16,Sudeste,Caio Damasco,Física,Simulados,2.45,Monday,10
3,4,2023-08-14,22:44:25,Norte,Yuri Kepler,Física,Aulas Online,,Monday,22
4,5,2023-08-08,00:41:16,Norte,Daniel Dalembert,Literatura,Aulas Online,,Tuesday,0


In [None]:
# Verificando dados estatísticos gerais do conjunto de dados
df.describe(include="all")

Unnamed: 0,ID,Data,Hora,Região,Estudante,Curso,Feature,Nota,Dia da Semana,Hora do Dia
count,200.00,200,200,200,200,200,200,93.00,200,200.00
unique,,,200,5,19,6,4,,7,
top,,,08:28:21,Norte,Yuri Kepler,Matemática,Aulas Online,,Tuesday,
freq,,,1,49,17,42,60,,36,
mean,100.50,2023-08-15 05:52:48,,,,,,4.69,,12.54
...,...,...,...,...,...,...,...,...,...,...
25%,50.75,2023-08-07 00:00:00,,,,,,2.07,,7.00
50%,100.50,2023-08-15 00:00:00,,,,,,5.03,,13.00
75%,150.25,2023-08-23 00:00:00,,,,,,6.78,,19.00
max,200.00,2023-08-31 00:00:00,,,,,,9.90,,23.00
