# Trabalho Final - Análise e Visualização de Dados
Análise baseada no dataset: [Mobile Device Usage and User Behavior Dataset](https://www.kaggle.com/datasets/valakhorasani/mobile-device-usage-and-user-behavior-dataset).
- Eduardo Penedo - 120043223;
- João Victor Borges - 121064604;
- Vinicius Leoni - 121083446;
- Vítor Ambrizzi - 121059455.

## Importando bibliotecas
Pandas para a manipulação dos dados e Matplotlib para gerar gráficos que ilustrem os resultados das análises.

In [96]:
import pandas as pd
import plotly.graph_objects as go
import plotly.express as px

## Leitura e Exploração Inicial

### Leitura do dataset escolhido
Transformando o dataset escolhido em dataframe e guadando na variável `df`.

In [None]:
df = pd.read_csv('../dataset/mobile_device_usage.csv')
df.head()   # método head() mostra as 5 primeiras linhas do dataset

: 

### Exploração Inicial
O Dataset parece estar correto. A próxima etapa é realizar uma análise exploratória e entender as principais características dos dados.

In [98]:
df.shape    # Quantidade de linhas x colunas

(700, 11)

In [99]:
df.info()   # Verifico os tipos de dados das colunas do dataset

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 700 entries, 0 to 699
Data columns (total 11 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   User ID                     700 non-null    int64  
 1   Device Model                700 non-null    object 
 2   Operating System            700 non-null    object 
 3   App Usage Time (min/day)    700 non-null    int64  
 4   Screen On Time (hours/day)  700 non-null    float64
 5   Battery Drain (mAh/day)     700 non-null    int64  
 6   Number of Apps Installed    700 non-null    int64  
 7   Data Usage (MB/day)         700 non-null    int64  
 8   Age                         700 non-null    int64  
 9   Gender                      700 non-null    object 
 10  User Behavior Class         700 non-null    int64  
dtypes: float64(1), int64(7), object(3)
memory usage: 60.3+ KB


In [100]:
df.mean(numeric_only = True)    # Cálculo das médias das colunas numéricas

Unnamed: 0,0
User ID,350.5
App Usage Time (min/day),271.128571
Screen On Time (hours/day),5.272714
Battery Drain (mAh/day),1525.158571
Number of Apps Installed,50.681429
Data Usage (MB/day),929.742857
Age,38.482857
User Behavior Class,2.99


In [101]:
df.median(numeric_only = True)  # Cálculo das médianas das colunas numéricas

Unnamed: 0,0
User ID,350.5
App Usage Time (min/day),227.5
Screen On Time (hours/day),4.9
Battery Drain (mAh/day),1502.5
Number of Apps Installed,49.0
Data Usage (MB/day),823.5
Age,38.0
User Behavior Class,3.0


Esses resultados (médias e medianas) são duas das principais características do dataset, e juntos permitem avaliar se existem valores muito discrepantes (possíveis outliers).

In [102]:
df.isna().any() # Retorna se existe algum valor ausente ou nulo

Unnamed: 0,0
User ID,False
Device Model,False
Operating System,False
App Usage Time (min/day),False
Screen On Time (hours/day),False
Battery Drain (mAh/day),False
Number of Apps Installed,False
Data Usage (MB/day),False
Age,False
Gender,False


Esse resultado me permite identificar que para as 11 colunas presentes no dataset, nenhuma possui valores nulos (que não possam ser analisados)

In [103]:
df.describe()   # Exibe informações sobre o meu dado agregado (somente para as colunas de dados numéricos)

Unnamed: 0,User ID,App Usage Time (min/day),Screen On Time (hours/day),Battery Drain (mAh/day),Number of Apps Installed,Data Usage (MB/day),Age,User Behavior Class
count,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0
mean,350.5,271.128571,5.272714,1525.158571,50.681429,929.742857,38.482857,2.99
std,202.21688,177.199484,3.068584,819.136414,26.943324,640.451729,12.012916,1.401476
min,1.0,30.0,1.0,302.0,10.0,102.0,18.0,1.0
25%,175.75,113.25,2.5,722.25,26.0,373.0,28.0,2.0
50%,350.5,227.5,4.9,1502.5,49.0,823.5,38.0,3.0
75%,525.25,434.25,7.4,2229.5,74.0,1341.0,49.0,4.0
max,700.0,598.0,12.0,2993.0,99.0,2497.0,59.0,5.0


Esse resultado me permite confirmar as médias calculadas (mean) e a ausência de dados nulos (count), além de verificar a presença de outliers pautado na análise dos valores mínimos (min), máximos (max), os percentis (25%, 50% e 75%) e nos desvios-padrão (std).

Pela análise visual, aparenta não existir valores discrepantes.

In [104]:
df.corr(numeric_only = True)    # Retorna as correlações das colunas do dataset

Unnamed: 0,User ID,App Usage Time (min/day),Screen On Time (hours/day),Battery Drain (mAh/day),Number of Apps Installed,Data Usage (MB/day),Age,User Behavior Class
User ID,1.0,-0.024957,-0.014287,-0.019377,-0.023914,-0.014527,0.045188,-0.016242
App Usage Time (min/day),-0.024957,1.0,0.950333,0.956385,0.955253,0.942308,0.004382,0.970498
Screen On Time (hours/day),-0.014287,0.950333,1.0,0.948983,0.946975,0.941322,0.017232,0.964581
Battery Drain (mAh/day),-0.019377,0.956385,0.948983,1.0,0.961853,0.932276,-0.002722,0.978587
Number of Apps Installed,-0.023914,0.955253,0.946975,0.961853,1.0,0.9348,0.004034,0.981255
Data Usage (MB/day),-0.014527,0.942308,0.941322,0.932276,0.9348,1.0,0.003999,0.946734
Age,0.045188,0.004382,0.017232,-0.002722,0.004034,0.003999,1.0,-0.000563
User Behavior Class,-0.016242,0.970498,0.964581,0.978587,0.981255,0.946734,-0.000563,1.0


Esse resultado me permite entender as correlações entre duas colunas do dataset, e orientar a escolha de análises a serem desenvolvidas.

## Limpeza e Tratamento
Lidando com valores ausentes, colunas desnecessárias ou qualquer inconsistência identificada.

Identifiquei que a primeira coluna "User ID" é redundante, e que não existe especificação dos significados dos valores da coluna "User Behavior Class", assim, ela não significa nada para as análises a serem conduzidas.

In [105]:
df = df.drop(["User ID", "User Behavior Class"], axis = 1)  # Remoção das colunas desnecessárias
df.head()

Unnamed: 0,Device Model,Operating System,App Usage Time (min/day),Screen On Time (hours/day),Battery Drain (mAh/day),Number of Apps Installed,Data Usage (MB/day),Age,Gender
0,Google Pixel 5,Android,393,6.4,1872,67,1122,40,Male
1,OnePlus 9,Android,268,4.7,1331,42,944,47,Female
2,Xiaomi Mi 11,Android,154,4.0,761,32,322,42,Male
3,Google Pixel 5,Android,239,4.8,1676,56,871,20,Male
4,iPhone 12,iOS,187,4.3,1367,58,988,31,Female


Em seguida, vou substituir os dados "Female" e "Male" por "Feminino" e "Masculino"

In [106]:
df['Gender'] = df['Gender'].replace({'Female': 'Feminino', 'Male': 'Masculino'})
df['Gender']

Unnamed: 0,Gender
0,Masculino
1,Feminino
2,Masculino
3,Masculino
4,Feminino
...,...
695,Masculino
696,Masculino
697,Feminino
698,Masculino


Por último, o dataset aparenta visualmente não apresentar nenhum valor discrepante, mas vou utilizar o critério do intervalo interquartil para verificar a presença de outliers de maneira automatizada.

In [107]:
# Função para calcular outliers
def encontra_outliers(coluna):
    Q1 = coluna.quantile(0.25)  # Captura o primeiro quartil
    Q3 = coluna.quantile(0.75)  # Captura o terceiro quartil
    IQR = Q3 - Q1   # Calcula o intervalo interquartil

    # Calcula os limites
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR

    outliers = coluna[(coluna < limite_inferior) | (coluna > limite_superior)]

    return outliers

colunas_numericas = df.select_dtypes(include = 'number')    # Filtra as colunas numericas

# Identificando outliers por coluna
outliers = {}
for col in colunas_numericas:
    outliers[col] = encontra_outliers(df[col])

# Exibindo os resultados
for col, valores_outlier in outliers.items():
    print(f"Outliers na coluna '{col}':\n\t{valores_outlier if not valores_outlier.empty else 'Nenhum encontrado.'}")

Outliers na coluna 'App Usage Time (min/day)':
	Nenhum encontrado.
Outliers na coluna 'Screen On Time (hours/day)':
	Nenhum encontrado.
Outliers na coluna 'Battery Drain (mAh/day)':
	Nenhum encontrado.
Outliers na coluna 'Number of Apps Installed':
	Nenhum encontrado.
Outliers na coluna 'Data Usage (MB/day)':
	Nenhum encontrado.
Outliers na coluna 'Age':
	Nenhum encontrado.


Como não existem valores nulos e não foram encontrados outliers no dataset, a única limpeza necessária de fato foi a remoção das colunas não interessantes para analise.

In [108]:
df.info()   # Verifico os tipos de dados das colunas do dataset

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 700 entries, 0 to 699
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Device Model                700 non-null    object 
 1   Operating System            700 non-null    object 
 2   App Usage Time (min/day)    700 non-null    int64  
 3   Screen On Time (hours/day)  700 non-null    float64
 4   Battery Drain (mAh/day)     700 non-null    int64  
 5   Number of Apps Installed    700 non-null    int64  
 6   Data Usage (MB/day)         700 non-null    int64  
 7   Age                         700 non-null    int64  
 8   Gender                      700 non-null    object 
dtypes: float64(1), int64(5), object(3)
memory usage: 49.3+ KB


## Análise Específica

### Distribuição de usuários por sistema operacional

In [109]:
def so_distribuicao(df):
    # Contar ocorrências de cada sistema operacional
    os_counts = df["Operating System"].value_counts().reset_index()
    os_counts.columns = ["Sistema Operacional", "Usuários"]

    # Criar gráfico
    fig = px.pie(
        os_counts,
        values = "Usuários",    # Coluna com valores
        names = "Sistema Operacional",  # Coluna com nomes
        title = "Distribuição de usuários por sistema operacional",
        color_discrete_sequence = ['#18c0c4', '#f62196', '#A267F5', '#f3907e', '#ffe46b', '#fefeff'],
        template = 'plotly_dark',
        width = 600,
        height = 600
    )

    fig.show()

so_distribuicao(df)

### Média de consumo de bateria por dispositivo

In [110]:
def consumo_modelo(df):
    # Calcular a média do consumo de bateria por modelo
    media_consumo = df.groupby('Device Model')['Battery Drain (mAh/day)'].mean().reset_index()

    # Cria a figura
    fig = go.Figure()
    fig.add_trace(
        go.Bar(
            x = media_consumo['Device Model'],
            y = media_consumo['Battery Drain (mAh/day)'],
            marker_color = ['#18c0c4', '#f62196', '#A267F5', '#f3907e', '#ffe46b', '#fefeff'],
            text = media_consumo['Battery Drain (mAh/day)'].round(2),
            textposition = 'outside'
        )
    )

    # Configura os índices do gráfico
    fig.update_layout(
        title = "Média de consumo de bateria por dispositivo",
        xaxis_title = "Dispositivos",
        yaxis_title = "Média de consumo de bateria (mAh/dia)",
        yaxis = dict(range = [1400, 1600]),
        xaxis_automargin = True,
        template = 'plotly_dark',
        margin = dict(t = 50, b = 50, l = 50, r = 50)
    )

    fig.show()

consumo_modelo(df)

### Tempo de tela médio por idade

In [111]:
def tela_idade(df):
    # Calcula a média de idade de pessoas por tempo de tela
    media_tela_idade = df.groupby('Age')['Screen On Time (hours/day)'].mean().reset_index()

    # Cria a figura
    fig = go.Figure()
    fig.add_trace(
        go.Bar(
            x = media_tela_idade['Age'],
            y = media_tela_idade['Screen On Time (hours/day)'],
            marker_color ='#18c0c4'
        )
    )

    # Configura os índices do gráfico
    fig.update_layout(
        title = "Tempo de tela médio por idade",
        xaxis = dict(
            title = "Idade",
            range = [17, 60],
            tickmode = "linear",    # Garante que as idades sejam exibidas como inteiros
            automargin = True
        ),
        yaxis = dict(
            title = "Tempo de tela médio (horas/dia)",
            range = [4, 7]
        ),
        template = "plotly_dark",   # Tema do gráfico
        margin = dict(t = 50, b = 50, l = 50, r = 50)
    )

    fig.show()

tela_idade(df)

### Contagem de pessoas por idade

In [112]:
def quantidade_idade(df):
    # Calcular a quantidade de pessoas por idade
    contagem_idade = df['Age'].value_counts().sort_index()

    # Cria a figura
    fig = go.Figure()
    fig.add_trace(
        go.Bar(
            x = contagem_idade.index,
            y = contagem_idade.values,
            marker_color ='#18c0c4'
        )
    )

    # Configura os índices do gráfico
    fig.update_layout(
        title = "Contagem de pessoas por idade",
        xaxis = dict(
            title = "Idade",
            range = [17, 60],
            tickmode = "linear",    # Garante que as idades sejam exibidas como inteiros
            automargin = True
        ),
        yaxis_title = "Quantidade de pessoas",
        template = "plotly_dark",   # Tema do gráfico
        margin = dict(t = 50, b = 50, l = 50, r = 50)
    )

    fig.show()

quantidade_idade(df)

### Tempo de tela médio por gênero

In [113]:
def tela_genero(df):
    # Calcula a média do tempo de tela por gênero
    media_tela_genero = df.groupby('Gender')['Screen On Time (hours/day)'].mean().reset_index()

    # Cria a figura
    fig = go.Figure()
    fig.add_trace(
        go.Bar(
            x = media_tela_genero['Gender'],
            y = media_tela_genero['Screen On Time (hours/day)'],
            marker_color = ['#f62196', '#18c0c4'],
            text = media_tela_genero['Screen On Time (hours/day)'].round(2),
            textposition = 'outside'
        )
    )

    # Título e rótulos
    fig.update_layout(
        title = "Tempo de tela médio por gênero",
        xaxis_title = "Gênero",
        yaxis_title = "Tempo de tela (Hora/dia)",
        yaxis = dict(range = [5.2, 5.3]),
        font = dict(size = 15),
        title_x = 0,    # Alinha o título à esquerda
        title_y = 0.95, # Ajusta a posição vertical do título, se necessário
        template = "plotly_dark",   # Tema do gráfico
        margin = dict(t = 50, b = 50, l = 50, r = 50)
    )

    fig.show()

tela_genero(df)

### Tempo de tela médio por faixa etária
Para auxiliar nas análises de faixa etária, vou definir funções que especificam filtros no dataset para as categorias específicas.

In [114]:
def filtros_faixa_etaria(df):
    # Configuração dos filtros de idade
    filtros = [
        df[df['Age'] <= 20],
        df[(df['Age'] > 20) & (df['Age'] <= 30)],
        df[(df['Age'] > 30) & (df['Age'] <= 40)],
        df[(df['Age'] > 40) & (df['Age'] <= 50)],
        df[(df['Age'] > 50)]
    ]

    return filtros

titulo_faixas = ['[0 - 20]', '[21 - 30]', '[31 - 40]', '[41 - 50]', '[ 50+ ]']

In [115]:
def tela_faixa_etaria(df):
    # Obter os filtros de faixa etária
    filtros = filtros_faixa_etaria(df)

    # Calcula a média de tempo de tela para cada faixa etária
    medias = [filtro['Screen On Time (hours/day)'].mean() for filtro in filtros]
    medias = [0 if pd.isna(val) else val for val in medias]    # Substitui NaN por 0

    # Cria a figura
    fig = go.Figure()
    fig.add_trace(
        go.Bar(
            x = titulo_faixas,
            y = medias,
            marker = dict(color = ['#18c0c4', '#f62196', '#A267F5', '#f3907e', '#ffe46b', '#fefeff']),
            text = [f'{round(valor, 2)}' for valor in medias],
            textposition = 'outside'
        )
    )

    # Título e rótulos
    fig.update_layout(
        title = 'Tempo de tela médio por faixa etária',
        xaxis_title = 'Faixa etária',
        yaxis_title = 'Tempo de tela médio (horas/dia)',
        yaxis = dict(range = [min(medias) - 0.1, max(medias) + 0.1]),
        template = "plotly_dark",   # Tema do gráfico
        margin = dict(t = 50, b = 50, l = 50, r = 50)
    )

    fig.show()

tela_faixa_etaria(df)

### Distribuição de usuários por faixa etária

In [116]:
def usuarios_faixa_etaria(df):
    # Obter os filtros de faixa etária
    filtros = filtros_faixa_etaria(df)

    # Contagem de usuários por faixa etária
    contagem = [len(filtro) for filtro in filtros]
    contagem = [0 if pd.isna(val) else val for val in contagem]  # Substitui NaN por 0

    # Criar gráfico
    fig = px.pie(
        names = titulo_faixas,
        values = contagem,
        title = "Distribuição de usuários por faixa etária",
        color_discrete_sequence = ['#18c0c4', '#f62196', '#A267F5', '#f3907e', '#ffe46b', '#fefeff']
    )

    # Colocando legenda
    fig.update_traces(textinfo = 'percent+label')   # Rótulos
    fig.update_layout(
        legend_title = "Faixas Etárias",
        legend = dict(
            orientation = "v",
            yanchor = "top",
            y = 0.9,
            xanchor = "left",
            x = 1.05
        ),
        template = 'plotly_dark',
        width = 600,
        height = 600
    )

    fig.show()

usuarios_faixa_etaria(df)

### Distribuição de usuários por gênero

In [117]:
def usuarios_genero(df):
    # Filtros de gênero
    filtros = [
        df[df['Gender'] == "Masculino"],
        df[df['Gender'] == "Feminino"]
    ]
    titulo_generos = ["Masculino", "Feminino"]

    # Contagem de usuários por gênero
    contagem = [len(filtro) for filtro in filtros]

    fig = px.pie(
        names = titulo_generos,
        values = contagem,
        title = "Distribuição de usuários por gênero",
        color_discrete_sequence = ['#18c0c4', '#f62196'],
        template = 'plotly_dark',
        width = 600,
        height = 600
    )

    fig.show()

usuarios_genero(df)

### Média de aplicativos instalados por faixa etária

In [121]:
def aplicativos_faixa_etaria(df):
    # Obter os filtros de faixa etária
    filtros = filtros_faixa_etaria(df)

    # Calcula a média do tempo de tela para cada faixa etária
    medias = [filtro['Number of Apps Installed'].mean() for filtro in filtros]
    medias = [0 if pd.isna(val) else val for val in medias]  #Substitui NaN por 0

    # Cria a figura
    fig = go.Figure()
    fig.add_trace(
        go.Bar(
        x = titulo_faixas,
        y = medias,
        marker = dict(color = ['#18c0c4', '#f62196', '#A267F5', '#f3907e', '#ffe46b', '#fefeff']),
        )
    )

    # Título e rótulos
    fig.update_layout(
        title = 'Média de aplicativos instalados por faixa etária',
        xaxis_title = 'Faixa etária',
        yaxis_title = 'Aplicativos instalados',
        yaxis = dict(range = [49, 53]),
        font = dict(size = 15),
        template = 'plotly_dark',
        width = 600,
        height = 600
    )

    fig.show()

aplicativos_faixa_etaria(df)