## 1 - Instalações e Imports

In [2]:
!pip install pandas
!pip install seaborn
%pip install plotly
!pip install scipy




In [3]:
import pandas as pd
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
import scipy.stats as stats

## 2 - Leitura do dataset, verificação dos dados e renomeação das colunas

In [4]:
#Leitura dos dados
df_mobile = pd.read_csv('../Dados_Brutos/user_behavior_dataset.csv')

In [5]:
#Verificação do df
df_mobile.head()

Unnamed: 0,User ID,Device Model,Operating System,App Usage Time (min/day),Screen On Time (hours/day),Battery Drain (mAh/day),Number of Apps Installed,Data Usage (MB/day),Age,Gender,User Behavior Class
0,1,Google Pixel 5,Android,393,6.4,1872,67,1122,40,Male,4
1,2,OnePlus 9,Android,268,4.7,1331,42,944,47,Female,3
2,3,Xiaomi Mi 11,Android,154,4.0,761,32,322,42,Male,2
3,4,Google Pixel 5,Android,239,4.8,1676,56,871,20,Male,3
4,5,iPhone 12,iOS,187,4.3,1367,58,988,31,Female,3


In [6]:
#Verificando os tipos de dados e valores nulos
df_mobile.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 700 entries, 0 to 699
Data columns (total 11 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   User ID                     700 non-null    int64  
 1   Device Model                700 non-null    object 
 2   Operating System            700 non-null    object 
 3   App Usage Time (min/day)    700 non-null    int64  
 4   Screen On Time (hours/day)  700 non-null    float64
 5   Battery Drain (mAh/day)     700 non-null    int64  
 6   Number of Apps Installed    700 non-null    int64  
 7   Data Usage (MB/day)         700 non-null    int64  
 8   Age                         700 non-null    int64  
 9   Gender                      700 non-null    object 
 10  User Behavior Class         700 non-null    int64  
dtypes: float64(1), int64(7), object(3)
memory usage: 60.3+ KB


In [7]:
#Nome das novas colunas
columns = ['user_id', 'device_model', 'operating_system','app_usage_time', 'screen_time', 'battery_drain', 'number_apps_installed', 'data_usage', 'age', 'gender', 'user_behavior_class']

In [8]:
#Função para renomear colunas
def renameColumns(df, renamed_columns):

    if len(df.columns) != len(renamed_columns):
        raise ValueError('The number of columns in the dataframe must be the same as the number of columns in the list')
    
    else:
        df.columns = renamed_columns
        return df

In [9]:
#Executando renomeação de colunas
df_mobile = renameColumns(df_mobile, columns)
display(df_mobile)

Unnamed: 0,user_id,device_model,operating_system,app_usage_time,screen_time,battery_drain,number_apps_installed,data_usage,age,gender,user_behavior_class
0,1,Google Pixel 5,Android,393,6.4,1872,67,1122,40,Male,4
1,2,OnePlus 9,Android,268,4.7,1331,42,944,47,Female,3
2,3,Xiaomi Mi 11,Android,154,4.0,761,32,322,42,Male,2
3,4,Google Pixel 5,Android,239,4.8,1676,56,871,20,Male,3
4,5,iPhone 12,iOS,187,4.3,1367,58,988,31,Female,3
...,...,...,...,...,...,...,...,...,...,...,...
695,696,iPhone 12,iOS,92,3.9,1082,26,381,22,Male,2
696,697,Xiaomi Mi 11,Android,316,6.8,1965,68,1201,59,Male,4
697,698,Google Pixel 5,Android,99,3.1,942,22,457,50,Female,2
698,699,Samsung Galaxy S21,Android,62,1.7,431,13,224,44,Male,1


In [10]:
df_mobile.describe()

Unnamed: 0,user_id,app_usage_time,screen_time,battery_drain,number_apps_installed,data_usage,age,user_behavior_class
count,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0
mean,350.5,271.128571,5.272714,1525.158571,50.681429,929.742857,38.482857,2.99
std,202.21688,177.199484,3.068584,819.136414,26.943324,640.451729,12.012916,1.401476
min,1.0,30.0,1.0,302.0,10.0,102.0,18.0,1.0
25%,175.75,113.25,2.5,722.25,26.0,373.0,28.0,2.0
50%,350.5,227.5,4.9,1502.5,49.0,823.5,38.0,3.0
75%,525.25,434.25,7.4,2229.5,74.0,1341.0,49.0,4.0
max,700.0,598.0,12.0,2993.0,99.0,2497.0,59.0,5.0


## 3- Verificando os dados únicos das colunas

In [11]:
mobile_models = df_mobile.device_model.unique()
mobile_models

array(['Google Pixel 5', 'OnePlus 9', 'Xiaomi Mi 11', 'iPhone 12',
       'Samsung Galaxy S21'], dtype=object)

In [12]:
op = df_mobile.operating_system.unique()
op

array(['Android', 'iOS'], dtype=object)

In [13]:
genders = df_mobile.gender.unique()
genders

array(['Male', 'Female'], dtype=object)

In [14]:
class_type = df_mobile.user_behavior_class.unique()
class_type

array([4, 3, 2, 5, 1])

## 4 - Análise geral dos dados

### Distribuição da idade geral, gerações x outras variáveis

#### Distribuição de idade geral

In [15]:
#Plotando dados do histograma
fig_age_distrib = px.histogram(df_mobile, x ='age')

#Alterando o tamanho dos bins
fig_age_distrib.update_traces(xbins= dict(size=1))

# Ajustando layout do gráfico
fig_age_distrib.update_layout(
    xaxis_title='Idade', 
    yaxis_title='Quantidade de usuários',
    title='Distribuição da idade dos usuários',
    bargap=0.1
)

# Mostrando o gráfico
fig_age_distrib.show()

***Conclusão***:
* A idade dos usuários é bem variada. Apresentando picos de quantidade de usuários em: 22, 25, 27, 29, 34, 42, 43, 51, e 55 anos.

#### Distribuição dos usuários por gerações

In [16]:
#Agrupando os dados da idade por gerações
df_mobile['age_generation'] = pd.cut(df_mobile['age'], bins=[12, 27, 43, 59, 76], labels=['Gen Z', 'Millennials', 'Gen X', 'Baby Boomers'], right= False)
df_mobile

Unnamed: 0,user_id,device_model,operating_system,app_usage_time,screen_time,battery_drain,number_apps_installed,data_usage,age,gender,user_behavior_class,age_generation
0,1,Google Pixel 5,Android,393,6.4,1872,67,1122,40,Male,4,Millennials
1,2,OnePlus 9,Android,268,4.7,1331,42,944,47,Female,3,Gen X
2,3,Xiaomi Mi 11,Android,154,4.0,761,32,322,42,Male,2,Millennials
3,4,Google Pixel 5,Android,239,4.8,1676,56,871,20,Male,3,Gen Z
4,5,iPhone 12,iOS,187,4.3,1367,58,988,31,Female,3,Millennials
...,...,...,...,...,...,...,...,...,...,...,...,...
695,696,iPhone 12,iOS,92,3.9,1082,26,381,22,Male,2,Gen Z
696,697,Xiaomi Mi 11,Android,316,6.8,1965,68,1201,59,Male,4,Baby Boomers
697,698,Google Pixel 5,Android,99,3.1,942,22,457,50,Female,2,Gen X
698,699,Samsung Galaxy S21,Android,62,1.7,431,13,224,44,Male,1,Gen X


In [17]:
df_mobile.groupby(['age_generation'], observed=True).size()

age_generation
Gen Z           145
Millennials     273
Gen X           269
Baby Boomers     13
dtype: int64

#### Distribuição das gerações pelas classes de comportamento de uso

In [18]:
#Agrupando os dados de classe de comportamento de uso por gerações
grouped_age_behavior = df_mobile.groupby(['age_generation', 'user_behavior_class'], observed=True).size().reset_index(name='count')
grouped_age_behavior

Unnamed: 0,age_generation,user_behavior_class,count
0,Gen Z,1,24
1,Gen Z,2,27
2,Gen Z,3,31
3,Gen Z,4,36
4,Gen Z,5,27
5,Millennials,1,63
6,Millennials,2,61
7,Millennials,3,53
8,Millennials,4,39
9,Millennials,5,57


In [19]:
#Criando o gráfico
fig_age_behavior = px.bar(
    grouped_age_behavior, 
    x='user_behavior_class', 
    y='count', 
    color='age_generation', 
    title='Distribuição das gerações por classificação de comportamento de uso', 
    barmode='group',
)

fig_age_behavior.update_layout(
    xaxis_title='Classe de comportamento', 
    yaxis_title='Quantidade de usuários'
)

#plotando
fig_age_behavior.show()

***Conclusão***:
* Neste dataset as gerações Z e Baby Boomers possuem menor quantidade de usuários em relação a Gen X e Millennials.
* Millennials se destacam nas classes 1, 2 e 5 de usuários. Possuem maior diversidade de perfis de uso
* Gen X possui um equilibrio na distribuição de classes, mas é mais proeminente  na classe  3 e 4. Pode indicar uma geração com um perfil mais consistente de uso.
* Genz Z possui quantidade de usuários equilibrada entre as classes. Destaca-se a classe 4, 3 e 5, com comportamento de uso do moderado a alto.
* Baby Boomers possuem menor quantidade de usuários. Destacam-se na classe 3 de comportamento de uso mais moderado.

#### Geração de usuários e quantidade de apps instalados

In [20]:
grouped_age_apps_installed = df_mobile.groupby('age_generation', observed=False).agg({'number_apps_installed':'mean'} )

# Renomeando a coluna
grouped_age_apps_installed['number_apps_installed'].rename('mean_number_apps_installed', inplace=True)

# Arredondando o valor
grouped_age_apps_installed['number_apps_installed'] = grouped_age_apps_installed['number_apps_installed'].round(0)

grouped_age_apps_installed

Unnamed: 0_level_0,number_apps_installed
age_generation,Unnamed: 1_level_1
Gen Z,53.0
Millennials,48.0
Gen X,52.0
Baby Boomers,55.0


***Conclusão:***
* Gen Z: Possui quantidade de apps acima da média geral, podendo ser um reflexo do ambiente tecnológico que foram criados. 
* Millennials: possuem quantidade de apps abaixo da média geral. essa análise aliada a de classificação de comportamento de uso pode indicar que são mais objetivos/seletivos quando se trata do uso dos apps.
* Gen X: Possuem quantidade de apps acima da média geral.
* Baby boomers: maior quantidade de apps instalados que todas as gerações, indicando uma tendência a explorar diferentes aplicativos, porém conforme a análise de comportamento o uso parace mais moderado.

#### Geração dos usuários e  gênero

In [21]:
#Agrupando os dados das gerações por gênero
grouped_age_gender = df_mobile.groupby(['age_generation', 'gender'], observed=True).size().reset_index(name='count')
grouped_age_gender

Unnamed: 0,age_generation,gender,count
0,Gen Z,Female,64
1,Gen Z,Male,81
2,Millennials,Female,143
3,Millennials,Male,130
4,Gen X,Female,123
5,Gen X,Male,146
6,Baby Boomers,Female,6
7,Baby Boomers,Male,7


In [30]:
fig_generation_gender = px.bar(
    grouped_age_gender, 
    x='gender', 
    y='count', 
    color='age_generation', 
    title='Distribuição do gênero por gerações', 
    barmode='group'
)

fig_generation_gender.update_layout(
    xaxis_title='Gênero', 
    yaxis_title='Quantidade de usuários'
)

fig_generation_gender.show()

In [31]:
generation_op = df_mobile.groupby(['age_generation', 'gender'], observed=True).agg({'operating_system':'value_counts'}).unstack().fillna(0)
generation_op

Unnamed: 0_level_0,Unnamed: 1_level_0,operating_system,operating_system
Unnamed: 0_level_1,operating_system,Android,iOS
age_generation,gender,Unnamed: 2_level_2,Unnamed: 3_level_2
Gen Z,Female,50,14
Gen Z,Male,66,15
Millennials,Female,112,31
Millennials,Male,103,27
Gen X,Female,97,26
Gen X,Male,117,29
Baby Boomers,Female,3,3
Baby Boomers,Male,6,1


### Distribuição do gênero x outras variáveis


#### Distribuição do gênero por classe de uso


In [22]:
# Agrupando e contando dados
grouped_gender = df_mobile.groupby(['gender', 'user_behavior_class']).size().reset_index(name='count')

display(grouped_gender)

Unnamed: 0,gender,user_behavior_class,count
0,Female,1,63
1,Female,2,64
2,Female,3,82
3,Female,4,67
4,Female,5,60
5,Male,1,73
6,Male,2,82
7,Male,3,61
8,Male,4,72
9,Male,5,76


In [23]:
# Total de usuários por sexo
grouped_gender.groupby(['gender']).sum()

Unnamed: 0_level_0,user_behavior_class,count
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,15,336
Male,15,364


In [24]:
# criando gráfico
fig_gender_behavior = px.bar(
    grouped_gender, 
    x='user_behavior_class', 
    y='count', 
    color='gender', 
    title='Contagem de usuários por gênero separados por classificação de comportamento', 
    barmode='group',
)

fig_gender_behavior.update_layout(
    xaxis_title='Classe de comportamento', 
    yaxis_title='Quantidade de usuários'
)

#plotando
fig_gender_behavior.show()

***Conclusão:***
* O dataset possui um balanço entre os genêros, f = 336 e m = 364. Isso é importante, pois significa que as observações de diferença de comportamento entre gêneros não são resultado de um desbalanço da amostra
* Classes comportamentais 1,2,4 e 5 possuem maior usuários do sexo masculino. Sendo classe 2 e 5 mais desbalanceado com predominância masculina.
* Classe comportamental 3 possui maior usuários do sexo feminino, e na classe 4 é bem próximo da quantidade de usuários do sexo masculino

#### Distribuição do gênero e preferência por OS

In [32]:
gender_op = df_mobile.groupby(['gender'], observed=True).agg({'operating_system':'value_counts'})
gender_op

Unnamed: 0_level_0,Unnamed: 1_level_0,operating_system
gender,operating_system,Unnamed: 2_level_1
Female,Android,262
Female,iOS,74
Male,Android,292
Male,iOS,72


#### Distribuição do gênero e numero de apps instalados

In [41]:
gender_qnt_apps_installed = df_mobile.groupby(['gender', 'user_behavior_class'], observed=True).agg({'number_apps_installed':['mean','std', 'median']})
gender_qnt_apps_installed.rename(columns ={'number_apps_installed':'apps_installed_metrics'}, inplace=True)
gender_qnt_apps_installed

Unnamed: 0_level_0,Unnamed: 1_level_0,apps_installed_metrics,apps_installed_metrics,apps_installed_metrics
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,median
gender,user_behavior_class,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Female,1,14.444444,3.057396,15.0
Female,2,29.59375,5.811097,30.0
Female,3,49.365854,5.572224,49.0
Female,4,70.134328,5.74956,69.0
Female,5,88.75,5.655731,89.0
Male,1,14.657534,2.774983,15.0
Male,2,31.658537,5.373045,32.0
Male,3,50.852459,5.341149,51.0
Male,4,69.722222,5.127178,69.5
Male,5,89.644737,5.348405,90.0


***Conclusão:***
* Mulheres e homens: conforme o aumento do uso do celular, maior é o número de apps instalados. A mediana possui um comportamento semalhante à média, o que sugere que os valores estão bem distribuidos. Quanto ao desvio padrão observa-se que a classe 1 tem menor variabilidade de quantidade de apps instalados em relação as outras classes de uso. Essa proximidade dos valores indica que não há grandes diferenças entre gênero e os comportamentos de uso do celular. 

* Homens: analisando o desvio padrão de todas as classes observa-se que, no geral, homens possuem menor variabilidade de apps instalados, o que pode ser um indicativo de um comportamento mais uniforme quanto a quantidade de apps instalados.


In [None]:
gender_usage_= df_mobile.groupby(['gender', 'user_behavior_class'], observed=True).agg({'number_apps_installed':['mean','std', 'median']})
gender_qnt_apps_installed.rename(columns ={'number_apps_installed':'apps_installed_metrics'}, inplace=True)
gender_qnt_apps_installed

### Análise de Outliers

## 5- Separação dos dados (device model, operating system, gender)

### 5.1 Device model

### Google Pixel 5 - Memória máx: 256GB - não expansível - bateria: 4700 mAh 

In [25]:
df_google_pixel = df_mobile[df_mobile['device_model'] == 'Google Pixel 5']
df_google_pixel.describe()

Unnamed: 0,user_id,app_usage_time,screen_time,battery_drain,number_apps_installed,data_usage,age,user_behavior_class
count,142.0,142.0,142.0,142.0,142.0,142.0,142.0,142.0
mean,348.28169,267.788732,5.076056,1475.676056,49.908451,897.704225,37.767606,2.915493
std,215.493837,180.031314,3.097286,809.354042,27.100785,643.885235,12.072867,1.421681
min,1.0,34.0,1.1,302.0,10.0,105.0,18.0,1.0
25%,150.75,99.0,2.025,651.0,26.75,342.5,27.0,2.0
50%,332.5,231.5,4.75,1443.0,48.0,791.0,36.0,3.0
75%,542.0,443.5,6.825,2108.0,69.75,1275.0,49.0,4.0
max,698.0,595.0,11.8,2968.0,99.0,2481.0,59.0,5.0


#### Análise

### OnePlus 9 - memória 128 GB (não expansível) - bateria: 4500 mAh

In [26]:
one_plus_9 = df_mobile[df_mobile['device_model'] == 'OnePlus 9']
one_plus_9.describe()

Unnamed: 0,user_id,app_usage_time,screen_time,battery_drain,number_apps_installed,data_usage,age,user_behavior_class
count,133.0,133.0,133.0,133.0,133.0,133.0,133.0,133.0
mean,353.037594,270.383459,5.241353,1523.849624,49.969925,911.120301,38.879699,2.977444
std,189.52602,183.494064,3.084569,835.151161,26.721895,621.401337,11.583712,1.405973
min,2.0,30.0,1.1,309.0,10.0,103.0,19.0,1.0
25%,221.0,105.0,2.5,718.0,28.0,371.0,29.0,2.0
50%,355.0,216.0,4.7,1526.0,46.0,828.0,40.0,3.0
75%,520.0,433.0,7.3,2277.0,74.0,1359.0,49.0,4.0
max,700.0,598.0,12.0,2956.0,99.0,2477.0,59.0,5.0


### Xiaomi mi 11 - memória: 256GB (não expansível) - bateria: 4600 mAh

In [27]:
xiaomi_mi_11 = df_mobile[df_mobile['device_model'] == 'Xiaomi Mi 11']
xiaomi_mi_11.describe()

Unnamed: 0,user_id,app_usage_time,screen_time,battery_drain,number_apps_installed,data_usage,age,user_behavior_class
count,146.0,146.0,146.0,146.0,146.0,146.0,146.0,146.0
mean,334.876712,268.452055,5.293151,1528.876712,49.924658,940.164384,37.767123,2.972603
std,214.049781,179.765905,3.148084,821.44249,27.201188,670.804828,11.653646,1.423668
min,3.0,31.0,1.1,303.0,10.0,102.0,18.0,1.0
25%,149.75,102.0,2.425,764.0,23.75,351.0,28.0,2.0
50%,285.0,217.0,4.9,1565.5,49.0,820.5,37.0,3.0
75%,514.75,435.75,7.4,2228.5,74.75,1350.25,48.75,4.0
max,697.0,597.0,11.9,2993.0,98.0,2497.0,59.0,5.0


### iPhone 12 - memória: 256 GB (não expansível) - bateria: 2815 mAh

In [28]:
iphone_12 = df_mobile[df_mobile['device_model'] == 'iPhone 12']
iphone_12.describe()

Unnamed: 0,user_id,app_usage_time,screen_time,battery_drain,number_apps_installed,data_usage,age,user_behavior_class
count,146.0,146.0,146.0,146.0,146.0,146.0,146.0,146.0
mean,352.609589,282.020548,5.430822,1589.513699,52.726027,965.506849,38.958904,3.10274
std,185.863738,169.59239,2.96533,817.17598,27.014816,624.74644,12.430151,1.368258
min,5.0,32.0,1.0,308.0,10.0,111.0,18.0,1.0
25%,196.0,142.25,2.9,826.0,28.25,424.5,29.0,2.0
50%,351.5,257.5,5.05,1538.5,52.0,907.0,39.0,3.0
75%,487.75,431.75,7.5,2278.75,76.75,1381.25,51.0,4.0
max,696.0,597.0,11.9,2971.0,99.0,2416.0,59.0,5.0


### Samsung Galaxy S21 - memória: 125GB (não expansível) - bateria: 4000 mAh

In [29]:
samsung_galaxy = df_mobile[df_mobile['device_model'] == 'Samsung Galaxy S21']
samsung_galaxy.describe()

Unnamed: 0,user_id,app_usage_time,screen_time,battery_drain,number_apps_installed,data_usage,age,user_behavior_class
count,133.0,133.0,133.0,133.0,133.0,133.0,133.0,133.0
mean,365.165414,266.421053,5.318045,1504.571429,50.804511,931.87218,39.112782,2.977444
std,205.512854,175.264571,3.079424,820.700923,26.920888,645.79416,12.388689,1.400574
min,7.0,30.0,1.0,310.0,10.0,109.0,18.0,1.0
25%,190.0,111.0,2.8,681.0,25.0,392.0,28.0,2.0
50%,385.0,217.0,5.0,1507.0,51.0,861.0,39.0,3.0
75%,544.0,414.0,7.3,2169.0,75.0,1372.0,51.0,4.0
max,699.0,593.0,11.8,2920.0,99.0,2481.0,59.0,5.0
