# 🚀 Guia de Análise de Dados com Python: Estudo de Caso (CRISP-DM)

Olá! Bem-vindo à nossa aula prática de análise e visualização de dados. Hoje, vamos aplicar os conceitos que aprendemos em um projeto real, usando uma metodologia padrão de mercado chamada CRISP-DM.

Nosso objetivo é analisar um dataset que simula os padrões de tempo de tela de crianças e adolescentes na Índia, buscando entender os hábitos, os impactos na saúde e as diferenças demográficas.

**Metodologia:** CRISP-DM

Vamos seguir as 3 primeiras fases deste ciclo:
1. Entendimento do Negócio: Definir o problema e os objetivos.
2. Entendimento dos Dados: Carregar e explorar o dataset.
3. Preparação dos Dados: Limpar, otimizar e transformar os dados para análise.

Ao final, faremos a Análise Exploratória e a Visualização para responder às nossas perguntas.

# 💼 Fase 1: Entendimento do Negócio

**Contexto:** O tempo de tela entre crianças e adolescentes na Índia aumentou drasticamente, especialmente após a pandemia. Estudos indicam que o uso excessivo está correlacionado a problemas de sono, ansiedade e risco de obesidade. Uma organização de saúde pública quer entender melhor esses padrões para criar campanhas de conscientização eficazes.

**Objetivos do Projeto:**
1. Identificar os principais fatores que influenciam o tempo de tela (idade, gênero, localidade).
2. Analisar a relação entre o tempo de tela e os impactos negativos na saúde.
3. Verificar se o uso para fins educacionais e recreativos varia com a idade.
4. Gerar visualizações claras para comunicar os achados para as equipes de saúde.

**Pergunta Central:** Quais são os perfis de crianças e adolescentes com maior risco associado ao tempo de tela excessivo?

# 📊 Fase 2: Entendimento dos Dados (Parte 1)

Nesta fase, nosso trabalho é carregar os dados e fazer uma exploração inicial para entender sua estrutura, qualidade e características principais.

Vamos começar importando as bibliotecas necessárias e carregando o arquivo Indian_Kids_Screen_Time.csv.

In [83]:
import pandas as pd
import numpy as np
import plotly.express as px
import os

In [34]:
# Carregar o arquivo CSV para um DataFrame do pandas
df = pd.read_csv('Indian_Kids_Screen_Time.csv')
df

Unnamed: 0,Age,Gender,Avg_Daily_Screen_Time_hr,Primary_Device,Exceeded_Recommended_Limit,Educational_to_Recreational_Ratio,Health_Impacts,Urban_or_Rural
0,14,Male,3.99,Smartphone,True,0.42,"Poor Sleep, Eye Strain",Urban
1,11,Female,4.61,Laptop,True,0.30,Poor Sleep,Urban
2,18,Female,3.73,TV,True,0.32,Poor Sleep,Urban
3,15,Female,1.21,Laptop,False,0.39,,Urban
4,12,Female,5.89,Smartphone,True,0.49,"Poor Sleep, Anxiety",Urban
...,...,...,...,...,...,...,...,...
9707,17,Male,3.26,Smartphone,True,0.44,Poor Sleep,Urban
9708,17,Female,4.43,Smartphone,True,0.40,Poor Sleep,Rural
9709,16,Male,5.62,Smartphone,True,0.39,"Poor Sleep, Eye Strain, Anxiety",Rural
9710,17,Male,5.60,TV,True,0.43,Poor Sleep,Urban


In [35]:
print("--- 5 Primeiras Linhas do DataFrame ---")
display(df.head())
print("\n--- 5 Últimas Linhas do DataFrame ---")
display(df.tail())
print("\n--- 5 linhas Aleatórias do DataFrame ---")
display(df.sample(5))

--- 5 Primeiras Linhas do DataFrame ---


Unnamed: 0,Age,Gender,Avg_Daily_Screen_Time_hr,Primary_Device,Exceeded_Recommended_Limit,Educational_to_Recreational_Ratio,Health_Impacts,Urban_or_Rural
0,14,Male,3.99,Smartphone,True,0.42,"Poor Sleep, Eye Strain",Urban
1,11,Female,4.61,Laptop,True,0.3,Poor Sleep,Urban
2,18,Female,3.73,TV,True,0.32,Poor Sleep,Urban
3,15,Female,1.21,Laptop,False,0.39,,Urban
4,12,Female,5.89,Smartphone,True,0.49,"Poor Sleep, Anxiety",Urban



--- 5 Últimas Linhas do DataFrame ---


Unnamed: 0,Age,Gender,Avg_Daily_Screen_Time_hr,Primary_Device,Exceeded_Recommended_Limit,Educational_to_Recreational_Ratio,Health_Impacts,Urban_or_Rural
9707,17,Male,3.26,Smartphone,True,0.44,Poor Sleep,Urban
9708,17,Female,4.43,Smartphone,True,0.4,Poor Sleep,Rural
9709,16,Male,5.62,Smartphone,True,0.39,"Poor Sleep, Eye Strain, Anxiety",Rural
9710,17,Male,5.6,TV,True,0.43,Poor Sleep,Urban
9711,15,Female,6.12,TV,True,0.33,Anxiety,Urban



--- 5 linhas Aleatórias do DataFrame ---


Unnamed: 0,Age,Gender,Avg_Daily_Screen_Time_hr,Primary_Device,Exceeded_Recommended_Limit,Educational_to_Recreational_Ratio,Health_Impacts,Urban_or_Rural
7857,14,Female,5.16,Laptop,True,0.47,Eye Strain,Urban
4861,14,Female,5.37,Smartphone,True,0.4,"Poor Sleep, Obesity Risk",Rural
2711,12,Female,6.9,Tablet,True,0.31,Poor Sleep,Rural
6460,9,Male,3.81,Smartphone,True,0.43,Poor Sleep,Rural
6520,15,Female,4.34,Smartphone,True,0.45,Poor Sleep,Rural


In [36]:
# Obter um resumo técnico: tipos de dados, contagem de nulos e uso de memória
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9712 entries, 0 to 9711
Data columns (total 8 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   Age                                9712 non-null   int64  
 1   Gender                             9712 non-null   object 
 2   Avg_Daily_Screen_Time_hr           9712 non-null   float64
 3   Primary_Device                     9712 non-null   object 
 4   Exceeded_Recommended_Limit         9712 non-null   bool   
 5   Educational_to_Recreational_Ratio  9712 non-null   float64
 6   Health_Impacts                     6494 non-null   object 
 7   Urban_or_Rural                     9712 non-null   object 
dtypes: bool(1), float64(2), int64(1), object(4)
memory usage: 540.7+ KB


Colunas com tipo de dado 'object' armazenam referências para os dados reais (como strings), portanto o uso de memória padrão não reflete o tamanho real ocupado. Para calcular o uso de memória real, incluindo o conteúdo referenciado, usamos memory_usage='deep'.

In [37]:
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9712 entries, 0 to 9711
Data columns (total 8 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   Age                                9712 non-null   int64  
 1   Gender                             9712 non-null   object 
 2   Avg_Daily_Screen_Time_hr           9712 non-null   float64
 3   Primary_Device                     9712 non-null   object 
 4   Exceeded_Recommended_Limit         9712 non-null   bool   
 5   Educational_to_Recreational_Ratio  9712 non-null   float64
 6   Health_Impacts                     6494 non-null   object 
 7   Urban_or_Rural                     9712 non-null   object 
dtypes: bool(1), float64(2), int64(1), object(4)
memory usage: 2.3 MB


In [38]:
# Obter estatísticas descritivas para as colunas numéricas
df.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
Age,9712.0,,,,12.979201,3.162437,8.0,10.0,13.0,16.0,18.0
Gender,9712.0,2.0,Male,4942.0,,,,,,,
Avg_Daily_Screen_Time_hr,9712.0,,,,4.352837,1.718232,0.0,3.41,4.44,5.38,13.89
Primary_Device,9712.0,4.0,Smartphone,4568.0,,,,,,,
Exceeded_Recommended_Limit,9712.0,2.0,True,8301.0,,,,,,,
Educational_to_Recreational_Ratio,9712.0,,,,0.427226,0.073221,0.3,0.37,0.43,0.48,0.6
Health_Impacts,6494.0,15.0,Poor Sleep,2268.0,,,,,,,
Urban_or_Rural,9712.0,2.0,Urban,6851.0,,,,,,,


In [39]:
df['Gender'].value_counts()

Gender
Male      4942
Female    4770
Name: count, dtype: int64

In [40]:
df['Primary_Device'].value_counts()

Primary_Device
Smartphone    4568
TV            2487
Laptop        1433
Tablet        1224
Name: count, dtype: int64

In [41]:
df['Health_Impacts'].value_counts()

Health_Impacts
Poor Sleep                                       2268
Poor Sleep, Eye Strain                            979
Eye Strain                                        644
Poor Sleep, Anxiety                               608
Poor Sleep, Obesity Risk                          452
Anxiety                                           385
Poor Sleep, Eye Strain, Anxiety                   258
Obesity Risk                                      252
Poor Sleep, Eye Strain, Obesity Risk              188
Eye Strain, Anxiety                               135
Eye Strain, Obesity Risk                          106
Poor Sleep, Anxiety, Obesity Risk                  78
Anxiety, Obesity Risk                              69
Poor Sleep, Eye Strain, Anxiety, Obesity Risk      37
Eye Strain, Anxiety, Obesity Risk                  35
Name: count, dtype: int64

Essa característica representa uma lista de problemas, o que explica a presença de valores ausentes. Esses valores ocorrem quando a criança não apresenta nenhum dos problemas listados, tornando inadequado preenchê-los com um valor padrão.

In [42]:
df['Urban_or_Rural'].value_counts()

Urban_or_Rural
Urban    6851
Rural    2861
Name: count, dtype: int64

In [43]:
df.corr(method='pearson', numeric_only=True)

Unnamed: 0,Age,Avg_Daily_Screen_Time_hr,Exceeded_Recommended_Limit,Educational_to_Recreational_Ratio
Age,1.0,0.118328,0.159173,-0.488617
Avg_Daily_Screen_Time_hr,0.118328,1.0,0.66495,-0.087552
Exceeded_Recommended_Limit,0.159173,0.66495,1.0,-0.126643
Educational_to_Recreational_Ratio,-0.488617,-0.087552,-0.126643,1.0


In [44]:
df.corr(method='spearman', numeric_only=True)

Unnamed: 0,Age,Avg_Daily_Screen_Time_hr,Exceeded_Recommended_Limit,Educational_to_Recreational_Ratio
Age,1.0,0.10531,0.158879,-0.464165
Avg_Daily_Screen_Time_hr,0.10531,1.0,0.598739,-0.073692
Exceeded_Recommended_Limit,0.158879,0.598739,1.0,-0.121284
Educational_to_Recreational_Ratio,-0.464165,-0.073692,-0.121284,1.0


# 🛠️ Fase 3: Preparação dos Dados

Esta é a etapa mais trabalhosa, onde vamos limpar, transformar e enriquecer os dados para que fiquem prontos para uma análise aprofundada e para a modelagem.

Ajustar os tipos de dados (Dtypes) é crucial para trabalhar com datasets maiores, pois reduz o consumo de RAM e acelera o processamento.

**Estratégias:**
1. **Dados Categóricos:** Colunas de texto com poucos valores únicos (Gender, Primary_Device, etc.) são perfeitas para o tipo category.
2. **Booleanos:** A coluna Exceeded_Recommended_Limit (True/False) pode ser convertida para bool.
3. **Números:** Podemos reduzir a precisão de float64 para float32 e de int64 para int8 (já que a idade vai de 8 a 18), economizando espaço.

In [45]:
print(f"Uso de memória ANTES da otimização (Real): {df.memory_usage(deep=True).sum() / 1024:.2f} KB")
print(f"Uso de memória ANTES da otimização (Padrão): {df.memory_usage(deep=False).sum() / 1024:.2f} KB")

Uso de memória ANTES da otimização (Real): 2305.49 KB
Uso de memória ANTES da otimização (Padrão): 540.74 KB


In [46]:
# Converter colunas de texto para o tipo 'category'
for col in ['Gender', 'Primary_Device', 'Urban_or_Rural']:
    df[col] = df[col].astype('category')

print(f"Uso de memória DEPOIS de converter para 'category' (Real): {df.memory_usage(deep=True).sum() / 1024:.2f} KB")
print(f"Uso de memória DEPOIS de converter para 'category' (Padrão): {df.memory_usage(deep=False).sum() / 1024:.2f} KB")

Uso de memória DEPOIS de converter para 'category' (Real): 780.83 KB
Uso de memória DEPOIS de converter para 'category' (Padrão): 342.01 KB


Como visto anteriormente, o Health_Impacts é uma lista de problemas, o que faz a conversão direta para category não ser adequada. Vamos usar a técnica de One-Hot Encoding para criar colunas binárias para cada problema listado.

In [47]:
# Criando one-hot encoding para a coluna 'Health_Impacts'
health_impact_dummies = df['Health_Impacts'].str.get_dummies(sep=', ')
df = pd.concat([df, health_impact_dummies], axis=1)
df

Unnamed: 0,Age,Gender,Avg_Daily_Screen_Time_hr,Primary_Device,Exceeded_Recommended_Limit,Educational_to_Recreational_Ratio,Health_Impacts,Urban_or_Rural,Anxiety,Eye Strain,Obesity Risk,Poor Sleep
0,14,Male,3.99,Smartphone,True,0.42,"Poor Sleep, Eye Strain",Urban,0,1,0,1
1,11,Female,4.61,Laptop,True,0.30,Poor Sleep,Urban,0,0,0,1
2,18,Female,3.73,TV,True,0.32,Poor Sleep,Urban,0,0,0,1
3,15,Female,1.21,Laptop,False,0.39,,Urban,0,0,0,0
4,12,Female,5.89,Smartphone,True,0.49,"Poor Sleep, Anxiety",Urban,1,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...
9707,17,Male,3.26,Smartphone,True,0.44,Poor Sleep,Urban,0,0,0,1
9708,17,Female,4.43,Smartphone,True,0.40,Poor Sleep,Rural,0,0,0,1
9709,16,Male,5.62,Smartphone,True,0.39,"Poor Sleep, Eye Strain, Anxiety",Rural,1,1,0,1
9710,17,Male,5.60,TV,True,0.43,Poor Sleep,Urban,0,0,0,1


In [48]:
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9712 entries, 0 to 9711
Data columns (total 12 columns):
 #   Column                             Non-Null Count  Dtype   
---  ------                             --------------  -----   
 0   Age                                9712 non-null   int64   
 1   Gender                             9712 non-null   category
 2   Avg_Daily_Screen_Time_hr           9712 non-null   float64 
 3   Primary_Device                     9712 non-null   category
 4   Exceeded_Recommended_Limit         9712 non-null   bool    
 5   Educational_to_Recreational_Ratio  9712 non-null   float64 
 6   Health_Impacts                     6494 non-null   object  
 7   Urban_or_Rural                     9712 non-null   category
 8   Anxiety                            9712 non-null   int64   
 9   Eye Strain                         9712 non-null   int64   
 10  Obesity Risk                       9712 non-null   int64   
 11  Poor Sleep                         9712 non

Observe que o uso de memória na verdade aumentou. Isso acontece porque o tipo dessas colunas está como inteiro e não como booleano. Vamos corrigir isso.

In [49]:
df[[col for col in health_impact_dummies.columns]] = df[[col for col in health_impact_dummies.columns]].astype(bool)
df

Unnamed: 0,Age,Gender,Avg_Daily_Screen_Time_hr,Primary_Device,Exceeded_Recommended_Limit,Educational_to_Recreational_Ratio,Health_Impacts,Urban_or_Rural,Anxiety,Eye Strain,Obesity Risk,Poor Sleep
0,14,Male,3.99,Smartphone,True,0.42,"Poor Sleep, Eye Strain",Urban,False,True,False,True
1,11,Female,4.61,Laptop,True,0.30,Poor Sleep,Urban,False,False,False,True
2,18,Female,3.73,TV,True,0.32,Poor Sleep,Urban,False,False,False,True
3,15,Female,1.21,Laptop,False,0.39,,Urban,False,False,False,False
4,12,Female,5.89,Smartphone,True,0.49,"Poor Sleep, Anxiety",Urban,True,False,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...
9707,17,Male,3.26,Smartphone,True,0.44,Poor Sleep,Urban,False,False,False,True
9708,17,Female,4.43,Smartphone,True,0.40,Poor Sleep,Rural,False,False,False,True
9709,16,Male,5.62,Smartphone,True,0.39,"Poor Sleep, Eye Strain, Anxiety",Rural,True,True,False,True
9710,17,Male,5.60,TV,True,0.43,Poor Sleep,Urban,False,False,False,True


In [50]:
# Não precisamos mais da coluna original, então podemos removê-la
df = df.drop(columns=['Health_Impacts'])

In [51]:
print("Uso de memória FINAL (Real): {:.2f} KB".format(df.memory_usage(deep=True).sum() / 1024))
print("Uso de memória FINAL (Padrão): {:.2f} KB".format(df.memory_usage(deep=False).sum() / 1024))

Uso de memória FINAL (Real): 304.43 KB
Uso de memória FINAL (Padrão): 304.07 KB


In [52]:
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9712 entries, 0 to 9711
Data columns (total 11 columns):
 #   Column                             Non-Null Count  Dtype   
---  ------                             --------------  -----   
 0   Age                                9712 non-null   int64   
 1   Gender                             9712 non-null   category
 2   Avg_Daily_Screen_Time_hr           9712 non-null   float64 
 3   Primary_Device                     9712 non-null   category
 4   Exceeded_Recommended_Limit         9712 non-null   bool    
 5   Educational_to_Recreational_Ratio  9712 non-null   float64 
 6   Urban_or_Rural                     9712 non-null   category
 7   Anxiety                            9712 non-null   bool    
 8   Eye Strain                         9712 non-null   bool    
 9   Obesity Risk                       9712 non-null   bool    
 10  Poor Sleep                         9712 non-null   bool    
dtypes: bool(5), category(3), float64(2), int64(

In [53]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Age,9712.0,12.979201,3.162437,8.0,10.0,13.0,16.0,18.0
Avg_Daily_Screen_Time_hr,9712.0,4.352837,1.718232,0.0,3.41,4.44,5.38,13.89
Educational_to_Recreational_Ratio,9712.0,0.427226,0.073221,0.3,0.37,0.43,0.48,0.6


Observando os valores numéricos, podemos observar que:
1. A idade varia de 8 a 18 anos. Dessa forma, armazenar como um int64 é um desperdício (-9223372036854775808 a 9223372036854775807). Podemos usar int8 (-128 a 127).
2. As duas colunas de ponto flutuante (Avg_Daily_Screen_Time_Hours e Educational_to_Recreational_Ratio) não precisam de tanta precisão (2 casas decimais). Podemos convertê-las para float32.

In [54]:
# Otimizar colunas numéricas (downcasting)
df['Age'] = df['Age'].astype('int8')
df['Avg_Daily_Screen_Time_hr'] = df['Avg_Daily_Screen_Time_hr'].astype('float32')
df['Educational_to_Recreational_Ratio'] = df['Educational_to_Recreational_Ratio'].astype('float32')

df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9712 entries, 0 to 9711
Data columns (total 11 columns):
 #   Column                             Non-Null Count  Dtype   
---  ------                             --------------  -----   
 0   Age                                9712 non-null   int8    
 1   Gender                             9712 non-null   category
 2   Avg_Daily_Screen_Time_hr           9712 non-null   float32 
 3   Primary_Device                     9712 non-null   category
 4   Exceeded_Recommended_Limit         9712 non-null   bool    
 5   Educational_to_Recreational_Ratio  9712 non-null   float32 
 6   Urban_or_Rural                     9712 non-null   category
 7   Anxiety                            9712 non-null   bool    
 8   Eye Strain                         9712 non-null   bool    
 9   Obesity Risk                       9712 non-null   bool    
 10  Poor Sleep                         9712 non-null   bool    
dtypes: bool(5), category(3), float32(2), int8(1

Nosso conjunto de dados agora está otimizado para análise e ocupa apenas 7% do espaço original! O que pode causar uma grande diferença em datasets maiores.

In [55]:
df.to_parquet('Indian_Kids_Screen_Time_Optimized.parquet', index=False)

In [56]:
df_parquet = pd.read_parquet('Indian_Kids_Screen_Time_Optimized.parquet')
df_parquet.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9712 entries, 0 to 9711
Data columns (total 11 columns):
 #   Column                             Non-Null Count  Dtype   
---  ------                             --------------  -----   
 0   Age                                9712 non-null   int8    
 1   Gender                             9712 non-null   category
 2   Avg_Daily_Screen_Time_hr           9712 non-null   float32 
 3   Primary_Device                     9712 non-null   category
 4   Exceeded_Recommended_Limit         9712 non-null   bool    
 5   Educational_to_Recreational_Ratio  9712 non-null   float32 
 6   Urban_or_Rural                     9712 non-null   category
 7   Anxiety                            9712 non-null   bool    
 8   Eye Strain                         9712 non-null   bool    
 9   Obesity Risk                       9712 non-null   bool    
 10  Poor Sleep                         9712 non-null   bool    
dtypes: bool(5), category(3), float32(2), int8(1

In [57]:
df.to_csv('Indian_Kids_Screen_Time_Optimized.csv', index=False)

# 📊 Fase 2: Entendimento dos Dados (Parte 2)

## Análise Univariada (Explorando uma única variável)

### Histograma
- O que é? Um gráfico que mostra a distribuição de frequência de dados numéricos, agrupando-os em intervalos.
- Nosso Objetivo: Entender a distribuição das idades e do tempo médio de tela para identificar as faixas mais comuns no nosso dataset.

In [58]:
# Histograma para a variável 'Age'
fig = px.histogram(df,
                   x='Age',
                   title='Distribuição da Idade das Crianças',
                   labels={'Age': 'Idade'},
                   nbins=20)
fig.show()

# Histograma para a variável 'Avg_Daily_Screen_Time_hr'
fig = px.histogram(df,
                   x='Avg_Daily_Screen_Time_hr',
                   title='Distribuição da Média Diária de Tempo de Tela (horas)',
                   labels={'Avg_Daily_Screen_Time_hr': 'Média de Tempo de Tela (horas)'})
fig.show()


### Box Plot

- O que é? Um Box Plot que exibe a distribuição de múltiplas variáveis numéricas lado a lado, facilitando a comparação de suas escalas e distribuições.
- Nosso Objetivo: Observar e comparar a escala e a dispersão de todas as nossas variáveis numéricas (Age, Avg_Daily_Screen_Time_hr, Educational_to_Recreational_Ratio) em um único local.

In [59]:
# Seleciona apenas as colunas numéricas de interesse
numerical_cols = ['Age', 'Avg_Daily_Screen_Time_hr', 'Educational_to_Recreational_Ratio']
df_numerical = df[numerical_cols]

# Usa a função melt do pandas para preparar os dados para o gráfico
df_melted = df_numerical.melt(var_name='Variavel', value_name='Valor')

# Cria o box plot com todas as variáveis juntas
fig = px.box(df_melted,
             x='Variavel',
             y='Valor',
             title='Distribuição e Escala das Variáveis Numéricas',
             labels={'Variavel': 'Variável', 'Valor': 'Valor'})
fig.show()


### Gráfico de Barras

- O que é? Um gráfico que usa barras para representar a frequência de dados categóricos.
- Nosso Objetivo: Visualizar e comparar a contagem de cada categoria, como o dispositivo principal mais utilizado pelas crianças.

In [75]:
df

Unnamed: 0,Age,Gender,Avg_Daily_Screen_Time_hr,Primary_Device,Exceeded_Recommended_Limit,Educational_to_Recreational_Ratio,Urban_or_Rural,Anxiety,Eye Strain,Obesity Risk,Poor Sleep
0,14,Male,3.99,Smartphone,True,0.42,Urban,False,True,False,True
1,11,Female,4.61,Laptop,True,0.30,Urban,False,False,False,True
2,18,Female,3.73,TV,True,0.32,Urban,False,False,False,True
3,15,Female,1.21,Laptop,False,0.39,Urban,False,False,False,False
4,12,Female,5.89,Smartphone,True,0.49,Urban,True,False,False,True
...,...,...,...,...,...,...,...,...,...,...,...
9707,17,Male,3.26,Smartphone,True,0.44,Urban,False,False,False,True
9708,17,Female,4.43,Smartphone,True,0.40,Rural,False,False,False,True
9709,16,Male,5.62,Smartphone,True,0.39,Rural,True,True,False,True
9710,17,Male,5.60,TV,True,0.43,Urban,False,False,False,True


In [86]:
import plotly.express as px

# a) Histograma do tempo de tela
px.histogram(df, x="Avg_Daily_Screen_Time_hr", nbins=30, title="Distribuição do tempo diário de tela")

# b) Tempo de tela por idade
px.scatter(df, x="Age", y="Avg_Daily_Screen_Time_hr", color="Gender",
           trendline="ols", title="Idade vs Tempo médio de tela")

# c) Diferença de gênero
px.box(df, x="Gender", y="Avg_Daily_Screen_Time_hr", title="Tempo de tela por gênero")

# d) Dispositivo primário
px.bar(df.groupby("Primary_Device")["Avg_Daily_Screen_Time_hr"].mean().reset_index(),
       x="Primary_Device", y="Avg_Daily_Screen_Time_hr", title="Média de tempo de tela por dispositivo")

# e) Impactos na saúde
for col in ["Anxiety", "Eye Strain", "Obesity Risk", "Poor Sleep"]:
    fig = px.histogram(df, x=col, color="Exceeded_Recommended_Limit", barmode="group",
                       title=f"{col} vs Excedeu limite recomendado")
    fig.show()

# f) Urbano vs Rural
px.box(df, x="Urban_or_Rural", y="Avg_Daily_Screen_Time_hr",
       title="Tempo de tela em áreas Urbanas vs Rurais")

# g) Relação educacional / recreacional
px.scatter(df, x="Avg_Daily_Screen_Time_hr", y="Educational_to_Recreational_Ratio",
           color="Exceeded_Recommended_Limit", symbol="Gender",
           title="Tempo de tela vs Proporção Educacional/Recreacional")

# h) Heatmap de correlação
import plotly.figure_factory as ff
corr = df.corr(numeric_only=True)
fig = ff.create_annotated_heatmap(
    z=corr.values,
    x=list(corr.columns),
    y=list(corr.index),
    colorscale="Viridis",
    showscale=True
)
fig.update_layout(title="Matriz de correlação")
fig.show()






In [None]:
fig = px.bar(df,
             x='Primary_Device',
             color='Primary_Device',
             title='Contagem por Tipo de Dispositivo Principal',
             labels={'Primary_Device': 'Dispositivo Principal', 'count': 'Contagem'},
            )

fig.update_traces(marker_opacity=1)

fig.show()

## Gráfico de Dispersão (Scatter Plot):

- **Uso:** Relação entre duas variáveis quantitativas (numéricas).
- **Pergunta:** Existe relação entre a idade e o tempo de tela? A localidade (urbana/rural) influencia?

In [61]:
fig = px.scatter(df,
                 x='Age',
                 y='Avg_Daily_Screen_Time_hr',
                 color='Urban_or_Rural',
                 title='Tempo de Tela vs. Idade por Localidade',
                 labels={'Age': 'Idade', 'Avg_Daily_Screen_Time_hr': 'Tempo Médio de Tela (horas)'},
                 hover_data=['Primary_Device', 'Gender'],
                 opacity=0.6)  # Adiciona transparência
fig.show()

## Gráfico de Barras (Bar Chart):

- **Uso:** Comparar uma métrica quantitativa entre diferentes categorias.
- **Pergunta:** Qual o tempo médio de tela por tipo de dispositivo principal?

In [None]:
media_por_device = df.groupby('Primary_Device')['Avg_Daily_Screen_Time_hr'].mean().sort_values(ascending=False)

fig_bar = px.bar(media_por_device,
                 x=media_por_device.index,
                 y='Avg_Daily_Screen_Time_hr',
                 title='Tempo Médio de Tela por Dispositivo Principal',
                 labels={'index': 'Dispositivo', 'Avg_Daily_Screen_Time_hr': 'Tempo Médio (horas)'},
                 color=media_por_device.index,
                 text_auto='.2f')
fig_bar.show()





## Gráfico de Setores (Pie Chart):

- **Uso:** Mostrar a proporção de cada categoria em relação ao todo.
- **Pergunta:** Qual a distribuição de participantes entre zona urbana e rural?

In [63]:
contagem_local = df['Urban_or_Rural'].value_counts()

fig_pie = px.pie(contagem_local,
                 names=contagem_local.index,
                 values=contagem_local.values,
                 title='Distribuição de Participantes por Localidade')
fig_pie.show()


## Box Plot:

- **Uso:** Comparar a distribuição de uma variável quantitativa entre várias categorias.
- **Pergunta:** Como o tempo de tela varia entre os diferentes impactos de saúde relatados?

In [64]:
# Histograma para a variável 'Age'
fig = px.histogram(df,
                   x='Age',
                   title='Distribuição da Idade das Crianças',
                   labels={'Age': 'Idade'},
                   nbins=20) # Você pode ajustar o número de barras (bins)
fig.show()

# Histograma para a variável 'Avg_Daily_Screen_Time_hr'
fig = px.histogram(df,
                   x='Avg_Daily_Screen_Time_hr',
                   title='Distribuição da Média Diária de Tempo de Tela (horas)',
                   labels={'Avg_Daily_Screen_Time_hr': 'Média de Tempo de Tela (horas)'})
fig.show()

In [65]:
# Box Plot para a variável 'Avg_Daily_Screen_Time_hr'
fig = px.box(df,
             y='Avg_Daily_Screen_Time_hr',
             title='Box Plot da Média Diária de Tempo de Tela',
             labels={'Avg_Daily_Screen_Time_hr': 'Média de Tempo de Tela (horas)'})
fig.show()

In [66]:
# Gráfico de Barras para a variável 'Primary_Device'
fig = px.bar(df,
             x='Primary_Device',
             title='Contagem por Tipo de Dispositivo Principal',
             labels={'Primary_Device': 'Dispositivo Principal', 'count': 'Contagem'})
fig.show()

# Gráfico de Barras para a variável 'Gender'
fig = px.bar(df,
             x='Gender',
             title='Contagem por Gênero',
             labels={'Gender': 'Gênero', 'count': 'Contagem'})
fig.show()

In [67]:
# Box Plots de 'Avg_Daily_Screen_Time_hr' agrupados por 'Gender'
fig = px.box(df,
             x='Gender',
             y='Avg_Daily_Screen_Time_hr',
             title='Tempo de Tela por Gênero',
             labels={'Gender': 'Gênero', 'Avg_Daily_Screen_Time_hr': 'Média de Tempo de Tela (horas)'})
fig.show()

# Box Plots de 'Avg_Daily_Screen_Time_hr' agrupados por 'Primary_Device'
fig = px.box(df,
             x='Primary_Device',
             y='Avg_Daily_Screen_Time_hr',
             title='Tempo de Tela por Dispositivo Principal',
             labels={'Primary_Device': 'Dispositivo Principal', 'Avg_Daily_Screen_Time_hr': 'Média de Tempo de Tela (horas)'})
fig.show()

In [68]:
# Gráfico de Dispersão entre 'Age' e 'Avg_Daily_Screen_Time_hr'
fig = px.scatter(df,
                 x='Age',
                 y='Avg_Daily_Screen_Time_hr',
                 title='Relação entre Idade e Tempo de Tela',
                 labels={'Age': 'Idade', 'Avg_Daily_Screen_Time_hr': 'Média de Tempo de Tela (horas)'})
fig.show()

In [69]:
# Contagem de 'Primary_Device' agrupado por 'Urban_or_Rural'
fig = px.bar(df,
             x='Urban_or_Rural',
             color='Primary_Device',
             barmode='group',
             title='Uso de Dispositivo por Localização (Urbano/Rural)',
             labels={'Urban_or_Rural': 'Localização', 'count': 'Contagem', 'Primary_Device': 'Dispositivo'})
fig.show()

In [70]:
# Gráfico de Dispersão de Idade vs. Tempo de Tela, colorido por Gênero
fig = px.scatter(df,
                 x='Age',
                 y='Avg_Daily_Screen_Time_hr',
                 color='Gender',
                 title='Relação entre Idade e Tempo de Tela por Gênero',
                 labels={'Age': 'Idade', 'Avg_Daily_Screen_Time_hr': 'Média de Tempo de Tela (horas)', 'Gender': 'Gênero'})
fig.show()

In [71]:
# Gráfico de Dispersão de Idade vs. Tempo de Tela, com facetas por 'Primary_Device'
fig = px.scatter(df,
                 x='Age',
                 y='Avg_Daily_Screen_Time_hr',
                 facet_col='Primary_Device', # Cria uma coluna de gráficos para cada dispositivo
                 title='Relação Idade vs. Tempo de Tela para Cada Dispositivo',
                 labels={'Age': 'Idade', 'Avg_Daily_Screen_Time_hr': 'Média de Tempo de Tela (horas)'})
fig.show()