# Python para Dados - Desafio Final

Bootcamp Data Analytics 2024

*Autor: Letícia Simões*

## Proposta do desafio

Considerando a base de dados de `saude_do_sono_estilo_vida.csv` responda as questões abaixo.

> Você é uma pesquisadora que está tentando entender melhor qual o impacto do estilo de vida de uma pessoa na sua qualidade de sono, por isso fez a coleta dos dados de 373 pessoas, onde foram recolhidas 12 características para cada uma delas. Por competência, a sua pesquisa foi bem controlada e você não tem dados faltosos na sua base. Chegou o momento de você fazer sua análise e responder algumas perguntas.



## Bibliotecas

In [1]:
import pandas as pd
import numpy as np

## Importação do arquivo .csv

In [2]:
df = pd.read_csv('saude_do_sono_estilo_vida.csv')
df.head()

Unnamed: 0,ID,Gênero,Idade,Ocupação,Duração do sono,Qualidade do sono,Nível de atividade física,Nível de estresse,Categoria BMI,Pressão sanguíneaaaa,Frequência cardíaca,Passos diários,Distúrbio do sono
0,1,Homem,27,Eng. de Software,6.1,6,42,6,Sobrepeso,126/83,77,4200,Nenhuma
1,2,Homem,28,Médico(a),6.2,6,60,8,Normal,125/80,75,10000,Nenhuma
2,3,Homem,28,Médico(a),6.2,6,60,8,Normal,125/80,75,10000,Nenhuma
3,4,Homem,28,Representante de Vendas,5.9,4,30,8,Obesidade,140/90,85,3000,Apneia do sono
4,5,Homem,28,Representante de Vendas,5.9,4,30,8,Obesidade,140/90,85,3000,Apneia do sono


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 373 entries, 0 to 372
Data columns (total 13 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   ID                         373 non-null    int64  
 1   Gênero                     373 non-null    object 
 2   Idade                      373 non-null    int64  
 3   Ocupação                   373 non-null    object 
 4   Duração do sono            373 non-null    float64
 5   Qualidade do sono          373 non-null    int64  
 6   Nível de atividade física  373 non-null    int64  
 7   Nível de estresse          373 non-null    int64  
 8   Categoria BMI              373 non-null    object 
 9   Pressão sanguíneaaaa       373 non-null    object 
 10  Frequência cardíaca        373 non-null    int64  
 11  Passos diários             373 non-null    int64  
 12  Distúrbio do sono          373 non-null    object 
dtypes: float64(1), int64(7), object(5)
memory usage: 3

## 01
Ao visualizar a base você percebeu que seria melhor alterar o nome de algumas colunas. Mude o `ID` para `Identificador`, corrija o nome da coluna que indica a pressão sanguínea, mude a coluna `Ocupação` para `Profissão`, a coluna `Categoria BMI` está em parte em inglês, substitua para `Categoria IMC`.

In [4]:
# Identificação das colunas a serem modificadas
dicionario_colunas = {'ID': 'Identificador', 'Pressão sanguíneaaaa': 'Pressão sanguínea', 'Ocupação': 'Profissão', 'Categoria BMI': 'Categoria IMC'}

# Alteração dos nomes das colunas
df = df.rename(columns=dicionario_colunas)

# Exibição do dataframe com as colunas modificadas
df.head()

Unnamed: 0,Identificador,Gênero,Idade,Profissão,Duração do sono,Qualidade do sono,Nível de atividade física,Nível de estresse,Categoria IMC,Pressão sanguínea,Frequência cardíaca,Passos diários,Distúrbio do sono
0,1,Homem,27,Eng. de Software,6.1,6,42,6,Sobrepeso,126/83,77,4200,Nenhuma
1,2,Homem,28,Médico(a),6.2,6,60,8,Normal,125/80,75,10000,Nenhuma
2,3,Homem,28,Médico(a),6.2,6,60,8,Normal,125/80,75,10000,Nenhuma
3,4,Homem,28,Representante de Vendas,5.9,4,30,8,Obesidade,140/90,85,3000,Apneia do sono
4,5,Homem,28,Representante de Vendas,5.9,4,30,8,Obesidade,140/90,85,3000,Apneia do sono


## 02
Qual é a média, a moda e a mediana de horas de sono para cada uma das profissões? [`mean`, `np.median`, `pd.Series.mod`]

In [6]:
# Criação do dataframe com as funções agregadas
df_media_moda_mediana = df.pivot_table(values='Duração do sono', index='Profissão', aggfunc=[np.mean, pd.Series.mode, np.median])

# Alteração dos nomes das colunas do dataframe
df_media_moda_mediana.columns = ['Média', 'Moda', 'Mediana']

# Exibição do dataframe
df_media_moda_mediana

Unnamed: 0_level_0,Média,Moda,Mediana
Profissão,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Advogado(a),7.410638,7.2,7.3
Cientista,6.0,"[5.8, 6.2]",6.0
Contador(a),7.113514,7.2,7.2
Enfermeiro(a),7.048611,6.1,6.5
Eng. de Software,6.75,7.5,6.8
Engenheiro(a),7.987302,8.4,8.3
Gerente,6.9,6.9,6.9
Médico(a),6.970423,6.0,7.6
Pessoa Vendendora,6.403125,6.5,6.4
Professor(a),6.69,6.6,6.6


## 03
Das pessoas que atuam com engenharia de software qual a porcentagem de obesos?

In [7]:
# Busca da quantidade de pessoas que atuam com engenharia de software
quantidade_engenharia_software = df[df['Profissão'] == 'Eng. de Software']['Identificador'].count()

# Busca da quantidade de pessoas que atuam com engenharia de software e são obesas
quantidade_engenharia_software_obesos = df[(df['Profissão'] == 'Eng. de Software') & (df['Categoria IMC'] == 'Obesidade')]['Identificador'].count()

# Cálculo da porcentagem de pessoas que atuam com engenharia de software e são obesas
porcentagem_engenharia_software_obesos = (quantidade_engenharia_software_obesos / quantidade_engenharia_software) * 100

# Exibição da porcentagem
print(f"A porcentagem de obesos que atuam com engenharia de software é {porcentagem_engenharia_software_obesos:.2f}%")

A porcentagem de obesos que atuam com engenharia de software é 25.00%


## 04
De acordo com os dados, advogar ou ser representante de vendas faz você dormir menos? (Use o método `isin`, considere a média)

In [9]:
# Filtragem das profissões: Advogado(a) e Representante de Vendas
df_advogados_representantes = df[df['Profissão'].isin(['Advogado(a)', 'Representante de Vendas'])]

# Cálculo da média da duração do sono para Advogado(a) e Representante de Vendas
media_advogados_representantes = df_advogados_representantes['Duração do sono'].mean()

# Cálculo da média da duração do sono geral
media_geral = df['Duração do sono'].mean()

# Comparação das médias
if media_advogados_representantes < media_geral:
  print("Sim, ser advogado(a) ou Representante de Vendas está associado a uma menor duração do sono.")
else:
  print("Não, ser advogado(a) ou Representante de Vendas não está associado a uma menor duração do sono.")

Não, ser advogado(a) ou Representante de Vendas não está associado a uma menor duração do sono.


## 05
Entre quem fez enfermagem e quem fez medicina, quem tem menos horas de sono? (Use o método ‘isin’, considere a média)

In [10]:
# Cálculo da média da duração do sono para Enfermeiro(a)s
media_enfermeiros = df[df['Profissão'].isin(['Enfermeiro(a)'])]['Duração do sono'].mean()

# Cálculo da média da duração do sono para Médico(a)s
media_medicos = df[df['Profissão'].isin(['Médico(a)'])]['Duração do sono'].mean()

# Comparação das médias
if media_enfermeiros < media_medicos:
  print("Enfermeiro(a)s têm menos horas de sono.")
elif media_enfermeiros > media_medicos:
  print("Médico(a)s têm menos horas de sono.")
else:
  print("Enfermeiro(a)s e médico(a)s têm a mesma média de horas de sono.")

Médico(a)s têm menos horas de sono.


## 06
Faça um subconjunto com as colunas Identificador, Gênero, Idade, Pressão sanguínea e Frequência cardíaca.

In [11]:
# Criação do subconjunto
df_subconjunto = df[['Identificador', 'Gênero', 'Idade', 'Pressão sanguínea', 'Frequência cardíaca']]

# Exibição do dataframe
df_subconjunto.head()

Unnamed: 0,Identificador,Gênero,Idade,Pressão sanguínea,Frequência cardíaca
0,1,Homem,27,126/83,77
1,2,Homem,28,125/80,75
2,3,Homem,28,125/80,75
3,4,Homem,28,140/90,85
4,5,Homem,28,140/90,85


## 07
Descubra qual a profissão menos frequente no conjunto. (Use value_counts)

In [12]:
# Filtragem da profissão menos frequente
profissao_menos_frequente = df['Profissão'].value_counts().idxmin()

print("A profissão menos frequente no conjunto é:", profissao_menos_frequente)

A profissão menos frequente no conjunto é: Gerente


## 08
Quem tem maior pressão sanguínea média, homens ou mulheres? (Considere a média)

In [14]:
# Armazenamento dos valores da coluna Pressão sanguínea separadamente
df[['Pressão sistólica', 'Pressão diastólica']] = df['Pressão sanguínea'].str.split('/', expand=True).astype(int)

# Fórmula para encontrar a Pressão arterial média = (Pressão Sistólica + 2 x Pressão Diastólica) / 3
PAM = (df['Pressão sistólica'] + 2 * df['Pressão diastólica']) / 3

# Armazenamento da Pressão arterial média
df['Pressão arterial média'] = PAM

# Filtragem da maior pressão arterial média
maior_media_genero = df.groupby('Gênero')['Pressão arterial média'].mean().idxmax()
print("O gênero com a maior pressão sanguínea média é:", maior_media_genero)

O gênero com a maior pressão sanguínea média é: Mulher


In [16]:
# Exibição do dataframe
df.pivot_table(values='Pressão arterial média', index='Gênero', aggfunc=[np.mean])

Unnamed: 0_level_0,mean
Unnamed: 0_level_1,Pressão arterial média
Gênero,Unnamed: 1_level_2
Homem,97.657848
Mulher,100.896739


## 09
É predominante entre os participantes dormir 8 horas por dia (considere usar Moda como medida)?

In [17]:
# Cálculo da moda da duração do sono
moda_duracao_sono = df['Duração do sono'].mode()[0]

# Verifica se a moda é igual a 8 horas
if moda_duracao_sono == 8:
  print("Sim, dormir 8 horas por dia é predominante entre os participantes.")
else:
  print("Não, dormir 8 horas por dia não é predominante entre os participantes.")

Não, dormir 8 horas por dia não é predominante entre os participantes.


## 10
Pessoas com frequências cardíacas acima de 70 dão mais passos que pessoas com frequência cardíaca menor ou igual a 70? (Use a média)

In [20]:
# Cálculo da média de passos diários para frequência cardíaca acima de 70
media_passos_acima_70 = df[df['Frequência cardíaca'] > 70]['Passos diários'].mean()

# Cálculo da média de passos diários para frequência cardíaca menor ou igual 70
media_passos_70_ou_menos = df[df['Frequência cardíaca'] <= 70]['Passos diários'].mean()

# Comparação das médias
if media_passos_acima_70 > media_passos_70_ou_menos:
    print("Sim, pessoas com frequência cardíaca acima de 70 dão mais passos.")
elif media_passos_acima_70 < media_passos_70_ou_menos:
    print("Não, pessoas com frequência cardíaca igual ou menor a 70 dão mais passos.")
else:
    print("Não, pessoas com frequência cardíaca acima de 70 e Pessoas com frequência cardíaca igual ou menor a 70 dão o mesmo número de passos.")

Não, pessoas com frequência cardíaca igual ou menor a 70 dão mais passos.
