# Desafio - Python para dados 

Você é uma pesquisadora que está tentando entender melhor qual o impacto do estilo de vida de uma pessoa na sua qualidade de sono, por isso fez a coleta dos dados de sobre 373 pessoas, onde foram recolhidas 12 características para cada uma delas. Por competência a sua pesquisa foi bem controlada e você não tem dados faltosos na sua base. Chegou o momento de você fazer sua análise e responder algumas perguntas.




In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
df= pd.read_csv("saude_do_sono_estilo_vida.csv")
df.head(3)

Unnamed: 0,ID,Gênero,Idade,Ocupação,Duração do sono,Qualidade do sono,Nível de atividade física,Nível de estresse,Categoria BMI,Pressão sanguíneaaaa,Frequência cardíaca,Passos diários,Distúrbio do sono
0,1,Homem,27,Eng. de Software,6.1,6,42,6,Sobrepeso,126/83,77,4200,Nenhuma
1,2,Homem,28,Médico(a),6.2,6,60,8,Normal,125/80,75,10000,Nenhuma
2,3,Homem,28,Médico(a),6.2,6,60,8,Normal,125/80,75,10000,Nenhuma


1. Ao visualizar a base você percebeu que seria melhor alterar o nome de
algumas colunas. Mude o ‘ID’ para ‘Identificador’, corrija o nome da
coluna que indica a pressão sanguínea, mude a coluna ‘Ocupação’ para
‘Profissão’, a coluna ‘Categoria BMI’ está em parte em inglês, substitua
para ‘Categoria IMC’.



In [3]:
rename_colunas={'ID':'Identificador',
                 'Pressão sanguíneaaaa':'Pressão sanguínea',
                 'Ocupação':'Profissão',
                 'Categoria BMI':'Categoria IMC'}

df.rename(columns=rename_colunas, inplace=True)
df.columns

Index(['Identificador', 'Gênero', 'Idade', 'Profissão', 'Duração do sono',
       'Qualidade do sono', 'Nível de atividade física', 'Nível de estresse',
       'Categoria IMC', 'Pressão sanguínea', 'Frequência cardíaca',
       'Passos diários', 'Distúrbio do sono'],
      dtype='object')


2. Qual é a média, a moda e a mediana de horas de sono para cada uma
das profissões? [‘mean’, np.median, pd.Series.mod]

In [4]:
df_media_sono=df['Duração do sono'].groupby(df['Profissão']).mean()

df_mediana_sono= df.groupby('Profissão')['Duração do sono'].median()

def modag(grupo):
    moda = grupo.mode()
    return moda[0]
df_moda_sono = df.groupby('Profissão')['Duração do sono'].agg(modag)

df_media_sono= df_media_sono.rename(index='Duração do sono - Média')
df_mediana_sono= df_mediana_sono.rename(index='Mediana')
df_moda_sono= df_moda_sono.rename(index='Moda')

df_sono=pd.concat([df_media_sono,df_mediana_sono,df_moda_sono],axis=1)
df_sono

Unnamed: 0_level_0,Duração do sono - Média,Mediana,Moda
Profissão,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Advogado(a),7.410638,7.3,7.2
Cientista,6.0,6.0,5.8
Contador(a),7.113514,7.2,7.2
Enfermeiro(a),7.048611,6.5,6.1
Eng. de Software,6.75,6.8,7.5
Engenheiro(a),7.987302,8.3,8.4
Gerente,6.9,6.9,6.9
Médico(a),6.970423,7.6,6.0
Pessoa Vendendora,6.403125,6.4,6.5
Professor(a),6.69,6.6,6.6


3. Das pessoas que atuam com engenharia de software qual a
porcentagem de obesos?


In [5]:
df_eng_soft=df[df["Profissão"]=="Eng. de Software"]
df_porcentagem_obesos= df_eng_soft['Categoria IMC'].value_counts(normalize=True)
df_porcentagem_obesos=pd.DataFrame(df_porcentagem_obesos.rename("Porcentagem")*100)
df_porcentagem_obesos

Unnamed: 0_level_0,Porcentagem
Categoria IMC,Unnamed: 1_level_1
Peso normal,50.0
Sobrepeso,25.0
Obesidade,25.0


4. De acordo com os dados, advogar ou ser representante de vendas faz
você dormir menos? (Use o método ‘isin’, considere a média)


In [6]:

df_dorme_menos= df[df['Profissão'].isin(["Advogado(a)","Representante de Vendas"])].groupby("Profissão")["Duração do sono"].mean()

df_outros=df[np.where(df['Profissão']!=('Advogado(a)'and 'Representante de Vendas'),True, False)]
media_sono_outros=df_outros["Duração do sono"].mean()

dt=pd.DataFrame(df_dorme_menos).rename(columns={'Duração do sono': 'Média de sono'}).reset_index()
dt_sono_outros=pd.DataFrame({'Profissão': ['Outras'], 'Média de sono': [media_sono_outros]})
dt = pd.concat([dt, dt_sono_outros])

dt.set_index(["Profissão"])

Unnamed: 0_level_0,Média de sono
Profissão,Unnamed: 1_level_1
Advogado(a),7.410638
Representante de Vendas,5.9
Outras,7.136119


5. Entre quem fez enfermagem e quem fez medicina, quem tem menos
horas de sono? (Use o método ‘isin’, considere a média)


In [7]:
df_enf_med= df[df['Profissão'].isin(["Enfermeiro(a)","Médico(a)"])].groupby("Profissão")["Duração do sono"].mean()
pd.DataFrame(df_enf_med.rename('Média do sono'))


Unnamed: 0_level_0,Média do sono
Profissão,Unnamed: 1_level_1
Enfermeiro(a),7.048611
Médico(a),6.970423


6. Faça um subconjunto com as colunas Identificador, Gênero, Idade,
Pressão sanguínea e Frequência cardíaca.


In [8]:
df_sub_saude=df[['Identificador', 'Gênero', 'Idade', 'Pressão sanguínea', 'Frequência cardíaca']]
df_sub_saude.set_index("Identificador").head()

Unnamed: 0_level_0,Gênero,Idade,Pressão sanguínea,Frequência cardíaca
Identificador,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Homem,27,126/83,77
2,Homem,28,125/80,75
3,Homem,28,125/80,75
4,Homem,28,140/90,85
5,Homem,28,140/90,85


7. Descubra qual a profissão menos frequente no conjunto. (Use
value_counts)


In [9]:
count_prof=df["Profissão"].value_counts(sort=True,ascending=True)
pd.DataFrame(count_prof.rename("Quantidade").head(1))


Unnamed: 0_level_0,Quantidade
Profissão,Unnamed: 1_level_1
Gerente,1


8. Quem tem maior pressão sanguínea média, homens ou mulheres?
(Considere a média)


In [10]:
pressao_sang=df.copy()
pressao_sang[['Pressão 1','Pressão 2']]=pressao_sang["Pressão sanguínea"].str.split('/',expand=True) 
pressao_sang['Pressão 1']=pd.to_numeric(pressao_sang['Pressão 1'])
pressao_sang['Pressão 2']=pd.to_numeric(pressao_sang['Pressão 2'])

In [11]:
df_pressao=pressao_sang.groupby("Gênero")[["Pressão 1","Pressão 2"]].mean()
df_pressao=round(df_pressao).astype(int)
df_pressao=df_pressao['Pressão 1'].astype(str) + "/" + df_pressao['Pressão 2'].astype(str)

pd.DataFrame(df_pressao.rename("Média Pressão sanguínea"))

Unnamed: 0_level_0,Média Pressão sanguínea
Gênero,Unnamed: 1_level_1
Homem,127/83
Mulher,130/86


9. É predominante entre os participantes dormir 8 horas por dia
(considere usar Moda como medida)?


In [21]:
# Dormir 8 horas considerei como no mínimo, por isso utilizei ">= 8" horas, caso seja exatamente 8 seria "==8"
horas_dormidas=(df.groupby("Identificador")["Duração do sono"].agg(modag)==8) #utilizei a função já feita da moda na questão 2
horas_dormidas=horas_dormidas.value_counts().reset_index()
horas_dormidas.columns = ['Dorme 8h por dia', 'Quantidade de participantes']
horas_dormidas['Dorme 8h por dia']=np.where(horas_dormidas['Dorme 8h por dia']==False,'Não','Sim')

#horas_dormidas=horas_dormidas.set_index(['Dorme 8h por dia'])
pd.DataFrame(horas_dormidas)


Unnamed: 0,Dorme 8h por dia,Quantidade de participantes
0,Não,360
1,Sim,13


In [30]:

abaixo_8h = df[df['Duração do sono'] < 8]
exatamente_8h = df[df['Duração do sono'] == 8]
acima_8h = df[df['Duração do sono'] > 8]


# Calcular a moda da duração do sono para cada grupo
moda_abaixo_8h = abaixo_8h['Duração do sono'].agg(modag) 
moda_exatamente_8h = exatamente_8h['Duração do sono'].agg(modag) 
moda_acima_8h = acima_8h['Duração do sono'].agg(modag) 


tabela_moda_sono=pd.DataFrame({
    'Categoria de Sono': ['Abaixo de 8h', 'Exatamente 8h', 'Acima de 8h'],
    'Quantidade de participantes':[len(abaixo_8h),len(exatamente_8h),len(acima_8h)],
    'Duração do Sono - Moda': [moda_abaixo_8h, moda_exatamente_8h, moda_acima_8h]
    
})

tabela_moda_sono

Unnamed: 0,Categoria de Sono,Quantidade de participantes,Duração do Sono - Moda
0,Abaixo de 8h,303,7.2
1,Exatamente 8h,13,8.0
2,Acima de 8h,57,8.1


10. Pessoas com frequências cardíacas acima de 70 dão mais passos que
pessoas com frequência cardíaca menor ou igual a 70? (Use a média)

In [13]:
filtro_frequencia_acima=df['Frequência cardíaca']>70
filtro_frequencia_abaixo=df['Frequência cardíaca']<=70
frequencia_passos=df["Passos diários"].groupby(filtro_frequencia_acima).mean().reset_index()
frequencia_passos.columns = ['Frequência cardíaca', 'Média de passos']
frequencia_passos['Frequência cardíaca']=np.where(frequencia_passos['Frequência cardíaca']==False,'Abaixo de 70','Acima de 70')

pd.DataFrame(frequencia_passos.set_index('Frequência cardíaca'))

Unnamed: 0_level_0,Média de passos
Frequência cardíaca,Unnamed: 1_level_1
Abaixo de 70,7006.666667
Acima de 70,6472.932331
