## Python para Dados - Desafio Final Individual

Você é uma pesquisadora que está tentando entender melhor qual o impacto do estilo de vida de uma pessoa na sua qualidade de sono, por isso fez a coleta dos dados de sobre 373 pessoas, onde foram recolhidas 12 características para cada uma delas. Por competência a sua pesquisa foi bem controlada e você não tem dados faltosos na sua base. Chegou o momento de você fazer sua análise e responder algumas perguntas.

In [None]:
import pandas as pd
import numpy as np

import warnings
warnings.filterwarnings("ignore")

In [None]:
# Importa o arquivo csv que será utilizado na análise
df = pd.read_csv('saude_do_sono_estilo_vida.csv')
df.head()

Unnamed: 0,ID,Gênero,Idade,Ocupação,Duração do sono,Qualidade do sono,Nível de atividade física,Nível de estresse,Categoria BMI,Pressão sanguíneaaaa,Frequência cardíaca,Passos diários,Distúrbio do sono
0,1,Homem,27,Eng. de Software,6.1,6,42,6,Sobrepeso,126/83,77,4200,Nenhuma
1,2,Homem,28,Médico(a),6.2,6,60,8,Normal,125/80,75,10000,Nenhuma
2,3,Homem,28,Médico(a),6.2,6,60,8,Normal,125/80,75,10000,Nenhuma
3,4,Homem,28,Representante de Vendas,5.9,4,30,8,Obesidade,140/90,85,3000,Apneia do sono
4,5,Homem,28,Representante de Vendas,5.9,4,30,8,Obesidade,140/90,85,3000,Apneia do sono


**1.** Ao visualizar a base você percebeu que seria melhor alterar o nome de algumas colunas. Mude o ‘ID’ para ‘Identificador’, corrija o nome da coluna que indica a pressão sanguínea, mude a coluna ‘Ocupação’ para ‘Profissão’, a coluna ‘Categoria BMI’ está em parte em inglês, substitua para ‘Categoria IMC’.

In [None]:
df.rename(columns = {'ID': 'Identificador', 'Pressão sanguíneaaaa': 'Pressão sanguínea', 'Ocupação': 'Profissão',
                     'Categoria BMI': 'Categoria IMC'}, inplace = True)

In [None]:
# Verifica se as alterações foram efetuadas com sucesso
df.head()

Unnamed: 0,Identificador,Gênero,Idade,Profissão,Duração do sono,Qualidade do sono,Nível de atividade física,Nível de estresse,Categoria IMC,Pressão sanguínea,Frequência cardíaca,Passos diários,Distúrbio do sono
0,1,Homem,27,Eng. de Software,6.1,6,42,6,Sobrepeso,126/83,77,4200,Nenhuma
1,2,Homem,28,Médico(a),6.2,6,60,8,Normal,125/80,75,10000,Nenhuma
2,3,Homem,28,Médico(a),6.2,6,60,8,Normal,125/80,75,10000,Nenhuma
3,4,Homem,28,Representante de Vendas,5.9,4,30,8,Obesidade,140/90,85,3000,Apneia do sono
4,5,Homem,28,Representante de Vendas,5.9,4,30,8,Obesidade,140/90,85,3000,Apneia do sono


**2.** Qual é a média, a moda e a mediana de horas de sono para cada uma das profissões? [‘mean’, np.median, pd.Series.mod]

In [None]:
# Cria um dataframe agrupando por profissão e calcula as métricas de média, mediana e moda
df_sono = pd.DataFrame(df.groupby(['Profissão'])['Duração do sono'].agg(['mean', np.median, pd.Series.mode]))

# Adiciona novo indice no dataframe criado
df_sono.reset_index(inplace=True)

# Renomeia as colunas
df_sono.set_axis(['Profissão', 'média', 'mediana', 'moda'], axis = 1, inplace = True)

# Visualiza o dataframe criado
df_sono

Unnamed: 0,Profissão,média,mediana,moda
0,Advogado(a),7.410638,7.3,7.2
1,Cientista,6.0,6.0,"[5.8, 6.2]"
2,Contador(a),7.113514,7.2,7.2
3,Enfermeiro(a),7.048611,6.5,6.1
4,Eng. de Software,6.75,6.8,7.5
5,Engenheiro(a),7.987302,8.3,8.4
6,Gerente,6.9,6.9,6.9
7,Médico(a),6.970423,7.6,6.0
8,Pessoa Vendendora,6.403125,6.4,6.5
9,Professor(a),6.69,6.6,6.6


**3.** Das pessoas que atuam com engenharia de software qual a porcentagem de obesos?

In [None]:
# Realiza ao filtro por profissão, indica a coluna de interesse e conta as ocorrências e calcula o percentual
df[df['Profissão'] == 'Eng. de Software']['Categoria IMC'].value_counts(normalize = True) * 100

Peso normal    50.0
Sobrepeso      25.0
Obesidade      25.0
Name: Categoria IMC, dtype: float64

**Resposta:** 25% dos engenheiros de software estão na categoria obesidade.

**4.** De acordo com os dados, advogar ou ser representante de vendas faz você dormir menos? (Use o método ‘isin’, considere a média)

In [None]:
# Calcula a média de sono de todos os participantes
media_sono_geral = df['Duração do sono'].mean()

# Calcula a média de duração de sono de advogados e representantes de vendas
media_advogados_representantes = df[df['Profissão'].isin(['Advogado(a)', 'Representante de Vendas'])]['Duração do sono'].mean()

print('Advogados e representantes de vendas dormem em média {:.1f} horas, enquanto a média geral de duração de sono do estudo é de {:.1f} horas.'.format(media_advogados_representantes, media_sono_geral))


Advogados e representantes de vendas dormem em média 7.3 horas, enquanto a média geral de duração de sono do estudo é de 7.1 horas.


**Resposta:** Advogados e representantes de vendas dormem em média mais que a média geral do estudo.

**5.** Entre quem fez enfermagem e quem fez medicina, quem tem menos horas de sono? (Use o método ‘isin’, considere a média)

In [None]:
# Calcula a média de duração de sono dos enfermeiros
media_sono_enfermeiro = df[df['Profissão'].isin(['Enfermeiro(a)'])]['Duração do sono'].mean()

# Calcula a média de duração de sono dos médicos
media_sono_medico = df[df['Profissão'].isin(['Médico(a)'])]['Duração do sono'].mean()

# Print dos valores
print('A média de duração de sono dos enfermeiros é {}.\nA média de duração do sono dos médicos é {}.'.format(media_sono_enfermeiro.round(), media_sono_medico.round()))


A média de duração de sono dos enfermeiros é 7.0.
A média de duração do sono dos médicos é 7.0.


**Resposta:** Não existe diferença entre a duração média do sono.

**6.** Faça um subconjunto com as colunas Identificador, Gênero, Idade, Pressão sanguínea e Frequência cardíaca.

In [None]:
# Filtra o dataframe original para criar um novo dataframe contendo somente as colunas de interesse
df_sub = df[['Identificador', 'Gênero', 'Idade', 'Pressão sanguínea', 'Frequência cardíaca']]

# Mostra o novo dataframe criado
df_sub.head()

Unnamed: 0,Identificador,Gênero,Idade,Pressão sanguínea,Frequência cardíaca
0,1,Homem,27,126/83,77
1,2,Homem,28,125/80,75
2,3,Homem,28,125/80,75
3,4,Homem,28,140/90,85
4,5,Homem,28,140/90,85


**7.** Descubra qual a profissão menos frequente no conjunto. (Use value_counts)

In [None]:
# Conta as ocorrências da coluna profissão, ordena e mostra do menor para o maior, por fim exibe somente a primeira linha.
df['Profissão'].value_counts(sort = True, ascending = True)[0:1]

Gerente    1
Name: Profissão, dtype: int64

**Resposta:** A profissão menos frequente é gerente.

**8.** Quem tem maior pressão sanguínea média, homens ou mulheres? (Considere a média)

In [None]:
# Verifica o tipo de dado da coluna Pressão sanguínea
df['Pressão sanguínea'].info()

# Como a coluna é do tipo objeto, é necessário tratar o dado antes de realizar os calculos

<class 'pandas.core.series.Series'>
RangeIndex: 373 entries, 0 to 372
Series name: Pressão sanguínea
Non-Null Count  Dtype 
--------------  ----- 
373 non-null    object
dtypes: object(1)
memory usage: 3.0+ KB


In [None]:
# Filtra o dataframe df para um novo dataframe somente com as colunas de interesse
df_pressao = df[['Identificador', 'Gênero', 'Pressão sanguínea']]

# Faz o split da coluna pressão sanguínea em duas novadas colunas e converte essas colunas para tipo inteiro
df_pressao[['Sistólica', 'Diastólica']] = df_pressao['Pressão sanguínea'].str.split('/', expand = True).astype('int32')

# Verifica o tipo das novas colunas criadas
df_pressao[['Sistólica', 'Diastólica']].dtypes

Sistólica     int32
Diastólica    int32
dtype: object

In [None]:
# Faz o agrupamento por gênero, calcula as médias de pressão sistólica e diastólica e ordena da maior para menor.
df_pressao.groupby('Gênero')[['Sistólica', 'Diastólica']].mean().round().sort_values(by = ['Sistólica', 'Diastólica'], ascending = False)

Unnamed: 0_level_0,Sistólica,Diastólica
Gênero,Unnamed: 1_level_1,Unnamed: 2_level_1
Mulher,130.0,86.0
Homem,127.0,83.0


**Resposta:** Mulheres tem maior pressão sanguínea média.

**9.** É predominante entre os participantes dormir 8 horas por dia (considere usar Moda como medida)?

In [None]:
# Calcula o valor mais frequente (moda) da coluna Duração do sono.
df['Duração do sono'].mode()

0    7.2
Name: Duração do sono, dtype: float64

**Resposta:** Não, os participantes frequentemente dormem 7.2 horas.

**10.** Pessoas com frequências cardíacas acima de 70 dão mais passos que pessoas com frequência cardíaca menor ou igual a 70? (Use a média)

In [None]:
# Criando uma nova coluna que indica se o participante tem frequência cardíaca maior ou menor que 70
df.loc[df['Frequência cardíaca'] <= 70, 'FC > 70'] = 'Não'
df.loc[df['Frequência cardíaca'] > 70, 'FC > 70'] = 'Sim'

# Agrupa os participantes pela nova coluna e faz a média dos passos diários
df.groupby(['FC > 70'])['Passos diários'].mean().round()

FC > 70
Não    7007.0
Sim    6473.0
Name: Passos diários, dtype: float64

**Resposta:** Não. Pessoas com frequência cardíaca acima de 70 dão menos passos que pessoas com frequência cardíaca menor ou igual a 70.