<a href="https://colab.research.google.com/github/mfdali/BootcampDataAnalytics/blob/main/Data_analysis_with_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Data Wrangling with Pandas**

author: Monique Dali @mfdali

Bootcamp challenge @WoMakersCode

Goal: Better understand the impact of a person's lifestyle on their sleep quality
Dataset: 373 individuals, where 12 characteristics were collected for each of them.
No missing data

##  Import libraries




In [1]:
# Importing necessary libraries
import pandas as pd

## 1 - Load data

In [2]:
# Reading the dataset into a Pandas DataFrame
df = pd.read_csv('https://raw.githubusercontent.com/mfdali/BootcampDataAnalytics/main/Data%20Wrangling/saude_do_sono_estilo_vida.csv')

In [3]:
# Check dataframe
df.head()

Unnamed: 0,ID,Gênero,Idade,Ocupação,Duração do sono,Qualidade do sono,Nível de atividade física,Nível de estresse,Categoria BMI,Pressão sanguíneaaaa,Frequência cardíaca,Passos diários,Distúrbio do sono
0,1,Homem,27,Eng. de Software,6.1,6,42,6,Sobrepeso,126/83,77,4200,Nenhuma
1,2,Homem,28,Médico(a),6.2,6,60,8,Normal,125/80,75,10000,Nenhuma
2,3,Homem,28,Médico(a),6.2,6,60,8,Normal,125/80,75,10000,Nenhuma
3,4,Homem,28,Representante de Vendas,5.9,4,30,8,Obesidade,140/90,85,3000,Apneia do sono
4,5,Homem,28,Representante de Vendas,5.9,4,30,8,Obesidade,140/90,85,3000,Apneia do sono


## 2 - Data cleansing

Missing values can impact analysis, so it's essential to identify and handle them appropriately.

In [4]:
# Checking for missing values
df.isnull().sum()

ID                           0
Gênero                       0
Idade                        0
Ocupação                     0
Duração do sono              0
Qualidade do sono            0
Nível de atividade física    0
Nível de estresse            0
Categoria BMI                0
Pressão sanguíneaaaa         0
Frequência cardíaca          0
Passos diários               0
Distúrbio do sono            0
dtype: int64

I know that this dataset does not contain missing, if there are missings we need to replace for mean, mode, variance or drop out lines

In [5]:
# Handling missing values (if any)
# Filling missing numerical values with mean,mode,
#df.fillna(df.mean(), inplace=True)

In [6]:
# Check Nans and empty values
df.isna().sum()

ID                           0
Gênero                       0
Idade                        0
Ocupação                     0
Duração do sono              0
Qualidade do sono            0
Nível de atividade física    0
Nível de estresse            0
Categoria BMI                0
Pressão sanguíneaaaa         0
Frequência cardíaca          0
Passos diários               0
Distúrbio do sono            0
dtype: int64

In [7]:
(df['Pressão sanguíneaaaa'] == '').sum()

0

## 3 - Data exploration

In [8]:
# Summary statistics of numerical columns
df.describe()

Unnamed: 0,ID,Idade,Duração do sono,Qualidade do sono,Nível de atividade física,Nível de estresse,Frequência cardíaca,Passos diários
count,373.0,373.0,373.0,373.0,373.0,373.0,373.0,373.0
mean,187.0,42.13941,7.129491,7.308311,59.128686,5.391421,70.171582,6816.353887
std,107.820066,8.640793,0.795139,1.195359,20.842589,1.77259,4.139704,1620.060932
min,1.0,27.0,5.8,4.0,30.0,3.0,65.0,3000.0
25%,94.0,35.0,6.4,6.0,45.0,4.0,68.0,5600.0
50%,187.0,43.0,7.2,7.0,60.0,5.0,70.0,7000.0
75%,280.0,50.0,7.8,8.0,75.0,7.0,72.0,8000.0
max,373.0,59.0,8.5,9.0,90.0,8.0,86.0,10000.0


In [9]:
# Summary statistics of categorical columns
df.describe(include=['object'])

Unnamed: 0,Gênero,Ocupação,Categoria BMI,Pressão sanguíneaaaa,Distúrbio do sono
count,373,373,373,373,373
unique,2,11,4,25,3
top,Homem,Enfermeiro(a),Normal,130/85,Nenhuma
freq,189,72,195,99,219


In [10]:
# Check data type of columns
df.dtypes

ID                             int64
Gênero                        object
Idade                          int64
Ocupação                      object
Duração do sono              float64
Qualidade do sono              int64
Nível de atividade física      int64
Nível de estresse              int64
Categoria BMI                 object
Pressão sanguíneaaaa          object
Frequência cardíaca            int64
Passos diários                 int64
Distúrbio do sono             object
dtype: object

## 4 - Data wrangling

Transforming the dataset to prepare it for analysis.

1.   Change 'ID' to 'Identifier', correct the name of the column indicating blood pressure, change the 'Occupation' column to 'Profession', and the 'BMI Category' column is partially in English, so replace it with 'BMI Category'.

In [11]:
# Rename columns
df.rename(columns={'ID': 'Identificador', 'Pressão sanguíneaaaa': 'Pressão sanguínea', 'Ocupação': 'Profissão', 'Categoria BMI': 'Categoria IMC'}, inplace=True)


In [12]:
# Display the updated Dataframe with the new header list
df.columns

Index(['Identificador', 'Gênero', 'Idade', 'Profissão', 'Duração do sono',
       'Qualidade do sono', 'Nível de atividade física', 'Nível de estresse',
       'Categoria IMC', 'Pressão sanguínea', 'Frequência cardíaca',
       'Passos diários', 'Distúrbio do sono'],
      dtype='object')

2. What are the mean, mode, and median of sleep hours for each profession?

In [13]:
# Descriptive statistics for each group

#Mean
df.groupby('Profissão')['Duração do sono'].mean()

Profissão
Advogado(a)                7.410638
Cientista                  6.000000
Contador(a)                7.113514
Enfermeiro(a)              7.048611
Eng. de Software           6.750000
Engenheiro(a)              7.987302
Gerente                    6.900000
Médico(a)                  6.970423
Pessoa Vendendora          6.403125
Professor(a)               6.690000
Representante de Vendas    5.900000
Name: Duração do sono, dtype: float64

In [14]:
#Mode
df.groupby('Profissão')['Duração do sono'].agg(pd.Series.mode)

Profissão
Advogado(a)                       7.2
Cientista                  [5.8, 6.2]
Contador(a)                       7.2
Enfermeiro(a)                     6.1
Eng. de Software                  7.5
Engenheiro(a)                     8.4
Gerente                           6.9
Médico(a)                         6.0
Pessoa Vendendora                 6.5
Professor(a)                      6.6
Representante de Vendas           5.9
Name: Duração do sono, dtype: object

In [15]:
#Median
df.groupby('Profissão')['Duração do sono'].median()

Profissão
Advogado(a)                7.3
Cientista                  6.0
Contador(a)                7.2
Enfermeiro(a)              6.5
Eng. de Software           6.8
Engenheiro(a)              8.3
Gerente                    6.9
Médico(a)                  7.6
Pessoa Vendendora          6.4
Professor(a)               6.6
Representante de Vendas    5.9
Name: Duração do sono, dtype: float64

3. What is the percentage of obese individuals among those who work in software engineering?

In [16]:
# Total of people that work as Software engineer
df[df['Profissão'] == 'Eng. de Software']

Unnamed: 0,Identificador,Gênero,Idade,Profissão,Duração do sono,Qualidade do sono,Nível de atividade física,Nível de estresse,Categoria IMC,Pressão sanguínea,Frequência cardíaca,Passos diários,Distúrbio do sono
0,1,Homem,27,Eng. de Software,6.1,6,42,6,Sobrepeso,126/83,77,4200,Nenhuma
5,6,Homem,28,Eng. de Software,5.9,4,30,8,Obesidade,140/90,85,3000,Insônia
84,85,Homem,35,Eng. de Software,7.5,8,60,5,Peso normal,120/80,70,8000,Nenhuma
92,93,Homem,35,Eng. de Software,7.5,8,60,5,Peso normal,120/80,70,8000,Nenhuma


In [17]:
# Total obese people with Software engineer profession
df[(df['Profissão'] == 'Eng. de Software') & (df['Categoria IMC'] == 'Obesidade')]

Unnamed: 0,Identificador,Gênero,Idade,Profissão,Duração do sono,Qualidade do sono,Nível de atividade física,Nível de estresse,Categoria IMC,Pressão sanguínea,Frequência cardíaca,Passos diários,Distúrbio do sono
5,6,Homem,28,Eng. de Software,5.9,4,30,8,Obesidade,140/90,85,3000,Insônia


In [18]:
# Count software engineers
total_software_enginners = df[df['Profissão'] == 'Eng. de Software'].shape[0]

# Count software engineers that are obese
total_obese_software = df[(df['Profissão'] == 'Eng. de Software') & (df['Categoria IMC'] == 'Obesidade')].shape[0]

# Percentage calculation
percentage_obese_software = (total_obese_software/total_software_enginners)*100

# Display percentage
print("Percentage of Obese among Software Engineers in the sample:\t %3.2g\n" % percentage_obese_software)

Percentage of Obese among Software Engineers in the sample:	  25



4. According to the data, does being a lawyer or sales representative make you sleep less?

In [19]:
# Sample mean
mean_sleep = df['Duração do sono'].mean()

In [20]:
#Sleep Duration by profession
#Mean
lawyer_sleep = df[df['Profissão'].isin(['Advogado(a)'])]['Duração do sono'].mean()

In [21]:
#Sleep Duration by profession
#Mean
sales_sleep = df[df['Profissão'].isin(['Representante de Vendas'])]['Duração do sono'].mean()

In [22]:
# Compare sleep mean and professions
if sales_sleep < mean_sleep:
  print("Sales representatives sleep %.2g hours less than the sample average\n" % (mean_sleep-sales_sleep))
if lawyer_sleep < mean_sleep:
  print("Lawyers sleep %.2g hours less than the sample average\n" % (mean_sleep-lawyer_sleep))

Sales representatives sleep 1.2 hours less than the sample average



5. Among those who studied nursing and those who studied medicine, who sleeps fewer hours?

In [23]:
#Sleep Duration by profession
#Mean
doctor_sleep = df[df['Profissão'].isin(['Médico(a)'])]['Duração do sono'].mean()

In [24]:
#Sleep Duration by profession
#Mean
nurse_sleep = df[df['Profissão'].isin(['Enfermeiro(a)'])]['Duração do sono'].mean()

In [25]:
# Compare sleep mean and professions
if doctor_sleep < nurse_sleep:
  print("Doctors sleep %.2g hours less than nurses\n" % abs(doctor_sleep-nurse_sleep))
else:
  print("Nurses sleep %.2g hours less than doctors\n" % abs(doctor_sleep-nurse_sleep))

Doctors sleep 0.078 hours less than nurses



6. Create a subset with the columns Identifier, Gender, Age, Blood Pressure, and Heart Rate.

In [26]:
#Get header list
df.columns

Index(['Identificador', 'Gênero', 'Idade', 'Profissão', 'Duração do sono',
       'Qualidade do sono', 'Nível de atividade física', 'Nível de estresse',
       'Categoria IMC', 'Pressão sanguínea', 'Frequência cardíaca',
       'Passos diários', 'Distúrbio do sono'],
      dtype='object')

In [27]:
#Sub-sampling
df_subset = df[['Identificador', 'Gênero', 'Idade', 'Pressão sanguínea', 'Frequência cardíaca']]

In [28]:
# Display selected dataframe
df_subset.head()

Unnamed: 0,Identificador,Gênero,Idade,Pressão sanguínea,Frequência cardíaca
0,1,Homem,27,126/83,77
1,2,Homem,28,125/80,75
2,3,Homem,28,125/80,75
3,4,Homem,28,140/90,85
4,5,Homem,28,140/90,85


7. Find out which profession is the least frequent in the dataset.

In [29]:
# Count individuals in each profession
df['Profissão'].value_counts().sort_values()

Gerente                     1
Representante de Vendas     2
Eng. de Software            4
Cientista                   4
Pessoa Vendendora          32
Contador(a)                37
Professor(a)               40
Advogado(a)                47
Engenheiro(a)              63
Médico(a)                  71
Enfermeiro(a)              72
Name: Profissão, dtype: int64

8. Who has a higher average blood pressure, men or women?

In [30]:
# Drop rows with NaN values
df_blood_pressure = df.dropna(inplace=False)

In [31]:
# Type of data
df_blood_pressure.dtypes

Identificador                  int64
Gênero                        object
Idade                          int64
Profissão                     object
Duração do sono              float64
Qualidade do sono              int64
Nível de atividade física      int64
Nível de estresse              int64
Categoria IMC                 object
Pressão sanguínea             object
Frequência cardíaca            int64
Passos diários                 int64
Distúrbio do sono             object
dtype: object

In [32]:
# Split 'BloodPressure' column to numeric
df_blood_pressure[['Pressão sanguínea 1','Pressão sanguínea 2']] = df_blood_pressure['Pressão sanguínea'].str.split('/', expand=True)

In [33]:
# Convert splitted columns to numeric type
df_blood_pressure['Pressão sanguínea 1'] = pd.to_numeric(df_blood_pressure['Pressão sanguínea 1'], errors='coerce')
df_blood_pressure['Pressão sanguínea 2'] = pd.to_numeric(df_blood_pressure['Pressão sanguínea 2'], errors='coerce')

In [34]:
# Get average blood pressure by gender
df_blood_pressure.groupby('Gênero')['Pressão sanguínea 1'].mean()

Gênero
Homem     126.941799
Mulher    130.146739
Name: Pressão sanguínea 1, dtype: float64

In [35]:
# Get average blood pressure by gender
df_blood_pressure.groupby('Gênero')['Pressão sanguínea 2'].mean()

Gênero
Homem     83.015873
Mulher    86.271739
Name: Pressão sanguínea 2, dtype: float64

In [36]:
# Comparing average blood pressure between genders
if (df_blood_pressure[df_blood_pressure['Gênero']=='Homem']['Pressão sanguínea 1'].mean()) > (df_blood_pressure[df_blood_pressure['Gênero']=='Mulher']['Pressão sanguínea 1'].mean()):
  print("Men's blood pressure is higher than women's")
else:
  print("Women's blood pressure is higher than men's")

Women's blood pressure is higher than men's


9. Is it predominant among participants to sleep 8 hours per day?

In [37]:
# Check if it is predominant sleep 8 hours per day
mode_sleep = df['Duração do sono'].mode()[0]

In [38]:
# Compare mode with 8 hours per day
if mode_sleep >= 8:
  print("Yes")
else:
  print("No")

No


10. Do individuals with heart rates above 70 take more steps than those with heart rates less than or equal to 70?

In [39]:
# Get heart rate mean above 70 steps
heart_above_70 = df[df['Frequência cardíaca']>70]['Passos diários'].mean()

In [40]:
# Get heart rate mean under or equal 70 steps
heart_below_70 = df[df['Frequência cardíaca']<=70]['Passos diários'].mean()

In [41]:
# Compare steps based on heart rate
if heart_above_70 > heart_below_70:
  print("Yes")
else:
  print("No")

No


## Step 6: Saving the Cleaned and Manipulated DataFrame

After finish data treatment, it is essential to save the manipulated dataset for further analysis.

In [42]:
# Saving the cleaned and manipulated DataFrame to a new CSV file
df.to_csv('new_data.csv', index=False)