<p style="text-align:center">
    <a href="https://skills.network" target="_blank">
    <img src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/assets/logos/SN_web_lightmode.png" width="200" alt="Skills Network Logo"  />
    </a>
</p>


# **Lab: Exploratory Data Analysis**


Estimated time needed: **30** minutes


In this lab, you will work with a cleaned dataset to perform Exploratory Data Analysis or EDA. 


## Objectives


In this lab, you will perform the following:


- Examine the structure of a dataset.

- Handle missing values effectively.

- Conduct summary statistics on key columns.

- Analyze employment status, job satisfaction, programming language usage, and trends in remote work.


## Hands on Lab


#### Step 1: Install and Import Libraries


Install the necessary libraries for data manipulation and visualization.


In [None]:
!pip install pandas
!pip install matplotlib
!pip install seaborn

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

#### Step 2: Load and Preview the Dataset
Load the dataset from the provided URL. Use df.head() to display the first few rows to get an overview of the structure.


In [None]:
# Load the Stack Overflow survey dataset
data_url = 'https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/n01PQ9pSmiRX6520flujwQ/survey-data.csv'
df = pd.read_csv(data_url)

# Set pandas option to display all columns
pd.set_option('display.max_columns', None)

# Display the first few rows of the dataset
df.head()

#### Step 3: Handling Missing Data


Identify and manage missing values in critical columns such as `Employment`, `JobSat`, and `RemoteWork`. Implement a strategy to fill or drop these values, depending on the significance of the missing data.


In [None]:
## Write your code here
df[['Employment','JobSat','RemoteWork']].dtypes

In [None]:
df[['Employment','JobSat','RemoteWork']].isna().sum()

In [None]:
df[['JobSat','RemoteWork']].nunique()

In [None]:
df['JobSat'].unique()

In [None]:
df['JobSat'].value_counts()

In [None]:
df['JobSat']=pd.to_numeric(df['JobSat'],errors = 'coerce')
df['JobSat'].fillna(int(df['JobSat'].mean()),inplace=True)

In [None]:
df['RemoteWork'].unique()

In [None]:
df['RemoteWork'].value_counts()

In [None]:
df['RemoteWork'].fillna(df['RemoteWork'].mode()[0],inplace=True)

In [None]:
df[['JobSat','RemoteWork']].isna().sum()

#### Step 4: Analysis of Experience and Job Satisfaction


Analyze the relationship between years of professional coding experience (`YearsCodePro`) and job satisfaction (`JobSat`). Summarize `YearsCodePro` and calculate median satisfaction scores based on experience ranges.

- Create experience ranges for `YearsCodePro` (e.g., `0-5`, `5-10`, `10-20`, `>20` years).

- Calculate the median `JobSat` for each range.

- Visualize the relationship using a bar plot or similar visualization.


In [None]:
df['YearsCodePro'].dtype

In [None]:
df['YearsCodePro'].unique()

In [None]:
df['YearsCodePro'].replace({'Less than 1 year':0.5,'More than 50 years':55},inplace=True)

In [None]:
df['YearsCodePro'].isna().sum()

In [None]:
df['YearsCodePro'].fillna(df['YearsCodePro'].median(),inplace=True)

In [None]:
df['YearsCodePro'].isna().sum()

In [None]:
df['YearsCodePro']=df['YearsCodePro'].astype('int')
df['YearsCodePro'].dtype

In [None]:
df['YearsCodePro'].unique()

In [None]:
## Write your code here
import numpy as np
bins=[0,5,10,20,np.inf]
group_names=['junior','senior','professional','expert']
df['YearsCodePro_group'] = pd.cut(df['YearsCodePro'],bins,labels=group_names,include_lowest=True)
df['YearsCodePro_group'].value_counts()

In [None]:
grouped = df.groupby('YearsCodePro_group')

In [None]:
df_jobSat_By_YearsCodePro= grouped.agg({'JobSat':'median'})

In [None]:
df_jobSat_By_YearsCodePro.plot(kind='bar')
plt.xlabel('YearsCodePro')
plt.ylabel('Job Satisfaction')
plt.title('Job Satisfaction Median Within YearsCodePro Range')
plt.legend(['jobSatMedian'])
plt.show()

#### Step 5: Visualize Job Satisfaction


Use a count plot to show the distribution of `JobSat` values. This provides insights into the overall satisfaction levels of respondents.


In [None]:
## Write your code here
sns.countplot(data=df,x=df['JobSat'],hue=df['YearsCodePro_group'])
plt.xticks(rotation=45)
plt.title('Distribution of JobSat values across Years Code Pro Level')
plt.show()

#### Step 6: Analyzing Remote Work Preferences by Job Role


Analyze trends in remote work based on job roles. Use the `RemoteWork` and `Employment` columns to explore preferences and examine if specific job roles prefer remote work more than others.

- Use a count plot to show remote work distribution.

- Cross-tabulate remote work preferences by employment type (e.g., full-time, part-time) and job roles.


In [None]:
## Write your code here
sns.countplot(data=df,x=df['RemoteWork'])
positions = plt.xticks()[0] 
xlabel = ['Remote','Hybrid','In-person']
plt.xticks(positions,xlabel)
plt.xticks(rotation = 45)
plt.show()

In [None]:
df['Employment'].unique()

In [None]:
df['Employment'].shape

In [None]:
employment_remote = pd.crosstab(df['Employment'], df['RemoteWork'])  
print(employment_remote)  

# 可视化  
plt.figure(figsize=(12, 6))  
employment_remote.plot(kind='bar', stacked=True)  
plt.title('不同就业类型的远程工作偏好')  
plt.xlabel('就业类型')  
plt.ylabel('人数')  
plt.legend(title='工作模式')  
plt.show()  

#### Step 7: Analyzing Programming Language Trends by Region


Analyze the popularity of programming languages by region. Use the `LanguageHaveWorkedWith` column to investigate which languages are most used in different regions.

- Filter data by country or region.

- Visualize the top programming languages by region with a bar plot or heatmap.


<details>
<summary>知识点总结</summary>
# 编程语言在不同地区的流行度分析

根据提供的数据，我要分析不同地区编程语言的流行度。这需要处理`LanguageHaveWorkedWith`和`Country`列的数据。

## 数据概览

首先看一下数据：
- `LanguageHaveWorkedWith`列有5,692个空值
- `Country`列有6,507个空值
- `LanguageHaveWorkedWith`有23,864个唯一值（这可能是因为它包含多种语言组合）
- `Country`有185个唯一国家或地区

## 分析步骤

1. **数据预处理**：
   - 需要先清理缺失值
   - 将`LanguageHaveWorkedWith`列拆分，因为它包含以分号分隔的多种语言

2. **按地区分组**：
   - 按国家或地区对数据进行分组
   - 为简化分析，可以选择几个主要国家或将国家合并成更广泛的地区（如北美、欧洲、亚洲等）

3. **统计每个地区流行的编程语言**：
   - 计算每个地区各种编程语言的使用频率
   - 找出每个地区最常用的前5或前10种语言

4. **可视化**：
   - 使用条形图显示各地区最流行的编程语言
   - 或使用热图展示不同地区和语言之间的关系

## 实现建议

```python
# 处理缺失值
filtered_df = df.dropna(subset=['LanguageHaveWorkedWith', 'Country'])

# 拆分语言列表
def expand_languages(row):
    languages = row['LanguageHaveWorkedWith'].split(';')
    return pd.Series({'Country': row['Country'], 'Language': languages})

languages_expanded = filtered_df.apply(expand_languages, axis=1).explode('Language')

# 选择主要国家或地区进行分析
top_countries = languages_expanded['Country'].value_counts().head(10).index
country_languages = languages_expanded[languages_expanded['Country'].isin(top_countries)]

# 统计每个国家/地区的语言使用情况
language_counts = country_languages.groupby(['Country', 'Language']).size().reset_index(name='Count')

# 找出每个国家最流行的语言
top_languages = language_counts.sort_values(['Country', 'Count'], ascending=[True, False])
top_languages_by_country = top_languages.groupby('Country').head(5)

# 可视化
plt.figure(figsize=(15, 10))
sns.barplot(x='Language', y='Count', hue='Country', data=top_languages_by_country)
plt.title('最流行的编程语言（按国家/地区）')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
```

通过这样的分析，我们可以清晰地看到不同地区最受欢迎的编程语言，这对于理解全球编程趋势、招聘决策或教育规划都很有价值。
# Apply函数与Series和DataFrame数据结构

## Apply函数的工作原理

`apply`函数是Pandas中的一个强大工具，用于对DataFrame或Series对象应用自定义函数。它的基本原理是：

- 当`axis=1`时，它会将DataFrame的每一行作为Series对象传递给指定的函数
- 当`axis=0`时，它会将DataFrame的每一列作为Series对象传递给指定的函数

## Series和DataFrame的区别

- **Series**：一维数据结构，类似于带有标签的数组或字典，有索引和值两部分
- **DataFrame**：二维数据结构，类似于Excel表格，有行和列，可以看作是Series的集合

## 为什么`expand_languages`返回Series而不是DataFrame

在这种情况下，`expand_languages`函数被设计为与`apply(axis=1)`一起使用，意味着：

1. 函数接收DataFrame的每一行（作为Series对象）
2. 函数需要返回一个固定格式的结果
3. 当`apply`处理完所有行后，它会根据每行返回的结果重新组合

当你对每行返回Series时，Pandas会自动将这些Series合并成一个新的DataFrame，其中：
- 返回Series的索引变成了新DataFrame的列名
- 返回Series的值变成了新DataFrame对应列的值

## 示例解释

当你有这样的代码：
```python
def expand_languages(row):
    languages = row['LanguageHaveWorkedWith'].split(';')
    return pd.Series({
        'Country': row['Country'],
        'Coding Language': languages
    })

result = df.apply(expand_languages, axis=1)
```

这个过程是：
1. 对于DataFrame中的每一行，调用`expand_languages`函数
2. 该函数返回一个包含'Country'和'Coding Language'的Series
3. `apply`函数将所有返回的Series组合成一个新的DataFrame

如果函数返回的Series包含列表（如上例中的`languages`），Pandas会自动处理并创建具有适当结构的DataFrame。

这就是为什么在这种情况下返回Series是合适的 - 它与`apply`的工作方式自然契合。
</details>

In [None]:
df[['LanguageHaveWorkedWith','Country']].isnull().sum()

In [None]:
df[['LanguageHaveWorkedWith','Country']].nunique()

In [None]:
df[['LanguageHaveWorkedWith','Country']].head()

In [None]:
#拆分语言列表
def expand_languages(row):
    languages = row['LanguageHaveWorkedWith'].split(';')
    return pd.Series({'Country':row['Country'],'Codeing Language':languages})

In [None]:
df.shape

In [None]:
df_clean=df.dropna(subset=['LanguageHaveWorkedWith','Country'])

In [None]:
df_clean.shape

In [None]:
df_country_language = df_clean.apply(expand_languages,axis=1)

In [None]:
#筛选出前十的country
top10_country= df_clean['Country'].value_counts().index[0:10]
df_country_language=df_country_language[df_country_language['Country'].isin(top10_country)]

In [None]:
#展开language
df_country_language=df_country_language.explode('Codeing Language')

In [None]:
## Write your code here
grouped = df_country_language.groupby(['Country','Codeing Language']).size()

<details>
<summary> pandas中 `.reset_index(name='Count')` 的解释</summary>

这段代码是pandas数据处理中的一个常用操作，它做了以下事情：

`grouped.reset_index(name='Count')` 将一个分组聚合后的Series对象转换为DataFrame对象：

1. **背景**：`grouped` 很可能是通过某种分组聚合操作(如 `.groupby().size()` 或 `.groupby().count()`)得到的Series对象
   
2. **reset_index()**：这个方法将原来的索引转换为DataFrame的列

3. **name='Count'**：为聚合结果的值列指定一个名字"Count"

### 具体例子

```python
# 假设你有这样的数据
df = pd.DataFrame({'类别': ['A', 'B', 'A', 'C', 'B', 'A']})

# 分组计数
grouped = df.groupby('类别').size()
# 此时grouped是Series对象，索引是'类别'

# 应用你的代码
result = grouped.reset_index(name='Count')
# 现在result是DataFrame，有两列：'类别'和'Count'
```

最终得到的`result`会是这样的DataFrame：

```
  类别  Count
0  A     3
1  B     2
2  C     1
```

这个操作在数据统计和可视化前的数据准备阶段非常有用，它将分组计数结果转换为更易于使用的表格格式。
</details>

In [None]:
grouped=grouped.reset_index(name='Count')

In [None]:
grouped

In [None]:
grouped.sort_values(by=['Country','Count'],ascending=[True,False],inplace=True)

In [None]:
top_languages_by_country=grouped.groupby('Country').head(5)

In [None]:
sns.barplot(x='Country',y='Count',data =top_languages_by_country,hue='Codeing Language')

#### Step 8: Correlation Between Experience and Satisfaction


Examine how years of experience (`YearsCodePro`) correlate with job satisfaction (`JobSatPoints_1`). Use a scatter plot to visualize this relationship.


In [None]:
## Write your code here
df[['JobSatPoints_1','YearsCodePro']].nunique()

In [None]:
df['JobSatPoints_1'].unique()

In [None]:
df['YearsCodePro'].unique()

In [None]:
df_clean=df.dropna(subset=['JobSatPoints_1','YearsCodePro'])

In [None]:
df_clean[['JobSatPoints_1','YearsCodePro']].dtypes

In [None]:
plt.figure(figsize=(14,10))
df_clean.plot(kind='scatter',y='JobSatPoints_1',x='YearsCodePro')
plt.show()

#### Step 9: Educational Background and Employment Type


Explore how educational background (`EdLevel`) relates to employment type (`Employment`). Use cross-tabulation and visualizations to understand if higher education correlates with specific employment types.


<details>
<summary>教育背景与就业类型的关系分析</summary>

## 分析目标
我们要探究教育水平(EdLevel)如何与就业类型(Employment)相关联，看看高等教育是否与特定就业类型有相关性。

## 分析方法
1. **交叉表分析**：创建教育水平与就业类型的交叉表，显示每种组合的频率
2. **可视化**：使用图表直观呈现这种关系

## 分析步骤

### 1. 数据准备
首先，我们需要确保数据中的EdLevel和Employment变量准备好用于分析：
```python
# 检查数据中缺失值
print(df[['EdLevel', 'Employment']].isnull().sum())

# 查看这两个变量的唯一值
print(df['EdLevel'].unique())
print(df['Employment'].unique())
```

### 2. 交叉表分析
```python
# 创建教育水平与就业类型的交叉表
cross_tab = pd.crosstab(df['EdLevel'], df['Employment'])

# 计算百分比
cross_tab_pct = pd.crosstab(df['EdLevel'], df['Employment'], normalize='index') * 100

# 显示交叉表
print(cross_tab)
print("\n百分比表:")
print(cross_tab_pct)
```

### 3. 可视化分析

**堆叠柱状图**：
```python
plt.figure(figsize=(12, 8))
cross_tab_pct.plot(kind='bar', stacked=True)
plt.title('不同教育水平的就业类型分布')
plt.xlabel('教育水平')
plt.ylabel('百分比 (%)')
plt.xticks(rotation=45)
plt.legend(title='就业类型')
plt.tight_layout()
plt.show()
```

**热力图**：
```python
plt.figure(figsize=(12, 8))
sns.heatmap(cross_tab, annot=True, cmap='YlGnBu', fmt='d')
plt.title('教育水平与就业类型关系热力图')
plt.ylabel('教育水平')
plt.xlabel('就业类型')
plt.tight_layout()
plt.show()
```

## 结果解读

通过分析，我们可以观察：

1. **高等教育与全职工作**：是否拥有硕士或博士学位的人更可能获得全职工作？

2. **职业教育与自由职业**：职业教育背景的人是否更倾向于自由职业或合同工作？

3. **教育水平与创业**：高等教育与自主创业有什么关系？

4. **未接受高等教育的就业趋势**：没有高等教育学历的人在就业类型上有什么特点？

## 结论

这种分析帮助我们了解教育投资如何影响职业道路，可以为以下方面提供见解：

- 教育政策制定
- 职业规划建议
- 招聘策略
- 理解劳动力市场动态

通过这种分析，我们可以判断不同教育水平是否与特定就业模式有显著相关性，从而为教育和职业决策提供参考。
</details>

In [None]:
df_Ed_Em = df[['EdLevel','Employment']]

In [None]:
df_Ed_Em.isnull().sum()

In [None]:
df_Ed_Em.dropna(subset=['EdLevel','Employment'],inplace=True)

In [None]:
df_Ed_Em.isnull().sum()

In [None]:
df_Ed_Em.nunique()

# pd.crosstab 函数解析

`pd.crosstab` 是 Pandas 库中的一个函数，用于创建交叉表（也称为列联表或频率表）。这是一种常用于统计分析的表格形式，用于显示不同类别变量之间的关系和频率分布。

## 基本用法

```python
pd.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, margins_name='All', dropna=True, normalize=False)
```

## 主要参数

- **index**: 行标签的数据
- **columns**: 列标签的数据
- **values**: 可选，用于计算的数据
- **aggfunc**: 当提供values时使用的聚合函数
- **margins**: 是否添加行/列汇总
- **normalize**: 是否对结果进行归一化处理

## 功能说明

1. **频率统计**：默认情况下，交叉表计算每个类别组合出现的频率

2. **条件分析**：可以快速查看两个或多个分类变量之间的关系

3. **聚合计算**：当提供values参数时，可以计算每个组合的聚合值（如平均值、总和等）

## 实际应用示例

```python
# 基本用法 - 统计两个分类变量之间的频率
pd.crosstab(df['性别'], df['教育水平'])

# 添加总计行/列
pd.crosstab(df['性别'], df['教育水平'], margins=True)

# 归一化处理（按行或列的百分比）
pd.crosstab(df['性别'], df['教育水平'], normalize='index')  # 按行归一化

# 使用聚合函数
pd.crosstab(df['性别'], df['教育水平'], values=df['收入'], aggfunc='mean')  # 计算每组平均收入
```

`pd.crosstab` 在数据分析和探索中非常有用，特别是在需要理解分类变量之间关系或进行分组统计时。

In [None]:
## Write your code here
cross_tab = pd.crosstab(df_Ed_Em['EdLevel'],df_Ed_Em['Employment'])
cross_tab

In [None]:
plt.figure(figsize=(12, 8))
sns.heatmap(cross_tab, annot=True, cmap='YlGnBu', fmt='d')
plt.title('教育水平与就业类型关系热力图')
plt.ylabel('教育水平')
plt.xlabel('就业类型')
plt.tight_layout()
plt.show()

In [None]:
cross_tab_pcg = pd.crosstab(df_Ed_Em['EdLevel'],df_Ed_Em['Employment'],normalize='index')*100
cross_tab_pcg

#### Step 10: Save the Cleaned and Analyzed Dataset


After your analysis, save the modified dataset for further use or sharing.


In [None]:
## Write your code here
df_clean.to_csv('Clean Dataset',index=False)

<h2>Summary</h2>


In this revised lab, you:

- Loaded and explored the structure of the dataset.

- Handled missing data effectively.

- Analyzed key variables, including working hours, job satisfaction, and remote work trends.

- Investigated programming language usage by region and examined the relationship between experience and satisfaction.

- Used cross-tabulation to understand educational background and employment type.


Copyright © IBM Corporation. All rights reserved.
