## 需求一：统计各国家男性女性心理健康数据分布

In [None]:
# -*- coding: utf-8 -*-

"""
    项目名称：科技工作者心理健康数据分析 (Mental Health in Tech Survey)
"""
import csv

# 数据集路径
data_path = './data/survey.csv'


def run_main():
    """
        主函数
    """
    male_set = {'male', 'm'}  # “男性”可能的取值
    female_set = {'female', 'f'}  # “女性”可能的取值

    # 构造统计结果的数据结构 result_dict
    # 其中每个元素是键值对，“键”是国家名称，“值”是列表结构，
    # 列表的第一个数为该国家女性统计数据，第二个数为该国家男性统计数据
    # 如 {'United States': [20, 50], 'Canada': [30, 40]}
    # 思考：这里的“值”为什么用列表(list)而不用元组(tuple)
    result_dict = {}

    with open(data_path, 'r', newline='') as csvfile:
        # 加载数据
        rows = csv.reader(csvfile)
        for i, row in enumerate(rows):
            if i == 0:
                # 跳过第一行表头数据
                continue

            if i % 50 == 0:
                print('正在处理第{}行数据...'.format(i))

            gender_val = row[2] # 性别数据
            country_val = row[3] # 国家数据

            # 去掉可能存在的空格
            gender_val = gender_val.replace(' ', '')
            # 转换为小写
            gender_val = gender_val.lower()

            # 判断“国家”是否已经存在
            if country_val not in result_dict:
                # 如果不存在，初始化数据
                # 第一个参数存储女性的人数， 第二个参数存储男性的人数
                result_dict[country_val] = [0, 0]

            # 判断性别
            if gender_val in female_set:
                # 女性
                result_dict[country_val][0] += 1
            elif gender_val in male_set:
                # 男性
                result_dict[country_val][1] += 1
            else:
                # 噪声数据，不做处理
                pass

    # 将结果写入文件
    with open('./data/gender_country.csv', 'w', newline='', encoding='utf-8') as csvfile:
        csvwriter = csv.writer(csvfile, delimiter=',')
        # 写入表头
        csvwriter.writerow(['国家', '女性', '男性'])

        # 写入统计结果
        for k, v in list(result_dict.items()):
            csvwriter.writerow([k, v[0], v[1]])


if __name__ == '__main__':
    run_main()

## 需求二：统计各个国家存在的心理健康问题的平均年龄

In [None]:
# -*- coding: utf-8 -*-

"""
    项目名称：科技工作者心理健康数据分析 (Mental Health in Tech Survey)
"""
import csv

# 数据集路径
data_path = './data/survey.csv'


def run_main():
   mental_health_set = {'Yes'}  # 心理健康问题要找到的值

   result_dict = {}  # 最终结果存放列表

   with open(data_path, 'r', newline='') as csvfile:
      # 加载数据
      rows = csv.reader(csvfile)

      for i, row in enumerate(rows):
         if i == 0:
            # 跳过第一行表头数据
            continue

         if i % 50 == 0:
            print('正在处理第{}行数据...'.format(i))

         age_val = row[1]  # 年龄数据
         country_val = row[3]  # 国家数据
         mental_health_val = row[18]  # 是否有心理问题

         # 去掉可能存在的空格
         age_val = age_val.replace(' ', '')
         mental_health_val = mental_health_val.replace(' ', '')

         # 判断“国家”是否已经存在
         if country_val not in result_dict:
            # 如果不存在，初始化数据
            # 第一个参数存储符合条件的年龄总和， 第二个参数存储有多少条记录 第三个参数存储平均年龄
            result_dict[country_val] = [0, 0, 0]

         # 过滤 有心理问题的, 不合常理的数据，如Zimbabwe 年龄999999 392行
         if mental_health_val in mental_health_set and (len(age_val) <= 3):
            result_dict[country_val][0] += int(age_val)
            result_dict[country_val][1] += 1
         else:
            # 噪声数据，不做处理
            pass

   # 将结果写入文件
   with open('./data/mental_country.csv', 'w', newline='', encoding='utf-8') as csvfile:
      csvwriter = csv.writer(csvfile, delimiter=',')
      # 写入表头
      csvwriter.writerow(['国家', '年龄'])

      # 写入统计结果
      for k, v in list(result_dict.items()):
         # 处理年龄为0的所属国家记录(有心理问题的, 不合常理的数据)
         if int(v[0]) == 0:
            v[2] = 0
         else:
            # 平均年龄
            v[2] = int(v[0] / v[1])

         csvwriter.writerow([k, v[2]])


if __name__ == '__main__':
   run_main()