# 需求
- 1.导入文件，查看原始数据
- 2.将人口数据和各州简称数据进行合并
- 3.将合并的数据中冲福的abbreviation列进行删除
- 4.查看存在缺失数据的列
- 5.找到有哪些state/region使得state的值为Nan,进行去重操作
- 6.为找到的这些state/region的state项补上正确的值，从而去除调state这一列所有Nan
- 7.合并各州面积数据areas
- 8.发现area(sq.mi)这一列有缺失数据，找出是哪些行
- 9.去除含有缺失数据的行
- 10.找出2010年的全民人口数据
- 11.计算各州的人口密度
- 12.排序，并找出人口密度最高的州

In [1]:
import numpy as np
import pandas as pd
from pandas import DataFrame

In [None]:
#导入文件
abb = pd.read_csv('./data/state-abbrevs.csv') # state(州的全称) abbreviation(州的简称)

In [None]:
area = pd.read_csv('./data/state-areas.csv') # state(州的全称) area(sq.mi) 州的面积

In [None]:
pop = pd.read_csv('./data/state-population.csv') # state/region简称  age年龄  year时间  population人口数量

In [None]:
# 将人口数据和各州简称数据进行合并
abb_pop = pd.merge(abb,pop,left_on='abbreviation',right_on='state/region',how='outer')

In [None]:
# 将合并的数据中冲福的abbreviation列进行删除
abb_pop.drop(labels='abbreviation',axis=1,inplace=True)

In [None]:
# 查看存在缺失数据的列
# 方式1：isnull->any  notnull->all
abb_pop.isnull().any(axis=0)
# 方式2：
abb_pop.info()

In [None]:
# 找到有哪些state/region使得state的值为Nan,进行去重操作
abb_pop['state'].isnull()
# 将上述的bool作为源数据的行索引
abb_pop.loc[abb_pop['state'].isnull()]
# 将简称去除
abb_pop.loc[abb_pop['state'].isnull()]['state/region']
# 去重
abb_pop.loc[abb_pop['state'].isnull()]['state/region'].unique()

In [None]:
# 为找到的这些state/region的state项补上正确的值，从而去除调state这一列所有Nan
# 1.先给usa的全称对应的空值进行赋值
abb_pop['state/region'] == 'USA'
indexs = abb_pop.loc[abb_pop['state/region'] == 'USA'].index #将USA对应的行数据的索引取出
# abb_pop.iloc[indexs]
abb_pop.loc[indexs,'state '] = 'United States'

In [None]:
#合并各州面积数据areas
abb_pop_area = pd.merge(abb_pop,area,how='outer')

In [None]:
# 发现area(sq.mi)这一列有缺失数据，找出是哪些行
abb_pop_area['area (sq.mi)'].isnull()
indexs = abb_pop_area.loc[abb_pop_area['area (sq.mi)'].isnull()].index

- 9.去除含有缺失数据的行
- 10.找出2010年的全民人口数据
- 11.计算各州的人口密度
- 12.排序，并找出人口密度最高的州

In [None]:
# 去除含有缺失数据的行
abb_pop_area.drop(labels=indexs,axis=0,inplace=True)

In [None]:
# 找出2010年的全民人口数据
abb_pop_area.query('ages=="total" & year==2010')

In [None]:
# 计算各州的人口密度（人口/面积）
abb_pop_area['midu'] = abb_pop_area['population'] /abb_pop_area['area (sq.mi)']

In [None]:
# 排序，并找出人口密度最高的州
abb_pop_area.sort_values(by='midu',axis=0,ascending=False).iloc[0]['state']