## 美国人口分析案例

### 导入数据分析所需的模块

In [2]:
import pandas as pd
import numpy as np
from pandas import DataFrame

### 导入文件state-abbrevs.csv，查看各州简称原始数据（state州的全称，abbreviation州的简称） 用info查看简短摘要

In [18]:
import pandas as pd
abb=pd.read_csv('C:/Users/li/Desktop/6/state-abbrevs(1).csv')
abb.head()

Unnamed: 0,state,abbreviation
0,Alabama,AL
1,Alaska,AK
2,Arizona,AZ
3,Arkansas,AR
4,California,CA


In [19]:
abb.head().info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   state         5 non-null      object
 1   abbreviation  5 non-null      object
dtypes: object(2)
memory usage: 208.0+ bytes


### 导入文件state-population，查看人口原始数据（state/region州的简称，ages年龄层次，year年份，population人口数量） 用info查看简短摘要

In [20]:
import pandas as pd
pop=pd.read_csv('C:/Users/li/Desktop/6/state-population(1).csv')
pop.head()

Unnamed: 0,state/region,ages,year,population
0,AL,under18,2012,1117489
1,AL,total,2012,4817528
2,AL,under18,2010,1130966
3,AL,total,2010,4785570
4,AL,under18,2011,1125763


In [21]:
pop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2524 entries, 0 to 2523
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   state/region  2524 non-null   object
 1   ages          2524 non-null   object
 2   year          2524 non-null   int64 
 3   population    2524 non-null   int64 
dtypes: int64(2), object(2)
memory usage: 79.0+ KB


### 将人口数据和各州简称数据进行合并（用merge进行合并，连接方式选择outer）

In [24]:
abb_pop=pd.merge(abb,pop,left_on='abbreviation',right_on='state/region',how='outer')
abb_pop.head()

Unnamed: 0,state,abbreviation,state/region,ages,year,population
0,Alabama,AL,AL,under18,2012,1117489
1,Alabama,AL,AL,total,2012,4817528
2,Alabama,AL,AL,under18,2010,1130966
3,Alabama,AL,AL,total,2010,4785570
4,Alabama,AL,AL,under18,2011,1125763


### 将合并的数据中重复的abbreviation列进行删除

In [49]:
import pandas as pd
pop=pd.read_csv('C:/Users/li/Desktop/6/state-population(1).csv')
abb_pop=pd.merge(abb,pop,left_on='abbreviation',right_on='state/region',how='outer')
abb_pop.drop(axis=1,columns='abbreviation')


Unnamed: 0,state,state/region,ages,year,population
0,Alabama,AL,under18,2012,1117489
1,Alabama,AL,total,2012,4817528
2,Alabama,AL,under18,2010,1130966
3,Alabama,AL,total,2010,4785570
4,Alabama,AL,under18,2011,1125763
...,...,...,...,...,...
2519,,USA,total,2010,309326295
2520,,USA,under18,2011,73902222
2521,,USA,total,2011,311582564
2522,,USA,under18,2012,73708179


In [50]:
import pandas as pd
pop=pd.read_csv('C:/Users/li/Desktop/6/state-population(1).csv')
abb_pop=pd.merge(abb,pop,left_on='abbreviation',right_on='state/region',how='outer')
abb_pop.drop(axis=1,columns='abbreviation')

Unnamed: 0,state,state/region,ages,year,population
0,Alabama,AL,under18,2012,1117489
1,Alabama,AL,total,2012,4817528
2,Alabama,AL,under18,2010,1130966
3,Alabama,AL,total,2010,4785570
4,Alabama,AL,under18,2011,1125763
...,...,...,...,...,...
2519,,USA,total,2010,309326295
2520,,USA,under18,2011,73902222
2521,,USA,total,2011,311582564
2522,,USA,under18,2012,73708179


### 查看合并后的数据前5行

In [51]:
abb_pop.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2524 entries, 0 to 2523
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   state         2448 non-null   object
 1   abbreviation  2448 non-null   object
 2   state/region  2524 non-null   object
 3   ages          2524 non-null   object
 4   year          2524 non-null   int64 
 5   population    2524 non-null   int64 
dtypes: int64(2), object(4)
memory usage: 138.0+ KB


### 将有空值的行数据删除

In [53]:
abb_pop.dropna(inplace=True)
abb_pop

Unnamed: 0,state,abbreviation,state/region,ages,year,population
0,Alabama,AL,AL,under18,2012,1117489
1,Alabama,AL,AL,total,2012,4817528
2,Alabama,AL,AL,under18,2010,1130966
3,Alabama,AL,AL,total,2010,4785570
4,Alabama,AL,AL,under18,2011,1125763
...,...,...,...,...,...,...
2443,Wyoming,WY,WY,under18,1993,137458
2444,Wyoming,WY,WY,total,1991,459260
2445,Wyoming,WY,WY,under18,1991,136720
2446,Wyoming,WY,WY,under18,1990,136078


### 求所有地区和时间中哪个地区人口最多，在哪年？

In [55]:
print(abb_pop[abb_pop['population']==abb_pop['population'].max()].iloc[0,0])
print(abb_pop[abb_pop['population']==abb_pop['population'].max()]['year'].values[0])

California
2013


### 求在这几年中地区人口数量的最大相差多少？

In [56]:
print('这几年中地区人口数量的最大相差{}人'.format(abb_pop['population'].max()-abb_pop['population'].min()))

这几年中地区人口数量的最大相差38231212人


### 求2012年人口最少的城市

In [57]:
abb_pop[abb_pop['population']==abb_pop[abb_pop['year']==2012]['population'].min()]['state'].values[0]

'District of Columbia'

### 获取每个地区每年18岁以上的人口数量

In [59]:
#方法一
population_18=abb_pop.groupby(['state',"year"])
for group_name,groups in population_18:
    print('{}地区{}年成年的人口数量{}人'.format(group_name[0],group_name[1],groups["population"].max()-groups["population"].min()))

Alabama地区1990年成年的人口数量3000014人
Alabama地区1991年成年的人口数量3038362人
Alabama地区1992年成年的人口数量3081141人
Alabama地区1993年成年的人口数量3128596人
Alabama地区1994年成年的人口数量3163049人
Alabama地区1995年成年的人口数量3186247人
Alabama地区1996年成年的人口数量3219011人
Alabama地区1997年成年的人口数量3245042人
Alabama地区1998年成年的人口数量3286449人
Alabama地区1999年成年的人口数量3308854人
Alabama地区2000年成年的人口数量3329900人
Alabama地区2001年成年的人口数量3347225人
Alabama地区2002年成年的人口数量3363499人
Alabama地区2003年成年的人口数量3390408人
Alabama地区2004年成年的人口数量3417067人
Alabama地区2005年成年的人口数量3452576人
Alabama地区2006年成年的人口数量3502183人
Alabama地区2007年成年的人口数量3540544人
Alabama地区2008年成年的人口数量3583279人
Alabama地区2009年成年的人口数量3623746人
Alabama地区2010年成年的人口数量3654604人
Alabama地区2011年成年的人口数量3675864人
Alabama地区2012年成年的人口数量3700039人
Alabama地区2013年成年的人口数量3722241人
Alaska地区1990年成年的人口数量375788人
Alaska地区1991年成年的人口数量388013人
Alaska地区1992年成年的人口数量403858人
Alaska地区1993年成年的人口数量412244人
Alaska地区1994年成年的人口数量415869人
Alaska地区1995年成年的人口数量419422人
Alaska地区1996年成年的人口数量423209人
Alaska地区1997年成年的人口数量424688人
Alaska地区1998年成年的人口数量427297人
Alaska地区1999年成年的人口数量433357人


In [60]:
#方式二（仅供参考）
abb_pop.groupby(["state","year"])["population"].max()
population_18 =abb_pop.groupby(["state","year"])["population"].max() -abb_pop.groupby(["state","year"])["population"].min()
for groups in population_18.index:
    print("{}地区{}年成年人口数量{}人".format(groups[0],groups[1],population_18[groups[0],groups[1]]))

Alabama地区1990年成年人口数量3000014人
Alabama地区1991年成年人口数量3038362人
Alabama地区1992年成年人口数量3081141人
Alabama地区1993年成年人口数量3128596人
Alabama地区1994年成年人口数量3163049人
Alabama地区1995年成年人口数量3186247人
Alabama地区1996年成年人口数量3219011人
Alabama地区1997年成年人口数量3245042人
Alabama地区1998年成年人口数量3286449人
Alabama地区1999年成年人口数量3308854人
Alabama地区2000年成年人口数量3329900人
Alabama地区2001年成年人口数量3347225人
Alabama地区2002年成年人口数量3363499人
Alabama地区2003年成年人口数量3390408人
Alabama地区2004年成年人口数量3417067人
Alabama地区2005年成年人口数量3452576人
Alabama地区2006年成年人口数量3502183人
Alabama地区2007年成年人口数量3540544人
Alabama地区2008年成年人口数量3583279人
Alabama地区2009年成年人口数量3623746人
Alabama地区2010年成年人口数量3654604人
Alabama地区2011年成年人口数量3675864人
Alabama地区2012年成年人口数量3700039人
Alabama地区2013年成年人口数量3722241人
Alaska地区1990年成年人口数量375788人
Alaska地区1991年成年人口数量388013人
Alaska地区1992年成年人口数量403858人
Alaska地区1993年成年人口数量412244人
Alaska地区1994年成年人口数量415869人
Alaska地区1995年成年人口数量419422人
Alaska地区1996年成年人口数量423209人
Alaska地区1997年成年人口数量424688人
Alaska地区1998年成年人口数量427297人
Alaska地区1999年成年人口数量433357人
Alaska地区2000年成年人口数量437348人
Alaska地

### 求出每个地区哪年的人口综合最多

In [61]:
#方式一
for groups in abb_pop.groupby("state")["population"].max():
    print("{}地区在{}年人口合计最多".format(abb_pop[abb_pop["population"]==groups]["state"].values[0],abb_pop[abb_pop["population"]==groups]["year"].values[0]))

Alabama地区在2013年人口合计最多
Alaska地区在2013年人口合计最多
Arizona地区在2013年人口合计最多
Arkansas地区在2013年人口合计最多
California地区在2013年人口合计最多
Colorado地区在2013年人口合计最多
Connecticut地区在2013年人口合计最多
Delaware地区在2013年人口合计最多
District of Columbia地区在2013年人口合计最多
Florida地区在2013年人口合计最多
Georgia地区在2013年人口合计最多
Hawaii地区在2013年人口合计最多
Idaho地区在2013年人口合计最多
Illinois地区在2013年人口合计最多
Indiana地区在2013年人口合计最多
Iowa地区在2013年人口合计最多
Kansas地区在2013年人口合计最多
Kentucky地区在2013年人口合计最多
Louisiana地区在2013年人口合计最多
Maine地区在2008年人口合计最多
Maryland地区在2013年人口合计最多
Massachusetts地区在2013年人口合计最多
Michigan地区在2004年人口合计最多
Minnesota地区在2013年人口合计最多
Mississippi地区在2013年人口合计最多
Missouri地区在2013年人口合计最多
Montana地区在2013年人口合计最多
Nebraska地区在2013年人口合计最多
Nevada地区在2013年人口合计最多
New Hampshire地区在2013年人口合计最多
New Jersey地区在2013年人口合计最多
New Mexico地区在2013年人口合计最多
New York地区在2013年人口合计最多
North Carolina地区在2013年人口合计最多
North Dakota地区在2013年人口合计最多
Ohio地区在2013年人口合计最多
Oklahoma地区在2013年人口合计最多
Oregon地区在2013年人口合计最多
Pennsylvania地区在2013年人口合计最多
Rhode Island地区在2004年人口合计最多
South Carolina地区在2013年人口合计最多
South Dakota地区在2013年人口合计最多


In [62]:
#方式二（仅供参考）
for group_current in abb_pop.groupby("state")["population"].max():
    for group_old in abb_pop["population"]:
        if group_current ==group_old:
            print("{}地区{}年人口合计最多".format(abb_pop.loc[abb_pop[abb_pop["population"] == group_old].index[0]]["state"],abb_pop.loc[abb_pop[abb_pop["population"] == group_old].index[0]]["year"]))
           

Alabama地区2013年人口合计最多
Alaska地区2013年人口合计最多
Arizona地区2013年人口合计最多
Arkansas地区2013年人口合计最多
California地区2013年人口合计最多
Colorado地区2013年人口合计最多
Connecticut地区2013年人口合计最多
Delaware地区2013年人口合计最多
District of Columbia地区2013年人口合计最多
Florida地区2013年人口合计最多
Georgia地区2013年人口合计最多
Hawaii地区2013年人口合计最多
Idaho地区2013年人口合计最多
Illinois地区2013年人口合计最多
Indiana地区2013年人口合计最多
Iowa地区2013年人口合计最多
Kansas地区2013年人口合计最多
Kentucky地区2013年人口合计最多
Louisiana地区2013年人口合计最多
Maine地区2008年人口合计最多
Maryland地区2013年人口合计最多
Massachusetts地区2013年人口合计最多
Michigan地区2004年人口合计最多
Minnesota地区2013年人口合计最多
Mississippi地区2013年人口合计最多
Missouri地区2013年人口合计最多
Montana地区2013年人口合计最多
Nebraska地区2013年人口合计最多
Nevada地区2013年人口合计最多
New Hampshire地区2013年人口合计最多
New Jersey地区2013年人口合计最多
New Mexico地区2013年人口合计最多
New York地区2013年人口合计最多
North Carolina地区2013年人口合计最多
North Dakota地区2013年人口合计最多
Ohio地区2013年人口合计最多
Oklahoma地区2013年人口合计最多
Oregon地区2013年人口合计最多
Pennsylvania地区2013年人口合计最多
Rhode Island地区2004年人口合计最多
South Carolina地区2013年人口合计最多
South Dakota地区2013年人口合计最多
Tennessee地区2013年人口合计最多
Texas地区2013年人口合计最多
