In [63]:
import pandas as pd

## Пример: данные по штатам США и их населению 

In [64]:
pop = pd.read_csv('state-population.csv')
areas = pd.read_csv('state-areas.csv')
abbrevs = pd.read_csv('state-abbrevs.csv')

##### Задача: на основе предоставленной информации отсортировать штаты и территорию США по плотности населения в 2010 году 

In [71]:
pop.head()

Unnamed: 0,state/region,ages,year,population
0,AL,under18,2012,1117489.0
1,AL,total,2012,4817528.0
2,AL,under18,2010,1130966.0
3,AL,total,2010,4785570.0
4,AL,under18,2011,1125763.0


In [28]:
areas.head()

Unnamed: 0,state,area (sq. mi)
0,Alabama,52423
1,Alaska,656425
2,Arizona,114006
3,Arkansas,53182
4,California,163707


In [9]:
abbrevs.head()

Unnamed: 0,state,abbreviation
0,Alabama,AL
1,Alaska,AK
2,Arizona,AZ
3,Arkansas,AR
4,California,CA


In [66]:
# проверим отсутствуют ли значения
print(pop.isnull().any())
print(areas.isnull().any())
print(abbrevs.isnull().any())

state/region    False
ages            False
year            False
population       True
dtype: bool
state            False
area (sq. mi)    False
dtype: bool
state           False
abbreviation    False
dtype: bool


In [36]:
pop[pop['population'].isnull()].head()  # сведения про Пуэрто-Рико до 2000 года отсутствуют

Unnamed: 0,state/region,ages,year,population
2448,PR,under18,1990,
2449,PR,total,1990,
2450,PR,total,1991,
2451,PR,under18,1991,
2452,PR,total,1993,


In [111]:
# слияние таблиц
temp = pd.merge(areas, abbrevs, on='state', how='outer')
temp.loc[temp['state'] == 'Puerto Rico', 'abbreviation'] = 'PR'  # заполняем пустые аббревиатуры Пуэрто-Рико (PR)

# создаем конечную таблицу
full = pd.merge(temp, pop, left_on='abbreviation', right_on='state/region', how='left').drop('state/region', axis=1)
full.head()

state            False
area (sq. mi)    False
abbreviation     False
ages             False
year             False
population        True
dtype: bool

In [112]:
# ответ на вопрос
data2010 = full.query("year == 2010 & ages == 'total'")
data2010 = data2010.set_index('state')
density = data2010['population'] / data2010['area (sq. mi)']
density.sort_values(ascending=False, inplace=True)
density.head()

state
District of Columbia    8898.897059
Puerto Rico             1058.665149
New Jersey              1009.253268
Rhode Island             681.339159
Connecticut              645.600649
dtype: float64

Как видим, самая густонаселенная территория в этом наборе
данных — округ Колумбия; среди штатов же самый густонаселенный — Нью-Джерси.