In [1]:
# служебная ячейка для данной главы

import pandas as pd
import numpy as np

class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

In [2]:
index1 = ['a','b','c','d']
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']},
                    index=list('abcd'))
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})

display('df1', 'df2')
df3 = pd.merge(df1, df2) # note that pd.merge discards the index and sets its own
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


In [3]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
                    'supervisor': ['Carly', 'Guido', 'Steve']})
display('df3', 'df4', 'pd.merge(df3, df4)')

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014

Unnamed: 0,group,supervisor
0,Accounting,Carly
1,Engineering,Guido
2,HR,Steve

Unnamed: 0,employee,group,hire_date,supervisor
0,Bob,Accounting,2008,Carly
1,Jake,Engineering,2012,Guido
2,Lisa,Engineering,2004,Guido
3,Sue,HR,2014,Steve


In [4]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering',
                              'Engineering', 'HR', 'HR'],
                    'skils': ['Math', 'spreadsheets', 'coding', 'linus',
                              'spreadsheets', 'organization']})
display('df1', 'df5', 'pd.merge(df1, df5, on="group")')
#on - по какому стоблцу объединяем фреймы

Unnamed: 0,employee,group
a,Bob,Accounting
b,Jake,Engineering
c,Lisa,Engineering
d,Sue,HR

Unnamed: 0,group,skils
0,Accounting,Math
1,Accounting,spreadsheets
2,Engineering,coding
3,Engineering,linus
4,HR,spreadsheets
5,HR,organization

Unnamed: 0,employee,group,skils
0,Bob,Accounting,Math
1,Bob,Accounting,spreadsheets
2,Jake,Engineering,coding
3,Jake,Engineering,linus
4,Lisa,Engineering,coding
5,Lisa,Engineering,linus
6,Sue,HR,spreadsheets
7,Sue,HR,organization


In [5]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'salary': [70000, 80000, 120000, 90000]})
display('df1', 'df3', 'pd.merge(df3, df1, left_on="name", right_on="employee")')

Unnamed: 0,employee,group
a,Bob,Accounting
b,Jake,Engineering
c,Lisa,Engineering
d,Sue,HR

Unnamed: 0,name,salary
0,Bob,70000
1,Jake,80000
2,Lisa,120000
3,Sue,90000

Unnamed: 0,name,salary,employee,group
0,Bob,70000,Bob,Accounting
1,Jake,80000,Jake,Engineering
2,Lisa,120000,Lisa,Engineering
3,Sue,90000,Sue,HR


In [6]:
pd.merge(df1, df3, left_on="employee", right_on="name").drop('name', axis=1)
# комбинация методов merge.drop - удаляет указанный столбец при объединении фреймов

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


In [7]:
df1a = df1.set_index('employee')
df2a = df2.set_index('employee')
display('df1a', 'df2a', 'pd.merge(df1a, df2a, left_index=True, right_index=True)')
# left_index=True, right_index=True - объединение по индексам

Unnamed: 0_level_0,group
employee,Unnamed: 1_level_1
Bob,Accounting
Jake,Engineering
Lisa,Engineering
Sue,HR

Unnamed: 0_level_0,hire_date
employee,Unnamed: 1_level_1
Lisa,2004
Bob,2008
Jake,2012
Sue,2014

Unnamed: 0_level_0,group,hire_date
employee,Unnamed: 1_level_1,Unnamed: 2_level_1
Bob,Accounting,2008
Jake,Engineering,2012
Lisa,Engineering,2004
Sue,HR,2014


In [8]:
df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'],
                    'food': ['fish', 'beans', 'bread']},
                   columns=['name', 'food'])
df7 = pd.DataFrame({'name': ['Mary', 'Joseph'],
                    'drink': ['wine', 'beer']},
                   columns=['name', 'drink'])
display('df6', 'df7', 'pd.merge(df6, df7, how="outer")')
# how - как объединить (пересечение, объединение с заполнением пустых значений NANами и т.д.)
# how='right' или how='left' - слияние как "дополнение" указанного фрейма вторым фреймом
# крч, читай документацию

Unnamed: 0,name,food
0,Peter,fish
1,Paul,beans
2,Mary,bread

Unnamed: 0,name,drink
0,Mary,wine
1,Joseph,beer

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine
3,Joseph,,beer


In [9]:
df8 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [1, 2, 3, 4]})
df9 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [3, 1, 4, 2]})
display('df8', 'df9', 'pd.merge(df8, df9, on="name", suffixes=["_L", "_R"])')
# suffixes добавляют суффиксы для overlapping столбцов

Unnamed: 0,name,rank
0,Bob,1
1,Jake,2
2,Lisa,3
3,Sue,4

Unnamed: 0,name,rank
0,Bob,3
1,Jake,1
2,Lisa,4
3,Sue,2

Unnamed: 0,name,rank_L,rank_R
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


In [10]:
# В этом упражнении мы должны рассчитать плотность населения во всех штатах
# для этого мы загрузим данные, соберем их в один фрейм, разберемся с нулевыми
# значениями и проведем расчет

#данные
pop = pd.read_csv('D:/Stuff on HDD/My stuff/ML DS/Data_folder/state-population.csv')
areas = pd.read_csv('D:/Stuff on HDD/My stuff/ML DS/Data_folder/state-areas.csv')
abbrevs = pd.read_csv('D:/Stuff on HDD/My stuff/ML DS/Data_folder/state-abbrevs.csv')

print(pop.head())
print(areas.head())
print(abbrevs.head())

  state/region     ages  year  population
0           AL  under18  2012   1117489.0
1           AL    total  2012   4817528.0
2           AL  under18  2010   1130966.0
3           AL    total  2010   4785570.0
4           AL  under18  2011   1125763.0
        state  area (sq. mi)
0     Alabama          52423
1      Alaska         656425
2     Arizona         114006
3    Arkansas          53182
4  California         163707
        state abbreviation
0     Alabama           AL
1      Alaska           AK
2     Arizona           AZ
3    Arkansas           AR
4  California           CA


In [11]:
merged = pd.merge(pop, abbrevs, how='outer',
                  left_on='state/region', right_on='abbreviation')
merged = merged.drop('abbreviation', 1)
merged.head()
merged.isnull().any()
# есть ли в каком-то из столбцов нулевые значения

merged[merged['population'].isnull()].head()
# какие именно строки имеют NULL в population

merged.loc[merged['state'].isnull(), 'state/region'].unique()
# какие регионы имеют NULL в state

merged.loc[merged['state/region'] == 'PR', 'state'] = 'Puerto Rico'
merged.loc[merged['state/region'] == 'USA', 'state'] = 'United States'
merged.isnull().any()
# из-за отсутствия в abbrevs ключей для Puerto Rico и United States в столбце states не было данных по ним
# фиксим это присваиванием данным ключам соотвествтующих значений

final = pd.merge(merged, areas, on='state', how='left')
final.head()
final.isnull().any()
# очередная проверка на NULL

final['state'][final['area (sq. mi)'].isnull()].unique()
# какие именно уникальные state имеют NULL в area

final.dropna(inplace=True)
# удаляем нулевые значения (в нашем случае - площадь США, которая не нужна для решения нашей задачи)

data = final.query("year == 2010 & ages == 'total'")
# эта функция будет разбираться через пару глав. Пока - выделение всех строк
# с 2010 годом и возрастами total(т.е. без "до 18ти")

data.set_index('state', inplace=True) # столбец state -> индекс фрейма
density = data['population']/data['area (sq. mi)']
density.sort_values(ascending=False, inplace=True)

density.tail() # вывод конца фрейма
density.head() # вывод начала фрейма

state
District of Columbia    8898.897059
Puerto Rico             1058.665149
New Jersey              1009.253268
Rhode Island             681.339159
Connecticut              645.600649
dtype: float64

In [12]:
# для переименования чего-то во фрейме используется pd.rename()

data.rename(columns={'year': 'NANI'}, inplace=True)
# rename по умолчанию НЕ заменяет элементы, поэтому или пишем inplace=True,
# или используем операцию присваивания: data = data.rename(...)

# для переименования столбцов пишем columns={'X': 'Y', 'Z': 'C'}, или {...}, axis=1
# для индексов index={...}
# для элементов просто {...}
data.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().rename(**kwargs)


Unnamed: 0_level_0,state/region,ages,NANI,population,area (sq. mi)
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Alabama,AL,total,2010,4785570.0,52423.0
Alaska,AK,total,2010,713868.0,656425.0
Arizona,AZ,total,2010,6408790.0,114006.0
Arkansas,AR,total,2010,2922280.0,53182.0
California,CA,total,2010,37333601.0,163707.0
