![pandas](https://www.hanbit.co.kr/data/books/B6417848794_l.jpg)

https://wikidocs.net/32829

### 0. 판다스 시작하기

In [None]:
import pandas as pd
import numpy as np

### 1. pandas 데이터 구조 소개

#### Series

In [None]:
obj = pd.Series([4, 7, -5, 3])
obj

In [None]:
# obj.values
obj.index  #  range(4) 랑 같다.

In [None]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2
# obj2.index 를 주목해라.

In [None]:
# obj2['a']
obj2['d'] = 6
obj2[['c', 'a', 'd']] # list가 key로 들어갔다는 것에 주목해라.

#### DataFrame

In [None]:
# 같은 길이의 리스트로 만들어진 딕셔너리를 이용하면 Series와 DataFrame을 생성할 수 있다.
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)


In [None]:
frame

In [None]:
frame.tail(3)

In [None]:
# 만약 원하는 순서대로 columns를 지정하고 싶다면 columns를 지정해주면 된다.
pd.DataFrame(data, columns=['year', 'state', 'pop'])

In [None]:
# index 값이 숫자로만 넣을 수 있다는 편견을 버리자!
# 없는 Key 값이 있으면 새로 만들고 값이 없으면 NaN으로 채운다.

frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four',
                             'five', 'six'])
frame2

In [None]:
frame2.columns

In [None]:
frame2['state']
# frame2.year

In [None]:
# loc 의 사용 방법을 주목해라. 메소드를 사용하는 것이 아니라 속성처럼 사용한다.
# loc 는 index를 기준으로 값을 찾는다. 그래서 index가 없으면 에러가 난다.
frame2.loc['three']


In [None]:
# 그냥 값을 넣으면 해당 컬럼에 모든 값이 그 값으로 채워진다.

frame2['debt'] = 16.5
frame2

In [None]:
# 리스트나 배열을 넣으면 전체에 대입한다. 
frame2['debt'] = np.arange(6.)
frame2

In [None]:
# Series를 넣으면 index에 맞춰서 대입한다. 없는 index는 NaN으로 채운다.
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

In [None]:
# 조건 연산을 통해서 값을 집어 넣는 경우
frame2['eastern'] = frame2.state == 'Ohio'
frame2

In [None]:
del frame2['eastern']
frame2.columns

In [None]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [None]:
frame3 = pd.DataFrame(pop)
frame3

In [None]:
# transpose 로 행과 열을 바꿀 수 있다.
frame3.T

In [None]:
# index가 없는 값으로 만들면, NaN으로 채워진다.
pd.DataFrame(pop, index=[2001, 2002, 2003])

In [None]:
# 리스트 슬라이싱 하듯이 ~
pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

In [None]:
# index와 columns에 이름을 붙일 수 있다.

frame3.index.name = 'year'
frame3.columns.name = 'state'
frame3

In [None]:
frame3.values

In [None]:
frame2.values

#### Index Objects

In [None]:
# 사실 index도 객체이다.
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

In [None]:
index[1:]

In [None]:
index[1] = 'd' 
# TypeError 발생

In [None]:
# pd.Index를 이용하면 바로 index를 만들 수 있다.
labels = pd.Index(np.arange(3))
labels

In [None]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

In [None]:
obj2.index is labels

### 2. 필수 기능들

In [None]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame


In [None]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

In [None]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

In [None]:
# drop은 index를 기준으로 값을 지운다.
data.drop(['Colorado', 'Ohio'])

In [None]:
# column을 지우는 경우에는 axis=1을 넣어준다. 또는 columns를 넣어준다.
data.drop('two', axis=1)
data.drop(['two', 'four'], axis='columns')

In [None]:
# inplace=True를 넣어주면 원본이 바뀐다. 다시 할당 말자!!
data.drop('three',axis=1,inplace=True)
data

In [None]:
obj.drop('c', inplace=True)
obj

#### 선택, 필터링

In [None]:
obj = pd.Series(np.arange(4.), index=['a', 'c', 'b', 'd'])
obj

In [None]:
# index를 기준으로 정렬한다. 
obj['c':'b']

In [None]:
obj['b':'c'] = 5
obj

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

In [None]:
# column을 기준으로 선택할 때 리스트로 전달해줌 주의.
data[['two', 'one']]

In [None]:
# 슬라이싱은 row를 기준으로 선택한다.
data[data['two'] > 5]

In [None]:
data < 5
data[data < 5] = 0
data

#### 산술 연산과 데이터 정렬

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])
print(s1)
print(s2)

In [None]:
# Baam! index가 같은 것끼리 연산을 수행한다.
s1 + s2

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])
print(df1)
print(df2)

In [None]:
df1 + df2

#### Apply, Map

In [None]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame
np.abs(frame)

In [None]:
f = lambda x: x.max() - x.min()
frame.apply(f)

In [None]:
frame.apply(f, axis='columns')

In [None]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])
frame.apply(f)

#### 정렬과 랭킹 매기기

In [None]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()

In [None]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])
frame.sort_index()
frame.sort_index(axis=1)

In [None]:
frame.sort_index(axis=1, ascending=False)

In [None]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame
frame.sort_values(by='b')

In [None]:
frame.sort_values(by=['a', 'b'])

#### 유니크, 빈도 세기

In [None]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [None]:
uniques = obj.unique()
uniques

In [None]:
obj.value_counts()

In [None]:
pd.value_counts(obj.values, sort=False)

### US Baby Names 1880–2010

In [None]:
url = 'https://raw.githubusercontent.com/guipsamora/pandas_exercises/master/06_Stats/US_Baby_Names/US_Baby_Names_right.csv'
names = pd.read_csv(url)

In [None]:
total_births = names.pivot_table('births', index='year',
                                 columns='sex', aggfunc=sum)
total_births.tail()
total_births.plot(title='Total births by sex and year')

In [None]:
def add_prop(group):
    group['prop'] = group.births / group.births.sum()
    return group
names = names.groupby(['year', 'sex']).apply(add_prop)

In [None]:
names

In [None]:
names.groupby(['year', 'sex']).prop.sum()

In [None]:
def get_top1000(group):
    return group.sort_values(by='births', ascending=False)[:1000]
grouped = names.groupby(['year', 'sex'])
top1000 = grouped.apply(get_top1000)
# Drop the group index, not needed
top1000.reset_index(inplace=True, drop=True)

In [None]:
top1000

#### 이름 트렌드 분석하기

In [None]:
boys = top1000[top1000.sex == 'M']
girls = top1000[top1000.sex == 'F']

In [None]:
total_births = top1000.pivot_table('births', index='year',
                                   columns='name',
                                   aggfunc=sum)

In [None]:
total_births.info()
subset = total_births[['John', 'Harry', 'Mary', 'Marilyn']]
subset.plot(subplots=True, figsize=(12, 10), grid=False,
            title="Number of births per year")

#### 이름 다양성 측정하기

In [None]:
import matplotlib.pyplot as plt
import numpy as np
plt.figure()

In [None]:
table = top1000.pivot_table('prop', index='year',
                            columns='sex', aggfunc=sum)
table.plot(title='Sum of table1000.prop by year and sex',
           yticks=np.linspace(0, 1.2, 13), xticks=range(1880, 2020, 10))

In [None]:
df = boys[boys.year == 2010]
df

In [None]:
prop_cumsum = df.sort_values(by='prop', ascending=False).prop.cumsum()
prop_cumsum[:10]
prop_cumsum.values.searchsorted(0.5)

In [None]:
df = boys[boys.year == 1900]
in1900 = df.sort_values(by='prop', ascending=False).prop.cumsum()
in1900.values.searchsorted(0.5) + 1

In [None]:
def get_quantile_count(group, q=0.5):
    group = group.sort_values(by='prop', ascending=False)
    return group.prop.cumsum().values.searchsorted(q) + 1

diversity = top1000.groupby(['year', 'sex']).apply(get_quantile_count)
diversity = diversity.unstack('sex')

In [None]:
fig = plt.figure()

In [None]:
diversity.head()
diversity.plot(title="Number of popular names in top 50%")

#### 끝 글자 혁명

In [None]:
# extract last letter from name column
get_last_letter = lambda x: x[-1]
last_letters = names.name.map(get_last_letter)
last_letters.name = 'last_letter'

table = names.pivot_table('births', index=last_letters,
                          columns=['sex', 'year'], aggfunc=sum)

In [None]:
subtable = table.reindex(columns=[1910, 1960, 2010], level='year')
subtable.head()

In [None]:
subtable.sum()
letter_prop = subtable / subtable.sum()
letter_prop

In [None]:
import matplotlib.pyplot as plt

fig, axes = plt.subplots(2, 1, figsize=(10, 8))
letter_prop['M'].plot(kind='bar', rot=0, ax=axes[0], title='Male')
letter_prop['F'].plot(kind='bar', rot=0, ax=axes[1], title='Female',
                      legend=False)

In [None]:
plt.subplots_adjust(hspace=0.25)

In [None]:
letter_prop = table / table.sum()
dny_ts = letter_prop.loc[['d', 'n', 'y'], 'M'].T
dny_ts.head()

In [None]:
plt.close('all')

In [None]:
fig = plt.figure()

In [None]:
dny_ts.plot()

#### 남자 이름에서 여자 이름으로

In [None]:
all_names = pd.Series(top1000.name.unique())
lesley_like = all_names[all_names.str.lower().str.contains('lesl')]
lesley_like

In [None]:
filtered = top1000[top1000.name.isin(lesley_like)]
filtered.groupby('name').births.sum()

In [None]:
table = filtered.pivot_table('births', index='year',
                             columns='sex', aggfunc='sum')
table = table.div(table.sum(1), axis=0)
table.tail()

In [None]:
fig = plt.figure()

In [None]:
table.plot(style={'M': 'k-', 'F': 'k--'})