# 1. Merging Dataframes

In [28]:
import pandas as pd

df = pd.DataFrame([{'Name': 'Chris', 'Item Purchased': 'Sponge', 'Cost': 22.50},
                   {'Name': 'Kevyn', 'Item Purchased': 'Kitty Litter', 'Cost': 2.50},
                   {'Name': 'Filip', 'Item Purchased': 'Spoon', 'Cost': 5.00}],
                  index=['Store 1', 'Store 1', 'Store 2'])
df

Unnamed: 0,Cost,Item Purchased,Name
Store 1,22.5,Sponge,Chris
Store 1,2.5,Kitty Litter,Kevyn
Store 2,5.0,Spoon,Filip


#### 1. 새로운 열 추가하기
- 데이터프레임이름[새로운 index] = 단일값(scalar value)
- 모든 행에 단일값이 저장

In [29]:
df['Delivered'] = True
df

Unnamed: 0,Cost,Item Purchased,Name,Delivered
Store 1,22.5,Sponge,Chris,True
Store 1,2.5,Kitty Litter,Kevyn,True
Store 2,5.0,Spoon,Filip,True


#### 2. 각 행에 서로 다른 값을 가진 새로운 열을 추가하기
- 기존 데이터프레임 길이의 개수만큼 값들을 차례대로 입력
- 길이를 맞추기 위해서 None를 입력해야될 때도 있음 

In [30]:
df['Date'] = ['December 1', 'January 1', 'mid-May']
df

Unnamed: 0,Cost,Item Purchased,Name,Delivered,Date
Store 1,22.5,Sponge,Chris,True,December 1
Store 1,2.5,Kitty Litter,Kevyn,True,January 1
Store 2,5.0,Spoon,Filip,True,mid-May


In [31]:
df['Feedback'] = ['Positive', None, 'Negative']
df

Unnamed: 0,Cost,Item Purchased,Name,Delivered,Date,Feedback
Store 1,22.5,Sponge,Chris,True,December 1,Positive
Store 1,2.5,Kitty Litter,Kevyn,True,January 1,
Store 2,5.0,Spoon,Filip,True,mid-May,Negative


#### 3. New column identifier을 이용하여 새로운 열 추가하기
- index 값이 중복되지 않을 경우
- [column name] = pd.Series({index : value})

In [32]:
adf = df.reset_index() # index 값을 0,1,2로 설정

adf['Date'] = pd.Series({0: 'December 1', 2: 'mid-May'})
adf

Unnamed: 0,index,Cost,Item Purchased,Name,Delivered,Date,Feedback
0,Store 1,22.5,Sponge,Chris,True,December 1,Positive
1,Store 1,2.5,Kitty Litter,Kevyn,True,,
2,Store 2,5.0,Spoon,Filip,True,mid-May,Negative


#### 4. Union (합집합)

In [33]:
staff_df = pd.DataFrame([{'Name': 'Kelly', 'Role': 'Director of HR'},
                         {'Name': 'Sally', 'Role': 'Course liasion'},
                         {'Name': 'James', 'Role': 'Grader'}])
staff_df = staff_df.set_index('Name')
student_df = pd.DataFrame([{'Name': 'James', 'School': 'Business'},
                           {'Name': 'Mike', 'School': 'Law'},
                           {'Name': 'Sally', 'School': 'Engineering'}])
student_df = student_df.set_index('Name')
print(staff_df.head())
print()
print(student_df.head())

                 Role
Name                 
Kelly  Director of HR
Sally  Course liasion
James          Grader

            School
Name              
James     Business
Mike           Law
Sally  Engineering


- pd.merge(how='outer')
- outer은 outer join을 의미함

In [34]:
#Ieft_index=True, rIght_index=True → 왼쪽, 오른쪽 데이터프레임의 index를 기준으로 합침

pd.merge(staff_df, student_df, how='outer', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
James,Grader,Business
Kelly,Director of HR,
Mike,,Law
Sally,Course liasion,Engineering


#### 5. Intersection (교집합)
- pd.merge(how ='inner') 

In [35]:
pd.merge(staff_df, student_df, how='inner', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Sally,Course liasion,Engineering
James,Grader,Business


#### 6. Set addition
- pd.merge(how='left'):left join

In [36]:
# staff_df에, 직원이 학생이기도 할 경우 student_df에 대한 정보도 포함

pd.merge(staff_df, student_df, how='left', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Kelly,Director of HR,
Sally,Course liasion,Engineering
James,Grader,Business


- pd.merge(how='right'):right join

In [37]:
# student_df에, 학생이 직원이기도 할 경우 staff_df에 대한 정보도 포함

pd.merge(staff_df, student_df, how='right', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
James,Grader,Business
Mike,,Law
Sally,Course liasion,Engineering


#### 7. index 이외의 값을 기준으로 합치기

In [11]:
staff_df = staff_df.reset_index()
student_df = student_df.reset_index() # index를 0,1,2로 설정

pd.merge(staff_df, student_df, how='left', left_on='Name', right_on='Name') #index가 아닌 'Name'이라는 열을 기준으로 합침

Unnamed: 0,Name,Role,School
0,Kelly,Director of HR,
1,Sally,Course liasion,Engineering
2,James,Grader,Business


#### 8. 데이터프레임 간의 충돌이 있을 경우
- ex. 직원의 location은 사무실 위치 / 학생의 location은 집 주소인 경우
- column name에 _x(left df) , _y(right df)가 자동으로 추가됨 

In [25]:
staff_df = pd.DataFrame([{'Name': 'Kelly', 'Role': 'Director of HR', 'Location': 'State Street'},
                         {'Name': 'Sally', 'Role': 'Course liasion', 'Location': 'Washington Avenue'},
                         {'Name': 'James', 'Role': 'Grader', 'Location': 'Washington Avenue'}])
student_df = pd.DataFrame([{'Name': 'James', 'School': 'Business', 'Location': '1024 Billiard Avenue'},
                           {'Name': 'Mike', 'School': 'Law', 'Location': 'Fraternity House #22'},
                           {'Name': 'Sally', 'School': 'Engineering', 'Location': '512 Wilson Crescent'}])


pd.merge(staff_df, student_df, how='left', left_on='Name', right_on='Name')

Unnamed: 0,Location_x,Name,Role,Location_y,School
0,State Street,Kelly,Director of HR,,
1,Washington Avenue,Sally,Course liasion,512 Wilson Crescent,Engineering
2,Washington Avenue,James,Grader,1024 Billiard Avenue,Business


#### 9. 여러 값을 기준으로 교집합 구하기
- left_on, right_on에 리스트 입력

In [23]:
staff_df = pd.DataFrame([{'First Name': 'Kelly', 'Last Name': 'Desjardins', 'Role': 'Director of HR'},
                         {'First Name': 'Sally', 'Last Name': 'Brooks', 'Role': 'Course liasion'},
                         {'First Name': 'James', 'Last Name': 'Wilde', 'Role': 'Grader'}])
student_df = pd.DataFrame([{'First Name': 'James', 'Last Name': 'Hammond', 'School': 'Business'},
                           {'First Name': 'Mike', 'Last Name': 'Smith', 'School': 'Law'},
                           {'First Name': 'Sally', 'Last Name': 'Brooks', 'School': 'Engineering'}])

#first name과 last name 모두에 대한 교집합 구하기
pd.merge(staff_df, student_df, how='inner', left_on=['First Name','Last Name'], right_on=['First Name','Last Name'])

Unnamed: 0,First Name,Last Name,Role,School
0,Sally,Brooks,Course liasion,Engineering


# 2. Idiomatic Pandas
- Making Code Pandorable
- pandorable: Idiom which has high performance and high readability

#### 1. Method chaining을 통해 pandorable 만들기
- 기존 데이터프레임은 변하지 않고 다양한 method를 적용한 후의 view를 보여주는 것
- 많은 operation을 압축해놓음
- chain indexing (df.loc[row][column]) ≠ method chaining

In [15]:
import pandas as pd
df = pd.read_csv('census.csv')
df

FileNotFoundError: [Errno 2] File b'census.csv' does not exist: b'census.csv'

In [None]:
(df.where(df['SUMLEV']==50)
    .dropna()
    .set_index(['STNAME','CTYNAME'])
    .rename(columns={'ESTIMATESBASE2010': 'Estimates Base 2010'}))

#### 2. applymap( ): 데이터프레임의 모든 '셀'에 함수를 적용하고 새로운 데이터프레임을 반환

#### 3. apply( ): 데이터프레임의 모든 '행'에 함수를 적용하고 새로운 데이터프레임을 반환
- apply(function, axis) 
- axis: 사용하려는 열의 인덱스

In [None]:
df = df[df['SUMLEV']==50]
df.set_index(['STNAME','CTYNAME'], inplace=True)
df.rename(columns={'ESTIMATESBASE2010': 'Estimates Base 2010'})

In [None]:
#최대값, 최솟값을 찾아서 저장하는 min_max 함수를 정의

import numpy as np
def min_max(row):
    data = row[['POPESTIMATE2010',
                'POPESTIMATE2011',
                'POPESTIMATE2012',
                'POPESTIMATE2013',
                'POPESTIMATE2014',
                'POPESTIMATE2015']]
    
    return pd.Series({'min': np.min(data), 'max': np.max(data)})

In [11]:
# 인덱스가 1인 열의 모든 행에 min_max 함수 정의

df.apply(min_max, axis=1)

NameError: name 'min_max' is not defined

- apply( )는 보통 lambda와 같이 사용

In [12]:
rows = ['POPESTIMATE2010',
        'POPESTIMATE2011',
        'POPESTIMATE2012',
        'POPESTIMATE2013',
        'POPESTIMATE2014',
        'POPESTIMATE2015']

df.apply(lambda x: np.max(x[rows]), axis=1)

NameError: ("name 'np' is not defined", 'occurred at index Store 1')

# 3. Group by
- groupby(a): a를 기준으로 데이터프레임을 그룹화
- 결과로 나오는 첫 번째 아이템: group condition (열 이름) 
- 결과로 나오는 두 번째 아이템: 그룹화된 데이터 덩어리들

In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv('census.csv')
df = df[df['SUMLEV']==50]
df

In [None]:
for group, frame in df.groupby('STNAME'):
    avg = np.average(frame['CENSUS2010POP'])
    print('Counties in state ' + group + ' have an average population of ' + str(avg))

#### 1. groupby(함수): 함수의 결과값을 바탕으로 데이터프레임 나누기

In [None]:
df = df.set_index('STNAME')

def fun(item):
    if item[0]<'M':
        return 0
    if item[0]<'Q':
        return 1
    return 2

# fun 함수의 결과값 (0,1,2)를 바탕으로 데이터프레임을 나눔
for group, frame in df.groupby(fun):
    print('There are ' + str(len(frame)) + ' records in group ' + str(group) + ' for processing.')

#### 2. agg( ): 특정 열에 함수를 적용하기
- agg({column name:함수})

#### (1) column name이 이미 데이터프레임에 있는 열: 함수를 적용시킬 열을 의미함

In [None]:
df = pd.read_csv('census.csv')
df = df[df['SUMLEV']==50]

In [None]:
df.groupby('STNAME').agg({'CENSUS2010POP': np.average})

#### (2) column name이 데이프레임에 없는 열: 함수의 결과값을 저장시킬 새로운 열의 이름

In [None]:
#시리즈 → 하나의 열에 두 함수를 모두 적용

(df.set_index('STNAME').groupby(level=0)['CENSUS2010POP'] #groupby의 결과 시리즈가 만들어짐
    .agg({'avg': np.average, 'sum': np.sum}))

In [None]:
#데이터프레임 → 각 열에 두 함수를 각각 적용

(df.set_index('STNAME').groupby(level=0)['POPESTIMATE2010','POPESTIMATE2011'] #groupby의 결과 데이터프레임이 만들어짐
    .agg({'avg': np.average, 'sum': np.sum}))

In [None]:
#데이터프레임 열 이름과 agg 함수의 열 이름이 같을 때 → 함수를 데이터프레임 열에 적용 ((1)과 결국 동일)

(df.set_index('STNAME').groupby(level=0)['POPESTIMATE2010','POPESTIMATE2011']
    .agg({'POPESTIMATE2010': np.average, 'POPESTIMATE2011': np.sum}))

# 4. Scales

### 1. Scale의 종류
#### 1.Ratio scale
- units are equally spaced
- 더하기, 빼기, 곱하기, 나누기 모두 사용 가능

#### 2.Interval scale
- units are equally spaced
- 0은 실제 0이 아닌 임의의 값 
- 곱하기와 나누기를 사용할 수 없음 

#### 3.Ordinal scale 
- units are not evenly spaced
- 순서가 존재

#### 4.Nominal scale 
- 카테고리의 기능
- 순서가 없음

### 2. Pandas의 함수를 통해 데이터의 scale 변경하기

#### 1.Nominal scale로 설정하기: astype('category') 

In [2]:
import pandas as pd

df = pd.DataFrame(['A+', 'A', 'A-', 'B+', 'B', 'B-', 'C+', 'C', 'C-', 'D+', 'D'],
                  index=['excellent', 'excellent', 'excellent', 'good', 'good', 'good', 'ok', 'ok', 'ok', 'poor', 'poor'])
df.rename(columns={0: 'Grades'}, inplace=True)
df

Unnamed: 0,Grades
excellent,A+
excellent,A
excellent,A-
good,B+
good,B
good,B-
ok,C+
ok,C
ok,C-
poor,D+


In [3]:
df['Grades'].astype('category').head()

#dtype: category 
#Categories (카테고리의 개수, 데이터의 속성)

excellent    A+
excellent     A
excellent    A-
good         B+
good          B
Name: Grades, dtype: category
Categories (11, object): [A, A+, A-, B, ..., C+, C-, D, D+]

#### 2.Ordinal scale로 설정하기: ordered=True
- 순서가 있기 때문에 최솟값, 최댓값 같은 것을 구하는 수학적 연산을 할 수 있음

In [4]:
grades = df['Grades'].astype('category',
                             categories=['D', 'D+', 'C-', 'C', 'C+', 'B-', 'B', 'B+', 'A-', 'A', 'A+'],
                             ordered=True)
grades.head()

#dtype에 D < D+ < C- .... 이런 식으로 순서가 생긴 것을 확인할 수 있음

  exec(code_obj, self.user_global_ns, self.user_ns)


excellent    A+
excellent     A
excellent    A-
good         B+
good          B
Name: Grades, dtype: category
Categories (11, object): [D < D+ < C- < C ... B+ < A- < A < A+]

In [5]:
grades > 'C'

excellent     True
excellent     True
excellent     True
good          True
good          True
good          True
ok            True
ok           False
ok           False
poor         False
poor         False
Name: Grades, dtype: bool

#### 3. Nominal scale과 Boolean value (Ture/False)
- 특정 카테고리에 속하는지 여부에 따라 각 데이터의 값을 True/False로 설정할 수 있다. 
- Dummy variable: boolean value를 가지는 변수, get_dummy()을 통해 만들 수 있다. 

#### 4.Reducing value: Ratio scale & Interval sclae → Nominal scale
- 빈도 시각화, 머신러닝을 위해 많이 사용

In [None]:
df = pd.read_csv('census.csv')
df = df[df['SUMLEV']==50]
df = df.set_index('STNAME').groupby(level=0)['CENSUS2010POP'].agg({'avg': np.average})

pd.cut(df['avg'],10) #'avg'를 기준으로 10개의 카테고리를 가지도록 분류

# 5. Pivot Tables
- A way of summarizing data in a dataframe
- Pivot table 자체도 데이터프레임: 행&열은 관심있는 변수, 셀은 aggregate value 

In [6]:
import pandas as pd
import numpy as np

#http://open.canada.ca/data/en/dataset/98f1a129-f628-4ce4-b24d-6f16bf24dd64
df = pd.read_csv('cars.csv')
df.head()

### Pivot table 만들기 
- index: 관심있는 변수 1
- column: 관심있는 변수 2
- values: 관심있는 변수를 비교할때 그 기준이 되는 값 
- aggfunc: 각 셀에 들어갈 값 

In [None]:
df.pivot_table(values='(kW)', index='YEAR', columns='Make', aggfunc=np.mean)

# "YEAR' 이라는 열을 행의 인덱스로 만들고 이것을 'MAKE'라는 열에 대해 비교
# values='(kW)': (kW)의 값을 기준으로 비교
# aggfunc=np.mean: 각 셀에 들어갈 값은 평균 값

- margins=True : 각 행과 열의 overall value 출력 

In [None]:
df.pivot_table(values='(kW)', index='YEAR', columns='Make', aggfunc=[np.mean,np.min], margins=True)

# accfunc=[a,b,...]: 여러 함수의 결과 값이 셀에 들어감 → 열의 이름이 위계적이게 된다

# 6. Date Functionality in Pandas

In [None]:
import pandas as pd
import numpy as np

### 1. Timestamp: 특정한 어느 한 시점 (datetime과 같음)

In [None]:
pd.Timestamp('9/1/2016 10:05AM')

### 2. Period: 특정한 어느 한 시간대

In [None]:
pd.Period('3/5/2016')

### 3. Timestamp와 Period를 인덱스로 설정하기 
- Datetimeindex: timestamp의 인덱스
- Periodindex: period의 인덱스 

#### 1. Datetimeindex

In [None]:
t1 = pd.Series(list('abc'), [pd.Timestamp('2016-09-01'), pd.Timestamp('2016-09-02'), pd.Timestamp('2016-09-03')])
t1

In [None]:
type(t1.index)

#### 2. Periodindex

In [None]:
t2 = pd.Series(list('def'), [pd.Period('2016-09'), pd.Period('2016-10'), pd.Period('2016-11')])
t2

In [None]:
type(t2.index)

### 4. timestamp의 형태 바꾸기

In [11]:
# 인덱스의 날짜가 모두 다른 형식 
d1 = ['2 June 2013', 'Aug 29, 2014', '2015-06-26', '7/12/16']
ts3 = pd.DataFrame(np.random.randint(10, 100, (4,2)), index=d1, columns=list('ab'))

ts3

Unnamed: 0,a,b
2 June 2013,93,32
"Aug 29, 2014",73,83
2015-06-26,57,15
7/12/16,21,58


#### 1. to_datetime( ): standard format으로 바꿔줌

In [12]:
ts3.index = pd.to_datetime(ts3.index)
ts3

Unnamed: 0,a,b
2013-06-02,93,32
2014-08-29,73,83
2015-06-26,57,15
2016-07-12,21,58


#### 2. dayfirst=True: 유럽 스타일로 날짜 배열 순서를 바꿈

In [13]:
pd.to_datetime('4.7.12', dayfirst=True)

Timestamp('2012-07-04 00:00:00')

### 5. Timedeltas: 시간의 차이
#### 1. 두 시간대의 차이 

In [14]:
pd.Timestamp('9/3/2016')-pd.Timestamp('9/1/2016') 

Timedelta('2 days 00:00:00')

#### 2. 특정 시간 후의 시간대 구하기

In [15]:
# 2일 3시간이 지난 시간 구하기 
pd.Timestamp('9/2/2016 8:10AM') + pd.Timedelta('12D 3H')

Timestamp('2016-09-14 11:10:00')

### 6. Working with Dates in a Dataframe
#### 1.date_range( )를 통해 Datetimeindex 만들기

In [16]:
# 2016.10.1일부터 2주 간격으로 매주 일요일을 측정. 총 9개

dates = pd.date_range('10-01-2016', periods=9, freq='2W-SUN')
dates

DatetimeIndex(['2016-10-02', '2016-10-16', '2016-10-30', '2016-11-13',
               '2016-11-27', '2016-12-11', '2016-12-25', '2017-01-08',
               '2017-01-22'],
              dtype='datetime64[ns]', freq='2W-SUN')

In [17]:
#위의 Datetimeindex와 랜덤 데이터로 데이터프레임 만들기

df = pd.DataFrame({'Count 1': 100 + np.random.randint(-5, 10, 9).cumsum(),
                  'Count 2': 120 + np.random.randint(-5, 10, 9)}, index=dates) 
df

Unnamed: 0,Count 1,Count 2
2016-10-02,109,118
2016-10-16,106,117
2016-10-30,112,123
2016-11-13,109,117
2016-11-27,108,120
2016-12-11,107,116
2016-12-25,107,127
2017-01-08,109,122
2017-01-22,111,117


#### 2.특정 날짜가 무슨 요일인지 알아내기 

In [18]:
df.index.weekday_name 

Index(['Sunday', 'Sunday', 'Sunday', 'Sunday', 'Sunday', 'Sunday', 'Sunday',
       'Sunday', 'Sunday'],
      dtype='object')

#### 3.날짜간 데이터 값 차이 구하기

In [19]:
df.diff() # 결과값은 뒤의 날짜-앞의 날짜

Unnamed: 0,Count 1,Count 2
2016-10-02,,
2016-10-16,-3.0,-1.0
2016-10-30,6.0,6.0
2016-11-13,-3.0,-6.0
2016-11-27,-1.0,3.0
2016-12-11,-1.0,-4.0
2016-12-25,0.0,11.0
2017-01-08,2.0,-5.0
2017-01-22,2.0,-5.0


#### 4. resample( )

In [20]:
# 각 달의 평균 구하기
df.resample('M').mean() 

Unnamed: 0,Count 1,Count 2
2016-10-31,109.0,119.333333
2016-11-30,108.5,118.5
2016-12-31,107.0,121.5
2017-01-31,110.0,119.5


#### 5. indexing and slicing

In [21]:
#특정 연도의 데이터 구하기
df['2017']

Unnamed: 0,Count 1,Count 2
2017-01-08,109,122
2017-01-22,111,117


In [22]:
#특정 연도+달의 데이터 구하기
df['2016-12']

Unnamed: 0,Count 1,Count 2
2016-12-11,107,116
2016-12-25,107,127


In [23]:
#slicing도 가능
df['2016-12':]

Unnamed: 0,Count 1,Count 2
2016-12-11,107,116
2016-12-25,107,127
2017-01-08,109,122
2017-01-22,111,117


#### 6. asfreq( ):날짜의 주기 바꾸기

In [24]:
df.asfreq('W', method='ffill') 

#bi week → week
#missing data는 forward fill

Unnamed: 0,Count 1,Count 2
2016-10-02,109,118
2016-10-09,109,118
2016-10-16,106,117
2016-10-23,106,117
2016-10-30,112,123
2016-11-06,112,123
2016-11-13,109,117
2016-11-20,109,117
2016-11-27,108,120
2016-12-04,108,120


#### 7. timeseries 그래프 그리기

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

df.plot()