# **Filtering Data**

이전 강좌에서는 DataFrame에서 인덱스 혹은 컬럼 라벨을 이용하여 데이터를 엑세스하는 방법을 다루었다. 이번에는 특정 조건을 만족하는 데이터를 선택하여 추출해내는 방법을 다룬다.

먼저 원하는 조건을 이용하여 불린 마스크(boolean mask)를 생성하고, 이것을 이용하여 DataFrame에서 원하는 행을 추출한다. 먼저 이전 강좌에서 다루었던 `Admission_Predict.csv` [파일](https://drive.google.com/file/d/1rQBG9R7IoY1-vxlzlsjsKuDdr889juGR/view?usp=share_link)을 로드한다.

In [None]:
import pandas as pd
import numpy as np

In [None]:
from google.colab import drive
drive.mount('/content/drive/')

Mounted at /content/drive/


In [None]:
path = '/content/drive/MyDrive/DataScience2023/chap04_pandas/datasets/Admission_Predict.csv'

In [None]:
df = pd.read_csv(path, index_col=0)
df

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.00,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.80
5,314,103,2,2.0,3.0,8.21,0,0.65
...,...,...,...,...,...,...,...,...
396,324,110,3,3.5,3.5,9.04,1,0.82
397,325,107,3,3.0,3.5,9.11,1,0.84
398,330,116,4,5.0,4.5,9.45,1,0.91
399,312,103,3,3.5,4.0,8.78,0,0.67


In [None]:
df.columns

Index(['GRE Score', 'TOEFL Score', 'University Rating', 'SOP', 'LOR ', 'CGPA',
       'Research', 'Chance of Admit '],
      dtype='object')

이 파일에는 대학 입학 지원자의 여러 가지 성적 데이터가 저장되어 있다. 자세히 보면 일부 컬럼명에 불필요한 공백 문자가 포함되어 있어서 다음과 같이 공백을 제거해준다.

In [None]:
# new_df=df.rename(mapper=str.strip, axis='columns') # 이전에는 이렇게 했었다.
df.columns = [col_name.strip() for col_name in df.columns]
df.columns

Index(['GRE Score', 'TOEFL Score', 'University Rating', 'SOP', 'LOR', 'CGPA',
       'Research', 'Chance of Admit'],
      dtype='object')

마지막 컬럼인 합격 확률(`Chance of Admit`)이 `0.7` 이상인 학생들만 뽑아 내고 싶다. 먼저 다음과 같이 불린 마스크를 생성한다.

In [None]:
admit_mask = df['Chance of Admit'] > 0.7
admit_mask

Serial No.
1       True
2       True
3       True
4       True
5      False
       ...  
396     True
397     True
398     True
399    False
400     True
Name: Chance of Admit, Length: 400, dtype: bool

마스크를 생성하기 위해 `Chance of Admit` 행을 프로젝트한 후 `0.7`과 비교한다. 이것은 비교 연산에 대해서 브로드케스팅(broadcasting)을 적용하는 것이다. 그 결과는 하나의 Boolean Series가 되는데 조건에 부합하는 행은 `True`, 아닌 경우에는 `False`가 된다.

이제 마스크가 만들어 졌으면 이것을 `.loc` 속성을 이용하여 DataFrame에 적용한다.

In [None]:
df.loc[admit_mask].head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
6,330,115,5,4.5,3.0,9.34,1,0.9


혹은 다음과 같이 인덱스 연산자를 오버로딩하여 더 간단히 할 수도 있다.

In [None]:
df[admit_mask].head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
6,330,115,5,4.5,3.0,9.34,1,0.9


혹은 다음과 같이 마스크를 생성하는 일과 그 마스크를 이용하여 데이터를 필터링하는 일을 한 번에 할수도 있다.

In [None]:
df.loc[df['Chance of Admit'] > 0.7].head()
# df[df['Chance of Admit'] > 0.7].head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
6,330,115,5,4.5,3.0,9.34,1,0.9


#### `query()` vs. `loc[]`

DataFrame은 유사한 기능을 수행하는 `query` 메서드를 제공한다. 아래의 예에서 보는 것처럼 `loc` 속성을 이용하는 경우보다 표현이 조금 간략해진 면이 있지만 반면 처리 속도는 느리다고 알려져 있다. 또한 컬럼 이름에 공백이 표함될 경우 backtick 문자(\`)로 둘러싸야 한다. `loc` 속성을 이용하는 방법이 좀 더 많이 사용된다.

In [None]:
df.query("`Chance of Admit` > 0.7").head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
6,330,115,5,4.5,3.0,9.34,1,0.9


#### 복합 조건

이번에는 두 개 이상의 조건을 결합하는 것에 대해서 생각해보자. 가령 `GRE Score`가 330 이상이고 `TOEFL Score`가 120 이상인 학생들만 뽑는다면 다음과 같이 할 수 있다.

In [None]:
mask = (df['GRE Score'] > 330) & (df['TOEFL Score'] > 110)
df[mask].head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
24,334,119,5,5.0,4.5,9.7,1,0.95
25,336,119,5,4.0,3.5,9.8,1,0.97
26,340,120,5,4.5,4.5,9.6,1,0.94
33,338,118,4,3.0,4.5,9.4,1,0.91


조건에서 Python의 논리 연산자인 `and`와 `or` 대신 `&`와 `|` 기호를 사용해야한다는 점에 주의하라. 또한 `&`와 `>`의 연산자 우선순위 때문에 반드시 조건들을 괄호로 묶어 주어야 한다. 예를 들어 아래의 코드는 제대로 실행되지 않는다.

In [None]:
mask = (df['GRE Score'] > 330 & df['TOEFL Score'] > 110)    # Error

ValueError: ignored

비교 연산자(`>`) 대신 함수 `.gt` 혹은 `.lt` 등을 사용하면 연산자의 우선순위 문제는 생기지 않으며 또한 아래와 같이 결합하여(chaining) 사용할 수도 있다.

In [None]:
df['Chance of Admit'].gt(0.7) & df['Chance of Admit'].lt(0.9)

# 혹은 이렇게 결합(chaining)할 수도 있다.
df['Chance of Admit'].gt(0.7).lt(0.9)

Serial No.
1      False
2      False
3      False
4      False
5       True
       ...  
396    False
397    False
398    False
399     True
400    False
Name: Chance of Admit, Length: 400, dtype: bool

#### **사례**

Stackoverflow 설문조사 파일을 로드한다.

In [None]:
df = pd.read_csv('/content/drive/MyDrive/DataScience2022/chap04/datasets/stackoverflow_survey/survey_results_public.csv', index_col=0)

In [None]:
df.columns

Index(['MainBranch', 'Employment', 'Country', 'US_State', 'UK_Country',
       'EdLevel', 'Age1stCode', 'LearnCode', 'YearsCode', 'YearsCodePro',
       'DevType', 'OrgSize', 'Currency', 'CompTotal', 'CompFreq',
       'LanguageHaveWorkedWith', 'LanguageWantToWorkWith',
       'DatabaseHaveWorkedWith', 'DatabaseWantToWorkWith',
       'PlatformHaveWorkedWith', 'PlatformWantToWorkWith',
       'WebframeHaveWorkedWith', 'WebframeWantToWorkWith',
       'MiscTechHaveWorkedWith', 'MiscTechWantToWorkWith',
       'ToolsTechHaveWorkedWith', 'ToolsTechWantToWorkWith',
       'NEWCollabToolsHaveWorkedWith', 'NEWCollabToolsWantToWorkWith', 'OpSys',
       'NEWStuck', 'NEWSOSites', 'SOVisitFreq', 'SOAccount', 'SOPartFreq',
       'SOComm', 'NEWOtherComms', 'Age', 'Gender', 'Trans', 'Sexuality',
       'Ethnicity', 'Accessibility', 'MentalHealth', 'SurveyLength',
       'SurveyEase', 'ConvertedCompYearly'],
      dtype='object')

### 타입변환

Python 언어를 사용한 적이 있으면서 코딩 경력이 10년 이상인 응답자만을 뽑아보자. 다음의 코드와 같이 하면 오류가 생긴다. 지난 강의에서 확인했듯이 `YearsCode` 컬럼에는 숫자가 아닌 다른 값들이 포함되어 있기 때문이다. 이 값들을 숫자로 변환해보자.

In [None]:
filt = df['LanguageHaveWorkedWith'].str.contains('Python', na=False) & (df['YearsCode'] > 10)

TypeError: ignored

In [None]:
df['YearsCode'].unique()

array([nan, '7', '17', '3', '4', '6', '16', '12', '15', '10', '40', '9',
       '26', '14', '39', '20', '8', '19', '5', 'Less than 1 year', '22',
       '2', '1', '34', '21', '13', '25', '24', '30', '31', '18', '38',
       'More than 50 years', '27', '41', '42', '35', '23', '28', '11',
       '37', '44', '43', '36', '33', '45', '29', '50', '46', '32', '47',
       '49', '48'], dtype=object)

이전 강좌에서는 다음과 같이 `replace` 메서드를 이용하여 변환하였다.

In [None]:
df2 = df.dropna(subset=['YearsCode'])
df2 = df2.replace(to_replace={'YearsCode': {'Less than 1 year': '0'}})
df2 = df2.replace(to_replace={'YearsCode': {'More than 50 years': '50'}})
df2['YearsCode'] = df2['YearsCode'].astype(int)
df2['YearsCode'].unique()

array([ 7, 17,  3,  4,  6, 16, 12, 15, 10, 40,  9, 26, 14, 39, 20,  8, 19,
        5,  0, 22,  2,  1, 34, 21, 13, 25, 24, 30, 31, 18, 38, 50, 27, 41,
       42, 35, 23, 28, 11, 37, 44, 43, 36, 33, 45, 29, 46, 32, 47, 49, 48])

이번에는 다른 방법들을 시도해보자. 다음 코드에서는 커스텀 함수 `convert_to_numeric`을 정의한 후 `apply` 메서드를 적용하여 `YearsCode` 컬럼의 값들을 변환하였다.

In [None]:
def convert_to_numeric(item):
  try:
    year = int(item)
  except:
    if item == 'Less than 1 year':
      year = 0
    elif item == 'More than 50 years':
      year = 50
    else:
      year = 0

  return year


df3 = df.copy()
df3['YearsCode'] = df3['YearsCode'].apply(convert_to_numeric)
df3['YearsCode'].unique()

array([ 0,  7, 17,  3,  4,  6, 16, 12, 15, 10, 40,  9, 26, 14, 39, 20,  8,
       19,  5, 22,  2,  1, 34, 21, 13, 25, 24, 30, 31, 18, 38, 50, 27, 41,
       42, 35, 23, 28, 11, 37, 44, 43, 36, 33, 45, 29, 46, 32, 47, 49, 48])

In [None]:
filt = df3['LanguageHaveWorkedWith'].str.contains('Python', na=False) & (df3['YearsCode'] > 10)
filt

ResponseId
1        False
2        False
3        False
4        False
5         True
         ...  
83435    False
83436    False
83437    False
83438    False
83439    False
Length: 83439, dtype: bool

In [None]:
df3.loc[filt]

Unnamed: 0_level_0,MainBranch,Employment,Country,US_State,UK_Country,EdLevel,Age1stCode,LearnCode,YearsCode,YearsCodePro,...,Age,Gender,Trans,Sexuality,Ethnicity,Accessibility,MentalHealth,SurveyLength,SurveyEase,ConvertedCompYearly
ResponseId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
5,I am a developer by profession,"Independent contractor, freelancer, or self-em...",United Kingdom of Great Britain and Northern I...,,England,"Master’s degree (M.A., M.S., M.Eng., MBA, etc.)",5 - 10 years,Friend or family member,17,10,...,25-34 years old,Man,No,,White or of European descent,None of the above,,Appropriate in length,Easy,
19,"I am not primarily a developer, but I write co...",I prefer not to say,Singapore,,,"Other doctoral degree (Ph.D., Ed.D., etc.)",11 - 17 years,Other (please specify):,40,30,...,45-54 years old,Man,No,Straight / Heterosexual,White or of European descent,None of the above,None of the above,Appropriate in length,Easy,160932.0
20,"I used to be a developer by profession, but no...",Employed full-time,Brazil,,,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)",11 - 17 years,"Other online resources (ex: videos, blogs, etc...",12,9,...,25-34 years old,Man,No,Straight / Heterosexual,Multiracial,None of the above,None of the above,Appropriate in length,Easy,
26,"I am not primarily a developer, but I write co...",Employed full-time,Germany,,,"Other doctoral degree (Ph.D., Ed.D., etc.)",25 - 34 years,Coding Bootcamp;Online Forum,12,12,...,35-44 years old,"Non-binary, genderqueer, or gender non-conforming",Prefer not to say,Bisexual,White or of European descent,None of the above,I have an anxiety disorder,Appropriate in length,Neither easy nor difficult,
27,"I am not primarily a developer, but I write co...",Employed full-time,Switzerland,,,"Master’s degree (M.A., M.S., M.Eng., MBA, etc.)",11 - 17 years,Other (please specify):,14,5,...,25-34 years old,Man,No,,White or of European descent,None of the above,None of the above,Appropriate in length,Easy,81319.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
83421,I am a developer by profession,Employed full-time,France,,,"Master’s degree (M.A., M.S., M.Eng., MBA, etc.)",5 - 10 years,"Other online resources (ex: videos, blogs, etc...",16,4,...,25-34 years old,Man,No,Straight / Heterosexual,White or of European descent,None of the above,I have a mood or emotional disorder (e.g. depr...,Appropriate in length,Easy,35672.0
83422,I am a developer by profession,"Independent contractor, freelancer, or self-em...",Norway,,,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)",11 - 17 years,School;Friend or family member;Online Courses ...,20,15,...,35-44 years old,Woman,No,Straight / Heterosexual,White or of European descent,None of the above,None of the above,Appropriate in length,Neither easy nor difficult,88474.0
83427,I am a developer by profession,Employed full-time,United States of America,Nebraska,,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)",11 - 17 years,"Other online resources (ex: videos, blogs, etc...",11,2,...,18-24 years old,Man,No,Bisexual,White or of European descent,None of the above,I have a concentration and/or memory disorder ...,Appropriate in length,Easy,
83428,I am a developer by profession,Employed full-time,United States of America,Pennsylvania,,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)",11 - 17 years,"Other online resources (ex: videos, blogs, etc...",13,2,...,25-34 years old,Man,No,Straight / Heterosexual,White or of European descent,None of the above,"I have an anxiety disorder;Or, in your own words:",Too short,Easy,4300000.0


참고로 pandas는 타입변환을 위한 다양한 방법을 제공한다. 예를 들어 `to_numeric` 메서드는 데이터를 숫자로 변환하는데 이때 매개변수 `errors`를 `coerce`로 설정하면 숫자로 변환할 수 없는 값들은 `NaN`으로 변환해준다.

In [None]:
filt = df['LanguageHaveWorkedWith'].str.contains('Python', na=False) & (pd.to_numeric(df['YearsCode'], errors='coerce') > 10)
filt

ResponseId
1        False
2        False
3        False
4        False
5         True
         ...  
83435    False
83436    False
83437    False
83438    False
83439    False
Length: 83439, dtype: bool

다양한 타입변환 방법에 대해서는 다음의 [문서](https://stackoverflow.com/questions/15891038/change-column-type-in-pandas)를 참조하라.

# **Updating and Manipulating Data**

간단한 DataFrame의 예를 통해서 어떻게 DataFrame의 값을 갱신, 변경할 수 있는지 살펴보자.

In [None]:
people = {
    "first": ["Corey", 'Jane', 'John'],
    "last": ["Schafer", 'Doe', 'Doe'],
    "email": ["CoreyMSchafer@gmail.com", 'JaneDoe@email.com', 'JohnDoe@email.com']
}

df = pd.DataFrame(people)
df

Unnamed: 0,first,last,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,John,Doe,JohnDoe@email.com


#### 컬럼 이름의 변경

In [None]:
df.columns

Index(['first', 'last', 'email'], dtype='object')

컬럼의 이름들은 다음과 같이 `columns` 속성에 명시적으로 새로운 리스트를 치환(assign)하여 변경할 수 있다.

In [None]:
df.columns = ['First_Name', 'Last_Name', 'Email']
df

Unnamed: 0,First_Name,Last_Name,Email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,John,Doe,JohnDoe@email.com


In [None]:
df.columns = [x.lower() for x in df.columns]
df

Unnamed: 0,first_name,last_name,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,John,Doe,JohnDoe@email.com


혹은 다음과 같이 `rename` 함수를 이용하여 변경할 수도 있다.

In [None]:
df.rename(columns={'first_name': 'first', 'last_name': 'last'}, inplace=True)
df

Unnamed: 0,first,last,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,John,Doe,JohnDoe@email.com


#### 값의 변경

DataFrame의 `loc` 속성을 이용하여 다음 예들과 같이 원하는 행과 열을 선택하여 값을 치환할 수 있다.

In [None]:
df.loc[2] = ['John', 'Smith', 'JohnSmith@email.com']
df

Unnamed: 0,first,last,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,John,Smith,JohnSmith@email.com


In [None]:
df.loc[2, ['last', 'email']] = ['Doe', 'JohnDoe@email.com']
df

Unnamed: 0,first,last,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,John,Doe,JohnDoe@email.com


In [None]:
df.loc[2, 'last'] = 'Smith'
df

Unnamed: 0,first,last,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,John,Smith,JohnDoe@email.com


In [None]:
df.loc[[1,2], 'last'] = 'Born'
df

Unnamed: 0,first,last,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Born,JaneDoe@email.com
2,John,Born,JohnDoe@email.com


#### 불린 마스크를 이용한 값의 변경

In [None]:
filt = (df['email'] == 'JohnDoe@email.com')
df.loc[filt, 'last'] = 'Smith'
df

Unnamed: 0,first,last,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Born,JaneDoe@email.com
2,John,Smith,JohnDoe@email.com


DataFrame으로부터 데이터를 읽을 때는 아래와 같이 인덱스 연산자를 chaining하여 사용할 수도 있었다. 하지만 DataFrame에 데이터를 쓸 때는 이렇게 할 수 없다. 왜 그럴까?

In [None]:
filt = (df['email'] == 'JohnDoe@email.com')

# Not working. Why?
df[filt]['last'] = 'Doe'
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


Unnamed: 0,first,last,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Born,JaneDoe@email.com
2,John,Smith,JohnDoe@email.com


#### 함수를 적용하여 값을 변경

`DataFrame`의 값들에 지정한 함수를 적용하여 값을 업데이트하는 방법에는 대표적으로 `map`, `applymap`, 그리고 `apply` 3가지 방법이 있다. 3가지 방법의 차이를 요약하면 다음과 같다.

> <img src="https://raw.githubusercontent.com/ohheum/DS2022/2634cb3156d479c1e46996f1457d245a02e127fb/assets/map-applymap-apply.png" width="650" height="300">


##### `apply`

우선 `apply`에 대해서 살펴보자. 위의 표에서 보듯이 `apply`는 `Series`와 `DataFrame` 모두에 적용될 수 있다.
`DataFrame`의 컬럼인 하나의 `Series`에 `apply` 메서드를 이용하여 함수를 적용해보자. 아래의 코드는 `email` 컬럼의 각 값에 Python의 빌트인 함수인 `len`을 적용한다.

In [None]:
df['email'].apply(len)

0    23
1    17
2    17
Name: email, dtype: int64

In [None]:
df

Unnamed: 0,first_name,last_name,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,John,Doe,JohnDoe@email.com


이번에는 커스텀 함수를 적용해보자.

In [None]:
def update_email(email):
    return email.upper()

In [None]:
df['email'].apply(update_email)

0    COREYMSCHAFER@GMAIL.COM
1          JANEDOE@EMAIL.COM
2          JOHNDOE@EMAIL.COM
Name: email, dtype: object

In [None]:
df['email'] = df['email'].apply(update_email)

In [None]:
df

Unnamed: 0,first_name,last_name,email
0,Corey,Schafer,COREYMSCHAFER@GMAIL.COM
1,Jane,Doe,JANEDOE@EMAIL.COM
2,John,Doe,JOHNDOE@EMAIL.COM


lambda를 사용하여 이메일을 다시 소문자로 변경하였다.

In [None]:
df['email'] = df['email'].apply(lambda x: x.lower())

In [None]:
df

Unnamed: 0,first,last,email
0,Corey,Schafer,coreymschafer@gmail.com
1,Jane,Born,janedoe@email.com
2,John,Smith,johndoe@email.com


참고로 대소문자 변경과 같은 기본적인 문자열 함수들은 `Series` 객체 자체가 메서드로 제공하므로 다음과 같이 간단하게 할 수도 있다.

In [None]:
df['email'] = df['email'].str.lower()
df

Unnamed: 0,first,last,email
0,Corey,Schafer,coreymschafer@gmail.com
1,Jane,Doe,janedoe@email.com
2,John,Smith,johndoe@email.com


##### DataFrame에 apply 적용하기

`DataFrame`에서 하나의 컬럼이 아닌 전체 `DataFrame`에 `apply`로 어떤 함수를 적용하면 각각의 컬럼 전체에 대해서 그 함수가 적용된다.

In [None]:
df.apply(len)

first_name    3
last_name     3
email         3
dtype: int64

여기서 3은 각 컬럼의 길이가 3인 것을 의미한다. 혹은 매개변수 `axis`를 `columns` 혹은 1로 설정하면 각각의 행 전체에 대해서 함수가 적용된다. 각 행의 길이도 3이므로 다음과 같이 실행된다.

In [None]:
# df.apply(len, axis='columns')
df.apply(len, axis=1)

0    3
1    3
2    3
dtype: int64

In [None]:
# len 함수가 하나의 Series에 대해서도 동작함을 확인한다.
len(df['email'])

3

In [None]:
df.apply(pd.Series.min)

first_name                      Corey
last_name                         Doe
email         coreymschafer@gmail.com
dtype: object

In [None]:
df.apply(lambda x: x.min(), axis=1)

0    Corey
1     Born
2     John
dtype: object

물론 이 경우 적용될 함수는 하나의 `Series`에 대해서 적용될 수 있는 함수여야한다. 위의 예들은 Python의 빌트인 함수인 `len`이나 `pd.Series.min` 함수가 하나의 `Series` 객체를 매개변수로 받을 수 있기 때문제 동작한 것이다. 예들들어 다음의 예에서는 `lower` 메서드는 `Series` 객체를 지원하지 않으므로 오류이다.

In [None]:
df.apply(lambda x: x.lower())

##### `applymap`

`apply`와는 달리 `applymap`은 `Series`가 아닌 `DataFrame`에 대해서만 적용되며, `DataFrame`의 각 셀(cell)에 대해서 제공한 함수를 적용한다.

In [None]:
df.applymap(len)

Unnamed: 0,first,last,email
0,5,7,23
1,4,4,17
2,4,5,17


In [None]:
df.applymap(str.lower)

Unnamed: 0,first,last,email
0,corey,schafer,coreymschafer@gmail.com
1,jane,born,janedoe@email.com
2,john,smith,johndoe@email.com


##### `map`

반면 `map`은 `Series`에 대해서만 적용된다. `map`은 `apply`와 달리 함수만이 아니라 딕셔너리를 매개변수로 허용한다.

In [None]:
df['first'].map({'Corey': 'Chris', 'Jane': 'Mary'})

0    Chris
1     Mary
2      NaN
Name: first, dtype: object

In [None]:
df['first'] = df['first'].replace({'Corey': 'Chris', 'Jane': 'Mary'})

In [None]:
df

Unnamed: 0,first,last,email
0,Chris,Schafer,coreymschafer@gmail.com
1,Mary,Doe,janedoe@email.com
2,John,Smith,johndoe@email.com


`map`에 매개변수로 함수를 제공할 경우 `apply`와 유사하게 동작한다.

In [None]:
df['first'].map(str.lower)

0    corey
1     jane
2     john
Name: first, dtype: object

## **예 1:**

다시 한 번 Stack Overflow 설문 파일을 읽어보자.

In [None]:
df = pd.read_csv('/content/drive/MyDrive/DataScience2022/chap04/datasets/stackoverflow_survey/survey_results_public.csv', index_col=0)

In [None]:
df.columns

Index(['MainBranch', 'Employment', 'Country', 'US_State', 'UK_Country',
       'EdLevel', 'Age1stCode', 'LearnCode', 'YearsCode', 'YearsCodePro',
       'DevType', 'OrgSize', 'Currency', 'CompTotal', 'CompFreq',
       'LanguageHaveWorkedWith', 'LanguageWantToWorkWith',
       'DatabaseHaveWorkedWith', 'DatabaseWantToWorkWith',
       'PlatformHaveWorkedWith', 'PlatformWantToWorkWith',
       'WebframeHaveWorkedWith', 'WebframeWantToWorkWith',
       'MiscTechHaveWorkedWith', 'MiscTechWantToWorkWith',
       'ToolsTechHaveWorkedWith', 'ToolsTechWantToWorkWith',
       'NEWCollabToolsHaveWorkedWith', 'NEWCollabToolsWantToWorkWith', 'OpSys',
       'NEWStuck', 'NEWSOSites', 'SOVisitFreq', 'SOAccount', 'SOPartFreq',
       'SOComm', 'NEWOtherComms', 'Age', 'Gender', 'Trans', 'Sexuality',
       'Ethnicity', 'Accessibility', 'MentalHealth', 'SurveyLength',
       'SurveyEase', 'ConvertedCompYearly'],
      dtype='object')

컬럼 명 `'ConvertedCompYearly'`를 좀더 알기 쉽게 `'SalaryUSD'`로 변경한다.

In [None]:
df.rename(columns={'ConvertedCompYearly': 'SalaryUSD'}, inplace=True)

In [None]:
df['SalaryUSD']

ResponseId
1         62268.0
2             NaN
3             NaN
4             NaN
5             NaN
           ...   
83435    160500.0
83436      3960.0
83437     90000.0
83438    816816.0
83439     21168.0
Name: SalaryUSD, Length: 83439, dtype: float64

연봉에 대한 기술적 통계값들을 계산해보자.

In [None]:
df['SalaryUSD'].describe()

count    4.684400e+04
mean     1.184262e+05
std      5.272944e+05
min      1.000000e+00
25%      2.702500e+04
50%      5.621100e+04
75%      1.000000e+05
max      4.524131e+07
Name: SalaryUSD, dtype: float64

설문 응답자들은 다양한 고용 형태를 가진다. 이 중에서 Full-time으로 고용된 응답자들만 뽑아서 연봉 데이터를 살펴보자.

In [None]:
df['Employment'].unique()

array(['Independent contractor, freelancer, or self-employed',
       'Student, full-time', 'Employed full-time', 'Student, part-time',
       'I prefer not to say', 'Employed part-time',
       'Not employed, but looking for work', 'Retired',
       'Not employed, and not looking for work', nan], dtype=object)

In [None]:
fulltime_df = df.loc[df['Employment'] == 'Employed full-time']
fulltime_df.head(3)

Unnamed: 0_level_0,MainBranch,Employment,Country,US_State,UK_Country,EdLevel,Age1stCode,LearnCode,YearsCode,YearsCodePro,...,Age,Gender,Trans,Sexuality,Ethnicity,Accessibility,MentalHealth,SurveyLength,SurveyEase,SalaryUSD
ResponseId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
4,I am a developer by profession,Employed full-time,Austria,,,"Master’s degree (M.A., M.S., M.Eng., MBA, etc.)",11 - 17 years,,,,...,35-44 years old,Man,No,Straight / Heterosexual,White or of European descent,I am deaf / hard of hearing,,Appropriate in length,Neither easy nor difficult,
10,I am a developer by profession,Employed full-time,Sweden,,,"Master’s degree (M.A., M.S., M.Eng., MBA, etc.)",11 - 17 years,School,7.0,4.0,...,25-34 years old,Man,No,Straight / Heterosexual,White or of European descent,None of the above,None of the above,Appropriate in length,Neither easy nor difficult,51552.0
11,I am a developer by profession,Employed full-time,United Kingdom of Great Britain and Northern I...,,England,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)",11 - 17 years,"Other online resources (ex: videos, blogs, etc)",16.0,10.0,...,25-34 years old,Man,No,Straight / Heterosexual,White or of European descent,None of the above,None of the above,Appropriate in length,Easy,


In [None]:
fulltime_df['SalaryUSD'].describe()

count    4.062700e+04
mean     1.213697e+05
std      4.982684e+05
min      1.000000e+00
25%      2.850000e+04
50%      5.773200e+04
75%      1.000000e+05
max      3.046852e+07
Name: SalaryUSD, dtype: float64

이번에는 Schema 파일을 로드한다.

In [None]:
schema_df = pd.read_csv('/content/drive/MyDrive/DataScience2022/chap04/datasets/stackoverflow_survey/survey_results_schema.csv', index_col='qid')

In [None]:
schema_df

Unnamed: 0_level_0,qname,question,force_resp,type,selector
qid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
QID16,S0,"<div><span style=""font-size:19px;""><strong>Hel...",False,DB,TB
QID12,MetaInfo,Browser Meta Info,False,Meta,Browser
QID1,S1,"<span style=""font-size:22px; font-family: aria...",False,DB,TB
QID2,MainBranch,Which of the following options best describes ...,True,MC,SAVR
QID24,Employment,Which of the following best describes your cur...,False,MC,MAVR
QID6,Country,"Where do you live? <span style=""font-weight: b...",True,MC,DL
QID7,US_State,<p>In which state or territory of the USA do y...,False,MC,DL
QID9,UK_Country,In which part of the United Kingdom do you liv...,False,MC,DL
QID190,S2,"<span style=""font-size:22px; font-family: aria...",False,DB,TB
QID25,EdLevel,Which of the following best describes the high...,False,MC,SAVR


`schema_df`의 `question` 컬럼에는 HTML Tag들이 포함되어 있다. 보기에 불편하므로 정규표현식을 이용하여 모두 제거해보자.

In [None]:
import re

def remove_tag(text):
  removed_text = re.sub(r'<(.*?)>', '', text)
  return removed_text

schema_df['question'] = schema_df['question'].apply(remove_tag)

In [None]:
schema_df

Unnamed: 0_level_0,qname,question,force_resp,type,selector
qid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
QID16,S0,Hello world! \n\n \n\nThank you for taking the...,False,DB,TB
QID12,MetaInfo,Browser Meta Info,False,Meta,Browser
QID1,S1,Basic Information\n\nThe first section will fo...,False,DB,TB
QID2,MainBranch,Which of the following options best describes ...,True,MC,SAVR
QID24,Employment,Which of the following best describes your cur...,False,MC,MAVR
QID6,Country,Where do you live? *,True,MC,DL
QID7,US_State,In which state or territory of the USA do you ...,False,MC,DL
QID9,UK_Country,In which part of the United Kingdom do you liv...,False,MC,DL
QID190,S2,"Education, work, and career\n\n\nThis section ...",False,DB,TB
QID25,EdLevel,Which of the following best describes the high...,False,MC,SAVR


## **예 2:**

In [None]:
import pandas as pd
import numpy as np

from google.colab import drive
drive.mount('/content/drive/')

Drive already mounted at /content/drive/; to attempt to forcibly remount, call drive.mount("/content/drive/", force_remount=True).


예를 들어 다음의 인구 통계 데이터를 살펴보자. 이 데이터는 미국 인구조사국에서 가져온 것이다.


In [None]:
path = '/content/drive/MyDrive/DataScience2022/chap04/datasets/census.csv'

df = pd.read_csv(path)
df

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,COUNTY,STNAME,CTYNAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,...,RDOMESTICMIG2011,RDOMESTICMIG2012,RDOMESTICMIG2013,RDOMESTICMIG2014,RDOMESTICMIG2015,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014,RNETMIG2015
0,40,3,6,1,0,Alabama,Alabama,4779736,4780127,4785161,...,0.002295,-0.193196,0.381066,0.582002,-0.467369,1.030015,0.826644,1.383282,1.724718,0.712594
1,50,3,6,1,1,Alabama,Autauga County,54571,54571,54660,...,7.242091,-2.915927,-3.012349,2.265971,-2.530799,7.606016,-2.626146,-2.722002,2.592270,-2.187333
2,50,3,6,1,3,Alabama,Baldwin County,182265,182265,183193,...,14.832960,17.647293,21.845705,19.243287,17.197872,15.844176,18.559627,22.727626,20.317142,18.293499
3,50,3,6,1,5,Alabama,Barbour County,27457,27457,27341,...,-4.728132,-2.500690,-7.056824,-3.904217,-10.543299,-4.874741,-2.758113,-7.167664,-3.978583,-10.543299
4,50,3,6,1,7,Alabama,Bibb County,22915,22919,22861,...,-5.527043,-5.068871,-6.201001,-0.177537,0.177258,-5.088389,-4.363636,-5.403729,0.754533,1.107861
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3188,50,4,8,56,37,Wyoming,Sweetwater County,43806,43806,43593,...,1.072643,16.243199,-5.339774,-14.252889,-14.248864,1.255221,16.243199,-5.295460,-14.075283,-14.070195
3189,50,4,8,56,39,Wyoming,Teton County,21294,21294,21297,...,-1.589565,0.972695,19.525929,14.143021,-0.564849,0.654527,2.408578,21.160658,16.308671,1.520747
3190,50,4,8,56,41,Wyoming,Uinta County,21118,21118,21102,...,-17.755986,-4.916350,-6.902954,-14.215862,-12.127022,-18.136812,-5.536861,-7.521840,-14.740608,-12.606351
3191,50,4,8,56,43,Wyoming,Washakie County,8533,8533,8545,...,-11.637475,-0.827815,-2.013502,-17.781491,1.682288,-11.990126,-1.182592,-2.250385,-18.020168,1.441961


이 데이터셋에서 어떤 행들은 하나의 카운티(county)에 대한 데이터이고 어떤 행들은 하나의 주(state)에 관한 것이다. 이것을 구분해주는 것이 `SUMLEV` 값이다. `SUMLEV`이 40인 행들은 주에 해당하고, 50인 행들은 카운티에 해당한다. 주에 관한 행들의 인구수가 카운티에 관한 행보다 훨씬 큰 값임을 확인할 수 있다.
이것을 명확히 하기 위해 먼저 `unique` 함수를 이용하여 어떤 `SUMLEV` 값들이 있는지 알아보자.

In [None]:
df['SUMLEV'].unique()

array([40, 50])

`SUMLEV`에는 오직 2개의 값 40과 50만 존재함을 확인할 수 있다. 데이터셋에서 `SUMLEV`이 50인 행들, 즉 각각의 카운티에 대한 데이터만 뽑아보자.

In [None]:
df = df.loc[df['SUMLEV'] == 50]
df.head()

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,COUNTY,STNAME,CTYNAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,...,RDOMESTICMIG2011,RDOMESTICMIG2012,RDOMESTICMIG2013,RDOMESTICMIG2014,RDOMESTICMIG2015,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014,RNETMIG2015
1,50,3,6,1,1,Alabama,Autauga County,54571,54571,54660,...,7.242091,-2.915927,-3.012349,2.265971,-2.530799,7.606016,-2.626146,-2.722002,2.59227,-2.187333
2,50,3,6,1,3,Alabama,Baldwin County,182265,182265,183193,...,14.83296,17.647293,21.845705,19.243287,17.197872,15.844176,18.559627,22.727626,20.317142,18.293499
3,50,3,6,1,5,Alabama,Barbour County,27457,27457,27341,...,-4.728132,-2.50069,-7.056824,-3.904217,-10.543299,-4.874741,-2.758113,-7.167664,-3.978583,-10.543299
4,50,3,6,1,7,Alabama,Bibb County,22915,22919,22861,...,-5.527043,-5.068871,-6.201001,-0.177537,0.177258,-5.088389,-4.363636,-5.403729,0.754533,1.107861
5,50,3,6,1,9,Alabama,Blount County,57322,57322,57373,...,1.807375,-1.177622,-1.748766,-2.062535,-1.36997,1.859511,-0.84858,-1.402476,-1.577232,-0.884411


이 데이터 세트는 100개의 컬럼으로 구성된다. 컬럼들 중에서 2010년에서 2015년까지 연도별로 출생 수와 인구 추정치만을 뽑아내 보자. DataFrame을 우리가 유지하고 싶은 컬럼 이름의 리스트로 프로젝트하면 된다.

In [None]:
columns_to_keep = ['STNAME','CTYNAME','BIRTHS2010','BIRTHS2011','BIRTHS2012','BIRTHS2013',
                   'BIRTHS2014','BIRTHS2015','POPESTIMATE2010','POPESTIMATE2011',
                   'POPESTIMATE2012','POPESTIMATE2013','POPESTIMATE2014','POPESTIMATE2015']
df = df[columns_to_keep]
df.head()

Unnamed: 0,STNAME,CTYNAME,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015
1,Alabama,Autauga County,151,636,615,574,623,600,54660,55253,55175,55038,55290,55347
2,Alabama,Baldwin County,517,2187,2092,2160,2186,2240,183193,186659,190396,195126,199713,203709
3,Alabama,Barbour County,70,335,300,283,260,269,27341,27226,27159,26973,26815,26489
4,Alabama,Bibb County,44,266,245,259,247,253,22861,22733,22642,22512,22549,22583
5,Alabama,Blount County,183,744,710,646,618,603,57373,57711,57776,57734,57658,57673


2010년 부터 2015년 까지 6개의 년도별 인구 추정치 중에서 최소값과 최대값을 저장하는 새로운 2개의 열을 만들고 싶다.

먼저 데이터의 특정 행을 받아서 최소값과 최대값을 찾아 반환하는 함수 `min_max`를 작성한다.

In [None]:
def min_max(row):
    data = row.loc[['POPESTIMATE2010',
                'POPESTIMATE2011',
                'POPESTIMATE2012',
                'POPESTIMATE2013',
                'POPESTIMATE2014',
                'POPESTIMATE2015']]
    return pd.Series({'min': data.min(), 'max': data.max()})
    # return pd.Series({'min': np.min(data), 'max': np.max(data)})

그런 다음 `DataFrame`에 대해서 `apply`를 호출한다.
`apply`는 적용할 함수와 이 함수가 적용될 축을 매개변수로 받는데 축을 지정하는 부분은 항상 주의해야 한다. 축 0은 행을 의미하므로 `axis=0`가 맞을것 같지만 여기에서의 축은 사용할 인덱스의 축을 나타내므로 1이어야 한다.

In [None]:
df.apply(min_max, axis=1)

Unnamed: 0,min,max
1,54660,55347
2,183193,203709
3,26489,27341
4,22512,22861
5,57373,57776
...,...,...
3188,43593,45162
3189,21297,23125
3190,20822,21102
3191,8316,8545


만약 위의 예에서 처럼 `min`과 `max`만으로 이루어진 테이블을 만드는 대신 기존의 DataFrame에 `min`과 `max` 두 컬럼을 추가하고 싶다면 아래와 같이 `min_max` 함수를 수정하면 된다. 즉 최소값과 최대값을 표시하기 위해 별도의 시리즈를 반환하는 대신 원본 데이터 프레임에 최소값과 최대값을 저장하기 위해 두 개의 새로운 열을 추가한다.

In [None]:
def min_max(row):
    data = row.loc[['POPESTIMATE2010',
                'POPESTIMATE2011',
                'POPESTIMATE2012',
                'POPESTIMATE2013',
                'POPESTIMATE2014',
                'POPESTIMATE2015']]
    row['max'] = np.max(data)  # data.max()
    row['min'] = np.min(data)  # data.min()
    return row

df.apply(min_max, axis=1)

Unnamed: 0,STNAME,CTYNAME,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015,max,min
1,Alabama,Autauga County,151,636,615,574,623,600,54660,55253,55175,55038,55290,55347,55347,54660
2,Alabama,Baldwin County,517,2187,2092,2160,2186,2240,183193,186659,190396,195126,199713,203709,203709,183193
3,Alabama,Barbour County,70,335,300,283,260,269,27341,27226,27159,26973,26815,26489,27341,26489
4,Alabama,Bibb County,44,266,245,259,247,253,22861,22733,22642,22512,22549,22583,22861,22512
5,Alabama,Blount County,183,744,710,646,618,603,57373,57711,57776,57734,57658,57673,57776,57373
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3188,Wyoming,Sweetwater County,167,640,595,657,629,620,43593,44041,45104,45162,44925,44626,45162,43593
3189,Wyoming,Teton County,76,259,230,261,249,269,21297,21482,21697,22347,22905,23125,23125,21297
3190,Wyoming,Uinta County,73,324,311,316,316,316,21102,20912,20989,21022,20903,20822,21102,20822
3191,Wyoming,Washakie County,26,108,90,95,96,90,8545,8469,8443,8443,8316,8328,8545,8316


미국의 주를 북동부, 중서부, 남부 및 서부의 네 가지 영역으로 나눈다는 가정하에 `'state_region'` 컬럼을
테이블에 추가해보자.

In [None]:
def get_state_region(x):
    northeast = ['Connecticut', 'Maine', 'Massachusetts', 'New Hampshire',
                 'Rhode Island','Vermont','New York','New Jersey','Pennsylvania']
    midwest = ['Illinois','Indiana','Michigan','Ohio','Wisconsin','Iowa',
               'Kansas','Minnesota','Missouri','Nebraska','North Dakota',
               'South Dakota']
    south = ['Delaware','Florida','Georgia','Maryland','North Carolina',
             'South Carolina','Virginia','District of Columbia','West Virginia',
             'Alabama','Kentucky','Mississippi','Tennessee','Arkansas',
             'Louisiana','Oklahoma','Texas']
    west = ['Arizona','Colorado','Idaho','Montana','Nevada','New Mexico','Utah',
            'Wyoming','Alaska','California','Hawaii','Oregon','Washington']

    if x in northeast:
        return "Northeast"
    elif x in midwest:
        return "Midwest"
    elif x in south:
        return "South"
    else:
        return "West"

이제 이 함수를 이용해 원하는 컬럼을 추가해보자.

In [None]:
df['state_region'] = df['STNAME'].apply(lambda x: get_state_region(x))
df

Unnamed: 0,STNAME,CTYNAME,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015,state_region
1,Alabama,Autauga County,151,636,615,574,623,600,54660,55253,55175,55038,55290,55347,South
2,Alabama,Baldwin County,517,2187,2092,2160,2186,2240,183193,186659,190396,195126,199713,203709,South
3,Alabama,Barbour County,70,335,300,283,260,269,27341,27226,27159,26973,26815,26489,South
4,Alabama,Bibb County,44,266,245,259,247,253,22861,22733,22642,22512,22549,22583,South
5,Alabama,Blount County,183,744,710,646,618,603,57373,57711,57776,57734,57658,57673,South
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3188,Wyoming,Sweetwater County,167,640,595,657,629,620,43593,44041,45104,45162,44925,44626,West
3189,Wyoming,Teton County,76,259,230,261,249,269,21297,21482,21697,22347,22905,23125,West
3190,Wyoming,Uinta County,73,324,311,316,316,316,21102,20912,20989,21022,20903,20822,West
3191,Wyoming,Washakie County,26,108,90,95,96,90,8545,8469,8443,8443,8316,8328,West


## **예 3:**

아래의 테이블은 미국의 대통령에 대한 정보들을 저장하고 있다. Wikipedia에서 가져온 데이터이며 그래서 `Born` 컬럼에는 주석 참조가 포함되어 있다.

In [None]:
path = '/content/drive/MyDrive/DataScience2022/chap04/datasets/presidents.csv'
df=pd.read_csv(path)
df.head()

Unnamed: 0,#,President,Born,Age atstart of presidency,Age atend of presidency,Post-presidencytimespan,Died,Age
0,1,George Washington,"Feb 22, 1732[a]","57 years, 67 daysApr 30, 1789","65 years, 10 daysMar 4, 1797","2 years, 285 days","Dec 14, 1799","67 years, 295 days"
1,2,John Adams,"Oct 30, 1735[a]","61 years, 125 daysMar 4, 1797","65 years, 125 daysMar 4, 1801","25 years, 122 days","Jul 4, 1826","90 years, 247 days"
2,3,Thomas Jefferson,"Apr 13, 1743[a]","57 years, 325 daysMar 4, 1801","65 years, 325 daysMar 4, 1809","17 years, 122 days","Jul 4, 1826","83 years, 82 days"
3,4,James Madison,"Mar 16, 1751[a]","57 years, 353 daysMar 4, 1809","65 years, 353 daysMar 4, 1817","19 years, 116 days","Jun 28, 1836","85 years, 104 days"
4,5,James Monroe,"Apr 28, 1758","58 years, 310 daysMar 4, 1817","66 years, 310 daysMar 4, 1825","6 years, 122 days","Jul 4, 1831","73 years, 67 days"


우선 대통령의 이름을 `First Name`과 `Last Name`으로 분리하는 일부터 시작해보자. 이일은 정규표현식을 이용해서 할 것이다. `First Name`을 저장할 컬럼을 추가하고 일단 이름 전체를 복사한 후 이름에서 `First Name`만을 남기고 나머지를 삭제하는 작업을 정규표현식을 이용해서 수행한다.
즉, 정규표현식을 이용하여 `Last Name`에 해당하는 패턴을 식별 한 후 그 부분을 `replace` 함수로 `empty string`으로 교체한다. 정규표현식 "`[ ].*`"는 하나의 공백과 이어지는 0개 혹은 그 이상의 임의의 문자들을 의미한다.

In [None]:
df["First"]=df['President']
df["First"]=df["First"].replace("[ ].*", "", regex=True)
df.head()

Unnamed: 0,#,President,Born,Age atstart of presidency,Age atend of presidency,Post-presidencytimespan,Died,Age,First
0,1,George Washington,"Feb 22, 1732[a]","57 years, 67 daysApr 30, 1789","65 years, 10 daysMar 4, 1797","2 years, 285 days","Dec 14, 1799","67 years, 295 days",George
1,2,John Adams,"Oct 30, 1735[a]","61 years, 125 daysMar 4, 1797","65 years, 125 daysMar 4, 1801","25 years, 122 days","Jul 4, 1826","90 years, 247 days",John
2,3,Thomas Jefferson,"Apr 13, 1743[a]","57 years, 325 daysMar 4, 1801","65 years, 325 daysMar 4, 1809","17 years, 122 days","Jul 4, 1826","83 years, 82 days",Thomas
3,4,James Madison,"Mar 16, 1751[a]","57 years, 353 daysMar 4, 1809","65 years, 353 daysMar 4, 1817","19 years, 116 days","Jun 28, 1836","85 years, 104 days",James
4,5,James Monroe,"Apr 28, 1758","58 years, 310 daysMar 4, 1817","66 years, 310 daysMar 4, 1825","6 years, 122 days","Jul 4, 1831","73 years, 67 days",James


잘 작동하기는 하지만 그다지 효율적이지는 않다. 왜냐하면 컬럼 전체를 통채로 복사한 후 각각의 셀에 대해서 문자열 매칭을 해야하기 떄문이다. 이번에는 DataFrame의 `apply` 함수를 이용해서 해보자. 우선 추가한 컬럼을 테이블에서 삭제하여 원 상태로 되돌린다.

In [None]:
del(df["First"])

def splitname(row):
    row['First']=row['President'].split(" ")[0]
    row['Last']=row['President'].split(" ")[-1]
    return row

df=df.apply(splitname, axis='columns')
df.head()

Unnamed: 0,#,President,Born,Age atstart of presidency,Age atend of presidency,Post-presidencytimespan,Died,Age,First,Last
0,1,George Washington,"Feb 22, 1732[a]","57 years, 67 daysApr 30, 1789","65 years, 10 daysMar 4, 1797","2 years, 285 days","Dec 14, 1799","67 years, 295 days",George,Washington
1,2,John Adams,"Oct 30, 1735[a]","61 years, 125 daysMar 4, 1797","65 years, 125 daysMar 4, 1801","25 years, 122 days","Jul 4, 1826","90 years, 247 days",John,Adams
2,3,Thomas Jefferson,"Apr 13, 1743[a]","57 years, 325 daysMar 4, 1801","65 years, 325 daysMar 4, 1809","17 years, 122 days","Jul 4, 1826","83 years, 82 days",Thomas,Jefferson
3,4,James Madison,"Mar 16, 1751[a]","57 years, 353 daysMar 4, 1809","65 years, 353 daysMar 4, 1817","19 years, 116 days","Jun 28, 1836","85 years, 104 days",James,Madison
4,5,James Monroe,"Apr 28, 1758","58 years, 310 daysMar 4, 1817","66 years, 310 daysMar 4, 1825","6 years, 122 days","Jul 4, 1831","73 years, 67 days",James,Monroe


##### `extract` 함수와 정규표현식

이번에는 pandas의 `Series`가 제공하는 `extract` 함수와 정규표현식의 grouping 기능을 이용해보자.
먼저 추가된 컬럼들을 삭제하여 테이블을 원 상태로 돌린다.

In [None]:
del(df['First'])
del(df['Last'])

`extract` 함수는 정규표현식을 매개변수로 입력 받는다. 이때 주어진 텍스트에서 뽑아내고 싶은 부분을 정규표현식에서 그룹(group)으로 지정한다. 그러면 `extract` 함수는 이 그룹들에 대응하는 패턴들만이 뽑아내서 컬럼으로 만들어 준다.

In [None]:
# 아래 정규표현식에서 두 번째 그룹은 ?:로 시작한다. 이것은 이 그룹은 capture하지 않겠다는 의미이다.
# 결과적으로 2개의 그룹만이 캡쳐된다.
pattern="(^[\w]*)(?:.* )([\w]*$)"
df["President"].str.extract(pattern).head()

Unnamed: 0,0,1
0,George,Washington
1,John,Adams
2,Thomas,Jefferson
3,James,Madison
4,James,Monroe


아래와 같이 Named Group을 사용하면 자동으로 컬럼의 이름이 지정된다.

In [None]:
pattern="(?P<First>^[\w]*)(?:.* )(?P<Last>[\w]*$)"

names=df["President"].str.extract(pattern).head()
names

Unnamed: 0,First,Last
0,George,Washington
1,John,Adams
2,Thomas,Jefferson
3,James,Madison
4,James,Monroe


In [None]:
df["First"]=names["First"]
df["Last"]=names["Last"]
df.head()

Unnamed: 0,#,President,Born,Age atstart of presidency,Age atend of presidency,Post-presidencytimespan,Died,Age,First,Last
0,1,George Washington,"Feb 22, 1732[a]","57 years, 67 daysApr 30, 1789","65 years, 10 daysMar 4, 1797","2 years, 285 days","Dec 14, 1799","67 years, 295 days",George,Washington
1,2,John Adams,"Oct 30, 1735[a]","61 years, 125 daysMar 4, 1797","65 years, 125 daysMar 4, 1801","25 years, 122 days","Jul 4, 1826","90 years, 247 days",John,Adams
2,3,Thomas Jefferson,"Apr 13, 1743[a]","57 years, 325 daysMar 4, 1801","65 years, 325 daysMar 4, 1809","17 years, 122 days","Jul 4, 1826","83 years, 82 days",Thomas,Jefferson
3,4,James Madison,"Mar 16, 1751[a]","57 years, 353 daysMar 4, 1809","65 years, 353 daysMar 4, 1817","19 years, 116 days","Jun 28, 1836","85 years, 104 days",James,Madison
4,5,James Monroe,"Apr 28, 1758","58 years, 310 daysMar 4, 1817","66 years, 310 daysMar 4, 1825","6 years, 122 days","Jul 4, 1831","73 years, 67 days",James,Monroe


pandas의 `str` 모듈은 문자열을 다루는 다양한 함수들을 제공한다. 자세한 사항들은 [링크](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html)를 참조하라:

이번에는 `Born` 컬럼을 정리해보자. `Born` 컬럼에서 날짜에 대한 정보(년, 월, 일)만 `extract` 함수를 이용하여 뽑아낸다.

In [None]:
df["Born"]=df["Born"].str.extract("([\w]{3} [\d]{1,2}, [\d]{4})")
df["Born"].head()

0    Feb 22, 1732
1    Oct 30, 1735
2    Apr 13, 1743
3    Mar 16, 1751
4    Apr 28, 1758
Name: Born, dtype: object

이제 `Born` 컬럼은 날짜 정보만을 담고 있지만 하나의 문자열(string)로 저장되어 있다. 이 문자열을 `datetime` 객체로 변환한다. `datetime` 객체는 다양한 날짜/시간과 관련된 기능을 제공하므로  문자열로 표현하는 것보다 많은 경우에 편리하다. 예를 들면 생일이 특정한 시간 구간에 속하는지 검사하는 등의 기능을 제공한다.

In [None]:
df["Born"]=pd.to_datetime(df["Born"])
df["Born"].head()

0   1732-02-22
1   1735-10-30
2   1743-04-13
3   1751-03-16
4   1758-04-28
Name: Born, dtype: datetime64[ns]

# 정렬과 랭킹(Sorting and Ranking)

특정 기준에 따라 데이터를 정렬하는 것은 또 다른 중요한 작업이다. 행 또는 열 레이블을 기준으로 사전순으로 정렬하려면 정렬된 새 객체를 반환하는 `sort_index` 메서드를 사용한다:

In [None]:
obj = pd.Series(np.arange(4), index=["d", "a", "b", "c"])
obj
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [None]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=["three", "one"],
                     columns=["d", "a", "b", "c"])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [None]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [None]:
frame.sort_index(axis="columns")

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [None]:
frame.sort_index(axis="columns", ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


값을 기준으로 시리즈를 정렬하려면 `sort_values` 메서드를 사용한다:

In [None]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

누락된 값은 기본적으로 시리즈의 끝으로 정렬된다:

In [None]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

데이터 프레임을 정렬할 때 하나 이상의 열에 있는 데이터를 정렬 키로 사용할 수 있다. 이렇게 하려면 하나 이상의 열 이름을 `sort_values`에 전달한다:

In [None]:
frame = pd.DataFrame({"b": [4, 7, -3, 2], "a": [0, 1, 0, 1]})
frame
frame.sort_values("b")

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [None]:
frame.sort_values(["a", "b"])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


rank 함수는 가장 낮은 값부터 시작하여 1부터 순위를 할당한다. 동점처리는 각 그룹에 평균 순위를 할당한다.

In [None]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

데이터에서 관찰되는 순서에 따라 순위를 지정할 수도 있다:

In [None]:
obj.rank(method="first")

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [None]:
obj.rank(ascending=False)

0    1.5
1    7.0
2    1.5
3    3.5
4    5.0
5    6.0
6    3.5
dtype: float64

데이터프레임은 행 또는 열에 대해 순위를 계산할 수 있다:

In [None]:
frame = pd.DataFrame({"b": [4.3, 7, -3, 2], "a": [0, 1, 0, 1],
                      "c": [-2, 5, 8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [None]:
frame.rank(axis="columns")

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


# 요약하기와 기술적 통계(Summary and Descriptive Statistics)

Pandas 객체는 일반적인 수학 및 통계 메서드들을 제공한다. 이들은 시리즈에서 단일 값(예: 합계 또는 평균)을 추출하거나 또는 데이터 프레임의 행이나 열에서 일련의 값을 추출하는 요약 통계(summary statistics) 메서드들이다. NumPy 배열에 있는 유사한 메서드와 비교할 때 누락된 데이터에 대한 기본 제공 처리가 있다는 점에서 다르다.

In [None]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=["a", "b", "c", "d"],
                  columns=["one", "two"])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [None]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [None]:
df.sum(axis="columns")

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

행 또는 열 전체가 NA 값일 경우 합이 0이 되고, NA가 아닌 값이 하나라도 있으면 결과가 NA가 아닌 값들만으로 계산된다. 이 기능은 `skipna=False` 옵션을 사용하여 비활성화할 수 있으며, 이 경우 행 또는 열에 하나라도 NA 값이 있으면  해당 결과는 NA가 된다:

In [None]:
df.sum(axis="index", skipna=False)

one   NaN
two   NaN
dtype: float64

In [None]:
df.sum(axis="columns", skipna=False)

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

평균과 같은 일부 집계는 적어도 하나의 NA가 아닌 값이 필요하다:

In [None]:
df.mean(axis="columns")

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64

`describe`는 한 번에 여러 개의 요약 통계를 생성해 준다:

In [None]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


다음 표는 설명적 통계 혹은 요약을 제공하는 메서드들이다.

| Method | Descroption |
|----------|-------------|
| count | Number of non-NA values |
| describe | Compute set of summary statistics |
| min, max| Compute minimum and maximum values |
| argmin, argmax| Compute index locations (integers) at which minimum or maximum value is |
| | obtained, respectively; not available on DataFrame objects |
| idxmin, idxmax | Compute index labels at which minimum or maximum value is obtained, respectively |
| quantile | Compute sample quantile ranging from 0 to 1 (default: 0.5) |
| sum | Sum of values |
| mean | Mean of values |
| median | Arithmetic median (50% quantile) of values |
| mad | Mean absolute deviation from mean value |
| prod | Product of all values |
| var | Sample variance of values |
| std | Sample standard deviation of values |
| skew | Sample skewness (third moment) of values |
| kurt | Sample kurtosis (fourth moment) of values |
| cumsum | Cumulative sum of values |
| cummin, cummax | Cumulative minimum or maximum of values, respectively |
| cumprod | Cumulative product of values |
| diff | Compute first arithmetic difference (useful for time series) |
| pct_change | Compute percent changes |




### 상관관계와 공분산(Correlation and Covariance)

Yahoo! Finance에서 가져온 주가 및 거래량에 대한 데이터 파일 [`yahoo_price.pkl`](https://drive.google.com/file/d/1Kg0PonkM8qzHDaDSbjYeZynvjJHbcKWX/view?usp=share_link)과 [`yahoo_volume.pkl`](https://drive.google.com/file/d/1UJPrvr9bPPrUuVvQ5wRDVv3PWy0Bdqo3/view?usp=share_link)을 사용하여 상관관계와 공분산에 대해서 살펴보자. pickle 파일은 Python의 객체를 직렬화하여(serialize) 저장하는 이진(binary) 파일 포맷의 하나이다. 임의의 데이터프레임은 `to_pickle` 메서드로 직렬화된 이진 파일로 저장하고, `read_pickle` 메서드로 다시 데이터프레임으로 읽어올 수 있다.

In [None]:
price = pd.read_pickle("/content/drive/MyDrive/DataScience2023/chap04_pandas/datasets/yahoo_price.pkl")
volume = pd.read_pickle("/content/drive/MyDrive/DataScience2023/chap04_pandas/datasets/yahoo_volume.pkl")

In [None]:
price.tail()

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016-10-17,117.550003,779.960022,154.770004,57.220001
2016-10-18,117.470001,795.26001,150.720001,57.66
2016-10-19,117.120003,801.5,151.259995,57.529999
2016-10-20,117.059998,796.969971,151.520004,57.25
2016-10-21,116.599998,799.369995,149.630005,59.66


In [None]:
volume.tail()

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016-10-17,23624900,1089500,5890400,23830000
2016-10-18,24553500,1995600,12770600,19149500
2016-10-19,20034600,116600,4632900,22878400
2016-10-20,24125800,1734200,4023100,49455600
2016-10-21,22384800,1260500,4401900,79974200


전일의 가격에 대한 당일 가격의 백분율 변화를 계산한다. `pct_change` 메서드는 시계열(time series) 데이터를 처리하는 연산의 하나이다.

In [None]:
returns = price.pct_change()
returns.tail()

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2016-10-17,-0.00068,0.001837,0.002072,-0.003483
2016-10-18,-0.000681,0.019616,-0.026168,0.00769
2016-10-19,-0.002979,0.007846,0.003583,-0.002255
2016-10-20,-0.000512,-0.005652,0.001719,-0.004867
2016-10-21,-0.00393,0.003011,-0.012474,0.042096


Series의 `corr` 메서드는 두 Series에서 인덱스에 의해서 정렬된 겹치는 NA가 아닌 값들의 상관관계(correlation)를 계산한다. `cov`는 공분산을 계산한다:

In [None]:
returns["MSFT"].corr(returns["IBM"])

0.49976361144151144

In [None]:
returns["MSFT"].cov(returns["IBM"])

8.870655479703546e-05

DataFrame의 `corr` 및 `cov` 메서드는 각각 전체 상관 관계 또는 공분산 행렬을 데이터 프레임으로 반환한다:

In [None]:
returns.corr()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,1.0,0.407919,0.386817,0.389695
GOOG,0.407919,1.0,0.405099,0.465919
IBM,0.386817,0.405099,1.0,0.499764
MSFT,0.389695,0.465919,0.499764,1.0


In [None]:
returns.cov()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,0.000277,0.000107,7.8e-05,9.5e-05
GOOG,0.000107,0.000251,7.8e-05,0.000108
IBM,7.8e-05,7.8e-05,0.000146,8.9e-05
MSFT,9.5e-05,0.000108,8.9e-05,0.000215
