In [1]:
import numpy as np
import pandas as pd

In [2]:
# DataFrame 인덱스 설정 및 제거 set_index(), reset_index() 메서드

In [3]:
# set_index() : 기존의 row index를 제거하고 DataFrame 객체의
# column 중 하나를 인덱스로 설정

# DataFrame.set_index(keys, *, drop = True, append = False, 
#                     inplace = False, verify_integrity = False)

# reset_index : 기존의 row index를 DataFrame 객체의
# column으로 추가한다. 그리고 RangeIndex로 순번을 새롭게 매긴다.

# DataFrame.reset_index(level = None, *, drop = Fasle, inplace = False,
#                       col_level = 0, col_fill = '',
#                       allow_duplicates = _NoDefault.no_default,
#                       names = None)

In [4]:
np.random.seed(0)
df1 = pd.DataFrame(np.vstack([list('ABCDE'),
                              np.round(np.random.rand(3, 5), 2)]).T,
                   columns = ["C1", "C2", "C3", "C4"])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [5]:
df2 = df1.set_index("C1")
df2 # C1 컬럼을 index 컬럼으로 설정

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [6]:
df2.set_index("C2") # 다시 set_index를 하면
# 기존 index 컬럼이 사라진다.
# 즉, C1 컬럼이 없어짐

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.55,0.65,0.79
0.72,0.44,0.53
0.6,0.89,0.57
0.54,0.96,0.93
0.42,0.38,0.07


In [7]:
print(df2) # 기존 DataFrame
df2.reset_index()
# reset_index()로 index 컬럼으로 쓰인 컬럼을
# Dataframe 가장 왼쪽(선두)로 삽입된다.

# DataFrame 인덱스는 정수로 된 디폴트 인덱스로 바뀐다.

      C2    C3    C4
C1                  
A   0.55  0.65  0.79
B   0.72  0.44  0.53
C    0.6  0.89  0.57
D   0.54  0.96  0.93
E   0.42  0.38  0.07


Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [8]:
df2.reset_index(drop = True)
# drop = True를 쓰게 되면 index column을 버린다.

Unnamed: 0,C2,C3,C4
0,0.55,0.65,0.79
1,0.72,0.44,0.53
2,0.6,0.89,0.57
3,0.54,0.96,0.93
4,0.42,0.38,0.07


In [9]:
nfl = pd.read_csv("C:/python/datas/nfl.csv",
                  index_col = ["Name"],
                  parse_dates = ["Birthday"]
                 )
nfl    

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Tremon Smith,Philadelphia Eagles,RB,1996-07-20,570000
Shawn Williams,Cincinnati Bengals,SS,1991-05-13,3500000
Adam Butler,New England Patriots,DT,1994-04-12,645000
Derek Wolfe,Denver Broncos,DE,1990-02-24,8000000
Jake Ryan,Jacksonville Jaguars,OLB,1992-02-27,1000000
...,...,...,...,...
Bashaud Breeland,Kansas City Chiefs,CB,1992-01-30,805000
Craig James,Philadelphia Eagles,CB,1996-04-29,570000
Jonotthan Harrison,New York Jets,C,1991-08-25,1500000
Chuma Edoga,New York Jets,OT,1997-05-25,495000


In [31]:
nfl.reset_index().set_index("Team").loc["New York Jets"].nsmallest(1, columns = "Birthday")

Unnamed: 0_level_0,Name,Position,Birthday,Salary
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
New York Jets,Ryan Kalil,C,1985-03-29,2400000


In [35]:
subjects = {
    "이름" : ["일식", "이식", "삼식", "사식", "오식"],
    "국어" : [60, 70, 90, 80, 100],
    "영어" : [70, 86, 82, 88, 100],
    "수학" : [65, 82, 85, 90, 100]
}
df_subjects = pd.DataFrame(subjects)
df_subjects

Unnamed: 0,이름,국어,영어,수학
0,일식,60,70,65
1,이식,70,86,82
2,삼식,90,82,85
3,사식,80,88,90
4,오식,100,100,100


In [37]:
df_subjects2 = df_subjects.set_index("이름")
df_subjects2

Unnamed: 0_level_0,국어,영어,수학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
일식,60,70,65
이식,70,86,82
삼식,90,82,85
사식,80,88,90
오식,100,100,100


In [38]:
df_subjects2.reset_index()

Unnamed: 0,이름,국어,영어,수학
0,일식,60,70,65
1,이식,70,86,82
2,삼식,90,82,85
3,사식,80,88,90
4,오식,100,100,100


In [39]:
# DataFrame dropna() 메서드

# dropna() 메서드는 DataFrame 객체에서 결측치를 갖는 행에
# 대해 제거를 한다.

# 기본적인 동작은 행에 단 하나라도 결측치가 있다면 해당 행 제거
employees = pd.read_csv(
    "C:/python/datas/employees.csv", parse_dates = ["Start Date"]
)
employees

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
1,Thomas,Male,1996-03-31,61933.0,True,
2,Maria,Female,NaT,130590.0,False,Finance
3,Jerry,,2005-03-04,138705.0,True,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
...,...,...,...,...,...,...
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product
998,Larry,Male,2013-04-20,60500.0,False,Business Dev
999,Albert,Male,2012-05-15,129949.0,True,Sales


In [40]:
employees.dropna()
# 1001개의 행이 761개의 행으로 감소
# row 내부에 NaN 값이 한 개 이상 있으면 해당 행 삭제

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
4,Larry,Male,1998-01-24,101004.0,True,IT
5,Dennis,Male,1987-04-18,115163.0,False,Legal
6,Ruby,Female,1987-08-17,65476.0,True,Product
8,Angela,Female,2005-11-22,95570.0,True,Engineering
9,Frances,Female,2002-08-08,139852.0,True,Business Dev
...,...,...,...,...,...,...
994,George,Male,2013-06-21,98874.0,True,Marketing
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product
998,Larry,Male,2013-04-20,60500.0,False,Business Dev


In [41]:
# 만일 행 안에 모든 값이 결측치를 가질 때만 행을 제거하고 싶다면
# how 키워드 인수에 값을 'all'로 전달한다.
employees.dropna(how = 'all')
# 1개 행의 요소가 모두 NaN이다.

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
1,Thomas,Male,1996-03-31,61933.0,True,
2,Maria,Female,NaT,130590.0,False,Finance
3,Jerry,,2005-03-04,138705.0,True,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
...,...,...,...,...,...,...
995,Henry,,2014-11-23,132483.0,False,Distribution
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product
998,Larry,Male,2013-04-20,60500.0,False,Business Dev


In [42]:
# how 키워드 인수는 기본적으로 'any'가 default값
# 즉, 행 안에 단 하나의 결측치라도 있다면 해당 행 제거
employees.dropna(how = "any")

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
4,Larry,Male,1998-01-24,101004.0,True,IT
5,Dennis,Male,1987-04-18,115163.0,False,Legal
6,Ruby,Female,1987-08-17,65476.0,True,Product
8,Angela,Female,2005-11-22,95570.0,True,Engineering
9,Frances,Female,2002-08-08,139852.0,True,Business Dev
...,...,...,...,...,...,...
994,George,Male,2013-06-21,98874.0,True,Marketing
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product
998,Larry,Male,2013-04-20,60500.0,False,Business Dev


In [43]:
# 특정 컬럼에 대해서만 NaN값이 있는 행을 지우고 싶을 때는
# subset 키워드 인수를 활용
employees.loc[employees.Gender.isnull()]
# Gender에서 NaN 값이 있는 행 추출

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
3,Jerry,,2005-03-04,138705.0,True,Finance
20,Lois,,1995-04-22,64714.0,True,Legal
22,Joshua,,2012-03-08,90816.0,True,IT
27,Scott,,1991-07-11,122367.0,False,Legal
31,Joyce,,2005-02-20,88657.0,False,Product
...,...,...,...,...,...,...
972,Victor,,2006-07-28,76381.0,True,Sales
985,Stephen,,1983-07-10,85668.0,False,Legal
989,Justin,,1991-02-10,38344.0,False,Legal
995,Henry,,2014-11-23,132483.0,False,Distribution


In [44]:
employees.dropna(subset = ["Gender"])
# Gender의 NaN값이 있는 행이 147개여서
# 전체 행 1001 - 147 = 854개의 행이 남는다.

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
1,Thomas,Male,1996-03-31,61933.0,True,
2,Maria,Female,NaT,130590.0,False,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
5,Dennis,Male,1987-04-18,115163.0,False,Legal
...,...,...,...,...,...,...
994,George,Male,2013-06-21,98874.0,True,Marketing
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product
998,Larry,Male,2013-04-20,60500.0,False,Business Dev


In [45]:
cond1 = employees["Start Date"].isnull()
cond2 = employees["Salary"].isnull()
print(f"cond1: {cond1.sum()}, cond2: {cond2.sum()}")

cond1: 2, cond2: 2


In [46]:
employees[cond1]

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
2,Maria,Female,NaT,130590.0,False,Finance
1000,,,NaT,,,


In [47]:
employees[cond2]

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
1000,,,NaT,,,


In [48]:
# 두 조건에 대해 모두 만족하는 조건을 위해 |(vertical bar)를
# 통해 or 연산을 한다. |는 두 값 중 하나라도 True이면 True 반환

employees[cond1 | cond2]

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
2,Maria,Female,NaT,130590.0,False,Finance
1000,,,NaT,,,


In [49]:
# subset 키워드 인수에 리스트의 형태로 컬럼 인덱스인 "Start Date",
# "Salary"를 전달하면 3개 행 데이터가 제거된 것을 확인 가능

employees.dropna(subset = ["Start Date", "Salary"])

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
1,Thomas,Male,1996-03-31,61933.0,True,
3,Jerry,,2005-03-04,138705.0,True,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
5,Dennis,Male,1987-04-18,115163.0,False,Legal
6,Ruby,Female,1987-08-17,65476.0,True,Product
...,...,...,...,...,...,...
995,Henry,,2014-11-23,132483.0,False,Distribution
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product
998,Larry,Male,2013-04-20,60500.0,False,Business Dev


In [50]:
# 행 중에 최소 n개 이상 값이 존재하는 행을 추려내고 싶을 때
# 활용할 수 있는 키워드 인수는 thresh이다.

# 예를 들어 thresh = 4 라면 행에 최소 4개 이상 값이 있어야
# 보존하고 4개 미만인 경우 해당 행을 제거

employees.dropna(how = 'any', thresh = 4)
# 즉, 행에 NaN 값이 4개 미만이어야 보존한다.

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
1,Thomas,Male,1996-03-31,61933.0,True,
2,Maria,Female,NaT,130590.0,False,Finance
3,Jerry,,2005-03-04,138705.0,True,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
...,...,...,...,...,...,...
995,Henry,,2014-11-23,132483.0,False,Distribution
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product
998,Larry,Male,2013-04-20,60500.0,False,Business Dev


In [51]:
# 중복 처리하기

# 전처리 과정에서 중복 데이터에 대해서 관리를 해야 한다.

## Series의 중복 처리하기 duplicated() 메서드

# duplicated() 메서드는 Series 객체를 순회하면서 한번이라도 
# 본 적이 있는 값에 대해서 True를 반환한다.

# duplicated() 메서드는 NaN값도 고유한 값으로 간주한다.

employees["Team"].head()

0    Marketing
1          NaN
2      Finance
3      Finance
4           IT
Name: Team, dtype: object

In [52]:
employees["Team"].duplicated().head()
# 3번 인덱스의 Finance는 위에 2번 인덱스에서 본 적이
# 있으므로 True 반환

0    False
1    False
2    False
3     True
4    False
Name: Team, dtype: bool

In [53]:
# duplicated() 메서드는 keep 매개변수에 'last'를 전달하면
# 마지막에 발견된 값에 대해서 False로 반환하고 앞에 발견된
# 것에 대해선 True를 반환하게 할 수도 있다.

employees["Team"]

0          Marketing
1                NaN
2            Finance
3            Finance
4                 IT
            ...     
996          Finance
997          Product
998     Business Dev
999            Sales
1000             NaN
Name: Team, Length: 1001, dtype: object

In [54]:
employees["Team"].duplicated(keep = "last")
# Finance가 2, 3, 996 인덱스에 존재하는데,
# keep = "last"를 사용했기 때문에 996 index에 대해서만 False값이 반환된다.  

0        True
1        True
2        True
3        True
4        True
        ...  
996     False
997     False
998     False
999     False
1000    False
Name: Team, Length: 1001, dtype: bool

In [55]:
# ~ 기호는 True를 False로, False를 True로 반전
# dulplicated() 메서드의 결과를 반전시키면 첫 번째로 등장한 값만 True 반환
# 이를 가지고 bool indexing을 하면 순차적으로 돌면서 처음 발견된 고유한 값에
# 대한 결과를 얻을 수 있다.

first_one_in_team = ~employees["Team"].duplicated()
employees[first_one_in_team]
# Team 컬럼 내에서 처음 등장한 팀명들의 위치 조회

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
1,Thomas,Male,1996-03-31,61933.0,True,
2,Maria,Female,NaT,130590.0,False,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
5,Dennis,Male,1987-04-18,115163.0,False,Legal
6,Ruby,Female,1987-08-17,65476.0,True,Product
8,Angela,Female,2005-11-22,95570.0,True,Engineering
9,Frances,Female,2002-08-08,139852.0,True,Business Dev
12,Brandon,Male,1980-12-01,112807.0,True,HR
13,Gary,Male,2008-01-27,109831.0,False,Sales


In [57]:
# DataFrame 중복 처리하기 drop_duplicates() 메서드

# DataFrame 객체에 drop_duplicates() 메서드를 사용하면
# 중복을 제거할 수 있다.
# 키워드 인수를 사용하지 않으면 행의 모든 값이 일치하는 행에
# 대해서 제거한다.

# employees에는 6개의 열의 값이 모두 동일한 행이 없기 때문에
# drop_duplicates() 메서드를 호출해도 제거되는 행이 없다.
employees.drop_duplicates()

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
1,Thomas,Male,1996-03-31,61933.0,True,
2,Maria,Female,NaT,130590.0,False,Finance
3,Jerry,,2005-03-04,138705.0,True,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
...,...,...,...,...,...,...
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product
998,Larry,Male,2013-04-20,60500.0,False,Business Dev
999,Albert,Male,2012-05-15,129949.0,True,Sales


In [58]:
# drop_duplicates() 메서드에 subset 키워드 인수를 활용하여 특정
# 컬럼에 대한 중복을 제거할 수 있다.

# 아래 예제는 "Team" 컬럼에 대해서 처음 발견된 값만 남기고 이후에
# 나오는 중복은 모두 제거

employees.drop_duplicates(subset = ["Team"])

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
1,Thomas,Male,1996-03-31,61933.0,True,
2,Maria,Female,NaT,130590.0,False,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
5,Dennis,Male,1987-04-18,115163.0,False,Legal
6,Ruby,Female,1987-08-17,65476.0,True,Product
8,Angela,Female,2005-11-22,95570.0,True,Engineering
9,Frances,Female,2002-08-08,139852.0,True,Business Dev
12,Brandon,Male,1980-12-01,112807.0,True,HR
13,Gary,Male,2008-01-27,109831.0,False,Sales


In [59]:
# 마지막에 발견된 값만 남기고 이전에 나오는 중복을
# 제거하고 싶다면 keep 키워드 인수에 'last'값을 전달

employees.drop_duplicates(subset = ["Team"], keep = 'last')

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
988,Alice,Female,2004-10-05,47638.0,False,HR
989,Justin,,1991-02-10,38344.0,False,Legal
990,Robin,Female,1987-07-24,100765.0,True,IT
993,Tina,Female,1997-05-15,56450.0,True,Engineering
994,George,Male,2013-06-21,98874.0,True,Marketing
995,Henry,,2014-11-23,132483.0,False,Distribution
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product
998,Larry,Male,2013-04-20,60500.0,False,Business Dev
999,Albert,Male,2012-05-15,129949.0,True,Sales


In [60]:
# 중복이 있는 모든 값을 제거하고 싶다면
# keep 키워드 인수에 False값을 전달

# 아래 예제에서는 "First Name" 컬럼에 중복이 있는 모든 값을 제거

employees.drop_duplicates(subset = ["First Name"], keep = False)

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
5,Dennis,Male,1987-04-18,115163.0,False,Legal
8,Angela,Female,2005-11-22,95570.0,True,Engineering
33,Jean,Female,1993-12-18,119082.0,False,Business Dev
190,Carol,Female,1996-03-19,57783.0,False,Finance
291,Tammy,Female,1984-11-11,132839.0,True,IT
495,Eugene,Male,1984-05-24,81077.0,False,Sales
688,Brian,Male,2007-04-07,93901.0,True,Legal
832,Keith,Male,2003-02-12,120672.0,False,Legal
887,David,Male,2009-12-05,92242.0,False,Legal


In [64]:
## 복수의 열을 조합하여 중복 식별

# 이름이 Douglas 이면서 동시에 성별이 Male인 사람을 조회

name_is_douglas = employees["First Name"] == "Douglas"
is_male = employees["Gender"] == "Male"
employees[name_is_douglas & is_male]

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
217,Douglas,Male,1999-09-03,83341.0,True,IT
322,Douglas,Male,2002-01-08,41428.0,False,Product
835,Douglas,Male,2007-08-04,132175.0,False,Engineering


In [65]:
# First Name과 Gender가 동시에 같은 컬럼에 대해 첫번째
# 값만 남기고 중복 제거

employees.drop_duplicates(subset= ["Gender", "Team"])

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
1,Thomas,Male,1996-03-31,61933.0,True,
2,Maria,Female,NaT,130590.0,False,Finance
3,Jerry,,2005-03-04,138705.0,True,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
5,Dennis,Male,1987-04-18,115163.0,False,Legal
6,Ruby,Female,1987-08-17,65476.0,True,Product
8,Angela,Female,2005-11-22,95570.0,True,Engineering
9,Frances,Female,2002-08-08,139852.0,True,Business Dev
10,Louise,Female,1980-08-12,63241.0,True,


In [66]:
# 텍스트 데이터 다루기

# 텍스트 데이터는 규칙이 없다.
# 현실 데이터는 잘못된 문자, 부적절한 대소문자,
# 오타, 공백 등으로 되어 있다.

# 데이터를 정리하는 과정을 랭글링(Wrangling) 또는
# 먼징(Munging)이라고 한다.

# 데이터 분석을 할 때 대부분의 시간을 데이터 랭글링에 할애

In [68]:
## 대소문자 변환과 공백 처리하기

inspections = pd.read_csv("C:/python/datas/chicago_food_inspections.csv")
inspections.Risk.value_counts()

Risk 1 (High)      107351
Risk 2 (Medium)     31845
Risk 3 (Low)        14529
All                    19
Name: Risk, dtype: int64

In [69]:
# Name 열의 값에 대소문자고 혼용되어 있고, 앞뒤로 공백이 규칙없이
# 들어가 있는 것도 확인 가능하다.

inspections["Name"]

0                 MARRIOT MARQUIS CHICAGO   
1                                JETS PIZZA 
2                                 ROOM 1520 
3                  MARRIOT MARQUIS CHICAGO  
4                              CHARTWELLS   
                         ...                
153805                           WOLCOTT'S  
153806       DUNKIN DONUTS/BASKIN-ROBBINS   
153807                             Cafe 608 
153808                          mr.daniel's 
153809                           TEMPO CAFE 
Name: Name, Length: 153810, dtype: object

In [70]:
inspections["Name"].head().values

# .values 사용해서 앤디어레이 형식으로 보여줌

array([' MARRIOT MARQUIS CHICAGO   ', ' JETS PIZZA ', '   ROOM 1520 ',
       '  MARRIOT MARQUIS CHICAGO  ', ' CHARTWELLS   '], dtype=object)

In [71]:
### Series 객체의 str 속성 활용하기

# Series 객체의 str 속성을 활용하면 강력한 문자열 처리 메서드를 제공하는
# StringMethods 객체를 활용 가능
# 문자열을 조작할 때는 이 StringMethods 객체를 통해
# 문자열에 관한 메서들 호출하는 것이 좋다.

inspections["Name"].str

<pandas.core.strings.accessor.StringMethods at 0x249e4b3f970>

In [72]:
#### 문자열의 strip 계열 메서드

# strip 계열 메서드를 사용함녀 문자열의 공백을 제거할 수 있다.

# lstrip() 메서드는 left를 의미하며 왼쪽의 연속된 공백을 제거

# rstrip() 메서드는 right를 의미하며 오른쪽의 연속된 공백을 제거

# strip() 메서드는 양쪽 끝의 연속된 공백을 제거

dessert = "  cheesecake  "
dessert.lstrip() # 왼쪽 연속된 공백 제거

'cheesecake  '

In [73]:
dessert.rstrip() # 오른쪽 연속된 공백 제거

'  cheesecake'

In [74]:
dessert.strip() # 양쪽 연속된 공백 제거

'cheesecake'

In [75]:
#### StringMethods의 strip 메서드

inspections["Name"].str.lstrip().head(3)

0    MARRIOT MARQUIS CHICAGO   
1                   JETS PIZZA 
2                    ROOM 1520 
Name: Name, dtype: object

In [76]:
inspections["Name"].str.rstrip().head(3)

0     MARRIOT MARQUIS CHICAGO
1                  JETS PIZZA
2                   ROOM 1520
Name: Name, dtype: object

In [77]:
inspections["Name"].str.strip().head(3)

0    MARRIOT MARQUIS CHICAGO
1                 JETS PIZZA
2                  ROOM 1520
Name: Name, dtype: object

In [78]:
inspections["Name"] = inspections["Name"].str.strip()
# Name 컬럼에 대해서만 strip 적용

In [79]:
inspections.columns

Index(['Name', 'Risk'], dtype='object')

In [81]:
for column in inspections.columns:
    inspections[column] = inspections[column].str.strip()

# 모든 컬럼에 대해서 동적으로 앞뒤 공백을 제거

In [82]:
#### StringMethods의 대소문자 변환 메서드

# lower() 메서드는 모든 문자를 소문자로 변환

inspections["Name"].str.lower().head()

0    marriot marquis chicago
1                 jets pizza
2                  room 1520
3    marriot marquis chicago
4                 chartwells
Name: Name, dtype: object

In [83]:
# upper() 메서드는 모든 문자를 대문자로 변환

inspections["Name"].str.upper().head()

0    MARRIOT MARQUIS CHICAGO
1                 JETS PIZZA
2                  ROOM 1520
3    MARRIOT MARQUIS CHICAGO
4                 CHARTWELLS
Name: Name, dtype: object

In [84]:
# capitalize() 메서드는 문자열의 첫번째 문자만 대문자로 표시하고
# 나머지는 소문자로 표시

inspections["Name"].str.capitalize().head()

0    Marriot marquis chicago
1                 Jets pizza
2                  Room 1520
3    Marriot marquis chicago
4                 Chartwells
Name: Name, dtype: object

In [85]:
# title() 메서드는 각 단어 마다 첫 글자를 대문자로 나머지는 소문자로 표시

inspections["Name"].str.title().head()

0    Marriot Marquis Chicago
1                 Jets Pizza
2                  Room 1520
3    Marriot Marquis Chicago
4                 Chartwells
Name: Name, dtype: object

In [86]:
#### Series.unique() 메서드

# Risk 열은 '1'과 같은 숫자와 'High' 같은 범주형 값으로 구성됨
# 또 NaN 값도 존재하며, 'All'이라는 값도 섞여 있다ㅓ.

# Series 객체의 unique() 메서드는 해당 Series의 고유한 값을 ndarray 형태로 반환

inspections["Risk"].unique()

array(['Risk 1 (High)', 'Risk 2 (Medium)', 'Risk 3 (Low)', 'All', nan],
      dtype=object)

In [87]:
# Risk의 모든 값을 일관된 형식으로 처리하기

# 결측치는 제거하고 'All' 문자열은 'Risk 4(Extreme)'으로 치환해서
# 그 목표를 달성하려 한다.

# 결측치 제거
inspections = inspections.dropna(subset = ["Risk"])

# 결측치 제거 확인
inspections["Risk"].unique()

array(['Risk 1 (High)', 'Risk 2 (Medium)', 'Risk 3 (Low)', 'All'],
      dtype=object)

In [88]:
# DataFrame replace() 메서드로 값 치환하기

# replace() 메서드는 첫 번째 인수 to_replace로 검색할 값을 지정
# 두 번째 인수 value로 변경할 값 전달

# 아래의 코드는 'All' 문자열을 'Risk 4 (Extreme)'으로 치환
inspections = inspections.replace(
    to_replace = "All", value = "Risk 4 (Extreme)"
)

In [89]:
inspections["Risk"].unique()

array(['Risk 1 (High)', 'Risk 2 (Medium)', 'Risk 3 (Low)',
       'Risk 4 (Extreme)'], dtype=object)

In [98]:
#### 문자열 인덱싱

# StringMethods 객체에 인덱싱을 통해 하나의 문자를 추출 가능

# 아래의 코드는 인덱싱을 통해 숫자 값만 가져오는 방법

inspections["Risk"].str[5].astype("i").head()   # head()와 tail() 모두 기본값이 5개
                                                # 라서 결과도 5개 나옴 (데이터 확인 메서드)

# StringMethods                 datas에 chicago_food__inspections 열면 
      # Risk 1 (High)            str[5]는 모두 숫자형이니까 astype("i")
      # Risk 2 (Medium) 
      # Risk 3 (Low) 
      # Risk 4 (Extreme)  
      #  ..........

0    1
1    2
2    3
3    1
4    1
Name: Risk, dtype: int32

In [96]:
# str[5]는 Risk열 value str의 5번째 인덱스에 있는 데이터를 불러온다.

In [95]:
# StringMethods 객체에 슬라이싱을 통해 부분 문자열을 추출 가능

# 아래의 코드는 슬라이싱을 통해 'Low', 'Medium', 'High', 'Extreme' 값만 가져오는 방법

inspections["Risk"].str[8:-1].astype("category").head()

# StringMethods                 datas에 chicago_food__inspections 열면 
      # Risk 1 (High)       str[5\8:-1]은 괄호 안 문자열이라 안바꿔도 되기는 하지만 astype("")
      # Risk 2 (Medium)     저장용량을 줄여야하고, 값도 High, Medium, Low, Extreme
      # Risk 3 (Low)         4가지 범주형(카테고리)라서 astype("category")라고 변경해준다.
      # Risk 4 (Extreme)  
      #  ..........

0      High
1    Medium
2       Low
3      High
4      High
Name: Risk, dtype: category
Categories (4, object): ['Extreme', 'High', 'Low', 'Medium']

# contains() 메서드

In [99]:
#### 일치하는 문자열 필터링하기 contains() 메서드

# 하위 문자열이 포함되는지 확인할 때 사용하는 메서드로 contains()가 있다.
# 문자열 비교에 대소문자를 구분하기 때문에 이와 관계없이 일치하는 문자열을
# 찾고자 할 때는 대소문자 표기법을 통일

has_pizza = inspections["Name"].str.lower().str.contains("pizza")
# inspections 원본 데이터의 대소문자가 변경되지 않음
inspections[has_pizza]

Unnamed: 0,Name,Risk
1,JETS PIZZA,Risk 2 (Medium)
19,NANCY'S HOME OF STUFFED PIZZA,Risk 1 (High)
27,"NARY'S GRILL & PIZZA ,INC.",Risk 1 (High)
29,NARYS GRILL & PIZZA,Risk 1 (High)
68,COLUTAS PIZZA,Risk 1 (High)
...,...,...
153756,ANGELO'S STUFFED PIZZA CORP,Risk 1 (High)
153764,COCHIAROS PIZZA #2,Risk 1 (High)
153772,FERNANDO'S MEXICAN GRILL & PIZZA,Risk 1 (High)
153788,REGGIO'S PIZZA EXPRESS,Risk 1 (High)


# startwith() 메서드

In [100]:
#### 특정 문자열로 시작되는 문자열 추출 startswith() 메서드

# 특정 문자열로 시작하는지 확인할 때 쓰는 메서드가 startswith() 메서드

start_with_tacos = (
    inspections["Name"].str.lower().str.startswith("tacos")
)
# inspections 원본 데이터의 대소문자가 변경되지 않음
inspections[start_with_tacos]

Unnamed: 0,Name,Risk
69,TACOS NIETOS,Risk 1 (High)
556,TACOS EL TIO 2 INC.,Risk 1 (High)
675,TACOS DON GABINO,Risk 1 (High)
958,TACOS EL TIO 2 INC.,Risk 1 (High)
1036,TACOS EL TIO 2 INC.,Risk 1 (High)
...,...,...
143587,TACOS DE LUNA,Risk 1 (High)
144026,TACOS GARCIA,Risk 1 (High)
146174,Tacos Place's 1,Risk 1 (High)
147810,TACOS MARIO'S LIMITED,Risk 1 (High)


# endwith() 메서드

In [101]:
#### 특정 문자열로 끝나는 문자열 추출 endswith() 메서드

# 특정 문자열로 끝나는지 확일할 때 쓰는 메서드가 endswith()

end_with_tacos = (
    inspections["Name"].str.lower().str.endswith("tacos")
)
# inspections 원본 데이터의 대소문자가 변경되지 않음
inspections[end_with_tacos]

Unnamed: 0,Name,Risk
382,LAZO'S TACOS,Risk 1 (High)
569,LAZO'S TACOS,Risk 1 (High)
2652,FLYING TACOS,Risk 3 (Low)
3250,JONY'S TACOS,Risk 1 (High)
3812,PACO'S TACOS,Risk 1 (High)
...,...,...
151121,REYES TACOS,Risk 1 (High)
151318,EL MACHO TACOS,Risk 1 (High)
151801,EL MACHO TACOS,Risk 1 (High)
153087,RAYMOND'S TACOS,Risk 1 (High)


# DataFrame 다중 인덱스

In [102]:
# DataFrame 다중 인덱스 

## column 다중 인덱스

# row이나 column에 여러 계층을 가지는 인덱스 즉, 다중 인덱스(multi-index)를
# 설정할 수 있다. 

# DataFrame을 생성할 때 columns 인수에 아래 예제처럼 리스트의 리스트(행렬) 형태로
# 인덱스를 넣으면 다중 열 인딕스를 가지게 된다.

np.random.seed(0)
df3 = pd.DataFrame(np.round(np.random.randn(5, 4), 2),
                   columns = [["A", "A", "B", "B"],
                              ["C1", "C2", "C1", "C2"]])
df3

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [103]:
### column 다중 인덱스 이름 붙이기

# column 인덱스들의 이름 지정은 columns 객체의 names 속성에 리스트를 넣어서 지정

df3.columns.names = ["Cidx1", "Cidx2"]
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


#  row 다중 인덱스

In [104]:
## row 다중 인덱스

# index 인수에 리스트의 리스트(행렬) 형태로 인덱스를 넣으면
# 다중 row 인덱스를 가진다.
# row 인덱스들의 이름 지정은 index 객체의 names 속성에 리스트를 넣어서 지정
np.random.seed(0)
df4 = pd.DataFrame(np.round(np.random.randn(6, 4), 2),
                   columns = [["A", "A", "B", "B"],
                              ["C", "D", "C", "D"]],
                  index = [["M", "M", "M", "F", "F", "F"],
                          ["id_" + str(i+1) for i in range(3)] * 2])
df4.columns.names = ["Cidx1", "Cidx2"]
df4.index.names = ["Ridx1", "Ridx2"]
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [105]:
# DataFrame row 인덱스와 column 인덱스 교환

# stack() 메서드나 unstack() 메서드를 쓰면
# column 인덱스를 row 인덱스로 바꾸거나 반대로
# row 인덱스를 column 인덱스로 바꿀 수 있다.

# stack() 메서드 : column 인덱스 → row 인덱스로 변환

# DataFrame.stack(level = -1, dropna = True)


# unstack() 메서드 : row 인덱스 → column 인덱스로 변환

# DataFrame.unstack(level = -1, fill_value = None)

# stack 메서드

In [106]:
## stack 메서드

# stack 메서드를 실행하면 column 인덱스가 
# 반시계 방향으로 90도 회전한 것과 비슷한 모양

df4.stack("Cidx1")

# Cidx1 (자리가) -1이다.

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,1.76,0.4
M,id_1,B,0.98,2.24
M,id_2,A,1.87,-0.98
M,id_2,B,0.95,-0.15
M,id_3,A,-0.1,0.41
M,id_3,B,0.14,1.45
F,id_1,A,0.76,0.12
F,id_1,B,0.44,0.33
F,id_2,A,1.49,-0.21
F,id_2,B,0.31,-0.85


In [107]:
## unstack() 메서드

# unstack 메서드를 실행하면 row 인덱스가 
# 시계 방향으로 90도 회전한 것과 비슷

df4.unstack("Ridx2")

Cidx1,A,A,A,A,A,A,B,B,B,B,B,B
Cidx2,C,C,C,D,D,D,C,C,C,D,D,D
Ridx2,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3
Ridx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
F,0.76,1.49,-2.55,0.12,-0.21,0.65,0.44,0.31,0.86,0.33,-0.85,-0.74
M,1.76,1.87,-0.1,0.4,-0.98,0.41,0.98,0.95,0.14,2.24,-0.15,1.45


In [109]:
## 인덱스 지정 방법

# 인덱스를 지정할 때는 문자열 이름과 순서를 표시하는 숫자 인덱스를
# 모두 사용 가능

df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [110]:
df4.stack("Cidx1")

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,1.76,0.4
M,id_1,B,0.98,2.24
M,id_2,A,1.87,-0.98
M,id_2,B,0.95,-0.15
M,id_3,A,-0.1,0.41
M,id_3,B,0.14,1.45
F,id_1,A,0.76,0.12
F,id_1,B,0.44,0.33
F,id_2,A,1.49,-0.21
F,id_2,B,0.31,-0.85


In [111]:
df4.stack(0) # 동일한 결과

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,1.76,0.4
M,id_1,B,0.98,2.24
M,id_2,A,1.87,-0.98
M,id_2,B,0.95,-0.15
M,id_3,A,-0.1,0.41
M,id_3,B,0.14,1.45
F,id_1,A,0.76,0.12
F,id_1,B,0.44,0.33
F,id_2,A,1.49,-0.21
F,id_2,B,0.31,-0.85


In [112]:
## DataFrame 다중 인덱스가 있는 경우의 인덱싱

# DataFrame이 다중 인덱스를 가지는 경우에는 인덱스 값이 
# 하나의 label이나 숫자가 아니라 ()로 둘러싸인 튜플이 되어야 한다.

df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [113]:
df3[("B", "C1")]

0    0.98
1    0.95
2    0.14
3    0.44
4    0.31
Name: (B, C1), dtype: float64

In [114]:
# loc 인덱서를 사용하는 경우에도 마찬가지로 튜플 사용해서 인덱싱

df3.loc[0, ("B", "C1")]

0.98

In [115]:
df3.loc[0, ("B", "C1")] = 100
df3 # 해당 인덱스 자리에 100 입력

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,100.0,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [116]:
# 단, iloc 인덱서를 사용하는 경우에는 튜플 형태의 다중인덱스를 사용할 수 없다.

df3.iloc[0, 2]

100.0

In [117]:
# 만약 하나의 레벨 값만 넣으면 다중 인덱스 중에서 가장 상위의 값을
# 지정한 것으로 반환

df3["A"]

Cidx2,C1,C2
0,1.76,0.4
1,1.87,-0.98
2,-0.1,0.41
3,0.76,0.12
4,1.49,-0.21


In [118]:
df4 # 기존 DataFrame

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [119]:
df4.loc[("M", "id_1"), ("A", "C")]

1.76

In [120]:
df4.loc[:, ("A", "C")]

Ridx1  Ridx2
M      id_1     1.76
       id_2     1.87
       id_3    -0.10
F      id_1     0.76
       id_2     1.49
       id_3    -2.55
Name: (A, C), dtype: float64

In [121]:
df4.loc[("M", "id_1"), :]

Cidx1  Cidx2
A      C        1.76
       D        0.40
B      C        0.98
       D        2.24
Name: (M, id_1), dtype: float64

In [122]:
df4.loc[("All", "All"), :] = df4.sum()
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [123]:
# loc을 사용하는 경우에도 튜플이 아닌 하나의 값만 쓰면
# 가장 상위의 인덱스를 지정한 것과 같다.
df4.loc["M"]

Cidx1,A,A,B,B
Cidx2,C,D,C,D
Ridx2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
id_1,1.76,0.4,0.98,2.24
id_2,1.87,-0.98,0.95,-0.15
id_3,-0.1,0.41,0.14,1.45


In [124]:
# 특정 레벨의 모든 인덱스 값을 인덱싱할 때는 슬라이스를 사용한다.
# 다만 다중 인덱스의 튜플 내에서는 콜론(:), 즉 슬라이스 기호를
# 사용할 수 없고 대신 slice(None) 값을 사용해야 한다.

df4.loc[("M", slice(None)), :]

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45


In [125]:
df4.loc[(slice(None), "id_1"), :]

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
F,id_1,0.76,0.12,0.44,0.33


In [126]:
## DataFrame 다중 인덱스의 인덱스 순서 교환

# 다중 인덱스의 인덱스 순서를 바꾸고 싶은면 swaplevel 명령을 사용
# ex) df.swaplevel(i, j, axis)
# i와 j는 교환하고자 하는 인덱스 label(혹은 인덱스 번호)이고 
# axis는 0일 때 row 인덱스, 1일 때 column 인덱스를 뜻함
# default는 행 인덱스

df5 = df4.swaplevel("Ridx1", "Ridx2")
df5

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
id_1,M,1.76,0.4,0.98,2.24
id_2,M,1.87,-0.98,0.95,-0.15
id_3,M,-0.1,0.41,0.14,1.45
id_1,F,0.76,0.12,0.44,0.33
id_2,F,1.49,-0.21,0.31,-0.85
id_3,F,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [127]:
df6 = df4.swaplevel("Cidx1", "Cidx2", 1)
df6

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [128]:
## DataFrame 다중 인덱스가 있는 경우의 정렬

# 다중 인덱스가 있는 DataFrame을 sort_index로 정렬할 때는 
# level 인수를 사용하여 어떤 인덱스를 기준으로 정렬하는지 알려주어야 한다.

df5.sort_index(level = 0)

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
All,All,3.23,0.39,3.68,2.28
id_1,F,0.76,0.12,0.44,0.33
id_1,M,1.76,0.4,0.98,2.24
id_2,F,1.49,-0.21,0.31,-0.85
id_2,M,1.87,-0.98,0.95,-0.15
id_3,F,-2.55,0.65,0.86,-0.74
id_3,M,-0.1,0.41,0.14,1.45


In [129]:
df6.sort_index(axis = 1, level = 0)

Unnamed: 0_level_0,Cidx2,C,C,D,D
Unnamed: 0_level_1,Cidx1,A,B,A,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.98,0.4,2.24
M,id_2,1.87,0.95,-0.98,-0.15
M,id_3,-0.1,0.14,0.41,1.45
F,id_1,0.76,0.44,0.12,0.33
F,id_2,1.49,0.31,-0.21,-0.85
F,id_3,-2.55,0.86,0.65,-0.74
All,All,3.23,3.68,0.39,2.28


# DataFrame 합성

In [130]:
# DataFrame 합성

# pandas는 두 개 이상의 DataFrame을 하나로 합치는 데이터 병합(merge)이나
# 연결(concatenate)을 지원한다.

# DataFrame.join(other, on = None, how = 'left', lsuffix = '', rsuffix = '',
#                sort = False, validate = None)

# DataFrame.merge(right, how = 'inner', on = None, left_on = None,
#                 right_on = None, left_index = False, right_index = False,
#                 sort = False, suffixes = ('_x', '_y'), copy = True,
#                 indicator = False, validate = None)

In [131]:
## DataFrame merge()

# merge 함수는 두 데이터 프레임의 공통 column 혹은 인덱스를 기준으로 두 개의
# 테이블을 합친다. 이 때 기준이 되는 column, row의 데이터를 key(키)라고 한다.

df1 = pd.DataFrame({
    '고객번호' : [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름' : ['둘리', '도우너', '또치', '길동', '희동',
            '마이콜', '영희']
}, columns = ['고객번호', '이름']
)
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [132]:
df2 = pd.DataFrame({
    '고객번호' : [1001, 1001, 1005, 1006, 1008, 1001],
    '금액' : [10_000, 20_000, 15_000, 5_000, 100_000, 30_000]
}, columns = ['고객번호', '금액']
)
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [133]:
### inner join

# merge 함수로 위의 두 DataFrame df1, df2를 합치면 공통 column인 고객번호
# column을 기준으로 데이터를 찾아서 합친다.

# 이 때 기본적으로는 양쪽 DataFrame에 모두 키가 존재하는 데이터만 보여주는 
# inner join 방식을 사용한다.

pd.merge(df1, df2)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [134]:
### outer join

# outer join 방식은 키 값이 한쪽에만 있어도 데이터를 보여준다.
pd.merge(df1, df2, how = 'outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [135]:
### left & right

# left는 첫 번째 인수를 기준으로, right는 두번째 인수 기준으로
# DataFrame의 키 값을 모두 보여준다.

pd.merge(df1, df2, how = 'left')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [136]:
pd.merge(df1, df2, how = 'right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


In [137]:
# 만약 테이블에 키 값이 같은 데이터가 여러개 있는 경우에는 있을
# 수 있는 모든 경우의 수를 따져서 조합을 만들어 낸다.

df1 = pd.DataFrame({
    '품종' : ['setosa', 'setosa', 'virginica', 'virginica'],
    '꽃잎길이' : [1.4, 1.3, 1.5, 1.3]},
    columns = ['품종', '꽃잎길이'])
df1

Unnamed: 0,품종,꽃잎길이
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,virginica,1.3


In [138]:
df2 = pd.DataFrame({
    '품종' : ['setosa', 'virginica', 'virginica', 'versicolor'],
    '꽃잎너비' : [0.4, 0.3, 0.5, 0.3]},
    columns = ['품종', '꽃잎너비'])
df2

Unnamed: 0,품종,꽃잎너비
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,versicolor,0.3


In [139]:
pd.merge(df1, df2)

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,virginica,1.3,0.3
5,virginica,1.3,0.5


In [140]:
# DataFrame 그룹 분석

# 만약 키가 지정하는 조건에 맞는 데이터가 하나 이상이라서 데이터 그룹을 이루는
# 경우에는 그룹의 특성을 보여주는 그룹분석(group anlaysis)을 해야 한다.

# 그룹분석은 키에 의해서 결정되는 데이터가 여러개가 있을 경우 미리 지정한 
# 연산을 통해 그 그룹 데이터의 대표값을 계산한다.
# pandas에서는 groupby 메서드를 사용하여 다음처럼 그룹분석을 한다.

# 1. 분석하고자 하는 Series나 DataFrame에 groupby 메서드를 호출하여
#    그룹화를 한다.
# 2. 그룹 객체에 대해 그룹연산을 수행한다.

In [141]:
## groupby()

# groupby() 메서드는 데이터를 그룹 별로 분류하는 역할
# groupby() 메서드의 인수로는 다음과 같은 값을 사용

# column 또는 column의 리스트
# row 인덱스
# 연산 결과로 그룹 데이터를 나타내는 Groupby 클래스 객체를 반환한다.
# 이 객체에는 그룹별로 연산을 할 수 있는 그룹연산 메서드가 있다.

In [142]:
### 그룹 연산 메서드

# 자주 사용하는 그룹연산 메서드

# size(), count() : 그룹 데이터의 개수
# mean(), median(), min(), max() : 그룹 데이터의 평균, 중앙값, 최소, 최대
# sum(), prod(), std(), var(), quantile() : 그룹 데이터의 합계, 곱, 표준편차, 
#                                           분산, 사분위수
# first(), last() : 그룹 데이터 중 가장 첫번째 데이터와 가장 나중 데이터

In [143]:
np.random.seed(0)
df2 = pd.DataFrame({
    'key1' : ['A', 'A', 'B', 'B', 'A'],
    'key2' : ['one', 'two', 'one', 'two', 'one'],
    'data1' : [1, 2, 3, 4, 5],
    'data2' : [10, 20, 30, 40, 50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [144]:
# groupby 명령을 사용하여 그룹 A와 그룹 B로 구분한 그룹 데이터를 만든다.
groups = df2.groupby(df2.key1)
groups

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000249EDFA3AC0>

In [145]:
# 이 Groupby 클래스 객체에는 각 그룹 데이터의 인덱스를 저장한 groups 속성이 있다.
groups.groups

{'A': [0, 1, 4], 'B': [2, 3]}

In [146]:
#### sum()

# A 그룹과 B 그룹 데이터의 합계를 구하기 위해 sum() 그룹연산
groups.sum()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


In [147]:
# Groupby 클래스 객체를 명시적으로 얻을 필요가 없다면 groupby 메서드와
# 그룹연산 메서드를 연속으로 호출

# 아래 예제는 column data1에 대해서만 그룹연산을 하는 코드

df2.data1.groupby(df2.key1).sum()

key1
A    8
B    7
Name: data1, dtype: int64

In [148]:
# 데이터를 그룹으로 나눈 Groupby 클래스 객체 또는 그룹분석한 결과에서
# data1만 뽑아도 된다.

df2.groupby(df2.key1).sum()['data1']

key1
A    8
B    7
Name: data1, dtype: int64

In [149]:
# 복합 키(key1, key2) 값에 따른 data1의 합계 계싼
# 분석하고자 하는 키가 복수이면 리스트 사용

df2.data1.groupby([df2.key1, df2.key2]).sum()

key1  key2
A     one     6
      two     2
B     one     3
      two     4
Name: data1, dtype: int64

In [150]:
# DataFrame 시계열 자료 다루기 DatetimeIndex

# 시계열 자료는 인덱스가 날짜 혹은 시간인 데이터를 말한다.
# pandas에서 시계열 자료를 생성하려면 인덱스를 DatetimeIndex 자료형으로 생성해야 함

# DatetimeIndex는 특정한 순간에 기록된 타임스탬프(timestamp) 형식의
# 시계열 자료를 다루기 위한 인덱스
# 타임스탬프 인덱스의 label값이 반드시 일정한 간격일 필요는 없다.

# DatetimeIndex 인덱스는 다음과 같은 보조 메서드를 사용하여 생성한다.
# pd.to_datetime 메서드
# pd.date_range 메서드

In [151]:
## pd.to_datetime

# pd.to_datetime 메서드를 쓰면 날짜/시간을 나타내는 문자열을 자동으로
# datetime 자료형으로 바꾼 후 DatetimeIndex 자료형 인덱스를 생성

date_str = ["2018, 1, 1", "2018, 1, 4", "2018, 1, 5", "2018, 1, 6"]
idx = pd.to_datetime(date_str)
idx

DatetimeIndex(['2018-01-01', '2018-01-04', '2018-01-05', '2018-01-06'], dtype='datetime64[ns]', freq=None)

In [152]:
# 위와 같이 만들어진 인덱스를 사용하여 Series나 DataFrame을 생성하면 됨

np.random.seed(0)
s = pd.Series(np.random.randn(4), index = idx)
s

2018-01-01    1.764052
2018-01-04    0.400157
2018-01-05    0.978738
2018-01-06    2.240893
dtype: float64

In [None]:
## pd.date_range

# pd.date_range 메서드를 쓰면 모든 날짜/시간을 일일이 입력할 필요없이
# 시작일과 종료일 또는 시작일과 기간을 입력하면 범위 내의 인덱스를 생성해 준다.

pd.date_range('2018-4-1', '2018-4-30')

In [153]:
pd.date_range(start = '2018-4-1', periods = 30)

DatetimeIndex(['2018-04-01', '2018-04-02', '2018-04-03', '2018-04-04',
               '2018-04-05', '2018-04-06', '2018-04-07', '2018-04-08',
               '2018-04-09', '2018-04-10', '2018-04-11', '2018-04-12',
               '2018-04-13', '2018-04-14', '2018-04-15', '2018-04-16',
               '2018-04-17', '2018-04-18', '2018-04-19', '2018-04-20',
               '2018-04-21', '2018-04-22', '2018-04-23', '2018-04-24',
               '2018-04-25', '2018-04-26', '2018-04-27', '2018-04-28',
               '2018-04-29', '2018-04-30'],
              dtype='datetime64[ns]', freq='D')

In [154]:
### pd.date_range의 freq 키워드 인수

# freq 인수로 특정한 날짜만 생성되도록 할 수 있다.

# s : 초

# T : 분

# H : 시간

# D : 일(day)

# B : 주말이 아닌 평일

# W : 주(일요일)

# W-MON : 주(월요일)

# M : 각 달(month)의 마지막 날

# MS : 각 달의 첫날

# BM : 주말이 아닌 평일 중에서 각 달의 마지막 날

# BMS : 주말이 아닌 평일 중에서 각 달의 첫날

# WOM-2THU : 각 달의 두번째 목요일

# Q-JAN : 각 분기의 첫달의 마지막 날

# Q-DEC : 각 분기의 마지막 달의 마지막 날

In [155]:
pd.date_range('2018-4-1', '2018-4-30', freq = "B") # 주말을 제외한 평일만 생성

DatetimeIndex(['2018-04-02', '2018-04-03', '2018-04-04', '2018-04-05',
               '2018-04-06', '2018-04-09', '2018-04-10', '2018-04-11',
               '2018-04-12', '2018-04-13', '2018-04-16', '2018-04-17',
               '2018-04-18', '2018-04-19', '2018-04-20', '2018-04-23',
               '2018-04-24', '2018-04-25', '2018-04-26', '2018-04-27',
               '2018-04-30'],
              dtype='datetime64[ns]', freq='B')

In [156]:
pd.date_range('2018-4-1', '2018-4-30', freq = "W") # 일요일만 생성

DatetimeIndex(['2018-04-01', '2018-04-08', '2018-04-15', '2018-04-22',
               '2018-04-29'],
              dtype='datetime64[ns]', freq='W-SUN')

In [157]:
pd.date_range('2018-4-1', '2018-4-30', freq = "W-MON") # 월요일만 생성

DatetimeIndex(['2018-04-02', '2018-04-09', '2018-04-16', '2018-04-23',
               '2018-04-30'],
              dtype='datetime64[ns]', freq='W-MON')

In [158]:
pd.date_range('2018-4-1', '2018-4-30', freq = "M") # 각 달(month)의 첫날

DatetimeIndex(['2018-04-30'], dtype='datetime64[ns]', freq='M')

In [159]:
pd.date_range('2018-4-1', '2018-4-30', freq = "MS") # 각 달(month)의 마지막 날

DatetimeIndex(['2018-04-01'], dtype='datetime64[ns]', freq='MS')

In [160]:
pd.date_range('2018-4-1', '2018-4-30', freq = "BMS")
# 주말이 아닌 평일 중에서 각 달의 첫날

DatetimeIndex(['2018-04-02'], dtype='datetime64[ns]', freq='BMS')

In [161]:
pd.date_range('2018-4-1', '2018-4-30', freq = "BM")
# 주말이 아닌 평일 중에서 각 달의 마지막 날

DatetimeIndex(['2018-04-30'], dtype='datetime64[ns]', freq='BM')

In [162]:
pd.date_range('2018-4-1', '2018-4-30', freq = "WOM-2THU")
# 각 달의 두번째 목요일

DatetimeIndex(['2018-04-12'], dtype='datetime64[ns]', freq='WOM-2THU')

In [163]:
## shift 연산

np.random.seed(0)
ts = pd.Series(np.random.randn(4), index = pd.date_range(
    "2018-1-1", periods = 4, freq = "M"))
ts

2018-01-31    1.764052
2018-02-28    0.400157
2018-03-31    0.978738
2018-04-30    2.240893
Freq: M, dtype: float64

In [164]:
# shift 연산을 사용하면 인덱스는 그대로 두고 데이터만 이동할 수 있다.

ts.shift(1)

2018-01-31         NaN
2018-02-28    1.764052
2018-03-31    0.400157
2018-04-30    0.978738
Freq: M, dtype: float64

In [165]:
ts.shift(-1)

2018-01-31    0.400157
2018-02-28    0.978738
2018-03-31    2.240893
2018-04-30         NaN
Freq: M, dtype: float64

In [166]:
ts.shift(1, freq = "M")

2018-02-28    1.764052
2018-03-31    0.400157
2018-04-30    0.978738
2018-05-31    2.240893
Freq: M, dtype: float64

In [167]:
ts.shift(1, freq = "W")

2018-02-04    1.764052
2018-03-04    0.400157
2018-04-01    0.978738
2018-05-06    2.240893
dtype: float64

In [168]:
## dt 속성과 메서드

s = pd.Series(pd.date_range("2020-12-25", periods = 100, freq = 'D'))
s

0    2020-12-25
1    2020-12-26
2    2020-12-27
3    2020-12-28
4    2020-12-29
        ...    
95   2021-03-30
96   2021-03-31
97   2021-04-01
98   2021-04-02
99   2021-04-03
Length: 100, dtype: datetime64[ns]

In [169]:
# datetime 자료형 Series에는 dt 접근자가 있어 datetime 자료형이 가진
# 몇 가지 유용한 속성과 메서드를 사용할 수 있다.

# 예를 들어 year, month, day, weekday의 속성을 이용하면
# 년, 월, 일, 요일 정보를 빼낼 수 있다.

In [170]:
### dt.year

s.dt.year # 년 정보 추출

0     2020
1     2020
2     2020
3     2020
4     2020
      ... 
95    2021
96    2021
97    2021
98    2021
99    2021
Length: 100, dtype: int64

In [171]:
### dt.month

s.dt.month # 월 정보 추출

0     12
1     12
2     12
3     12
4     12
      ..
95     3
96     3
97     4
98     4
99     4
Length: 100, dtype: int64

In [172]:
### dt.day

s.dt.day # 일 정보 추출

0     25
1     26
2     27
3     28
4     29
      ..
95    30
96    31
97     1
98     2
99     3
Length: 100, dtype: int64

In [173]:
### dt.weekday

s.dt.weekday # 요일 정보 추출

0     4
1     5
2     6
3     0
4     1
     ..
95    1
96    2
97    3
98    4
99    5
Length: 100, dtype: int64

In [175]:
### strftime 메서드

# strftime 메서드를 이용하여 문자열을 만드는 것도 가능

s.dt.strftime("%Y년 %m월 %d일")  # 대소문자 구분하기

#https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior

0     2020년 12월 25일
1     2020년 12월 26일
2     2020년 12월 27일
3     2020년 12월 28일
4     2020년 12월 29일
          ...      
95    2021년 03월 30일
96    2021년 03월 31일
97    2021년 04월 01일
98    2021년 04월 02일
99    2021년 04월 03일
Length: 100, dtype: object

In [177]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [180]:
titanic = titanic[titanic["age"].notnull()]
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,False,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,True,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,True,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,True,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,False,False
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,False,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,True,True
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,True,True


In [183]:
titanic["adult_female"] = (titanic["sex"] == "female") & (titanic["age"] >= 20)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult_female
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,False,False,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,True,False,True
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,True,True,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,True,False,True
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,False,False,True
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,False,True,False
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,True,True,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,True,True,False
