# Pandas

- Series data: 하나의 열 또는 행
- Data frame: 전체 테이블

## Series data

In [1]:
import pandas as pd

student = ['Gildong Hong', 'Jane Austin', 'Alia Bhatt']
pd.Series(student)

0    Gildong Hong
1     Jane Austin
2      Alia Bhatt
dtype: object

In [2]:
numbers = [*range(1, 4)] # [1, 2, 3]
numbers_s = pd.Series(numbers)
print(numbers_s)
print(numbers_s.index) # index is created implicitly

0    1
1    2
2    3
dtype: int64
RangeIndex(start=0, stop=3, step=1)


In [3]:
print(student.index)
print(student)

student_s = pd.Series(student)
student_s.index

<built-in method index of list object at 0x0000019383E0DA40>
['Gildong Hong', 'Jane Austin', 'Alia Bhatt']


RangeIndex(start=0, stop=3, step=1)

In [4]:
student_no_name = {'10001': 'Gildong Hong',
                   '10002' : 'Jane Austin',
                   '10003' : 'Alia Bhatt',
                   '10004': 'Tony Leung'}
student_info = pd.Series(student_no_name)
student_info # explicit index specification

10001    Gildong Hong
10002     Jane Austin
10003      Alia Bhatt
10004      Tony Leung
dtype: object

In [5]:
student_no_name2 = { 10001:'Gildong Hong',
                   10002:'Jane Austin',
                   10003:'Alia Bhatt',
                   10004:'Tony Leung'}
student_info2 = pd.Series(student_no_name2)
student_info2 # 정수형도 가능..은 함.

10001    Gildong Hong
10002     Jane Austin
10003      Alia Bhatt
10004      Tony Leung
dtype: object

In [6]:
print(student_info.index)
print(student_info2.index)

Index(['10001', '10002', '10003', '10004'], dtype='object')
Int64Index([10001, 10002, 10003, 10004], dtype='int64')


계산을 할 거라면 index를 정수형으로 쓰는 게 좋지만,  
계산을 하지 않을 거라면 텍스트형이 좋음.  
앞에 0이 오는 경우 텍스트형은 보존이 되지만, 정수는 0이 날아감.

## Series data + Index

In [7]:
# 데이터의 개수와 인덱스의 개수가 맞지 않으면 오류남
student = pd.Series(['Gildong Hong', 'Jane Austin', 'Alia Bhat'],
                    index=['10011', '10012', '10013'])
student.index

Index(['10011', '10012', '10013'], dtype='object')

In [8]:
# student = pd.Series(['Gildong Hong', 'Jane Austin', 'Alia Bhat', 'ADDITIONAL NAME'],
#                    index=['10011', '10012', '10013'])
# student.index # items != index mismatch => ERROR

In [9]:
student_no_name = {'10001':'Gildong Hong',
                   '10002':'Jane Austin',
                   '10003':'Alia Bhatt',
                   '10004':'Tony Leung'}
student_info = pd.Series(student_no_name, index=['10001', '10002', '10005'])
student_info # student_no_name 기준으로 인덱스 지정

10001    Gildong Hong
10002     Jane Austin
10005             NaN
dtype: object

## Series data 다루기

In [10]:
student_info = pd.Series(student_no_name)

print(student_info.iloc[1]) # 0, 1, 2, ...인덱스
print(student_info[1]) 
print(student_info.loc['10004']) # 명시적으로 지정한 인덱스
print(student_info['10004'])

Jane Austin
Jane Austin
Tony Leung
Tony Leung


iloc, loc 생략해도 잘 작동은 함. **근데 그러지 말라.**

In [11]:
student_no_name2 = {1 : 'Apple', 2: 'Banana', 3: 'Cheese'}
student_info2 = pd.Series(student_no_name2)

student_info2[1] # 뭘까요? Banana? Apple? -- 헷갈림.

'Apple'

In [12]:
# student_list = student_info.append(student_info2)
# deprectated...

# concat: 3개 이상도 가능
student_list = pd.concat([student_info, student_info2])
student_list

10001    Gildong Hong
10002     Jane Austin
10003      Alia Bhatt
10004      Tony Leung
1               Apple
2              Banana
3              Cheese
dtype: object

# Data Frame

In [13]:
students_1 = pd.Series({'이름':'홍길동', '전화번호':'010-1234-1234', '포인트':90})
students_2 = pd.Series({'이름':'허춘삼', '전화번호':'010-1674-1237', '포인트':60})
students_3 = pd.Series({'이름':'고길동', '전화번호':'010-9764-1234', '포인트':22.5})

df = pd.DataFrame([students_1, students_2, students_3])
display(df)

# 그냥 여기서 바로 dict 넣어도 작동함.
df = pd.DataFrame([students_1, students_2, students_3], index=['10001', '10002', '10003'])
display(df)

Unnamed: 0,이름,전화번호,포인트
0,홍길동,010-1234-1234,90.0
1,허춘삼,010-1674-1237,60.0
2,고길동,010-9764-1234,22.5


Unnamed: 0,이름,전화번호,포인트
10001,홍길동,010-1234-1234,90.0
10002,허춘삼,010-1674-1237,60.0
10003,고길동,010-9764-1234,22.5


In [14]:
print(df.index)
print(type(df))

Index(['10001', '10002', '10003'], dtype='object')
<class 'pandas.core.frame.DataFrame'>


In [15]:
print(df.iloc[1]) # => 시리즈 데이터
print()
print(df.loc['10001']) # => 마찬가지로 시리즈 데이터

이름                허춘삼
전화번호    010-1674-1237
포인트              60.0
Name: 10002, dtype: object

이름                홍길동
전화번호    010-1234-1234
포인트              90.0
Name: 10001, dtype: object


In [16]:
# df['10001'] # ERROR!!!! 이건 column을 선택하는 거임.

In [17]:
df['이름'] # iloc, loc 없으면 column 선택

10001    홍길동
10002    허춘삼
10003    고길동
Name: 이름, dtype: object

In [18]:
display(df.iloc[:, :]) # 행-열 (row, column)
display(df.iloc[:2, :2])

Unnamed: 0,이름,전화번호,포인트
10001,홍길동,010-1234-1234,90.0
10002,허춘삼,010-1674-1237,60.0
10003,고길동,010-9764-1234,22.5


Unnamed: 0,이름,전화번호
10001,홍길동,010-1234-1234
10002,허춘삼,010-1674-1237


In [19]:
df['포인트']              # => Series

10001    90.0
10002    60.0
10003    22.5
Name: 포인트, dtype: float64

In [20]:
display(df[    ['이름', '포인트']      ]) # 2중 대괄호 사용 => DataFrame
display(df.loc[:, ['이름', '포인트']]) # OK

Unnamed: 0,이름,포인트
10001,홍길동,90.0
10002,허춘삼,60.0
10003,고길동,22.5


Unnamed: 0,이름,포인트
10001,홍길동,90.0
10002,허춘삼,60.0
10003,고길동,22.5


In [21]:
# df.loc[0:2, ['이름', '포인트']] # ERROR (loc => 암시적 인덱스가 올 수 없음.)

In [22]:
display(df.loc[['10001','10002'], ['이름', '포인트']]) # OK

print(df['이름'] == '홍길동')
df[     df['이름'] == '홍길동'     ]  # 위 결과를 다시 df로 전달해서 뽑아내기. Boolean Indexing?
# SELECT * FROM df WHERE 이름 = '홍길동'

Unnamed: 0,이름,포인트
10001,홍길동,90.0
10002,허춘삼,60.0


10001     True
10002    False
10003    False
Name: 이름, dtype: bool


Unnamed: 0,이름,전화번호,포인트
10001,홍길동,010-1234-1234,90.0


In [23]:
df['이름'] == '홍길동'

10001     True
10002    False
10003    False
Name: 이름, dtype: bool

## Drop

In [24]:
display(df.drop('10001')) # 영구적으로 삭제하는 게 아님. 보이기만 할 뿐.
display(df)               # 출력해보면 멀쩡

Unnamed: 0,이름,전화번호,포인트
10002,허춘삼,010-1674-1237,60.0
10003,고길동,010-9764-1234,22.5


Unnamed: 0,이름,전화번호,포인트
10001,홍길동,010-1234-1234,90.0
10002,허춘삼,010-1674-1237,60.0
10003,고길동,010-9764-1234,22.5


In [25]:
display(df.drop(columns='이름')) # 마찬가지.
display(df)

Unnamed: 0,전화번호,포인트
10001,010-1234-1234,90.0
10002,010-1674-1237,60.0
10003,010-9764-1234,22.5


Unnamed: 0,이름,전화번호,포인트
10001,홍길동,010-1234-1234,90.0
10002,허춘삼,010-1674-1237,60.0
10003,고길동,010-9764-1234,22.5


In [26]:
df_copy = df.drop('10001') # 이렇게 복사하면 됨
display(df_copy)
df_copy.drop(columns='포인트', inplace=True) # 아니면 이 옵션 (얘는 출력 안 함)
display(df_copy)

Unnamed: 0,이름,전화번호,포인트
10002,허춘삼,010-1674-1237,60.0
10003,고길동,010-9764-1234,22.5


Unnamed: 0,이름,전화번호
10002,허춘삼,010-1674-1237
10003,고길동,010-9764-1234


In [27]:
df_shallow = df # shallow copy
print(id(df_shallow), id(df))

df_deep = df.copy() # deep copy
print(id(df_deep), id(df))

1733122612944 1733122612944
1733122615344 1733122612944


## Rename

In [28]:
display(df_deep.rename(columns={'포인트':'Point'}))
display(df_deep) # 마찬가지로 얘도 변화가 없음

Unnamed: 0,이름,전화번호,Point
10001,홍길동,010-1234-1234,90.0
10002,허춘삼,010-1674-1237,60.0
10003,고길동,010-9764-1234,22.5


Unnamed: 0,이름,전화번호,포인트
10001,홍길동,010-1234-1234,90.0
10002,허춘삼,010-1674-1237,60.0
10003,고길동,010-9764-1234,22.5


In [29]:
df_deep.rename(columns={'포인트':'Point'}, inplace=True)
df_deep

Unnamed: 0,이름,전화번호,Point
10001,홍길동,010-1234-1234,90.0
10002,허춘삼,010-1674-1237,60.0
10003,고길동,010-9764-1234,22.5


In [30]:
df_point = df.copy()
df_point

Unnamed: 0,이름,전화번호,포인트
10001,홍길동,010-1234-1234,90.0
10002,허춘삼,010-1674-1237,60.0
10003,고길동,010-9764-1234,22.5


In [31]:
df_point['파이브인트'] = [90, 40, 100] # 개별 할당
display(df_point)

df_point['전체'] = True # 전체 할당
display(df_point)

df_point['전체'] = 80 # 존재하는 column이므로 값 수정만.
display(df_point)

# df_point['전체'] = [170, 110] # 에러 -> 값을 두 개밖에 안 줬으니..
df_point['전체'] = df_point['포인트'] + df_point['파이브인트'] # 각 row에 대해 연산 수행
display(df_point)

Unnamed: 0,이름,전화번호,포인트,파이브인트
10001,홍길동,010-1234-1234,90.0,90
10002,허춘삼,010-1674-1237,60.0,40
10003,고길동,010-9764-1234,22.5,100


Unnamed: 0,이름,전화번호,포인트,파이브인트,전체
10001,홍길동,010-1234-1234,90.0,90,True
10002,허춘삼,010-1674-1237,60.0,40,True
10003,고길동,010-9764-1234,22.5,100,True


Unnamed: 0,이름,전화번호,포인트,파이브인트,전체
10001,홍길동,010-1234-1234,90.0,90,80
10002,허춘삼,010-1674-1237,60.0,40,80
10003,고길동,010-9764-1234,22.5,100,80


Unnamed: 0,이름,전화번호,포인트,파이브인트,전체
10001,홍길동,010-1234-1234,90.0,90,180.0
10002,허춘삼,010-1674-1237,60.0,40,100.0
10003,고길동,010-9764-1234,22.5,100,122.5


## Merge

In [32]:
display(df)

student_4 = pd.Series({'이름':'둘둘리', '전화번호':'010-2737-5737', '포인트':'46.5'})
student_4

Unnamed: 0,이름,전화번호,포인트
10001,홍길동,010-1234-1234,90.0
10002,허춘삼,010-1674-1237,60.0
10003,고길동,010-9764-1234,22.5


이름                둘둘리
전화번호    010-2737-5737
포인트              46.5
dtype: object

In [33]:
df_copy = df.copy()
# df_copy = df_copy.append(student_4, index=['10004']) <- 이런 식으로는 안 됨.
# df_copy = df_copy.append(student_4) <- 이것도 안 됨.

df_copy = df_copy.append(student_4, ignore_index=True) # 작동은 하는데 인덱스가 날아감
df_copy

  df_copy = df_copy.append(student_4, ignore_index=True) # 작동은 하는데 인덱스가 날아감


Unnamed: 0,이름,전화번호,포인트
0,홍길동,010-1234-1234,90.0
1,허춘삼,010-1674-1237,60.0
2,고길동,010-9764-1234,22.5
3,둘둘리,010-2737-5737,46.5


In [34]:
print(df.index)
df = df.reset_index() # index column 생성
display(df)

print(df.index)
df = df.rename(columns={'index':'학번'})
display(df)

Index(['10001', '10002', '10003'], dtype='object')


Unnamed: 0,index,이름,전화번호,포인트
0,10001,홍길동,010-1234-1234,90.0
1,10002,허춘삼,010-1674-1237,60.0
2,10003,고길동,010-9764-1234,22.5


RangeIndex(start=0, stop=3, step=1)


Unnamed: 0,학번,이름,전화번호,포인트
0,10001,홍길동,010-1234-1234,90.0
1,10002,허춘삼,010-1674-1237,60.0
2,10003,고길동,010-9764-1234,22.5


In [35]:
df = df.append(student_4, ignore_index=True)
df # 둘둘리는 아직 인덱스가 없음

  df = df.append(student_4, ignore_index=True)


Unnamed: 0,학번,이름,전화번호,포인트
0,10001.0,홍길동,010-1234-1234,90.0
1,10002.0,허춘삼,010-1674-1237,60.0
2,10003.0,고길동,010-9764-1234,22.5
3,,둘둘리,010-2737-5737,46.5


In [36]:
df.loc[[3], ['학번']] = '10006'
display(df)

df = df.set_index('학번')
display(df)

Unnamed: 0,학번,이름,전화번호,포인트
0,10001,홍길동,010-1234-1234,90.0
1,10002,허춘삼,010-1674-1237,60.0
2,10003,고길동,010-9764-1234,22.5
3,10006,둘둘리,010-2737-5737,46.5


Unnamed: 0_level_0,이름,전화번호,포인트
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10001,홍길동,010-1234-1234,90.0
10002,허춘삼,010-1674-1237,60.0
10003,고길동,010-9764-1234,22.5
10006,둘둘리,010-2737-5737,46.5


## Concat

In [37]:
df = df.reset_index()
df = df.rename(columns={'index':'학번'})

#student_4 = pd.DataFrame([{'이름':'둘둘리', '전화번호':'010-2737-5737', '포인트':'46.5'}])
student_5 = pd.DataFrame([{'학번':'10007', '이름':'까나리', '전화번호':'010-9572-1347', '포인트':'30'}])

# axis=0 위에서 아래로 (하나의 row), axis=1 좌에서 우로 (하나의 column)
concat_df = pd.concat([df, student_5], axis=0, ignore_index=True)
display(concat_df)

concat_df.set_index('학번', inplace=True)
display(concat_df)

Unnamed: 0,학번,이름,전화번호,포인트
0,10001,홍길동,010-1234-1234,90.0
1,10002,허춘삼,010-1674-1237,60.0
2,10003,고길동,010-9764-1234,22.5
3,10006,둘둘리,010-2737-5737,46.5
4,10007,까나리,010-9572-1347,30.0


Unnamed: 0_level_0,이름,전화번호,포인트
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10001,홍길동,010-1234-1234,90.0
10002,허춘삼,010-1674-1237,60.0
10003,고길동,010-9764-1234,22.5
10006,둘둘리,010-2737-5737,46.5
10007,까나리,010-9572-1347,30.0


## Merge

In [38]:
students_1 = pd.Series({'이름':'홍길동', '전화번호':'010-1234-1234', '포인트':90})
students_2 = pd.Series({'이름':'허춘삼', '전화번호':'010-1674-1237', '포인트':60})
students_3 = pd.Series({'이름':'고길동', '전화번호':'010-9764-1234', '포인트':22.5})

df_student = pd.DataFrame([students_1, students_2, students_3], index=['10001', '10002', '10003'])
display(df_student)

Unnamed: 0,이름,전화번호,포인트
10001,홍길동,010-1234-1234,90.0
10002,허춘삼,010-1674-1237,60.0
10003,고길동,010-9764-1234,22.5


In [39]:
students_2 = pd.Series({'이름':'허춘삼', '포인트':60, '파이브인트':80})
students_3 = pd.Series({'이름':'고길동', '포인트':22.5, '파이브인트':80})
students_4 = pd.Series({'이름':'둘둘리', '포인트':90, '파이브인트':80})

df_point = pd.DataFrame([students_2, students_3, students_4], index=['10002', '10003', '10333'])
display(df_point)

Unnamed: 0,이름,포인트,파이브인트
10002,허춘삼,60.0,80
10003,고길동,22.5,80
10333,둘둘리,90.0,80


In [40]:
print('Outer : 둘 중 하나라도 있으면 인덱스 보고 엮기')
display(pd.merge(df_student, df_point, how='outer', left_index=True, right_index=True))

print('Inner : 둘 다 있는 것만 엮기')
display(pd.merge(df_student, df_point, how='inner', left_index=True, right_index=True))

print('Left : 왼쪽 기준으로 오른쪽에서 해당하는 값 엮기')
display(pd.merge(df_student, df_point, how='left', left_index=True, right_index=True))

print('Right : 오른쪽 기준으로 왼쪽에서 해당하는 값 엮기')
display(pd.merge(df_student, df_point, how='right', left_index=True, right_index=True))

Outer : 둘 중 하나라도 있으면 인덱스 보고 엮기


Unnamed: 0,이름_x,전화번호,포인트_x,이름_y,포인트_y,파이브인트
10001,홍길동,010-1234-1234,90.0,,,
10002,허춘삼,010-1674-1237,60.0,허춘삼,60.0,80.0
10003,고길동,010-9764-1234,22.5,고길동,22.5,80.0
10333,,,,둘둘리,90.0,80.0


Inner : 둘 다 있는 것만 엮기


Unnamed: 0,이름_x,전화번호,포인트_x,이름_y,포인트_y,파이브인트
10002,허춘삼,010-1674-1237,60.0,허춘삼,60.0,80
10003,고길동,010-9764-1234,22.5,고길동,22.5,80


Left : 왼쪽 기준으로 오른쪽에서 해당하는 값 엮기


Unnamed: 0,이름_x,전화번호,포인트_x,이름_y,포인트_y,파이브인트
10001,홍길동,010-1234-1234,90.0,,,
10002,허춘삼,010-1674-1237,60.0,허춘삼,60.0,80.0
10003,고길동,010-9764-1234,22.5,고길동,22.5,80.0


Right : 오른쪽 기준으로 왼쪽에서 해당하는 값 엮기


Unnamed: 0,이름_x,전화번호,포인트_x,이름_y,포인트_y,파이브인트
10002,허춘삼,010-1674-1237,60.0,허춘삼,60.0,80
10003,고길동,010-9764-1234,22.5,고길동,22.5,80
10333,,,,둘둘리,90.0,80


In [41]:
# 이름으로 merge도 가능
# 여기선 이름이 병합되었으므로 이름_x, 이름_y 이렇게 구분할 필요가 없음.
display(pd.merge(df_student, df_point, how='inner', left_on='이름', right_on='이름'))

# 이것도 되네
display(pd.merge(df_student, df_point, how='inner', left_on=['이름', '포인트'], right_on=['이름', '포인트']))

Unnamed: 0,이름,전화번호,포인트_x,포인트_y,파이브인트
0,허춘삼,010-1674-1237,60.0,60.0,80
1,고길동,010-9764-1234,22.5,22.5,80


Unnamed: 0,이름,전화번호,포인트,파이브인트
0,허춘삼,010-1674-1237,60.0,80
1,고길동,010-9764-1234,22.5,80
