## Pandas
- Pandas는 데이터 분석을 위한 대표적인 파이썬 라이브러리이다.
- R을 염두에 두고 만들어진 프로그램이기 때문에 그 기능이 서로 유사하다.
- 파이썬을 설치하면 Pandas는 기본적으로 설치가 되어 있다.
- 하지만, Pandas가 설치되어 있지 않은 경우 다음 코드를 실행해서 설치가 가능하다.(pip install pandas)
- Pandas를 사용하기 위해서는 Pandas 라이브러리를 아래와 같이 임포트하면 된다.

In [1]:
import pandas as pd

### Pandas 데이터프레임 구조
- Pandas 데이터프레임은 여러 개의 행과 열로 이루어진 데이터 형태라고 할 수 있다.
- Pandas 데이터프레임 중에서 하나의 열을 시리즈(Series) 데이터라고 한다.

### 1. 데이터프레임 생성

In [2]:
# 방법1_Data Dictionary 이용하여 데이터프레임 생성

d = {"국가": ["한국", "중국", "일본"], "수도": ["서울", "북경", "동경"]}
df1 = pd.DataFrame(d)
df1

Unnamed: 0,국가,수도
0,한국,서울
1,중국,북경
2,일본,동경


In [3]:
# 방법2_Nested List 이용하여 데이터프레임 생성

lst = [
    ["한국", "서울"], 
    ["중국", "북경"], 
    ["일본", "동경"]
]

df2 = pd.DataFrame(lst, columns=["국가", "수도"])
df2

Unnamed: 0,국가,수도
0,한국,서울
1,중국,북경
2,일본,동경


In [4]:
# 방법3_Numpy Array 이용하여 데이터프레임 생성

import numpy as np

arr = np.arange(1,16).reshape(3,5)
df3 = pd.DataFrame(arr, columns = ["영희", "철수", "철호", "진희", "영수"],
         index=["1차", "2차", "3차"])
df3

Unnamed: 0,영희,철수,철호,진희,영수
1차,1,2,3,4,5
2차,6,7,8,9,10
3차,11,12,13,14,15


In [30]:
# 여러 개의 행과 열로 이루어진 데이터 구조를 데이터프레임이라고 함.
# 여러 개의 행데이터로 이루어진 리스트(nested lists)를 이용하여 데이터프레임 구축 가능

b = [["한국", "서울"],
     ["중국", "북경"],
     ["일본", "동경"]]

df = pd.DataFrame(b)

df

# 인덱스 정보를 따로 입력하지 않으면 0, 1, 2처럼 정수로 인덱스가 정해짐.
# 열 정보를 따로 입력하지 않으면 0, 1처럼 정수로 열 이름이 정해짐.

Unnamed: 0,0,1
0,한국,서울
1,중국,북경
2,일본,동경


In [31]:
# columns 인자를 사용하여 칼럼명을 지정할 수 있음.

b = [["한국", "서울"],
     ["중국", "북경"],
     ["일본", "동경"]]

df = pd.DataFrame(b, columns=["국가", "수도"])

df

Unnamed: 0,국가,수도
0,한국,서울
1,중국,북경
2,일본,동경


In [32]:
# columns 인자를 사용하지 않고, df.columns를 이용하여 컬럼명을 지정할 수 있음.

b = [["한국", "서울"],
     ["중국", "북경"],
     ["일본", "동경"]]

df = pd.DataFrame(b)

df.columns = ["국가", "수도"]

df

Unnamed: 0,국가,수도
0,한국,서울
1,중국,북경
2,일본,동경


In [33]:
# 딕셔너리 데이터를 이용하여 데이터프레임 구축 가능
# 딕셔너리 key가 칼럼명이 되고, value가 해당 칼럼의 열데이터가 되는 형태임.

c = {
    "국가": ["한국", "중국", "일본"],
    "수도": ["서울", "북경", "동경"]
}

df = pd.DataFrame(c)

df

Unnamed: 0,국가,수도
0,한국,서울
1,중국,북경
2,일본,동경


In [7]:
# 예제 
# 본인과 관련된 정보로 구성된 데이터프레임을 만들어보시오.
# 열 --> 구분, 상세정보
# 행 --> 이름, OOO; 직장, OOO; 전화번호, OOO; 주소, OOO

print("구분", '\t', "상세정보")
print("이름", '\t',"홍길동")
print("직장", '\t',"법무부")
print("전화번호", '\t',"00-000-0000")
print("주소", '\t',"세종특별시")

구분 	 상세정보
이름 	 홍길동
직장 	 법무부
전화번호 	 00-000-0000
주소 	 세종특별시


### 2. 데이터 조회 및 수정

- 열데이터 읽기

In [60]:
d = {
    "국가": ["한국", "중국", "일본"],
    "수도": ["서울", "북경", "동경"]
}

df = pd.DataFrame(d)
df

Unnamed: 0,국가,수도
0,한국,서울
1,중국,북경
2,일본,동경


In [61]:
# 국가 열의 시리즈 데이터를 조회

df['국가']

0    한국
1    중국
2    일본
Name: 국가, dtype: object

In [62]:
# 특정 열의 특정 행에 해당하는 데이터 조회 가능

df['국가'][1]

'중국'

In [63]:
# 수도 열의 시리즈 데이터를 반환

df['수도']

0    서울
1    북경
2    동경
Name: 수도, dtype: object

In [64]:
# 수도 열의 세번째 열 데이터 조회

df['수도'][2]

'동경'

- 행데이터 읽기

In [13]:
d = {
    "국가": ["한국", "중국", "일본", "미국"],
    "수도": ["서울", "북경", "동경", "워싱턴D.C"]
}

df = pd.DataFrame(d)
df

Unnamed: 0,국가,수도
0,한국,서울
1,중국,북경
2,일본,동경
3,미국,워싱턴D.C


In [14]:
# 데이터프레임의 행데이터를 읽을 때는 loc 함수를 이용

df.loc[0]

국가    한국
수도    서울
Name: 0, dtype: object

In [15]:
# 불연속적인 복수의 행데이터 읽기

df.loc[[0, 3]]

Unnamed: 0,국가,수도
0,한국,서울
3,미국,워싱턴D.C


In [18]:
# 연속적인 복수의 행데이터 읽기

df.loc[0:2]

Unnamed: 0,국가,수도
0,한국,서울
1,중국,북경
2,일본,동경


In [19]:
# 특정 위치의 데이터 수정 가능
# 2번 인덱스 행, "수도" 열 위치 데이터 수정

df.loc[2, "수도"] = "동경_수정"
df

# df['수도'][2] = "동경_수정"으로도 수정이 가능하지만 추천하지 않는 방식임.

Unnamed: 0,국가,수도
0,한국,서울
1,중국,북경
2,일본,동경_수정
3,미국,워싱턴D.C


- 행/열 데이터 추가

In [20]:
d = {
    "국가": ["한국", "중국", "일본", "미국"],
    "수도": ["서울", "북경", "동경", "워싱턴D.C"]
}

df = pd.DataFrame(d)
df

Unnamed: 0,국가,수도
0,한국,서울
1,중국,북경
2,일본,동경
3,미국,워싱턴D.C


In [21]:
# 새로운 열 데이터 추가

df["1인당GDP"] = [36132, 12614, 33899, 65020]
df

Unnamed: 0,국가,수도,1인당GDP
0,한국,서울,36132
1,중국,북경,12614
2,일본,동경,33899
3,미국,워싱턴D.C,65020


In [22]:
# 새로운 행 데이터 추가

df.loc[4] = ["영국", "런던", 47005]
df

Unnamed: 0,국가,수도,1인당GDP
0,한국,서울,36132
1,중국,북경,12614
2,일본,동경,33899
3,미국,워싱턴D.C,65020
4,영국,런던,47005


- 행/열 데이터 수정

In [23]:
d = {
    "국가": ["한국", "중국", "일본", "미국"],
    "수도": ["서울", "북경", "동경", "워싱턴D.C"]
}

df = pd.DataFrame(d)
df

Unnamed: 0,국가,수도
0,한국,서울
1,중국,북경
2,일본,동경
3,미국,워싱턴D.C


In [68]:
df.loc[0, "수도"] = "Seoul"
df

Unnamed: 0,국가,수도
0,한국,Seoul
1,중국,북경
2,일본,동경
3,미국,워싱턴D.C


In [69]:
df.loc[1, "수도"] = "베이징"
df

Unnamed: 0,국가,수도
0,한국,Seoul
1,중국,베이징
2,일본,동경
3,미국,워싱턴D.C


In [74]:
df.loc[3,:] = ""
df

Unnamed: 0,국가,수도
0,한국,Seoul
1,중국,북경
2,일본,동경
3,,


In [78]:
df.loc[:, "수도"] = ""
df

Unnamed: 0,국가,수도
0,한국,
1,중국,
2,일본,
3,미국,


In [28]:
# 예제
# 행/열 데이터 추가 실습...
# 행 --> 특정 국가 정보 추가
# 열 --> 국가 지도자

print("국가", "\t", "지도자")
print("--------------")
print("한국", "\t", "이재명")
print("미국", "\t", "트럼프")

# 중국, 일본 지도자 추가
# 수도 열 추가



국가 	 지도자
--------------
한국 	 이재명
미국 	 트럼프


- 행/열 데이터 삭제

In [29]:
import pandas as pd

df = pd.DataFrame({
    "국가": ['한국', '중국', '미국', '일본'],
    "수도": ['서울', '베이징', '워싱턴', '동경'],
    "1인당GDP": ['37670', '12614', '89684', '35613']
})

df

Unnamed: 0,국가,수도,1인당GDP
0,한국,서울,37670
1,중국,베이징,12614
2,미국,워싱턴,89684
3,일본,동경,35613


In [30]:
# columns 인자를 사용하여 특정 열 데이터 삭제(단수 열)

df.drop(columns= ["국가"])

Unnamed: 0,수도,1인당GDP
0,서울,37670
1,베이징,12614
2,워싱턴,89684
3,동경,35613


In [31]:
# columns 인자를 사용하여 특정 열 데이터 삭제(복수 열)

df.drop(columns= ["국가", "1인당GDP"])

Unnamed: 0,수도
0,서울
1,베이징
2,워싱턴
3,동경


In [32]:
# drop 함수 내 axis 인자를 사용하여 특정 열 삭제 가능
# 열을 삭제할 시 axis=1로 설정)

df.drop("국가", axis=1)

Unnamed: 0,수도,1인당GDP
0,서울,37670
1,베이징,12614
2,워싱턴,89684
3,동경,35613


In [33]:
# drop 함수 내 axis 인자를 사용하여 특정 열 삭제 가능
# 열을 삭제할 시 axis=1로 설정)

df.drop(["국가", "1인당GDP"], axis=1)

Unnamed: 0,수도
0,서울
1,베이징
2,워싱턴
3,동경


In [34]:
# drop 함수 적용 후 df 자체 데이터가 변하지 않음.

df

Unnamed: 0,국가,수도,1인당GDP
0,한국,서울,37670
1,중국,베이징,12614
2,미국,워싱턴,89684
3,일본,동경,35613


In [35]:
# drop 함수 내 인덱스 번호 입력으로 특정 행 데이터 삭제

df.drop(0)

Unnamed: 0,국가,수도,1인당GDP
1,중국,베이징,12614
2,미국,워싱턴,89684
3,일본,동경,35613


In [36]:
# 복수 행 데이터 삭제

df.drop([0, 2])

Unnamed: 0,국가,수도,1인당GDP
1,중국,베이징,12614
3,일본,동경,35613


In [37]:
df.drop([0, 2, 3])

Unnamed: 0,국가,수도,1인당GDP
1,중국,베이징,12614


In [38]:
# 데이터프레임에 drop 함수를 적용하더라도 기존 데이터프레임이 수정되지 않음.
# 변경된 데이터프레임을 계속 사용하려면 새로운 변수에 데이터프레임을 할당해야 함.

df.drop(1)
df

Unnamed: 0,국가,수도,1인당GDP
0,한국,서울,37670
1,중국,베이징,12614
2,미국,워싱턴,89684
3,일본,동경,35613


In [39]:
df1 = df.drop(1)
df1

Unnamed: 0,국가,수도,1인당GDP
0,한국,서울,37670
2,미국,워싱턴,89684
3,일본,동경,35613


In [40]:
# 기존 데이터프레임 수정을 원할 시 inplace=True로 설정

df.drop(1, inplace=True)
df

Unnamed: 0,국가,수도,1인당GDP
0,한국,서울,37670
2,미국,워싱턴,89684
3,일본,동경,35613


In [41]:
# 마지막 행데이터 전체 수정

df = pd.DataFrame({
    "국가": ['한국', '중국', '미국', '일본'],
    "수도": ['서울', '베이징', '워싱턴', '동경'],
    "1인당GDP": ['37670', '12614', '89684', '35613']
})


df.loc[3] = "수정"
df

Unnamed: 0,국가,수도,1인당GDP
0,한국,서울,37670
1,중국,베이징,12614
2,미국,워싱턴,89684
3,수정,수정,수정


In [42]:
# 마지막 열데이터 전체 수정

df = pd.DataFrame({
    "국가": ['한국', '중국', '미국', '일본'],
    "수도": ['서울', '베이징', '워싱턴', '동경'],
    "1인당GDP": ['37670', '12614', '89684', '35613']
})


df.loc[:, "1인당GDP"] = "수정"
df

Unnamed: 0,국가,수도,1인당GDP
0,한국,서울,수정
1,중국,베이징,수정
2,미국,워싱턴,수정
3,일본,동경,수정


In [43]:
# 특정 위치 데이터 수정

df.loc[3, "수도"] = "동경_수정"
df

Unnamed: 0,국가,수도,1인당GDP
0,한국,서울,수정
1,중국,베이징,수정
2,미국,워싱턴,수정
3,일본,동경_수정,수정


In [None]:
# 예제
# 교재 참고

## [Optional]
- pd.concat()
- pd.merge()

In [44]:
df1 = pd.DataFrame(
{"A": ["A0", "A1", "A2"],
"B": ["B0", "B1", "B2"],
"C": ["C0", "C1", "C2"],
"D": ["D0", "D1", "D2"]},
)

df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2


In [45]:
df2 = pd.DataFrame(
{"A": ["A3", "A4", "A5"],
"B": ["B3", "B4", "B5"],
"C": ["C3", "C4", "C5"],
"D": ["D3", "D4", "D5"]},
)

df2

Unnamed: 0,A,B,C,D
0,A3,B3,C3,D3
1,A4,B4,C4,D4
2,A5,B5,C5,D5


In [48]:
df_concat = pd.concat([df1, df2], axis=0) # 열방향 axis=0(default)
df_concat

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
0,A3,B3,C3,D3
1,A4,B4,C4,D4
2,A5,B5,C5,D5


In [59]:
df_concat.reset_index(inplace=True)

In [60]:
df_concat

Unnamed: 0,index,A,B,C,D
0,0,A0,B0,C0,D0
1,1,A1,B1,C1,D1
2,2,A2,B2,C2,D2
3,0,A3,B3,C3,D3
4,1,A4,B4,C4,D4
5,2,A5,B5,C5,D5


In [62]:
df_concat.drop(columns = ['index'], inplace=True)
df_concat

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5


In [63]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
}, columns=['고객번호', '이름'])
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [64]:
df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
}, columns=['고객번호', '금액'])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [65]:
pd.merge(df1, df2) # 두 데이터프레임에 공통으로 존재하는 고객번호에 대한 데이터만 병합을 수행

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [66]:
pd.merge(df1, df2, how='outer') # 두 데이터프레임을 모두 병합, 존재하지 않는 데이터는 NaN으로 표시

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [None]:
# 예제1

# 아래 데이터를 이용하여 두 개의 데이터프레임을 각각 만들어보시오.
# 두 데이터프레임을 concat 함수로 합쳐보시오.
# 열방향으로 합치시오.
# 컬럼명은 ["이름", "출신학교", "수학점수"]로 설정
# 인덱스 정보를 초기화해보시오.(index_reset 함수 이용)

"""
df1 = [["철수", "대방중", 85],
       ["영희", "신림중", 90],
       ["철호", "성남중", 70],
       ["영수", "신림중", 88]]

df2 = [["영철", "성남중", 98],
       ["광수", "강남중", 78],
       ["순자", "대방중", 89],
       ["영자", "강남중", 87]]
"""

In [None]:
# 예제2

# 아래 데이터를 이용하여 두 개의 데이터프레임을 만들어보시오.
# 칼럼명은 각각 ["이름", "주소"], ["이름", "수학점수"]로 설정
# 두 데이터프레임을 merge 함수로 합쳐보시오.
# 데이터를 합치는 기준은 공통열인 "이름" 열임.

"""
df1 = [["철수", "동대문구"],
       ["영희", "관악구"],
       ["철호", "동작구"],
       ["영수", "성북구"],
       ["영철", "동작구"],
       ["광수", "관악구"],
       ["순자", "동대문구"],
       ["영자", "종로구"]]


df2 = [["철수", 78],
       ["영희", 89],
       ["철호", 90],
       ["영수", 94],
       ["영철", 78],
       ["광수", 87],
       ["순자", 89],
       ["영자", 76]]
"""