# Chapter04 Pandas
데이터 과학을 위한 파이썬 머신러닝

- <a href="#04.1판다스란">04.1 판다스란</a>
- <a href="#04.2데이터추출">04.2 데이터 추출</a>
- <a href="#04.3그룹별집계">04.3 그룹별 집계</a>
- <a href="#04.4병합과연결">04.4 병합과 연결</a>

---------------

### 라이브러리 설치

In [None]:
!pip install pandas

In [None]:
import pandas as pd
print(f'pandas version : {pd.__version__}')

------------------------------

## <a name="04.1판다스란">04.1 판다스란</a>

### 1. 판다스의 개념
- https://pandas.pydata.org/
- 파이썬의 데이터 분석 라이브러리
- 데이터 테이블(data table)을 다루는 도구
- 넘파이를 사용, 판다스는 넘파이를 효율적으로 사용하기 위해 인덱싱, 연산, 전처리 등 다양한 함수 제공
- **데이터프레임(DataFrame)** : 데이터 테이블 전체 객체
- **시리즈(Series)** : 각 열 데이터를 다루는 객체
- 10 minutes to pandas : https://pandas.pydata.org/docs/user_guide/10min.html

### 2. 시리즈 객체
- 피쳐 벡터(feature vector)와 같은 개념
- 데이터프레임(DataFrame) 안에 포함된 열(colume)들을 지칭할 수 있음
- list, dict, ndarray 등 다양한 데이터 타입이 시리즈 객체 형태로 변환되기도 함

### [예제] Series 객체

In [None]:
from pandas import Series

list_data = [1,2,3,4,5]
list_name = ["a","b","c","d","e"]
sample = Series(data=list_data, index=list_name)

print(f'sample        :\n{sample}')
print(f'sample.index  : {sample.index}')
print(f'sample.values : {sample.values}')
print(f'sample.dtype  : {sample.dtype}')
print(f'type(sample.values): {type(sample.values)}')

### Series 객체 생성
- 판다스의 모든 객체는 인덱스 값을 기준으로 생성

In [None]:
dict_data = {"a":1, "b":2, "c":3, "d":4, "e":5}
sample = Series(dict_data, dtype=np.float32, name="sample_data")
sample

In [None]:
dict_data = {"a":1, "b":2, "c":3, "d":4, "e":5}
indexes = ["a","b","c","d","e","f","g","h"]
sample  = Series(dict_data, index=indexes)
sample

------------------

### 3. 데이터프레임 객체
- 데이터 테이블 전체를 지칭하는 객체
- 넘파이 배열의 특성을 그대로 가짐
- 인덱싱 : 열과 행 각각 사용하여 하나의 데이터에 접근

### [예제] Pandas로 다양한 파일 읽어오기

#### 1.txt 데이터 Pandas DataFrame으로 나타내기

In [None]:
DIR = './data/' 
# df = pd.read_table(f'{DIR}book.txt')
df = pd.read_table(f'{DIR}book.txt', sep=',',
                    names = ['제목','영어제목','저자','국적','출판년도'])
df

#### 2.csv 데이터 Pandas DataFrame으로 나타내기

In [None]:
df = pd.read_csv(f'{DIR}인구밀도.csv', encoding='cp949')
df.head(3)

#### 3.Excel 시트 Pandas DataFrame으로 나타내기

In [None]:
!pip install openpyxl

##### 1.전체 시트(sheet) 가져오기

In [None]:
import pandas as pd

# 전체 시트 가져오기
df = pd.read_excel(f'{DIR}인구밀도_인구주택총조사기준.xlsx', sheet_name=None)  # 전체시트

df                 # 시트가 여러개 일 경우 딕셔너리 형태로 나타난다.
df['전체'].head(3) # 특정 시트를 지정할 경우 DataFrame 구조로 나타낸다.

##### 2.특정 시트(sheet) 가져오기

In [None]:
# 특정 시트 가져오기
df = pd.read_excel(f'{DIR}인구밀도_인구주택총조사기준.xlsx', sheet_name="2021")

df.head(3)  # 시트가 한개 일 경우 DataFrame 구조로 나타낸다.

##### 3.여러 시트(sheet) 가져오기

In [None]:
# 여러 시트 가져오기: 시트 이름으로 가져오기
df = pd.read_excel(f'{DIR}인구밀도_인구주택총조사기준.xlsx',
                   sheet_name=["2021", "2022"])

df         # 시트가 여러개 일 경우 딕셔너리 형태로 나타난다.
df['2022'].head(3) # 특정 시트를 지정할 경우 DataFrame 구조로 나타낸다.

In [None]:
# 여러 시트 가져오기: 시트 번호로 가져오기 (0번부터 시작)
df = pd.read_excel(f'{DIR}인구밀도_인구주택총조사기준.xlsx',sheet_name=[1, "2022"])  #

df         # 시트가 여러개 일 경우 딕셔너리 형태로 나타난다.
df[1].head(3) # 특정 시트를 지정할 경우 DataFrame 구조로 나타낸다.

#### 4.Remote URL의 CSV 데이터 Pandas DataFrame으로 나타내기

In [None]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
# url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'
df = pd.read_csv(url, header=None) # 첫번째 행 컬럼으로 인식 안하도록
df.head()

### 1. 데이터프레임 생성
- 2차원 리스트 타입으로 만들기
- 딕셔너리 타입으로 만들기 :  키(key)는 열 이름, 값(value)은 시퀀스형 데이터 타입을 넣어 각 열의 데이터로 만듦


In [None]:
# 2차원 리스트 타입으로 DataFrame 만들기
raw_data = [['Jason','Miller', 42, 'San Francisco'],
            ['Molly', 'Jacobson', 52, 'Baltimore'], 
            ['Tina', 'Ali', 36, 'Miami'], 
            ['Jake', 'Milner', 24, 'Douglas'],
            ['Amy', 'Cooze', 73, 'Boston']]

df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'city'])
df

In [None]:
# 딕셔너리 타입으로 DataFrame 만들기
raw_data = {'first_name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'],
            'last_name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze'], 
            'age': [42, 52, 36, 24, 73], 
            'city': ['San Francisco', 'Baltimore', 'Miami', 'Douglas', 'Boston']}

# df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'city'])
df = pd.DataFrame(raw_data)
df


### 2. 데이터프레임의 열 다루기

In [None]:
# 데이터 생성시, 딕셔너리 데이터에서 열(Key) 이름을 한정하면 해당 열만 추출
pd.DataFrame(raw_data, columns = ["age", "city"])

In [None]:
# 데이터가 존재하지 않는 열을 추가하면 해당 열에는 NaN 값들 추가
pd.DataFrame(raw_data, columns = ["first_name","last_name","age", "city", "debt"])

In [None]:
from sklearn.datasets import load_iris  

iris = load_iris()

iris

-----------------

## <a name="04.2데이터추출">04.2 데이터 추출</a>

### 1. 데이터 로딩

In [None]:
df = pd.read_excel(f'{DIR}excel-comp-data.xlsx')
df

### 2. 열 이름을 사용한 데이터 추출

In [None]:
# head, tail
df.head(3)    # 처음 n개 행
# df.tail(3)    # 마지막 n개 행 호출
# df.head(-3)    # 끝에서 n개 제외하고 반환

In [None]:
# 열 이름을 리스트 형태로 넣어 호출
df[["account", "street", "state"]].head(3)

### 3. 행 번호를 사용한 데이터 추출

In [None]:
# 인덱스 번호로 호출
df[:3]

### 4. 행과 열을 모두 사용한 데이터 추출

In [None]:
# 열 이름, 인덱스 번호 둘 다 사용해서 호출
df[["name","street"]][:2]

In [None]:
# 인덱스 변경하기
df.index = df["account"]    # 인덱스 변경
del df["account"]           # account 컬럼 삭제
df.head()

In [None]:
# loc 함수 : 인덱스 이름과 열 이름으로 데이터 추출
df.loc[[211829,320563],["name","street"]]
df.loc[205217:,["name","street"]] 

In [None]:
# iloc 함수 :  인덱스 번호로만 데이터 호출
df.iloc[:10, :3]

### 5.새로운 인덱스 할당

In [None]:
# reset_index 함수로 새로운 인덱스 할당된 객체 생성
df_new = df.reset_index()
df_new

### 6. drop 함수

In [None]:
# drop 함수 : 특정 열이나 행을 삭제한 객체를 반환
df_new.drop(1).head()   # 인덱스 1번 컬럼 삭제 --> 삭제가 안된다.

In [None]:
# 실제로 삭제하려면
df_drop = df_new.drop(1)        # 삭제하고 결과를 저장한 후 사용
df_new.drop(1, inplace=True)    # 삭제하고 바로 적용: (inplace=True 옵션이 있어야 한다.)
df_new.drop("account", axis=1)           # account 열 제거
df_new.drop(["account", "name"], axis=1) # account, name 열 제거

------------------------

## <a name="04.3그룹별집계">04.3 그룹별 집계</a>

### 1. 그룹별 집계의 개념
- 그룹별 집계(groupby) : 데이터로부터 동일한 객체를 가진 데이터만 따로 뽑아 기술통계 데이터를 추출
- 엑셀의 피봇테이블(pivot table) 기능과 비슷
- groupby 명령어는 분할→적용→결합 과정을 거침
 - - 분할(split) : 같은 종류의 데이터끼리 나누는 기능 <br> 
 - - 적용(apply) : 데이터 블록마다 sum, count, mean 등 연산 적용 
 - - 결합(combine) : 연산 함수가 적용된 각 블록들을 합침

### 2. 그룹별 집계 사용하기

In [None]:
# 그룹별 집계의 기본형
ipl_data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings','kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'],
            'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],
            'Year': [2014, 2015, 2014, 2015, 2014, 2015, 2016, 2017, 2016, 2014, 2015, 2017],
            'Points': [876,789,863,673,741,812,756,788,694,701,804,690]}

df = pd.DataFrame(ipl_data)
df

In [None]:
# 그룹별 집계의 기본형
df.groupby("Team")["Points"].sum()   # Team별 그룹하여 Points의 합계 구하기

In [None]:
# 멀티 인덱스 그룹별 집계
# - 한 개 이상의 열을 기준으로 그룹별 집계를 실행
df.groupby(["Team", "Year"])["Points"].sum()

In [None]:
# 멀티 인덱스
# - 한 개 이상의 열로 그룹별 집계 수행하면 여러 열이 모두 인덱스로 반환됨
multi_groupby = df.groupby(["Team", "Year"])["Points"].sum()
multi_groupby.index

In [None]:
multi_groupby["Devils":"Kings"]

In [None]:
multi_groupby.unstack()

In [None]:
# - swaplevel 함수로 인덱스 간 레벨을 변경
# - sort_index 함수로 첫 번째 인덱스를 기준으로 데이터 재정렬
multi_groupby.swaplevel().sort_index()
# multi_groupby.unstack().T

In [None]:
multi_groupby.sum(level=0)
multi_groupby.sum(level=1)

### 3. 그룹화된 상태
- 그룹화된(grouped) 상태 : 분할→적용→결합 중에서 분할까지만 이루어진 상태
- get_group 함수 : 해당 키 값을 기준으로 분할된 데이터프레임 객체를 확인

In [None]:
grouped = df.groupby("Team")
grouped.get_group("Riders")

- **집계(aggregation)** : 요약된 통계 정보를 추출

In [None]:
# 집계(aggregation) : 요약된 통계 정보를 추출
grouped.agg(min)
grouped.agg(np.mean)

- **변환(transformation)** : 해당 정보를 변환, 키 값별로 요약된 정보가 아닌 개별 데이터 변환 지원

In [None]:
# 변환
grouped.transform(max)

# z점수: 표준편차상에 어떤 위치를 차지하는지를 보여주는 차원없는 수치
score = lambda x: (x - x.mean()) / x.std()
grouped.transform(score)

In [None]:
df

- **필터(filter)** : 특정 조건으로 데이터를 검색

In [None]:
# 필터
df.groupby('Team').filter(lambda x: len(x) >= 3)             # Team별 레코드 개수 3개 이상인 Team
df.groupby('Team').filter(lambda x: x["Points"].max() > 800) # Team별 Points의 최고값이 800이상인 Team

-----------------

## <a name="04.4병합과연결">04.4 병합과 연결</a>

### 1. 병합
병합(merge) : 두 개의 데이터를 특정 기준한 기준을 가지고 하나로 통합하는 작업

In [None]:
raw_data = {'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
            'test_score': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}

df_left = pd.DataFrame(raw_data, columns = ['subject_id', 'test_score'])
df_left

In [None]:
raw_data = {'subject_id': ['4', '5', '6', '7', '8'],
            'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
            'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}

df_right = pd.DataFrame(raw_data, columns = ['subject_id', 'first_name', 'last_name'])
df_right

In [None]:
# 내부 조인: 양쪽의 교집합 데이터를 통합
pd.merge(left=df_left, right=df_right, on='subject_id', how="inner")

In [None]:
# 왼쪽 조인, 오른쪽 조인
pd.merge(df_left, df_right, on='subject_id', how='left')
pd.merge(df_left, df_right, on='subject_id', how='right')

In [None]:
# 완전 조인
pd.merge(df_left, df_right, on='subject_id', how='outer')

### 2. 연결(concatenate)

In [None]:
# 디렉토리에서 파일명이 sales 가 포함된 파일명 가져오기
import os
filenames = [os.path.join(DIR, filename)
           for filename in os.listdir(DIR) if "sales" in filename]
print(filenames)


# 파일 Pandas DataFrame으로 읽어오기
df_list = [pd.read_excel(filename, engine="openpyxl") for filename in filenames]

for filename, df in zip(filenames, df_list):
    print(filename, type(df), len(df))
    

# 파일 병합하기
df = pd.concat(df_list, axis=0)
print(f'Total count : {len(df)}') # 384
df.reset_index(drop=True)


In [None]:
df_1, df_2, df_3 = [pd.read_excel(filename, engine="openpyxl") for filename in filenames]
df = df_1.append(df_2)
df = df.append(df_3)
df

--------------