#### 데이터프레임의 결합
- 유니언 결합 
    - 단순하게 행이나 열을 결합하는 방식 
    - pandas에 내장된 concat() 함수를 이용  
        - concat( [ 데이터프레임명, 데이터프레임명, ... ] )
            - axis 매개변수
                - 0(rows) : 행을 결합 
                - 1(columns) : 열을 결합
            - ignore_index 매개변수
                - False(기본값) : 결합되는 인덱스를 보존
                - True : 결합되는 인덱스를 초기화
- 조인 결합
    - 특정한 조건에 맞춰서 열을 결합 
    - 데이터프레임과 데이터프레임 간의 조인결합 -> 특정 컬럼의 데이터들이 같은 값들로 이루어져 있는 경우에만 열을 추가하는 결합
    - pandas에 내장된 merge() 함수를 이용
        - merge( 데이터프레임명, 데이터프레임명 )
            - on 매개변수 
                - 조건식 (두 개의 데이터프레임이 공통적으로 가지고 있는 컬럼의 이름)
                - 두 데이터프레임에서 기준이 되는 컬럼의 이름이 다른 경우 
                    - 데이터프레임의 컬럼의 이름을 변경하고 결합 
                    - left_on, right_on 매개변수를 이용하여 컬럼의 이름을 지정 
            - how 매개변수 
                - 조인결합의 방법을 지정 
                    - inner : 두 개의 데이터프레임이 공통적으로 가지고 있는 데이터만 결합해서 출력 
                    - left : 왼쪽의 데이터프레임을 기준으로 결합 
                    - right : 오른쪽의 데이터프레임을 기준으로 결합 
                    - outer : 두 개의 데이터프레임의 합집합

In [None]:
import pandas as pd

In [None]:
data = {
    "name" : ['test', 'test2', 'test3'], 
    'age' : [20, 30, 40]
}
df = pd.DataFrame(data)
df

In [None]:
data2 = {
    'name' : ['test4', 'test5'], 
    'loc' : ['seoul', 'busan']
}
df2 = pd.DataFrame(data2)
df2

In [None]:
# concat() : 행 결합
pd.concat( [df, df2] , axis=0, ignore_index=True)

In [None]:
pd.concat( [df, df2] ).reset_index(drop=True)

In [None]:
pd.concat( [df, df2] ).reset_index().drop('index', axis=1)

In [None]:
# concat() : 열 결합
pd.concat( [df, df2], axis=1, ignore_index=True)

In [None]:
data3 = {
    'name' : ['test6', 'test7'],
    'age' : [25, 35]
}
df3 = pd.DataFrame(data3)
df3

In [None]:
pd.concat( [df, df2, df3] , axis=0 , ignore_index=True)

In [None]:
pd.concat( [df, df2, df3], axis=1 )

In [None]:
df3.rename(
    index={
        0 : 10, 
        1 : 15
    }
)

In [None]:
df3.index = [10, 15]

In [None]:
df3

In [None]:
pd.concat([df, df2, df3], axis=1)

In [None]:
# concat 함수는 pandas에만 존재
# df.concat( [df2, df3], axis=0 )

In [None]:
# merge()
df

In [None]:
data = {
    'name' : ['test', 'test2', 'test4'], 
    'loc' : ['서울', '경기', '대구']
}
df4 = pd.DataFrame(data)
df4

In [None]:
pd.merge(df, df4, on='name', how='inner')

In [None]:
pd.merge(df, df4, on='name', how='left')

In [None]:
pd.merge(df, df4, on='name', how='right')

In [None]:
pd.merge(df, df4, on='name', how='outer')

In [None]:
data = {
    'location' : ['서울', '경기', '대구', '세종'], 
    'code' : ['11', '31', '32', '41']
}
df5 = pd.DataFrame(data)
df5

In [None]:
df4

In [None]:
# df4, df5 조인결합 
# 기준의 되는 컬럼의 이름이 다른 경우
pd.merge(df4, df5, left_on='loc', right_on='location', how='inner')

In [None]:
# 두개의 데이터프레임중 하나의 컬럼의 이름을 변경하고 조인결합
df5.rename(
    columns = {
        'location' : 'loc'
    }, inplace=True
)

In [None]:
pd.merge(df4, df5, on='loc', how='inner')

In [None]:
df4.merge(df5, on='loc', how='inner')

#### 데이터프레임 결합 예제
1. csv 폴더 안에 있는 tran_1, tran_2, tran_d_1, tran_d_2 파일을 로드 
2. tran_1, tran_2를 단순 행 결합 
3. tran_d_1, tran_d_2를 단순 행 결합 
4. 2번의 결과와 3번의 결과를 조인 결합(inner) 

In [None]:
tran_1 = pd.read_csv("../../csv/tran_1.csv")
tran_2 = pd.read_csv("../../csv/tran_2.csv")
tran_d1 = pd.read_csv("../../csv/tran_d_1.csv")
tran_d2 = pd.read_csv("../../csv/tran_d_2.csv")

In [None]:
# tran_1, tran_2 단순한 행 결합 
tran = pd.concat( [tran_1, tran_2], axis=0, ignore_index=True )

In [None]:
# tran_d1, tran_d2 단순한 행 결합 
print(len(tran_d1))
print(len(tran_d2))
tran_d = pd.concat( [tran_d1, tran_d2] , axis=0, ignore_index=True)

In [None]:
tran.head(1)

In [None]:
tran_d.head(1)

In [None]:
df = pd.merge(tran, tran_d, how='left', on='transaction_id')

In [None]:
# item_mater 파일 로드 
item_master = pd.read_csv("../../csv/item_master.csv")

In [None]:
item_master

In [None]:
tran_d.head(1)

In [None]:
# df와 item_master를 조인 결합 
total_df = df.merge(item_master, on = 'item_id', how='left')

In [None]:
# transaction_id가 2개 이상인 데이터들만 출력 
# 중복데이터가 존재하는가?
# 값들의 카운터를 확인하는 함수 
df2 = total_df['transaction_id'].value_counts()
id_list2 = df2[df2 > 1].index
len(id_list2)

In [None]:
# 인덱스를 이동하는 함수 shift()
flag = \
    total_df['transaction_id'] == total_df.shift()['transaction_id']
id_list = total_df.loc[flag, 'transaction_id']
len(id_list.unique())

In [None]:
id_list2

In [None]:
# total_df의 인덱스를 transaction_id 변경
# set_index('컬럼명')
total_df.set_index('transaction_id')\
    .loc[id_list2].reset_index()\
        [ ['transaction_id', "price", "item_price", "quantity"] ]

In [None]:
# duplicated() : 중복 데이터를 체크하는 함수 
# subset 매개변수 : 어떤 열의 데이터의 중복을 체크할것인가? (기본값은 모든 열)
# keep : 
#   'first' : 중복되는 데이터중 첫번째 데이터는 False
#   'last' : 중복되는 데이터 중 마지막 데이터는 False
#   False : 중복되는 데이터 모두 True
flag = total_df.duplicated(subset='transaction_id', keep=False)
total_df.loc[flag]

In [None]:
total_df.duplicated(subset='transaction_id', keep=False).value_counts()

In [None]:
data = {
    'id' : ['a', 'b', 'c', 'd', 'd'], 
    'pass' : ['1111', '1234', '2222', '0000', '0001']
}
test_df = pd.DataFrame(data)
test_df

In [None]:
test_df.duplicated(subset='id', keep=False)

In [None]:
# 중복 데이터를 제거하는 함수수
test_df.drop_duplicates(subset='id', keep=False)

In [None]:
total_df.head(1)

In [None]:
total_df.info()

In [None]:
# 어떤 요일에 매출이 가장 높은가?
# payment_date를 시계열 데이터로 변경 
total_df['payment_date'] = \
    pd.to_datetime(total_df['payment_date'], format="%Y-%m-%d %H:%M:%S")
# 요일 컬럼을 생성해서 시계열 데이터에서 요일(축약된 이름)을 추출하여 대입
# case1 (map함수 이용)
# total_df['payment_date'].map(
#     lambda x : x.strftime('%a')
# )
# Series에서 datetime 함수를 이용
total_df['요일'] = total_df['payment_date'].dt.strftime('%a')
# price2 컬럼을 생성 item_price * quantity 결과를 대입
total_df['price2'] = total_df['item_price'] * total_df['quantity']
# 요일별로 그룹화하여 price2의 합산
group_data = total_df[ [ 'price2', '요일' ] ].groupby('요일').sum()
# price2를 기준으로 내림차순 정렬
group_data.sort_values('price2', ascending=False)

In [None]:
total_df.describe()

In [None]:
total_df.info()

In [None]:
# 중복된 데이터를 첫번째 한개를 남겨두고 모두 제거 
total_df2 = total_df.drop_duplicates(subset='transaction_id', keep='first')
print(len(total_df2))
total_df2[['요일', 'price']].groupby('요일').sum().sort_values('price', ascending=False)

In [111]:
total_df2[['요일', 'price']].groupby('요일').agg(['count','mean', 'sum'])

Unnamed: 0_level_0,price,price,price
Unnamed: 0_level_1,count,mean,sum
요일,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Fri,1008,143422.619048,144570000
Mon,941,139606.801275,131370000
Sat,975,144230.769231,140625000
Sun,994,141634.808853,140785000
Thu,929,147168.998924,136720000
Tue,961,143595.213319,137995000
Wed,978,142198.364008,139070000


#### 특정 경로 상에 있는 파일들을 로드 
- 일반적인 방법 : 상대경로, 절대경로를 이용해서 각각의 파일들을 로드 
- 특정 경로에 존재하는 파일의 리스트 출력 
    - os 라이브러리 사용
    - glob 라이브러리 사용
- 반복문을 이용하여 파일들을 모두 로드 
    - 반복을 통해서 데이터프레임을 모두 행 결합
    - 반복을 통해서 데이터프레임을 각각 다른 변수에 대입

In [112]:
import os 
from glob import glob

In [113]:
# os 라이브러리 안에 listdir() 사용 
os.listdir("../../csv/2017")

['201701_expense_list.csv',
 '201702_expense_list.csv',
 '201703_expense_list.csv',
 '201704_expense_list.csv',
 '201705_expense_list.csv',
 '201706_expense_list.csv',
 '201707_expense_list.csv',
 '201708_expense_list.csv',
 '201709_expense_list.csv',
 '201710_expense_list.csv',
 '201711_expense_list.csv',
 '201712_expense_list.csv']

In [117]:
# 특정 경로를 변수에 저장 
file_path = "../../csv/2017"
# 특정 경로의 파일의 목록
file_list = os.listdir(file_path)

# 반복문을 통해 로드가되는 데이터프레임을 결합하는 빈 데이터프레임을 생성
df_2017 = pd.DataFrame()
# 반복문을 이용
for file_name in file_list:
    # pandas 안에 read_csv()함수를 이용하여 데이터프레임 로드 
    # file_path(../../csv/2017)
    # file_name(201701_expense_list.csv)
    # file_path + file_name -> ../../csv/2017201701_expense_list.csv
    # 경로상 문제 발생 
    # file_path + "/" + file_name -> ../../csv/2017/201701_expense_list.csv
    df = pd.read_csv( file_path + "/" + file_name )
    # 첫번째 반복 :  df = 201701 데이터프레임 생성
    #               concat()이용해서 df_2017과 df를 단순 행 결합
    df_2017 = pd.concat( [df_2017, df] , axis = 0)


In [119]:
len(df_2017)

70132

In [120]:
len(
    pd.read_csv("../../csv/2017/201701_expense_list.csv")
)

5517

In [121]:
# 2019년도 폴더에 있는 파일들의 목록을 모두 로드하여 
# 하나의 데이터프레임으로 생성
file_path = "../../csv/2019/"
file_list = os.listdir(file_path)
df_2019 = pd.DataFrame()

i = 0 

while True:
    try:
        file_name = file_list[i]

        df = pd.read_json(file_path + file_name)
        df_2019 = pd.concat([df_2019, df], axis=0)
        i += 1
    except:
        break


In [122]:
len(df_2019)

74207

In [124]:
file_path = "../../csv/2020/"
file_list = os.listdir(file_path)

df_2020 = pd.DataFrame()

for file_name in file_list:
    df = pd.read_excel(file_path + file_name)
    df_2020 = pd.concat([df_2020, df])
# 인덱스 초기화하고 기존 인덱스 제거 
df_2020.reset_index(drop=True, inplace=True)

In [None]:
# glob()
glob("../../csv/2021/*.csv")

#### 함수를 생성 
- 매개변수 2개 생성 ( _path, _end )
    - _path : 특정 경로
    - _end : 기본값(csv), 확장자 선택
- _path의 파일 목록을 저장
- 빈 데이터프레임 생성
- 파일의 목록을 기준으로 반복문 생성
    - _end에 따라 read_xxxx() 호출
    - 빈 데이터프레임에 read함수를 이용한 데이터프레임을 결합
    - 결합될때마다 데이터프레임의 길이를 출력
- 결합된 데이터프레임을 되돌려준다. 


In [None]:
def data_load(_path, _end = 'csv'):
    # 파일의 목록을 생성 
    file_list = os.listdir(_path)
    # 빈 데이터프레임 생성 
    result = pd.DataFrame()
    file_path = _path + '/'
    # file_list2 = glob(file_path + "*." + _end)
    # case1 특정 파일 목록을 생성하는 방법
    # file_list에서 특정 확장자를 가진 파일의 목록을 새로 만든다. 
    file_list2 = []
    for file in file_list:
        # file : 파일의 풀네임 ( 이름 + 확장자 )
        # 문자열의 마지막이 포함 여부를 나타내는 함수
        # if file.endswith(_end):
        # 문자열에서 _end의 길이만큼 마지막 문자를 출력해서 비교
        # if file[ -len(_end) : ] == _end:
        if file.split('.')[-1] == _end:
            file_list2.append(file)

    

    # for file_name in file_list:
    for file_name in file_list2:
        if _end == "csv":
            df = pd.read_csv(file_path + file_name)
        elif _end == 'json':
            df = pd.read_json(file_path + file_name)
        elif _end == 'xml':
            df = pd.read_xml(file_path + file_name)
        # elif _end == 'xlsx' or _end == 'xls':
        elif _end in ['xlsx', 'xls']:
            df = pd.read_excel(file_path + file_name)
        else:
            # 함수에서 return의 기능?
            # 값을 되돌려준다. 
            # 함수를 종료
            return "해당 확장자는 사용이 불가능합니다."
        # 빈데이터프레임에 결합 
        result = pd.concat( [result, df] )
    return result

In [14]:
glob("../../csv/2021/*.xml")

['../../csv/2021\\202101_expense_list.xml',
 '../../csv/2021\\202102_expense_list.xml',
 '../../csv/2021\\202103_expense_list.xml',
 '../../csv/2021\\202104_expense_list.xml',
 '../../csv/2021\\202105_expense_list.xml',
 '../../csv/2021\\202106_expense_list.xml',
 '../../csv/2021\\202107_expense_list.xml',
 '../../csv/2021\\202108_expense_list.xml',
 '../../csv/2021\\202109_expense_list.xml',
 '../../csv/2021\\202110_expense_list.xml',
 '../../csv/2021\\202111_expense_list.xml',
 '../../csv/2021\\202112_expense_list.xml']

In [None]:
data_load('../../csv/2021', 'xml')

In [136]:
# 문자의 위치를 기준으로 조건식 생성 
file_path[-1] == '/'
# endswith() 함수를 이용
file_path.endswith('/')

True

In [174]:
_list = [1,2,3,4]
_list.remove(3)
_list

[1, 2, 4]

In [11]:
import pandas as pd
import os
from glob import glob

In [None]:
def data_load(_path, _end = 'csv'):
    # 빈 데이터프레임 생성 
    result = pd.DataFrame()
    file_path = _path + '/'
    file_list2 = glob(file_path + "*." + _end)

    

    # for file_name in file_list:
    for file_name in file_list2:
        if _end == "csv":
            df = pd.read_csv(file_name)
        elif _end == 'json':
            df = pd.read_json(file_name)
        elif _end == 'xml':
            df = pd.read_xml(file_name)
        # elif _end == 'xlsx' or _end == 'xls':
        elif _end in ['xlsx', 'xls']:
            df = pd.read_excel(file_name)
        else:
            # 함수에서 return의 기능?
            # 값을 되돌려준다. 
            # 함수를 종료
            return "해당 확장자는 사용이 불가능합니다."
        # 빈데이터프레임에 결합 
        result = pd.concat( [result, df] )
    return result

In [17]:
def data_load2(_path, _end = 'csv'):
    file_list = glob(_path + '/*.' + _end)

    # 반복문을 이용해서 전역변수들을 생성
    i = 1
    for file in file_list:
        if _end == 'csv':
            globals()[f"df{i}"] = pd.read_csv(file)
        elif _end == 'json':
            globals()[f"df{i}"] = pd.read_json(file)
        elif _end == 'xml':
            globals()[f"df{i}"] = pd.read_xml(file)
        elif _end in ['xlsx', 'xls']:
            globals()[f"df{i}"] = pd.read_excel(file)
        else:
            return "지원하는 확장자가 아닙니다."
        print(f"df{i} 변수가 생성" )
        i += 1
    print("변수 생성 완료")

In [18]:
data_load2("../../csv/num_3")

df1 변수가 생성
df2 변수가 생성
df3 변수가 생성
df4 변수가 생성
변수 생성 완료


In [19]:
df1

Unnamed: 0,campaign_id,campaign_name
0,CA1,2_일반
1,CA2,0_입회비반액할인
2,CA3,1_입회비무료


In [20]:
df2

Unnamed: 0,class,class_name,price
0,C01,0_종일,10500
1,C02,1_주간,7500
2,C03,2_야간,6000


In [21]:
df3

Unnamed: 0,customer_id,name,class,gender,start_date,end_date,campaign_id,is_deleted
0,OA832399,XXXX,C01,F,2015-05-01 00:00:00,,CA1,0
1,PL270116,XXXXX,C01,M,2015-05-01 00:00:00,,CA1,0
2,OA974876,XXXXX,C01,M,2015-05-01 00:00:00,,CA1,0
3,HD024127,XXXXX,C01,F,2015-05-01 00:00:00,,CA1,0
4,HD661448,XXXXX,C03,F,2015-05-01 00:00:00,,CA1,0
...,...,...,...,...,...,...,...,...
4187,HD676663,XXXX,C01,M,2019-03-14 00:00:00,,CA1,0
4188,HD246549,XXXXX,C01,F,2019-03-14 00:00:00,,CA1,0
4189,GD037007,XXXXX,C03,M,2019-03-14 00:00:00,,CA1,0
4190,OA953150,XXXXX,C01,M,2019-03-14 00:00:00,,CA1,0


In [22]:
df4

Unnamed: 0,log_id,customer_id,usedate
0,L00000049012330,AS009373,2018-04-01
1,L00000049012331,AS015315,2018-04-01
2,L00000049012332,AS040841,2018-04-01
3,L00000049012333,AS046594,2018-04-01
4,L00000049012334,AS073285,2018-04-01
...,...,...,...
197423,L00000049209753,TS977703,2019-03-31
197424,L00000049209754,TS979550,2019-03-31
197425,L00000049209755,TS995299,2019-03-31
197426,L00000049209756,TS995853,2019-03-31


In [23]:
file_path = "../csv/a.csv"
os.path.split(file_path)

('../csv', 'a.csv')

In [24]:
os.path.splitext(file_path)

('../csv/a', '.csv')

In [32]:
def data_load3(_path):
    # 파일의 목록 (모든 확장자)
    file_list = glob(_path + "/*.*")

    for file in file_list:
        # file : 경로 + 파일 이름 + 확장자
        # print(file)
        # 경로와 파일의 풀네임을 나눈다. 
        file_path, file_name = os.path.split(file)
        # print(file_path)
        # print(file_name) 
        # file_name에서 이름과 확장자로 나눠준다. 
        head, tail = os.path.splitext(file_name)
        # print(head)
        # print(tail)
        # 전역 변수 생성 head 변수에 데이터를 사용 
        if tail == '.csv':
            globals()[head] = pd.read_csv(file)
            print(f"{head}은 전역변수 생성")
        elif tail == ".tsv":
            globals()[head] = pd.read_csv(file, sep='\t')
            print(f"{head}은 전역변수 생성")
        elif tail == '.json':
            globals()[head] = pd.read_json(file)
            print(f"{head}은 전역변수 생성")
        elif tail == '.xml':
            globals()[head] = pd.read_xml(file)
            print(f"{head}은 전역변수 생성")
        elif tail in ['.xlsx', '.xls']:
            globals()[head] = pd.read_excel(file)
            print(f"{head}은 전역변수 생성")
        else:
            print(f"{file_name}은 전역변수 생성 실패")

In [None]:
data_load3("./data2")

AAPL은 전역변수 생성
chipotle은 전역변수 생성
Koweps_Codebook은 전역변수 생성


In [36]:
Koweps_Codebook

Unnamed: 0,변수명,설명,내용,범위,모름/무응답,출처 조사설계서
0,h10_g3,성별,1.남 2.여,N(1~2),모름/무응답=9,10차 머지데이터_변수명.xlsx
1,h10_g4,태어난 연도,년,N(1900~2014),모름/무응답=9999,10차 머지데이터_변수명.xlsx
2,h10_g10,혼인상태,0.비해당(18세 미만)\n1.유배우 2.사별 3.이혼...,N(0~6),모름/무응답=9,10차 머지데이터_변수명.xlsx
3,h10_g11,종교,1.있음 2.없음,N(1~2),모름/무응답=9,10차 머지데이터_변수명.xlsx
4,h10_eco9,직종,직종 코드표 참조,N(직종코드 시트참조),모름/무응답=9999,10차 머지데이터_변수명.xlsx
5,p1002_8aq1,일한달의 월 평균 임금,만원,N(1~9998),모름/무응답=9999,(2015년 10차 한국복지패널조사) 조사설계서-가구원용(beta1).xlsx
6,h10_reg7,7개 권역별 지역구분,1. 서울 2. 수도권(인천/경기) 3. 부산/경남/울산 ...,N(1~7),,(2015년 10차 한국복지패널조사) 조사설계서-가구용(beta1).xlsx
