# 데이터 조인 기법을 통한 데이터 통합절차

In [1]:
import pandas as pd

# 고객 정보 데이터 생성
customer_data = {
    "고객 식별자": [1, 2, 3, 4, 5],
    "이름": ["홍길동", "김철수", "이영희", "박지성", "최강희"],
    "연락처": ["010-1234-5678", "010-2345-6789", "010-3456-7890", "010-4567-8901", "010-5678-9012"]
}
customer_df = pd.DataFrame(customer_data)

# 주문 정보 데이터 생성
order_data = {
    "고객 식별자": [1, 2, 4, 3, 5],
    "주문 번호": [101, 102, 103, 104, 105],
    "주문 일자": ["2023-01-01", "2023-01-02", "2023-01-03", "2023-01-04", "2023-01-05"]
}
order_df = pd.DataFrame(order_data)

In [2]:
# 고객정보 데이터
customer_data
#print()
#print(order_df)

{'고객 식별자': [1, 2, 3, 4, 5],
 '이름': ['홍길동', '김철수', '이영희', '박지성', '최강희'],
 '연락처': ['010-1234-5678',
  '010-2345-6789',
  '010-3456-7890',
  '010-4567-8901',
  '010-5678-9012']}

In [3]:
# 주문정보데이터
order_df

Unnamed: 0,고객 식별자,주문 번호,주문 일자
0,1,101,2023-01-01
1,2,102,2023-01-02
2,4,103,2023-01-03
3,3,104,2023-01-04
4,5,105,2023-01-05


위의 코드를 이용해서 합쳐보자는거임

고객정보데이터 + 주문정보 데이터 통합

일치하는 부분 - 공통된 부분을 찾아서 Join해야함

-> 고객 식별자 부분 일치 데이터 조인

In [6]:
# 고객 식별자를 기준으로 데이터 조인
#merged_df = pd.merge(customer_df, order_df, on='고객 식별자')
merged_df = customer_df.merge(order_df, on='고객 식별자')

In [7]:
merged_df

Unnamed: 0,고객 식별자,이름,연락처,주문 번호,주문 일자
0,1,홍길동,010-1234-5678,101,2023-01-01
1,2,김철수,010-2345-6789,102,2023-01-02
2,3,이영희,010-3456-7890,104,2023-01-04
3,4,박지성,010-4567-8901,103,2023-01-03
4,5,최강희,010-5678-9012,105,2023-01-05


4번에 해당하는 박지성은 103번 주문함 -> 식별자 순서라 주문번호나 다른 컬럼은 순서대로 아닐수있음

2. 통합된 데이터를 일치하는 예제

- 은행 A, B의 고객 데이터를 수집한 것을 일치하도록 하는 예제

In [21]:
# 은행 A의 고객 데이터
import pandas as pd

data_a = {
    'CustomerID': [1, 2, 3],
    'Name': ['John Doe', 'Jane Smith', 'Alice Brown'],
    'Address': ['123 Elm St', '456 Oak St', '789 Pine St'],
    'PhoneNumber': ['555-1234', '555-5678', '555-8765']
}

df_a = pd.DataFrame(data_a)

# 은행 B의 고객 데이터
data_b = {
    'Cust_ID': [2, 3, 4],
    'Customer Name': ['Jane Smith', 'Alice Brown', 'Bob Green'],
    'Email': ['jane@example.com', 'alice@example.com', 'bob@example.com'],
    'Birthdate': ['1985-05-15', '1990-08-22', '1975-11-30']
}

df_b = pd.DataFrame(data_b)

df_a, df_b


(   CustomerID         Name      Address PhoneNumber
 0           1     John Doe   123 Elm St    555-1234
 1           2   Jane Smith   456 Oak St    555-5678
 2           3  Alice Brown  789 Pine St    555-8765,
    Cust_ID Customer Name              Email   Birthdate
 0        2    Jane Smith   jane@example.com  1985-05-15
 1        3   Alice Brown  alice@example.com  1990-08-22
 2        4     Bob Green    bob@example.com  1975-11-30)

은행 A와 B가 있다 - 처리 과정 진행하는것

같은 의미지만 이름설정은 다른경우가 있음 CustomerID, Cust_ID

* 데이터 전처리 및 통합

변수 및 열 이름을 일치시키고 데이터 형식을 통일

1. Cust_ID -> CustomerID

2. Name -> Customer Name

In [25]:
# 변수 및 열 이름 일치화
df_b.rename(columns={'Cust_ID':'CustomerID', 'Customer Name':'Name'}, inplace=True)

# df_b의 컬럼명을 바꿈, inplace=True 바꾼 내용을 df_b에 입력 인플레이스 해줘야 저장이됨 아니면 출력만 되니 주의
# 바뀐 내용 적용 안된다
df_b

Unnamed: 0,CustomerID,Name,Email,Birthdate
0,2,Jane Smith,jane@example.com,1985-05-15
1,3,Alice Brown,alice@example.com,1990-08-22
2,4,Bob Green,bob@example.com,1975-11-30


* 데이터 통합

Name 항목으로 일치해서 통합

In [30]:
# 데이터 통합 
merged_df = pd.merge(df_a, df_b, on=['Name','CustomerID'], how='outer')
# outer 병합
# df_a, df_b 모두에 존재하는 행은 병합된 결과에 포함
merged_df

Unnamed: 0,CustomerID,Name,Address,PhoneNumber,Email,Birthdate
0,3,Alice Brown,789 Pine St,555-8765,alice@example.com,1990-08-22
1,4,Bob Green,,,bob@example.com,1975-11-30
2,2,Jane Smith,456 Oak St,555-5678,jane@example.com,1985-05-15
3,1,John Doe,123 Elm St,555-1234,,


CustomerID 4, Bob Green인 사람의 Address, PhoneNumber 값이 없으니 빈값을 채워넣자

In [34]:
merged_df.loc[merged_df['Name'] == 'Bob Green','Address'] = '456 Oak St'
# Name 이 'Bob Green'인 사람이 있을때, 'Address'에 '456 Oak St'를 입력하는 코드
merged_df

Unnamed: 0,CustomerID,Name,Address,PhoneNumber,Email,Birthdate
0,3,Alice Brown,789 Pine St,555-8765,alice@example.com,1990-08-22
1,4,Bob Green,456 Oak St,,bob@example.com,1975-11-30
2,2,Jane Smith,456 Oak St,555-5678,jane@example.com,1985-05-15
3,1,John Doe,123 Elm St,555-1234,,


In [35]:
merged_df.loc[merged_df['Name'] == 'Bob Green','PhoneNumber'] = '555-5678'
# Name 이 'Bob Green'인 사람이 있을때, 'PhoneNumber'에 '555-5678'를 입력하는 코드
merged_df

Unnamed: 0,CustomerID,Name,Address,PhoneNumber,Email,Birthdate
0,3,Alice Brown,789 Pine St,555-8765,alice@example.com,1990-08-22
1,4,Bob Green,456 Oak St,555-5678,bob@example.com,1975-11-30
2,2,Jane Smith,456 Oak St,555-5678,jane@example.com,1985-05-15
3,1,John Doe,123 Elm St,555-1234,,


In [52]:
merged_df.loc[merged_df['Name'] == 'John Doe','Email'] = 'jdoe@example.com'
# Name 이 'Bob Green'인 사람이 있을때, 'PhoneNumber'에 '555-5678'를 입력하는 코드
merged_df

Unnamed: 0,CustomerID,Name,Address,PhoneNumber,Email,Birthdate,이메일_형식_유효성
0,3,Alice Brown,789 Pine St,555-8765,alice@example.com,1990-08-22,True
1,4,Bob Green,456 Oak St,555-5678,bob@example.com,1975-11-30,True
2,2,Jane Smith,456 Oak St,555-5678,jane@example.com,1985-05-15,True
3,1,John Doe,123 Elm St,555-1234,jdoe@example.com,1990-04-04,True


In [51]:
merged_df.loc[merged_df['Name'] == 'Bob Green','Email'] = 'bob@example.com'
# Name 이 'Bob Green'인 사람이 있을때, 'PhoneNumber'에 '555-5678'를 입력하는 코드
merged_df

Unnamed: 0,CustomerID,Name,Address,PhoneNumber,Email,Birthdate,이메일_형식_유효성
0,3,Alice Brown,789 Pine St,555-8765,alice@example.com,1990-08-22,True
1,4,Bob Green,456 Oak St,555-5678,bob@example.com,1975-11-30,True
2,2,Jane Smith,456 Oak St,555-5678,jane@example.com,1985-05-15,True
3,1,John Doe,123 Elm St,555-1234,jdoe@example.com,1990-04-04,True


In [49]:
merged_df.loc[merged_df['Name'] == 'John Doe','Birthdate'] = '1990-04-04'
# Name 이 'Bob Green'인 사람이 있을때, 'PhoneNumber'에 '555-5678'를 입력하는 코드
merged_df

Unnamed: 0,CustomerID,Name,Address,PhoneNumber,Email,Birthdate,이메일_형식_유효성
0,3,Alice Brown,789 Pine St,555-8765,alice@example.com,1990-08-22,True
1,4,Bob Green,456 Oak St,555-5678,,1975-11-30,True
2,2,Jane Smith,456 Oak St,555-5678,jane@example.com,1985-05-15,True
3,1,John Doe,123 Elm St,555-1234,jdoe@example.com,1990-04-04,True


In [50]:
merged_df.loc[merged_df['Name'] == 'Bob Green','Birthdate'] = '1975-11-30'
# Name 이 'Bob Green'인 사람이 있을때, 'PhoneNumber'에 '555-5678'를 입력하는 코드
merged_df

Unnamed: 0,CustomerID,Name,Address,PhoneNumber,Email,Birthdate,이메일_형식_유효성
0,3,Alice Brown,789 Pine St,555-8765,alice@example.com,1990-08-22,True
1,4,Bob Green,456 Oak St,555-5678,,1975-11-30,True
2,2,Jane Smith,456 Oak St,555-5678,jane@example.com,1985-05-15,True
3,1,John Doe,123 Elm St,555-1234,jdoe@example.com,1990-04-04,True


이메일 형식을 판단하는 방법

In [54]:
import re # 정규 표현식 사용 라이브러리
merged_df

# 이메일 형식 검사 함수
def is_valid_email(email):
    email_regex = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
    if email and re.match(email_regex, email):
        return True
    return False

# 이메일 형식 검사
merged_df['이메일_형식_유효성'] = merged_df['Email'].apply(is_valid_email)

Unnamed: 0,CustomerID,Name,Address,PhoneNumber,Email,Birthdate,이메일_형식_유효성
0,3,Alice Brown,789 Pine St,555-8765,alice@example.com,1990-08-22,True
1,4,Bob Green,456 Oak St,555-5678,bob@example.com,1975-11-30,True
2,2,Jane Smith,456 Oak St,555-5678,jane@example.com,1985-05-15,True
3,1,John Doe,123 Elm St,555-1234,jdoe@example.com,1990-04-04,True


In [60]:
merged_df.loc[merged_df['Name'] == 'Bob Green','Email'] = '11@11.'
# 값 바꾼 뒤에 한번 더 유효성 검사해야함 아님 True 그대로 나온다 조심할것 밑에 코드 다시 써야함 merged_df['이메일_형식_유효성'] = merged_df['Email'].apply(is_valid_email)
merged_df['이메일_형식_유효성'] = merged_df['Email'].apply(is_valid_email)
merged_df

Unnamed: 0,CustomerID,Name,Address,PhoneNumber,Email,Birthdate,이메일_형식_유효성
0,3,Alice Brown,789 Pine St,555-8765,alice@example.com,1990-08-22,True
1,4,Bob Green,456 Oak St,555-5678,11@11.,1975-11-30,False
2,2,Jane Smith,456 Oak St,555-5678,jane@example.com,1985-05-15,True
3,1,John Doe,123 Elm St,555-1234,jdoe@example.com,1990-04-04,True
