## 데이터 파이프라인 End-to-End 프로젝트

<img src="https://velog.velcdn.com/images/newnew_daddy/post/7422a14f-8952-4990-9aba-578695cce6f7/image.png" width="60%">

1. postgresql DB에 Fake 유저 정보 저장 (Batch Data)
2. Pipeline 모듈을 통한 데이터 이행 및 데이터 가공
3. MYSQL DB에 가공된 datamart 테이블 저장
4. Streamlit 라이브러리를 통한 MYSQL 테이블 데이터 시각화
5. n초 마다 Batch성 이행을 통해 시각화 테이블 업데이트 내용 확인

### 1. PostgreSQL DB에 Fake 유저 정보 저장

##### 1) Fake 데이터 생성

Faker 라이브러리
- [공식 Docs](https://faker.readthedocs.io/en/master/)
- [Fake data 사용하기](https://www.daleseo.com/python-faker/)

In [12]:
from faker import Faker

fake = Faker("ko_KR")

fake.profile()

{'job': '석유 및 천연가스제조 관련 제어장치 조작원',
 'company': '이김배',
 'ssn': '120024-1287109',
 'residence': '전라남도 의왕시 백제고분11길 (영미김면)',
 'current_location': (Decimal('-24.1058785'), Decimal('135.025451')),
 'blood_group': 'B+',
 'website': ['http://iyunmun.org/', 'http://www.jusighoesa.com/'],
 'username': 'yeongmigim',
 'name': '이지민',
 'sex': 'F',
 'address': '전라북도 청주시 서원구 언주로',
 'mail': 'gimyeonghwan@gmail.com',
 'birthdate': datetime.date(1998, 6, 20)}

In [14]:
# Fake data Import

key_list = ["name", "ssn", "job", "residence", "blood_group", "sex", "birthdate"]

fake_profile = fake.profile()

fake_dict = dict()

for key in key_list:
    fake_dict[key] = fake_profile[key]
    
fake_dict

{'name': '한지혜',
 'ssn': '420906-1431587',
 'job': '악기제조 및 조율사',
 'residence': '광주광역시 동작구 학동거리 (준서김임면)',
 'blood_group': 'AB-',
 'sex': 'F',
 'birthdate': datetime.date(1961, 5, 14)}

In [17]:
import uuid

uuid.uuid1()

UUID('20981713-f2e3-11ee-b0b2-588694f8c305')

In [19]:
import shortuuid

fake_dict["uuid"] = shortuuid.uuid()

fake_dict

{'name': '한지혜',
 'ssn': '420906-1431587',
 'job': '악기제조 및 조율사',
 'residence': '광주광역시 동작구 학동거리 (준서김임면)',
 'blood_group': 'AB-',
 'sex': 'F',
 'birthdate': datetime.date(1961, 5, 14),
 'uuid': 'SqZQFHW45caFo9agZbTPdk'}

In [33]:
# 데이터 가공

from faker import Faker
import shortuuid

fake = Faker("ko_KR")

key_list = ["name", "ssn", "job", "residence", "blood_group", "sex", "birthdate"]

fake_profile = fake.profile()

fake_dict = dict()

for key in key_list:
    fake_dict[key] = fake_profile[key]
    
fake_dict["uuid"] = shortuuid.uuid()

fake_dict['birthdate'] = fake_dict['birthdate'].strftime("%Y%m%d")
    
fake_dict

{'name': '조미경',
 'ssn': '420808-2604268',
 'job': '기타 운송장비 정비원',
 'residence': '강원도 양구군 양재천105로',
 'blood_group': 'A-',
 'sex': 'F',
 'birthdate': '19480508',
 'uuid': '4KgPxjaynJEYTFD924USgU'}

In [10]:
# create_fakeuser 함수 생성
from faker import Faker
import shortuuid

def create_fakeuser() -> dict:
    
    fake = Faker("ko_KR")
    fake_profile = fake.profile()
    key_list = ["name", "ssn", "job", "residence", "blood_group", "sex", "birthdate"]

    fake_dict = dict()

    for key in key_list:
        fake_dict[key] = fake_profile[key]
        
    fake_dict["uuid"] = shortuuid.uuid()

    fake_dict['birthdate'] = fake_dict['birthdate'].strftime("%Y%m%d")
    
    return fake_dict

create_fakeuser()

{'name': '김옥자',
 'ssn': '510722-1728678',
 'job': '화학공학 기술자 및 연구원',
 'residence': '부산광역시 구로구 역삼거리',
 'blood_group': 'B+',
 'sex': 'F',
 'birthdate': '20030108',
 'uuid': 'TUeSoCq2VNmoSAoS9vLRcb'}

##### 2) Fake dataframe 저장

In [None]:
def func():
    return name, age

name1, _ = func()

In [47]:
# list comprehension

temp_list = []

for i in range(10):
    temp_list.append(i)

temp_list

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [49]:
temp_list = [i for i in range(10)]


[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [65]:
import pandas as pd
from random import randint

count = randint(5, 15)

sample_data = [create_fakeuser() for _ in range(count)]

pd.DataFrame(sample_data)

Unnamed: 0,name,ssn,job,residence,blood_group,sex,birthdate,uuid
0,김경숙,640321-2196574,변호사,충청남도 청주시 흥덕구 봉은사83가 (하은류남읍),O-,F,20190507,Cajzef8wKTRSdJ7sTvD5k4
1,최성현,040414-1586894,직조기 및 편직기 조작원,충청남도 보령시 언주가,O+,M,19860730,irYP4P92w9QaEUsdxEvY2r
2,박민서,050314-2908030,자연과학 연구원,경상남도 청주시 상당구 언주거리,B-,F,19600730,NvUAEQh67kjMffFdgVRYuL
3,박숙자,020302-1162739,도장기 조작원,울산광역시 동작구 백제고분로,O-,F,20101207,gxE4vJK8MrcEHrkNq7H5ky
4,신우진,330627-1150746,섬유제조 기계조작원,광주광역시 강북구 봉은사로,B-,M,19910618,izp3KNZMqf8ghEoLCfN5pN


##### 3) Fake data insert 함수 생성

In [11]:
import pandas as pd
from random import randint

count = randint(5, 15)

def create_fakedataframe(count: int) -> pd.DataFrame:

    fake_data_list = [create_fakeuser() for _ in range(count)]

    return pd.DataFrame(fake_data_list)

create_fakedataframe(count)

Unnamed: 0,name,ssn,job,residence,blood_group,sex,birthdate,uuid
0,이혜진,860006-2955642,광원/채석원 및 석재 절단원,충청남도 성남시 분당구 도산대가 (현정이리),AB-,F,19861014,DAhCgjQ9YydKbbDrSRpqcE
1,이병철,630511-2319577,임상 심리사 및 기타 치료사,대구광역시 서초구 봉은사거리,O-,M,20211231,4C6BMCSCzNwVCWTmj2PK48
2,이서윤,260208-1772030,농림어업관련 단순 종사원,경상남도 수원시 팔달구 잠실534길 (지훈류이마을),B-,F,19500224,9BDPhYLLrjktnf9axrHWya
3,박정호,690921-1713346,도배공 및 유리 부착원,경상북도 청주시 서원구 학동거리 (숙자허장마을),AB-,M,19371220,Ymq5PMqC8MpxTYRcJvnNmA
4,한상철,840002-1179131,기술 및 기능계 강사,서울특별시 구로구 영동대가 (옥자김동),A+,M,20081213,ENk7g3gPHdkunsZeTqmhNy
5,이지훈,820005-2939460,컴퓨터 하드웨어 기술자 및 연구원,부산광역시 용산구 반포대로,O+,M,19920602,KxD4D62auWr6NG3bh6sKbY
6,김영철,420413-2457257,청원 경찰,대구광역시 서초구 봉은사57가 (보람김리),O-,M,19611228,dPAtZSMF3gexXu2fyj8WeB


In [73]:
from db.connector import DBconnector
from settings import DB_SETTINGS

mysql_obj = DBconnector(**DB_SETTINGS["MYSQL"])
mysql_obj.__dict__

{'engine': 'mysql+pymysql',
 'conn_params': {'host': 'localhost',
  'database': 'kdt7',
  'user': 'hyunsoo',
  'password': '123456',
  'port': 3306,
  'charset': 'utf8'},
 'pymysql_connect': <pymysql.connections.Connection at 0x244b94f08c0>,
 'sqlalchemy_param': 'mysql+pymysql://hyunsoo:123456@localhost:3306/kdt7',
 'sqlalchemy_connect': Engine(mysql+pymysql://hyunsoo:***@localhost:3306/kdt7)}

In [77]:
import pandas as pd
from db.connector import DBconnector
from settings import DB_SETTINGS
from random import randint

count = randint(5, 15)
mysql_obj = DBconnector(**DB_SETTINGS["MYSQL"])

with mysql_obj as connected:
    sqlalchemy_conn = connected.sqlalchemy_connect
    df = create_fakedataframe(count)
    df.to_sql(name="fake_test", con=sqlalchemy_conn, if_exists="append", index=False)

enter 접속
exit 종료


In [None]:
import pandas as pd
from db.connector import DBconnector
from settings import DB_SETTINGS
from random import randint

def insert_fakedataframe(df: pd.DataFrame, db_connector: DBconnector) -> None:
    
    with db_connector as connected:
        sqlalchemy_conn = connected.sqlalchemy_connect
        df.to_sql(name="fake_data", con=sqlalchemy_conn, if_exists="append", index=False)

In [78]:
from faker import Faker
import shortuuid

def create_fakeuser() -> dict:
    
    fake = Faker("ko_KR")
    fake_profile = fake.profile()
    key_list = ["name", "ssn", "job", "residence", "blood_group", "sex", "birthdate"]

    fake_dict = dict()

    for key in key_list:
        fake_dict[key] = fake_profile[key]
        
    fake_dict["uuid"] = shortuuid.uuid()

    fake_dict['birthdate'] = fake_dict['birthdate'].strftime("%Y%m%d")
    
    return fake_dict

In [79]:
import pandas as pd
from random import randint

count = randint(5, 15)

def create_fakedataframe(count: int) -> pd.DataFrame:

    fake_data_list = [create_fakeuser() for _ in range(count)]

    return pd.DataFrame(fake_data_list)

### 2. 모듈을 통한 데이터 이행 및 데이터 가공

##### 1) 데이터 가공
- Pandas를 통해 Data Mart 형태의 테이블로 가공
  1. 거주하는 도시 통계 -> `residence` 전처리 및 컬럼 생성
  2. 혈액형 통계 -> `blood_group`	 전처리 및 컬럼 생성
  3. 남녀 통계 -> `sex` 컬럼 사용
  4. 나이대 통계 -> `birthdate` 전처리 및 컬럼 생성

In [31]:
# dataframe 생성 파일 불러오기



df = create_fakedataframe(10)

df

Unnamed: 0,name,ssn,job,residence,blood_group,sex,birthdate,uuid
0,박영수,350227-2031418,일반 의사,대전광역시 강북구 학동858로 (정웅정최동),B+,M,19321227,5UX6Bh6pGfuwbUhXBLXd4K
1,이은서,670924-1582991,선박 및 열차 객실승무원,전라남도 진천군 논현550거리,B+,F,19380120,RTXDDcv4R4Tc2gDyqHrmAc
2,김상철,210509-2277052,양장 및 양복 제조원,제주특별자치도 과천시 영동대로 (민서김읍),B-,M,20070118,DH78MWVdgxV7rWAQgXzwiT
3,김현우,290720-1862620,주차 관리원 및 안내원,서울특별시 송파구 서초중앙8길 (지연문이마을),AB+,M,20231028,A5pfBgvbGvpfdENW3Ys47v
4,한유진,770024-2254727,기타 비금속제품관련 생산기 조작원,인천광역시 송파구 논현0거리,AB+,F,19130920,NXjdtvbjriMjgxynmWytSq
5,강정남,570019-2628469,경찰관,광주광역시 은평구 역삼1길,A+,M,19431025,XqdGEPHoFUu3CCCbSHUn4n
6,이광수,760815-2959656,전기/전자 부품 및 제품 조립원,대전광역시 구로구 석촌호수785가,O+,M,19550317,N54R4coLyoWQbn5ZDJ8g3W
7,윤중수,070214-2806122,금속기계부품 조립원,경상남도 양양군 양재천가 (옥자박면),AB-,M,20161024,Ca4WhfpNkVQ8V94Dv5uRux
8,심지현,640324-1465227,점토제품 생산기 조작원,부산광역시 동작구 가락02로 (현주박마을),B+,F,19490302,Z2vNq7hNk8Gz7RTQH2jcdu
9,안서연,050624-2120657,냉/난방 관련 설비 조작원,전라북도 용인시 강남대거리,B-,F,19700221,dJrKx28DahwxYJ3xmM3HMH


In [27]:
# 도시 컬럼 생성 (광주광역시 용산구 봉은사로 -> 광주광역시) -> city

df["city"] = df["residence"].str.split().str[0]

In [10]:
# 출생년도 컬럼 생성 (19910506 -> 1991) -> birth_year

df["birth_year"] = df["birthdate"].str.slice(0,4)

In [20]:
# 나이 컬럼 생성 (2024 - 출생년도) -> age

df["age"] = 2024 - df["birth_year"].astype(int)

In [21]:
# 혈액형 컬럼 생성 (AB+ -> AB) -> blood

df["blood"] = df["blood_group"].str.slice(0,-1)

In [23]:
# 나이대 컬럼 생성 (23 -> 20대, 45 -> 40대, 90이상 -> 90대 이상) -> age_category

def categorize_age(age: int):
    if age >= 90:
        return "90대 이상"
    
    else:
        return str(age // 10 * 10) + "대"
        
    
df["age_category"] = df["age"].apply(categorize_age)

In [3]:
# 컬럼 정렬
df_list = ["uuid", "name", "job", "sex", "blood", "city", "birth_year", "age", "age_category"]

df_datamart = df[df_list]

df_datamart.head()

NameError: name 'df' is not defined

##### 2) 데이터 가공 함수 생성

In [2]:
import pandas as pd

def create_fakedatamart(df: pd.DataFrame) -> pd.DataFrame:
    
    # 도시 컬럼 생성
    df["city"] = df["residence"].str.split().str[0]
    # 생년월일 컬럼 생성
    df["birth_year"] = df["birthdate"].str.slice(0,4)
    # 나이 컬럼 생성
    df["age"] = 2024 - df["birth_year"].astype(int)
    # 혈액형 컬럼 생성
    df["blood"] = df["blood_group"].str.slice(0,-1)
    # 나이대 컬럼 생성
    df["age_category"] = df["age"].apply(categorize_age)
    
    column_list = ["uuid", "name", "job", "sex", "blood", "city", "birth_year", "age", "age_category"]

    df_datamart = df[column_list]
    
    return df_datamart
    
def categorize_age(age: int) -> str:
    if age >= 90:
        return "90대 이상"
    
    else:
        return str(age // 10 * 10) + "대"

In [8]:
from fakedata.process import create_fakedatamart
from fakedata.create import create_fakedataframe

df = create_fakedataframe(10)

df = create_fakedatamart(df)
df

Unnamed: 0,uuid,name,job,sex,blood,city,birth_year,age,age_category
0,DHwDZ3qzAMR9ZKCXCdcQtt,이지은,용접기 조작원,F,AB,대전광역시,2005,19,10대
1,9EahtbfbqVo5KJk9xSWQAD,최현정,판금원,F,B,충청북도,1967,57,50대
2,F7FxmoUWSuphkN47JjGz8b,이옥자,응용 소프트웨어 개발자,F,O,인천광역시,1974,50,50대
3,Rm28TvegmkPLTBCpvDevFV,박예은,환경/청소 및 경비 관련 관리자,F,AB,부산광역시,1970,54,50대
4,UYvzFnQ3kTwLcTryL2aRM5,한영자,전기/전자 및 기계 공학 시험원,F,A,충청남도,1953,71,70대
5,TBXSzf9tgo5sboLi8exNrZ,김수민,일반 의사,F,AB,강원도,2020,4,0대
6,BXqbghttWMQ69QQsFqHfah,김아름,전자 부품 및 제품 제조 기계조작원,F,A,경상남도,1923,101,90대 이상
7,5WQL7Bj9NSYuEo5mzffAVx,윤건우,정보통신관련 관리자,M,O,경상북도,2003,21,20대
8,5Wg3Tg2oWXouofLoZ8xuof,문성호,간병인,M,A,충청북도,1933,91,90대 이상
9,n87RbQeSXoVYiQ45YQ3yWw,이채원,정보 시스템 운영자,F,A,부산광역시,1914,110,90대 이상


In [7]:
df.groupby("sex").size().reset_index(name="count")

Unnamed: 0,sex,count
0,F,6
1,M,4


##### 3) 데이터 이행 모듈에 통합

### 3. start.py에 반영
- 특정 간격(3초, 5초 등) 기준으로 fake data가 Insert 될 수 있도록 설정

### 4. 시각화 코드 작성 (streamlit)

- requirements.txt 파일에 라이브러리 추가

  ```
  shortuuid==1.0.11
  streamlit==1.31.1
  streamlit-autorefresh==1.0.1
  altair==4.0
  vega_datasets==0.9.0
  ```
  
> 웹페이지 시작 : streamlit run [시각화 Python 파일]

In [28]:
import time

def say_hello():
    time.sleep(3)
    print("HELLO!")

In [16]:
def say_goodbye():
    time.sleep(2)
    print("GOODBYE!")

In [14]:
start = time.time()
say_hello()
end = time.time()

end - start

HELLO!


3.0006775856018066

In [20]:
def time_checker(func):
    def wrapper():
        start = time.time()
        func()
        end = time.time()
        print("total time : ", end-start)
    return wrapper

In [24]:
aa = say_hello

In [25]:
aa()

HELLO!


In [26]:
time_checker(say_hello)()

HELLO!
total time :  3.0005788803100586


In [29]:
def time_checker(say_hello):
    def wrapper():
        start = time.time()
        say_hello()
        end = time.time()
        print("total time : ", end-start)
    return wrapper

In [34]:
import time

@time_checker
def say_hello():
    time.sleep(3)
    print("HELLO!")
    
@time_checker
def say_goodbye():
    time.sleep(2)
    print("GOODBYE!")

In [33]:
say_hello()

HELLO!
total time :  3.0002684593200684


## class - dataclasses, staticmethod, classmethod

In [56]:
#### 일반적으로 우리가 알고있는 class 구조

class TempClass:
    def __init__(self, var1: str, var2: int):
        self.var1 = var1
        self.var2 = var2
        # self.upper_letter()
        
    def upper_letter(self):
        self.upper_var1 = self.var1.upper()
        print(self.var1.upper())

In [58]:
tc1 = TempClass("hyunsoo", 50)
tc1.upper_letter()

HYUNSOO


In [59]:
tc1.__dict__

{'var1': 'hyunsoo', 'var2': 50, 'upper_var1': 'HYUNSOO'}

In [46]:
from dataclasses import dataclass

@dataclass(frozen=True)
class TempClass:
    var1: str
    var2: int
    
    def __post_init__(self):
        self.upper_letter()
        
    def upper_letter(self):
        self.upper_var1 = self.var1.upper()
        print(self.var1.upper())

In [53]:
### staticmethod

class TempClass:
    def __init__(self, var1: str, var2: int):
        self.a = var1
        self.b = var2
        self.upper_letter()
        
    def upper_letter(self):
        self.upper_var1 = self.var1.upper()
        print(self.var1.upper())
    
    # @staticmethod
    def add_int(self):
        print(age*2)

In [54]:
tc1 = TempClass("hyunsoo", 50)
tc1.add_int()

HYUNSOO


TypeError: unsupported operand type(s) for *: 'TempClass' and 'int'

In [71]:
#### classmethod

class TempClass:
    count = 0
    def __init__(self, var1: str, var2: int):
        self.var1 = var1
        self.var2 = var2
        TempClass.count += 1
        
    def upper_letter(self):
        self.upper_var1 = self.var1.upper()
        print(self.var1.upper())
        
    @classmethod
    def class_count(cls):
        print(cls.count)

In [72]:
tc1 = TempClass("hyunsoo", 50)
tc2 = TempClass("coffee", 30)

In [74]:
tc2.class_count()

2
