### Controller.py
    - extractor, transformer 등 개별 모듈들에 대하여 순서대로 명령을 내려주는 파일

In [None]:
def controller():
    """

    1. DBConnector >> DB Connector 생성
    2. postgresql_query >> queries 에서 테이블 이름 목록(table_list) 받아오기
        ex)
            for tbl in table_list:
    3. extract >> DB 조회 후 DataFrame 형태로 변환
    4. transform >> 저장 경로 생성 후 임시 저장 디렉토리 아래에 dataframe 저장
    5. load >> 저장소에 dataframe 파일 저장
    6. remove >> 저장이 끝난 후 임시 저장 디렉토리 삭제
    """

In [1]:
from db.connector import DBConnector
from settings import DB_SETTINGS, TEMP_PATH
from pipeline.extract import extractor
from pipeline.transform import transformer
from pipeline.load import loader
from pipeline.remove import remover
from datetime import datetime
from db.pgsql_query import queries

In [2]:
# controller

batch_date = '20230416'

def controller(batch_date):
    db_connector = DBConnector(**DB_SETTINGS['POSTGRES'])

    for table_name in queries:
        # print(table_name)
        pandas_df = extractor(db_connector, table_name)
        res = transformer(TEMP_PATH, batch_date, pandas_df, table_name)

        if res:
            db_connector = DBConnector(**DB_SETTINGS['POSTGRES'])
            loader(db_connector,pandas_df, table_name)

        remover(TEMP_PATH)
    


In [3]:
controller(batch_date)

enter
exit
enter


  df = pd.read_sql(_query, con)


exit


## 데이터 파이프라인 End-to-End 프로젝트

1. postgresql DB에 Fake 유저 정보 저장 (Batch Data)
2. Pipeline 모듈을 통한 데이터 이행 및 데이터 가공
3. POSTGRESQL DB에 가공된 datamart 테이블 저장
4. Streamlit 라이브러리를 통한 POSTGRESQL 테이블 데이터 시각화
5. n초 마다 Batch성 이행을 통해 시각화 테이블 업데이트 내용 확인

1) Fake 데이터 생성

Faker 라이브러리

In [26]:
from faker import Faker

fake = Faker('ko_KR')

fake.profile()

{'job': '연구 관리자',
 'company': '김김김',
 'ssn': '760607-1160476',
 'residence': '강원도 성남시 중원구 언주거리 (상호윤면)',
 'current_location': (Decimal('53.633446'), Decimal('48.120346')),
 'blood_group': 'B+',
 'website': ['https://www.songigim.net/',
  'https://www.igo.com/',
  'http://baggimi.com/'],
 'username': 'yejun30',
 'name': '이경수',
 'sex': 'M',
 'address': '부산광역시 강남구 삼성가',
 'mail': 'jeonghyi69@hanmail.net',
 'birthdate': datetime.date(1916, 2, 4)}

In [27]:
key_list = ['name', 'ssn', 'job', 'residence', 'blood_group', 'sex', 'birthdate']

fake_profile = fake.profile()
fake_dict = dict()

for key in key_list:
    fake_dict[key] = fake_profile[key]

fake_dict

{'name': '박유진',
 'ssn': '840304-1579680',
 'job': '화학제품 생산기 조작원',
 'residence': '강원도 평창군 영동대6가 (은정백마을)',
 'blood_group': 'A-',
 'sex': 'F',
 'birthdate': datetime.date(1987, 6, 19)}

In [28]:
import uuid

uuid.uuid4()

UUID('de75f473-9669-4562-8c7d-b01df0e7ff2c')

In [29]:
import shortuuid

fake_dict['uuid'] = shortuuid.uuid()

fake_dict

{'name': '박유진',
 'ssn': '840304-1579680',
 'job': '화학제품 생산기 조작원',
 'residence': '강원도 평창군 영동대6가 (은정백마을)',
 'blood_group': 'A-',
 'sex': 'F',
 'birthdate': datetime.date(1987, 6, 19),
 'uuid': 'nZXwhNsQyAnbqUtyRtPJT8'}

In [3]:
from faker import Faker
import shortuuid
from datetime import datetime

def create_fakeuser() -> dict:
    fake = Faker('ko_KR')
    fake_profile = fake.profile()

    key_list = ['name', 'ssn', 'job', 'residence', 'blood_group', 'sex', 'birthdate']
    
    fake_dict = dict()

    for key in key_list:
        fake_dict[key] = fake_profile[key]

    fake_dict['uuid'] = shortuuid.uuid()

    fake_dict['birthdate'] = fake_dict['birthdate'].strftime(r'%Y%m%d')

    return fake_dict

In [4]:
create_fakeuser()

{'name': '손지연',
 'ssn': '260102-2619479',
 'job': '조세행정 사무원',
 'residence': '전라남도 청주시 상당구 봉은사40길',
 'blood_group': 'AB-',
 'sex': 'F',
 'birthdate': '20220219',
 'uuid': 'UHyh77dwstEjyjNgZ7ENn9'}

2) Fake DataFrame 저장

In [5]:
# list comprehension

temp_list = []

for i in range(10):
    temp_list.append(i)

temp_list

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [6]:
temp_list = [i for i in range(10)]
temp_list

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [7]:
import pandas as pd
from random import randint


count = randint(5,15)

sample_data = [create_fakeuser() for _ in range(count)]
pd.DataFrame(sample_data)

Unnamed: 0,name,ssn,job,residence,blood_group,sex,birthdate,uuid
0,최시우,110801-2333047,무역 사무원,충청북도 옥천군 테헤란572길,O+,M,19821008,eBSJjSUP8GfcKTW3AUvwG8
1,최준서,560911-2370995,환경공학 시험원,전라북도 여주시 영동대445로 (서연이면),A-,M,19570520,NdKLj8LEAiwpm73KVEvsvk
2,장민재,930315-1222408,산업안전 및 위험 관리원,대전광역시 중구 석촌호수7거리 (정순문면),B-,M,19260923,CSsioPtGrndwwPqRsthJd2
3,이순자,750821-2798892,펄프 및 종이 제조장치 조작원,강원도 성남시 분당구 석촌호수거리,AB+,F,19390903,QfmBzPBwuZ4Ruo7kgNq7EX
4,김영자,740521-1543920,전산 자료 입력원 및 사무 보조원,부산광역시 영등포구 선릉길 (지후이면),B-,F,19180828,GF5LvSe96heHonkeFMxVDe
5,허영순,140802-1032725,기타 이미용/예식 및 의료보조 서비스 종사원,부산광역시 중랑구 반포대7거리 (민재이김리),AB+,F,19150723,gnR8LZ7wXpgBexMnAdzCgi
6,지혜진,870202-2683831,선박 및 열차 객실승무원,세종특별자치시 강북구 서초대140가,O+,F,19400628,LKcwSxQPi4NtZH5XpNYhLZ
7,류경희,540424-1572133,오락시설 서비스원,경상남도 서천군 양재천로,B-,F,19670523,KC5AB3ipFBJT7msP5eiR47
8,류병철,640423-1344381,환경/청소 및 경비 관련 관리자,대구광역시 성동구 석촌호수로 (성현김김마을),AB-,M,19781221,Qqnmtskv2k57dVYkEiJ5nT
9,김시우,810606-1023773,텔레마케터,울산광역시 동구 서초중앙43가,B+,M,19710404,Jz4zvEDFvxTg5JZgRzwAja


### Fake data insert 함수

In [8]:
import pandas as pd
from random import randint

count = randint(5, 15)

def create_fakedataframe(count: int) -> pd.DataFrame:
    fake_data_list = [create_fakeuser() for _ in range(count)]
    return pd.DataFrame(fake_data_list)

In [9]:
create_fakedataframe(count)

Unnamed: 0,name,ssn,job,residence,blood_group,sex,birthdate,uuid
0,김영호,460012-2628655,정부 및 공공 행정 전문가,충청남도 양주시 학동로 (예은박김면),O-,M,19420722,JrDbfsCFaZ3BVEnQuCY9Ed
1,최성수,560727-2086611,사서 및 기록물관리사,전라남도 용인시 기흥구 석촌호수04거리,A+,M,19570707,YZqh9zC6CgVCXCostEUv6n
2,김민수,170603-2722884,항공기 정비원,울산광역시 용산구 개포8로,AB-,M,20031025,i99sGB8PEJCmht5nhgJfnV
3,김미영,860918-2348830,배관 세정원 및 방역원,부산광역시 남구 서초대거리 (지우김리),O-,F,19560622,8sRqLQPFCF7avdewCziwbm
4,최서준,100708-1578786,아나운서 및 리포터,광주광역시 노원구 테헤란2거리,O+,M,19470103,MpGsuse7BmxL58PwvPAoKJ
5,김영순,280400-1763593,경리 사무원,전라북도 오산시 역삼862로,A+,F,19120109,DzkgiXKZmFaHdFgF8GEfSE
6,차정호,720712-2179244,의지보조기기사,충청북도 청양군 영동대109가,O-,M,19320324,6c9mcmwGkCR5ZXwF9DkAta
7,이승현,680922-1425725,기타 주방장 및 조리사,경상남도 단양군 반포대74가,AB-,M,20230722,BxkDQn7df3XraTjVxFGS3f
8,송승민,470805-2187126,조사 전문가,전라북도 청주시 서원구 영동대로 (수빈조문읍),B+,M,19620826,i2HWDE4Y7LPbaNbzRwgPAn


In [10]:
from db.connector import DBConnector
from settings import DB_SETTINGS

pgsql_obj = DBConnector(**DB_SETTINGS['POSTGRES'])
pgsql_obj.__dict__

{'engine': 'postgresql',
 'orm_engine': 'postgresql',
 'conn_params': {'host': '127.0.0.1',
  'dbname': 'postgres',
  'user': 'postgres',
  'password': 'Tkkwak0419?!',
  'port': '5432'},
 'orm_conn_params': 'postgresql://postgres:Tkkwak0419?!@127.0.0.1:5432/postgres',
 'orm_conn': Engine(postgresql://postgres:***@127.0.0.1:5432/postgres),
 'conn': <connection object at 0x0000024D18429E00; dsn: 'user=postgres password=xxx dbname=postgres host=127.0.0.1 port=5432', closed: 0>,
 'connect': <db.connector.DBConnector at 0x24d1767d820>,
 'queries': {'lecture': 'select * from lecture'}}

In [13]:
import pandas as pd
from db.connector import DBConnector
from settings import DB_SETTINGS
from random import randint


count = randint(5, 15)
pgsql_obj = DBConnector(**DB_SETTINGS['POSTGRES'])

with pgsql_obj as connected:
    sqlalchemy_conn = connected.orm_connect()
    df = create_fakedataframe(count)
    df.to_sql(name='fake', con=sqlalchemy_conn, if_exists='append', index=False)

enter
exit


In [14]:
df

Unnamed: 0,name,ssn,job,residence,blood_group,sex,birthdate,uuid
0,장예은,660100-1150296,과수작물 재배원,강원도 안양시 석촌호수로,AB+,F,19760916,32j835NPD3Ntwh5YikuAgH
1,문영자,200516-2925799,한식 주방장 및 조리사,서울특별시 서초구 양재천8로,B-,F,19740112,QjDB7o6NVaqdpaFNdakE7e
2,권영숙,090019-2451323,회계 사무원,전라남도 청주시 청원구 양재천길 (시우엄동),B+,F,19570213,VwjLNDgQbGZ7kKHSP67BMi
3,김예준,910529-1615706,유치원 교사,세종특별자치시 동구 영동대가 (종수안노면),O+,M,19960501,PE8FFsjYzBUw2wN5djps7e
4,이진우,700429-1112670,행사기획자,경상남도 수원시 영통구 학동거리 (민서김읍),AB+,M,19270605,QD2yHTSdjr94HtfWnamzSm


In [15]:
from faker import Faker
import shortuuid

def create_fakeuser() -> dict:

    fake = Faker('ko_KR')
    fake_profile = fake.profile()
    key_list = ['name', 'ssn', 'job', 'residence', 'blood_group', 'sex', 'birthdate']

    fake_dict = dict()

    for key in key_list:
        fake_dict[key] = fake_profile[key]

    fake_dict['uuid'] = shortuuid.uuid()

    fake_dict['birthdate'] = fake_dict['birthdate'].strftime('%Y%m%d')

    return fake_dict

In [17]:
for _ in range(5):
    fake_user = create_fakeuser()
    print(fake_user)

{'name': '송서준', 'ssn': '710019-2381826', 'job': '기타 행정 및 경영지원 관리자', 'residence': '경상북도 인제군 학동로', 'blood_group': 'AB+', 'sex': 'M', 'birthdate': '19871122', 'uuid': 'meg7uiCPFjceF5EJtmV4Xo'}
{'name': '강은주', 'ssn': '210721-2012065', 'job': '보일러 설치 및 정비원', 'residence': '대구광역시 관악구 압구정3거리', 'blood_group': 'O-', 'sex': 'F', 'birthdate': '19720503', 'uuid': 'kgX3dWeuCSM2apwjQ5oMCc'}
{'name': '차채원', 'ssn': '580603-2915874', 'job': '가수 및 성악가', 'residence': '전라남도 의왕시 가락0거리 (옥자최허동)', 'blood_group': 'AB-', 'sex': 'F', 'birthdate': '19630802', 'uuid': 'F3iZ3uHMH2ipHKvgu5tmcd'}
{'name': '김선영', 'ssn': '700611-1546694', 'job': '제관기 조작원', 'residence': '세종특별자치시 송파구 언주로 (수빈황읍)', 'blood_group': 'A+', 'sex': 'F', 'birthdate': '19620101', 'uuid': 'hQo5XtCod5VeqJBvqzWrjy'}
{'name': '최현준', 'ssn': '280710-2635413', 'job': '제빵원 및 제과원', 'residence': '전라남도 고양시 테헤란가 (현우박손동)', 'blood_group': 'B-', 'sex': 'M', 'birthdate': '19510329', 'uuid': 'KHa33KY3BQdPiX9ssmbukM'}


Unnamed: 0,name,ssn,job,residence,blood_group,sex,birthdate,uuid
0,장예은,660100-1150296,과수작물 재배원,강원도 안양시 석촌호수로,AB+,F,19760916,32j835NPD3Ntwh5YikuAgH
1,문영자,200516-2925799,한식 주방장 및 조리사,서울특별시 서초구 양재천8로,B-,F,19740112,QjDB7o6NVaqdpaFNdakE7e
2,권영숙,090019-2451323,회계 사무원,전라남도 청주시 청원구 양재천길 (시우엄동),B+,F,19570213,VwjLNDgQbGZ7kKHSP67BMi
3,김예준,910529-1615706,유치원 교사,세종특별자치시 동구 영동대가 (종수안노면),O+,M,19960501,PE8FFsjYzBUw2wN5djps7e
4,이진우,700429-1112670,행사기획자,경상남도 수원시 영통구 학동거리 (민서김읍),AB+,M,19270605,QD2yHTSdjr94HtfWnamzSm


In [19]:
# 유효성 검사

assert not df.empty, 'Dataframe이 비어있음'
assert set(['name', 'ssn', 'job', 'residence', 'blood_group', 'sex', 'birthdate', 'uuid']).issubset(df.columns), '필드 누락됨'
assert df['birthdate'].str.match(r'\d{8}').all(), 'birthdate 필드가 YYYYMMDD 형식 아님'
assert df['uuid'].apply(lambda x: isinstance(x, str)).all, 'uuid 필드가 문자열이 아닙니다'


print('모든 필드가 올바르게 생성되었습니다.')

모든 필드가 올바르게 생성되었습니다.


### 1) 데이터 가공
- pandas를 통해 Data Mart 형태의 테이블로 가공
    1. 거주하는 도시 통계 -> 'residence' 전처리 및 컬럼 생성
    2. 혈액형 통계 -> 'blood _group' 전처리 및 컬럼 생성
    3. 남녀 통계 -> 'sex' 컬럼 사용
    4. 나이대 통계 -> 'birthdate' 전처리 및 컬럼 생성

In [20]:
df = create_fakedataframe(10)
df

Unnamed: 0,name,ssn,job,residence,blood_group,sex,birthdate,uuid
0,김서연,780305-1561468,학습지 및 방문 교사,경상남도 포천시 양재천길 (예지김고마을),O+,F,19710622,4zQBuSydDZeXfgcBWnDsyX
1,장성호,120301-2612766,점토제품 생산기 조작원,대구광역시 광진구 백제고분거리 (민지안박리),B-,M,19811219,eZncxUGQ7LbnmsEz9u2kwm
2,조준서,510026-1901550,일식 주방장 및 조리사,대구광역시 구로구 삼성302가,O+,M,19480821,72rJNdFGVjetK834aGEyga
3,김영수,310104-2928126,건설 및 채굴 기계 운전원,경상북도 철원군 서초중앙321거리 (시우한동),AB-,M,20060508,AEYWhNcuV7nerJQ7C2hJ4p
4,김은지,250203-1437825,증권 및 외환 딜러,울산광역시 강남구 학동406거리,AB+,F,19871107,GfwhxsppjWQ2WgYzPu5DRu
5,한명자,580309-1247016,악기제조 및 조율사,서울특별시 금천구 오금55로 (예은오이동),AB-,F,20201019,R95gUHGDCtjrJsconeKFeY
6,안경수,270326-2433108,컴퓨터 보안 전문가,인천광역시 관악구 영동대가,O-,M,20190509,HdQ66RiK3mvnCEys9pe3mL
7,류하윤,390922-2004738,치과위생사,경상남도 성남시 중원구 언주로,B-,F,19540930,bUF7fMFbckYqqbVD8dEnDT
8,김정호,040308-1971346,선박 갑판승무원 및 관련 종사원,충청남도 평택시 언주05가 (승현김김읍),A+,M,19250212,4PkrrHjwsCsKEZ2ZUWGFGE
9,홍혜진,390713-2985647,법률관련 사무원,부산광역시 강서구 서초대4길 (지아김이동),B-,F,19560630,C74SWPA9DuvUBJPPjSbDE2


In [21]:
# 도시 컬럼(세종특별자치시 중구 벽제고분가 (은지박마을) -> 세종특별자치시) -> city

df['city'] = df['residence'].str.split().str[0]

In [22]:
df

Unnamed: 0,name,ssn,job,residence,blood_group,sex,birthdate,uuid,city
0,김서연,780305-1561468,학습지 및 방문 교사,경상남도 포천시 양재천길 (예지김고마을),O+,F,19710622,4zQBuSydDZeXfgcBWnDsyX,경상남도
1,장성호,120301-2612766,점토제품 생산기 조작원,대구광역시 광진구 백제고분거리 (민지안박리),B-,M,19811219,eZncxUGQ7LbnmsEz9u2kwm,대구광역시
2,조준서,510026-1901550,일식 주방장 및 조리사,대구광역시 구로구 삼성302가,O+,M,19480821,72rJNdFGVjetK834aGEyga,대구광역시
3,김영수,310104-2928126,건설 및 채굴 기계 운전원,경상북도 철원군 서초중앙321거리 (시우한동),AB-,M,20060508,AEYWhNcuV7nerJQ7C2hJ4p,경상북도
4,김은지,250203-1437825,증권 및 외환 딜러,울산광역시 강남구 학동406거리,AB+,F,19871107,GfwhxsppjWQ2WgYzPu5DRu,울산광역시
5,한명자,580309-1247016,악기제조 및 조율사,서울특별시 금천구 오금55로 (예은오이동),AB-,F,20201019,R95gUHGDCtjrJsconeKFeY,서울특별시
6,안경수,270326-2433108,컴퓨터 보안 전문가,인천광역시 관악구 영동대가,O-,M,20190509,HdQ66RiK3mvnCEys9pe3mL,인천광역시
7,류하윤,390922-2004738,치과위생사,경상남도 성남시 중원구 언주로,B-,F,19540930,bUF7fMFbckYqqbVD8dEnDT,경상남도
8,김정호,040308-1971346,선박 갑판승무원 및 관련 종사원,충청남도 평택시 언주05가 (승현김김읍),A+,M,19250212,4PkrrHjwsCsKEZ2ZUWGFGE,충청남도
9,홍혜진,390713-2985647,법률관련 사무원,부산광역시 강서구 서초대4길 (지아김이동),B-,F,19560630,C74SWPA9DuvUBJPPjSbDE2,부산광역시


In [30]:
# 나이 컬럼
import pandas as pd

today = pd.to_datetime('today')
today

# df['birthdate'] = pd.to_datetime(df['birthdate'], format='%Y%m%d')
# df['age'] = (today.year - df['birthdate'].dt.year - (
#     (today.month < df['birthdate'].dt.month) |
#     ((today.month == df['birthdate'].dt.month) & (today.day < df['birthdate'].dt.day))
# )).astype(int)


Timestamp('2024-10-29 13:14:23.372049')

In [42]:
df['birthdate'].str[:4]

0    1971
1    1981
2    1948
3    2006
4    1987
5    2020
6    2019
7    1954
8    1925
9    1956
Name: birthdate, dtype: object

In [43]:
df['age'] = 2024 - df['birthdate'].str[:4].astype(int)

In [44]:
df

Unnamed: 0,name,ssn,job,residence,blood_group,sex,birthdate,uuid,city,age
0,김서연,780305-1561468,학습지 및 방문 교사,경상남도 포천시 양재천길 (예지김고마을),O+,F,19710622,4zQBuSydDZeXfgcBWnDsyX,경상남도,53
1,장성호,120301-2612766,점토제품 생산기 조작원,대구광역시 광진구 백제고분거리 (민지안박리),B-,M,19811219,eZncxUGQ7LbnmsEz9u2kwm,대구광역시,43
2,조준서,510026-1901550,일식 주방장 및 조리사,대구광역시 구로구 삼성302가,O+,M,19480821,72rJNdFGVjetK834aGEyga,대구광역시,76
3,김영수,310104-2928126,건설 및 채굴 기계 운전원,경상북도 철원군 서초중앙321거리 (시우한동),AB-,M,20060508,AEYWhNcuV7nerJQ7C2hJ4p,경상북도,18
4,김은지,250203-1437825,증권 및 외환 딜러,울산광역시 강남구 학동406거리,AB+,F,19871107,GfwhxsppjWQ2WgYzPu5DRu,울산광역시,37
5,한명자,580309-1247016,악기제조 및 조율사,서울특별시 금천구 오금55로 (예은오이동),AB-,F,20201019,R95gUHGDCtjrJsconeKFeY,서울특별시,4
6,안경수,270326-2433108,컴퓨터 보안 전문가,인천광역시 관악구 영동대가,O-,M,20190509,HdQ66RiK3mvnCEys9pe3mL,인천광역시,5
7,류하윤,390922-2004738,치과위생사,경상남도 성남시 중원구 언주로,B-,F,19540930,bUF7fMFbckYqqbVD8dEnDT,경상남도,70
8,김정호,040308-1971346,선박 갑판승무원 및 관련 종사원,충청남도 평택시 언주05가 (승현김김읍),A+,M,19250212,4PkrrHjwsCsKEZ2ZUWGFGE,충청남도,99
9,홍혜진,390713-2985647,법률관련 사무원,부산광역시 강서구 서초대4길 (지아김이동),B-,F,19560630,C74SWPA9DuvUBJPPjSbDE2,부산광역시,68


In [48]:
# 혈액형 컬럼

df['blood'] = df['blood_group'].replace({'\+': '', '-': ''}, regex=True)

  df['blood'] = df['blood_group'].replace({'\+': '', '-': ''}, regex=True)


In [49]:
df

Unnamed: 0,name,ssn,job,residence,blood_group,sex,birthdate,uuid,city,age,blood
0,김서연,780305-1561468,학습지 및 방문 교사,경상남도 포천시 양재천길 (예지김고마을),O+,F,19710622,4zQBuSydDZeXfgcBWnDsyX,경상남도,53,O
1,장성호,120301-2612766,점토제품 생산기 조작원,대구광역시 광진구 백제고분거리 (민지안박리),B-,M,19811219,eZncxUGQ7LbnmsEz9u2kwm,대구광역시,43,B
2,조준서,510026-1901550,일식 주방장 및 조리사,대구광역시 구로구 삼성302가,O+,M,19480821,72rJNdFGVjetK834aGEyga,대구광역시,76,O
3,김영수,310104-2928126,건설 및 채굴 기계 운전원,경상북도 철원군 서초중앙321거리 (시우한동),AB-,M,20060508,AEYWhNcuV7nerJQ7C2hJ4p,경상북도,18,AB
4,김은지,250203-1437825,증권 및 외환 딜러,울산광역시 강남구 학동406거리,AB+,F,19871107,GfwhxsppjWQ2WgYzPu5DRu,울산광역시,37,AB
5,한명자,580309-1247016,악기제조 및 조율사,서울특별시 금천구 오금55로 (예은오이동),AB-,F,20201019,R95gUHGDCtjrJsconeKFeY,서울특별시,4,AB
6,안경수,270326-2433108,컴퓨터 보안 전문가,인천광역시 관악구 영동대가,O-,M,20190509,HdQ66RiK3mvnCEys9pe3mL,인천광역시,5,O
7,류하윤,390922-2004738,치과위생사,경상남도 성남시 중원구 언주로,B-,F,19540930,bUF7fMFbckYqqbVD8dEnDT,경상남도,70,B
8,김정호,040308-1971346,선박 갑판승무원 및 관련 종사원,충청남도 평택시 언주05가 (승현김김읍),A+,M,19250212,4PkrrHjwsCsKEZ2ZUWGFGE,충청남도,99,A
9,홍혜진,390713-2985647,법률관련 사무원,부산광역시 강서구 서초대4길 (지아김이동),B-,F,19560630,C74SWPA9DuvUBJPPjSbDE2,부산광역시,68,B


In [60]:
# 나잇대 컬럼 (29세 -> 20대, 45세 -> 40대, 90세 이상 -> 90대 이상) -> age_category

def categorize_age(age: int) -> str:
    if age >= 90:
        return '90대 이상'
    else:
        return f"{(age // 10) * 10}대"
    
df['age_category'] = df['age'].apply(categorize_age)

In [61]:
df

Unnamed: 0,name,ssn,job,residence,blood_group,sex,birthdate,uuid,city,age,blood,age_category
0,김서연,780305-1561468,학습지 및 방문 교사,경상남도 포천시 양재천길 (예지김고마을),O+,F,19710622,4zQBuSydDZeXfgcBWnDsyX,경상남도,53,O,50대
1,장성호,120301-2612766,점토제품 생산기 조작원,대구광역시 광진구 백제고분거리 (민지안박리),B-,M,19811219,eZncxUGQ7LbnmsEz9u2kwm,대구광역시,43,B,40대
2,조준서,510026-1901550,일식 주방장 및 조리사,대구광역시 구로구 삼성302가,O+,M,19480821,72rJNdFGVjetK834aGEyga,대구광역시,76,O,70대
3,김영수,310104-2928126,건설 및 채굴 기계 운전원,경상북도 철원군 서초중앙321거리 (시우한동),AB-,M,20060508,AEYWhNcuV7nerJQ7C2hJ4p,경상북도,18,AB,10대
4,김은지,250203-1437825,증권 및 외환 딜러,울산광역시 강남구 학동406거리,AB+,F,19871107,GfwhxsppjWQ2WgYzPu5DRu,울산광역시,37,AB,30대
5,한명자,580309-1247016,악기제조 및 조율사,서울특별시 금천구 오금55로 (예은오이동),AB-,F,20201019,R95gUHGDCtjrJsconeKFeY,서울특별시,4,AB,0대
6,안경수,270326-2433108,컴퓨터 보안 전문가,인천광역시 관악구 영동대가,O-,M,20190509,HdQ66RiK3mvnCEys9pe3mL,인천광역시,5,O,0대
7,류하윤,390922-2004738,치과위생사,경상남도 성남시 중원구 언주로,B-,F,19540930,bUF7fMFbckYqqbVD8dEnDT,경상남도,70,B,70대
8,김정호,040308-1971346,선박 갑판승무원 및 관련 종사원,충청남도 평택시 언주05가 (승현김김읍),A+,M,19250212,4PkrrHjwsCsKEZ2ZUWGFGE,충청남도,99,A,90대 이상
9,홍혜진,390713-2985647,법률관련 사무원,부산광역시 강서구 서초대4길 (지아김이동),B-,F,19560630,C74SWPA9DuvUBJPPjSbDE2,부산광역시,68,B,60대


In [62]:
df_list = ['uuid', 'name', 'job', 'sex', 'blood', 'city', 'birthdate', 'age', 'age_category']
df_datamart = df[df_list]

df_datamart.head()

Unnamed: 0,uuid,name,job,sex,blood,city,birthdate,age,age_category
0,4zQBuSydDZeXfgcBWnDsyX,김서연,학습지 및 방문 교사,F,O,경상남도,19710622,53,50대
1,eZncxUGQ7LbnmsEz9u2kwm,장성호,점토제품 생산기 조작원,M,B,대구광역시,19811219,43,40대
2,72rJNdFGVjetK834aGEyga,조준서,일식 주방장 및 조리사,M,O,대구광역시,19480821,76,70대
3,AEYWhNcuV7nerJQ7C2hJ4p,김영수,건설 및 채굴 기계 운전원,M,AB,경상북도,20060508,18,10대
4,GfwhxsppjWQ2WgYzPu5DRu,김은지,증권 및 외환 딜러,F,AB,울산광역시,19871107,37,30대


In [64]:
import pandas as pd


def create_fakedatamart(df: pd.DataFrame) -> pd.DataFrame:

    # 도시 컬럼
    # 나이 컬럼
    # 혈액형
    # 나이대 컬럼

    df['city'] = df['residence'].str.split().str[0]
    df['age'] = 2024 - df['birthdate'].str[:4].astype(int)
    df['blood'] = df['blood_group'].replace({r'\+': '', '-': ''}, regex=True)
    df['age_category'] = df['age'].apply(categorize_age)

    df_list = ['uuid', 'name', 'job', 'sex', 'blood', 'city', 'birthdate', 'age', 'age_category']

    df_datamart = df[df_list]

    return df_datamart


def categorize_age(age: int) -> str:
    if age >= 90:
        return '90대 이상'
    else:
        return f"{(age // 10) * 10}대"

In [67]:
from fakedata.process import create_fakedatamart
from fakedata.create import create_fakedataframe

df = create_fakedataframe(10)

In [68]:
df

Unnamed: 0,name,ssn,job,residence,blood_group,sex,birthdate,uuid
0,김은지,410503-1379345,치과 의사,인천광역시 도봉구 석촌호수967가 (종수이면),B+,F,20011004,TheAS54Xi5MnBR48ygkDbx
1,고도현,030016-1744432,사회복지관련 관리자,강원도 충주시 논현길,A+,M,19850311,CoSDwnnCgKfQTzoRDMURCA
2,서성현,450327-1035672,기타 여가 및 스포츠 관련 종사원,세종특별자치시 동구 서초대가,AB-,M,19411026,2KEfJGWpCdSuT2CmywY8KG
3,고서윤,990001-2818350,건설 배관공,강원도 안산시 단원구 서초대0가 (정훈한김면),O+,F,19820630,Q6vrGbka88qLrDSaduEBGc
4,배상철,020702-1861958,인사 및 교육/훈련 사무원,전라남도 안산시 단원구 반포대42로,AB+,M,19820814,WtWUemuUeN5XLBxWx9WfAn
5,김경자,660826-1322581,응급구조사,광주광역시 마포구 봉은사71거리,A+,F,19850413,B6A36qhjwwnrnJDop5scBu
6,이현숙,380022-2289088,자동차 부분품 조립원,제주특별자치도 정선군 잠실거리,AB-,F,20230212,67p8LoSqoMXuza7BNWYQrm
7,윤춘자,350923-2267908,건설 및 광업기계 설치 및 정비원,인천광역시 광진구 백제고분8가,O+,F,20120419,UJgCvcJWysBwJd6V4VbaVa
8,배영진,650926-1822001,컴퓨터시스템 설계 및 분석가,충청북도 용인시 수지구 봉은사가 (재현이김면),A+,M,20200215,n8mX7sgdo6HDY6VBurTaH2
9,김성현,650119-1955274,과수작물 재배원,대전광역시 종로구 양재천63로,A+,M,19901204,GcANFPBcgifejdkdZRoCGG


In [71]:
df = create_fakedatamart(df)

In [72]:
df

Unnamed: 0,uuid,name,job,sex,blood,city,birthdate,age,age_category
0,TheAS54Xi5MnBR48ygkDbx,김은지,치과 의사,F,B,인천광역시,20011004,23,20대
1,CoSDwnnCgKfQTzoRDMURCA,고도현,사회복지관련 관리자,M,A,강원도,19850311,39,30대
2,2KEfJGWpCdSuT2CmywY8KG,서성현,기타 여가 및 스포츠 관련 종사원,M,AB,세종특별자치시,19411026,83,80대
3,Q6vrGbka88qLrDSaduEBGc,고서윤,건설 배관공,F,O,강원도,19820630,42,40대
4,WtWUemuUeN5XLBxWx9WfAn,배상철,인사 및 교육/훈련 사무원,M,AB,전라남도,19820814,42,40대
5,B6A36qhjwwnrnJDop5scBu,김경자,응급구조사,F,A,광주광역시,19850413,39,30대
6,67p8LoSqoMXuza7BNWYQrm,이현숙,자동차 부분품 조립원,F,AB,제주특별자치도,20230212,1,0대
7,UJgCvcJWysBwJd6V4VbaVa,윤춘자,건설 및 광업기계 설치 및 정비원,F,O,인천광역시,20120419,12,10대
8,n8mX7sgdo6HDY6VBurTaH2,배영진,컴퓨터시스템 설계 및 분석가,M,A,충청북도,20200215,4,0대
9,GcANFPBcgifejdkdZRoCGG,김성현,과수작물 재배원,M,A,대전광역시,19901204,34,30대


In [73]:
df.groupby('sex').size().reset_index(name=count)

Unnamed: 0,sex,5
0,F,5
1,M,5


### 3) 데이터 이행 모듈에 통합

#### 3. main.py에 반영
    - 특정 간격(3초,5초 등) 기준으로 fake data가 insert 될 수 있도록 설정

### 시각화 코드 작성 (streamlit)

- shortuuid==1.0.11
- streamlit==1.31.1
- streamlit-autorefresh==1.0.1
- altair==4.0
- vega_datasets==0.9.0

- 웹페이지 시작 : streamlit run (python 파일)

## app.py 에 작성함.

### 지금부터는 잉여 시간을 활용한 파이썬 강의

In [8]:
import time


def say_hello():
    print('hi')
    time.sleep(1)
    print('goodbye')

In [9]:
say_hello()

hi
goodbye


In [10]:
start = time.time()
say_hello()
end = time.time()


end - start

hi
goodbye


1.0006740093231201

In [11]:
def time_check(func):
    def wrapper():
        start = time.time()
        func()
        end = time.time()
        print('total time : ', end-start)
    return wrapper

In [17]:
hello = say_hello

In [19]:
hello()

hi
goodbye


In [20]:
hello

<function __main__.say_hello()>

In [24]:
time_check(hello)()

hi
goodbye
total time :  1.0008153915405273


In [25]:
# @ : 데코레이터
import time

@time_check
def say_hello():
    time.sleep(3)
    print('hello!')

@time_check
def say_bye():
    time.sleep(3)
    print('bye!')

In [26]:
say_hello()

hello!
total time :  3.0008270740509033


In [27]:
say_bye()

bye!
total time :  3.0003907680511475


### class - dataclasses, staticmethod, classmethod

In [34]:
# 일반적인 class 구조

class Tempclass:
    def __init__(self, var1:str, var2:int):
        self.var1 = var1
        self.var2 = var2
        #self.upper_letter()

    def upper_letter(self):
        self.upper_var1 = self.var1.upper()
        print(self.var1.upper())

    def lower_letter(self):
        self.lower_var1 = self.var1.lower()
        print(self.var1.lower())

In [35]:
tc = Tempclass('BANANA', 50)
tc.lower_letter()

banana


In [36]:
tc.__dict__

{'var1': 'BANANA', 'var2': 50, 'lower_var1': 'banana'}

In [37]:
from dataclasses import dataclass

@dataclass(frozen=True)
class TempClass:
    var1: str
    var2: int
    upper_var1: field(init=False)

    def __post_init__(self):
        object.__setattr__

    def upper_letter(self):
        self.upper_var1 = self.var1.upper()
        print(self.var1.upper())

In [39]:
tc = TempClass(var1='hello', var2= 10)

FrozenInstanceError: cannot assign to field 'upper_var1'

In [40]:
class TempClass:
    def __init__(self, var1:str, var2:str):
        self.a = var1
        self.b = var2
        self.upper_letter()

    def upper_letter(self):
        self.upper_var1 = self.a.upper()

    @staticmethod
    def add_int(age:int):
        print(age * 2)

In [41]:
tc = TempClass('hello', 'world')
TempClass.add_int(5)

10


In [43]:
night = {
    'catalog_name' : {
        'index' : 1,
        'parallel' : 4,
    },
    'schema_name' : 'lms_cms'
}

In [45]:
from dataclasses import dataclass

@dataclass
class DataPipeline:
    catalog_name: dict
    schema_name:dict

    def __post_init__(self):
        self.index:list[str] = [self.catalog_name['index']]

    def sample(self):
        print('sample')

In [46]:
pipeline = DataPipeline(catalog_name=night['catalog_name'], schema_name=night['schema_name'])

In [48]:
print('index 속성 : ', pipeline.index)

index 속성 :  [1]
