## 0. 개발 환경 구성

1. Python 가상 환경 생성  
   - 이름 : `sprint_part4`
   - `python -m venv sprint_part4`

2. VSCode에 가상 환경의 Python 등록

3. 가상 환경 활성화
   - 윈도우 git bash → `source sprint_part4/Scripts/activate`
   - 윈도우 CMD → `call sprint_part4/Scripts/activate`
   - 맥 터미널 → `source sprint_part4/bin/activate`

4. 가상 환경에 `requirements.txt` 파일 내 라이브러리들 설치
   - `pip install -r requirements.txt`

5. `docker-compose.yaml` 파일을 통해 MYSQL, POSTGRESQL 컨테이너 생성
   - `docker compose up -d`

## 1. Python을 통한 DB Connection

In [1]:
import psycopg2, pandas as pd, sqlalchemy, pymysql, dotenv, loguru

In [None]:
# !pip install cryptography

Collecting cryptography
  Downloading cryptography-44.0.3-cp39-abi3-macosx_10_9_universal2.whl (6.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.7/6.7 MB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting cffi>=1.12
  Downloading cffi-1.17.1-cp310-cp310-macosx_11_0_arm64.whl (178 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m178.6/178.6 kB[0m [31m6.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pycparser
  Using cached pycparser-2.22-py3-none-any.whl (117 kB)
Installing collected packages: pycparser, cffi, cryptography
Successfully installed cffi-1.17.1 cryptography-44.0.3 pycparser-2.22

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.2.2[0m[39;49m -> [0m[32;49m25.1.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [None]:
## pymysql <--> mysql DB
## psycopg2 <--> postgresql DB
## oracle_db <--> oracle DB
## pymssql <--> mssql DB
## sqlalchemy <--> 다양한 RDBMS를 공통적인 코드로 connection 연결이 가능

### 1-1 MySQL 라이브러리(pymysql)를 활용한 Connection

In [2]:
import pymysql

user = 'root'
password = '123456'
host = 'localhost'
port = 3300
database = 'docker_mysql'

mysql = pymysql.connect(
    user=user,
    password=password,
    host=host,
    port=port,
    database=database,
    charset='utf8'
    )

#### cursor 란?
- 쿼리문에 의해서 반환되는 결과값들을 저장하는 메모리공간

In [4]:
cursor = mysql.cursor()

In [8]:
cursor.execute("SHOW DATABASES")

5

In [9]:
cursor.fetchall()
# fetchone() -> 상단의 첫번쨰 행만
# fetchmany() -> 지정한 숫자만큼 가져옴

(('docker_mysql',),
 ('information_schema',),
 ('mysql',),
 ('performance_schema',),
 ('sys',))

In [10]:
cursor.execute("SHOW DATABASES")
cursor.fetchone()

('docker_mysql',)

In [11]:
cursor.execute("SHOW DATABASES")
cursor.fetchmany(2)

(('docker_mysql',), ('information_schema',))

#### DDL & DML 쿼리 생성

In [12]:
## 테이블 생성 쿼리 

create_query = """
    CREATE TABLE IF NOT EXISTS lecture (
        id INT AUTO_INCREMENT PRIMARY KEY, 
        name VARCHAR(20),
        year INT,
        gender VARCHAR(10),
        count INT
        );
"""

cursor.execute(create_query)

0

In [13]:
# 확인하기
cursor.execute("SHOW TABLES FROM docker_mysql")
cursor.fetchall()

(('lecture',),)

In [19]:
## INSERT
insert_query = """
    INSERT INTO lecture
    VALUES (1, 'codeit', 2025, 'M', 100);
"""

cursor.execute(insert_query)

1

In [16]:
# 커밋해야 반영됨
mysql.commit()

In [17]:
## UPDATE
update_query = """
    UPDATE lecture SET count = 200 WHERE id = 1
"""
cursor.execute(update_query)
mysql.commit()

In [20]:
## DELETE
delete_query = """
    DELETE FROM lecture WHERE id = 1
"""

cursor.execute(delete_query)
mysql.commit()

### 1-2 Postgresql 라이브러리(psycopg2)를 활용한 Connection

In [25]:
import psycopg2

user = 'codeit'
password = 'sprint'
host = 'localhost'
port = 5430
dbname = 'docker_postgres'

postgres = psycopg2.connect(
    user=user,
    password=password,
    host=host,
    port=port,
    dbname=dbname,
    )

In [26]:
cursor = postgres.cursor()

#### DDL & DML 쿼리 생성

In [27]:
## CREATE
create_query = """
    CREATE TABLE lecture (
        id SERIAL PRIMARY KEY, 
        name VARCHAR(20), 
        year INT, 
        gender VARCHAR(10), 
        count INT
        )
    """

cursor.execute(create_query)

In [29]:
cursor.execute("SELECT table_name FROM information_schema.tables WHERE table_schema='public';")
tables = cursor.fetchall()
print("사용 가능한 테이블:", tables)

사용 가능한 테이블: [('lecture',)]


In [None]:
## INSERT
insert_query = """
    INSERT INTO lecture
    VALUES (1, 'codeit', 2025, 'M', 100);
"""

In [None]:
## UPDATE
update_query = """
    UPDATE lecture SET count = 200 WHERE id = 1
"""

In [None]:
## DELETE
delete_query = """
    DELETE FROM lecture WHERE id = 1
"""

#### Connection Pool

<img src="https://velog.velcdn.com/images/newnew_daddy/post/f0569aa7-1aad-466e-a24f-5e3b5f248a72/image.png" width="30%">

- 일정량의 Connection 객체를 미리 만들어서 pool에 저장
- 클라이언트 요청이 오면 Connection 객체를 빌려주고 해당 객체의 임무가 완료되면 다시 Connection 객체를 반납 받아 pool에 저장
- 큰 커넥션 풀은 메모리 소모가 큰 대신 대기 시간이 적어지고, 작은 커넥션 풀은 메모리 소모가 작은 대신 대기 시간이 길어진다. ([적정 Connection 수 공식](https://github.com/brettwooldridge/HikariCP/wiki/About-Pool-Sizing#the-formula))
- 자원을 사용하면 반드시 반납을 해줘야하는데 이를 위해 DB 연결시 파이썬 `with문`을 사용

### 1-3. sqlalchemy 라이브러리를 활용한 Connection

In [19]:
from sqlalchemy import create_engine, text

## MYSQL connection

engine_name = "mysql+pymysql"
user = 'root'
password = '123456'
host = 'localhost'
port = 3300
database = 'docker_mysql'

# connection 객체 생성
mysql_conn = create_engine(f"{engine_name}://{user}:{password}@{host}:{port}/{database}")

mysql_conn

Engine(mysql+pymysql://root:***@localhost:3300/docker_mysql)

In [20]:
cursor = mysql_conn.connect() #cursor 아님 주의

In [24]:
res = cursor.execute(text("SHOW DATABASES"))
res.fetchall()

[('docker_mysql',),
 ('information_schema',),
 ('mysql',),
 ('performance_schema',),
 ('sys',)]

In [30]:
from sqlalchemy import create_engine, text

## POSTGRESQL connection

engine_name = "postgresql"
user = 'codeit'
password = 'sprint'
host = 'localhost'
port = 5430
database = 'docker_postgres'

# connection 객체 생성
pg_conn = create_engine(f"{engine_name}://{user}:{password}@{host}:{port}/{database}")

pg_conn

Engine(postgresql://codeit:***@localhost:5430/docker_postgres)

### 1-4. with문 활용

#### Bad Case

<img src="https://velog.velcdn.com/images/newnew_daddy/post/df312bda-0b22-4476-8a03-505f1d3cf5b4/image.png" width="50%">

#### Good Case

<img src="https://velog.velcdn.com/images/newnew_daddy/post/707d46b0-8a0b-4862-ad95-285dc04ddc29/image.png" width="50%">

- Python에서 파일 또는 리소스 관리를 더 효과적으로 처리하기 위한 블록 구조
- 리소스를 열고 사용한 후 자동으로 닫아주기 때문에 닫아주는 코드를 작성할 필요가 없습니다. 
- 주로 파일 입출력, 데이터베이스 연결, 네트워크 연결 등 리소스 관리에 사용됩니다.

### 1-5. pandas을 활용한 조회 및 저장
- sqlalchemy connection만 활용이 가능!

#### 1) 연결 객체 생성

In [32]:
from sqlalchemy import create_engine, text

## MYSQL connection

engine_name = "mysql+pymysql"
user = 'root'
password = '123456'
host = 'localhost'
port = 3300
database = 'docker_mysql'

# connection 객체 생성
mysql_conn = create_engine(f"{engine_name}://{user}:{password}@{host}:{port}/{database}")

mysql_conn

Engine(mysql+pymysql://root:***@localhost:3300/docker_mysql)

#### 3) 테이블 저장
- [to_sql()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html) 메소드
- dataframe.to_sql( 테이블 이름, sqlalchemy_connector, 옵션 )

In [34]:
import pandas as pd

In [38]:
names_path = "/Users/goodnews/Documents/codeit/lesson/data_engineering/DataEngineeringRepo/01_python_database/dataset/names.csv"
tips_path = "/Users/goodnews/Documents/codeit/lesson/data_engineering/DataEngineeringRepo/01_python_database/dataset/tips.csv"

In [40]:
names = pd.read_csv(names_path)
names.head(), names.shape

(   id       name  year gender  count
 0   1       Mary  1880      F   7065
 1   2       Anna  1880      F   2604
 2   3       Emma  1880      F   2003
 3   4  Elizabeth  1880      F   1939
 4   5     Minnie  1880      F   1746,
 (2000, 5))

In [43]:
names.to_sql(
    name="names", # 데이터베이스에 저장될 테이블의 이름
    con=mysql_conn, # sqlalchemy 연결 객체
    if_exists="replace" # 데이터베이스에 동일한 이름의 테이블이 존재할 경우 작업 방식 -> fail, append, replace
)

2000

#### 2) 테이블 데이터 조회

In [44]:
# pd.read_sql()
pd.read_sql(
    sql="SELECT * FROM names LIMIT 20",
    con=mysql_conn
)

Unnamed: 0,index,id,name,year,gender,count
0,0,1,Mary,1880,F,7065
1,1,2,Anna,1880,F,2604
2,2,3,Emma,1880,F,2003
3,3,4,Elizabeth,1880,F,1939
4,4,5,Minnie,1880,F,1746
5,5,6,Margaret,1880,F,1578
6,6,7,Ida,1880,F,1472
7,7,8,Alice,1880,F,1414
8,8,9,Bertha,1880,F,1320
9,9,10,Sarah,1880,F,1288


In [45]:
"""
위 내용을 POSTGRESQL로 데이터베이스를 바꿔서 동일하게 진행!

1) SQLalchemy postgresql 연결 생성
2) to_sql() 메소드로 PG 데이터베이스에 'names' 테이블 저장
3) read_sql() 메소드로 'names' 테이블을 dataframe 형식으로 불러오기!
"""

"\n위 내용을 POSTGRESQL로 데이터베이스를 바꿔서 동일하게 진행!\n\n1) SQLalchemy postgresql 연결 생성\n2) to_sql() 메소드로 PG 데이터베이스에 'names' 테이블 저장\n3) read_sql() 메소드로 'names' 테이블을 dataframe 형식으로 불러오기!\n"

In [46]:
from sqlalchemy import create_engine, text

## POSTGRESQL connection

engine_name = "postgresql"
user = 'codeit'
password = 'sprint'
host = 'localhost'
port = 5430
database = 'docker_postgres'

# connection 객체 생성
pg_conn = create_engine(f"{engine_name}://{user}:{password}@{host}:{port}/{database}")

pg_conn

Engine(postgresql://codeit:***@localhost:5430/docker_postgres)

In [47]:
names = pd.read_csv(names_path)
names.head()

Unnamed: 0,id,name,year,gender,count
0,1,Mary,1880,F,7065
1,2,Anna,1880,F,2604
2,3,Emma,1880,F,2003
3,4,Elizabeth,1880,F,1939
4,5,Minnie,1880,F,1746


In [48]:
names.to_sql(
    name="names", # 데이터베이스에 저장될 테이블의 이름
    con=pg_conn, # sqlalchemy 연결 객체
    if_exists="replace" # 데이터베이스에 동일한 이름의 테이블이 존재할 경우 작업 방식 -> fail, append, replace
)

1000

In [49]:
# pd.read_sql()
pd.read_sql(
    sql="SELECT * FROM names LIMIT 20",
    con=pg_conn
)

Unnamed: 0,index,id,name,year,gender,count
0,0,1,Mary,1880,F,7065
1,1,2,Anna,1880,F,2604
2,2,3,Emma,1880,F,2003
3,3,4,Elizabeth,1880,F,1939
4,4,5,Minnie,1880,F,1746
5,5,6,Margaret,1880,F,1578
6,6,7,Ida,1880,F,1472
7,7,8,Alice,1880,F,1414
8,8,9,Bertha,1880,F,1320
9,9,10,Sarah,1880,F,1288


In [None]:
from sqlalchemy import (
    Column,
    INTEGER,
    VARCHAR,
    String,
    Text,
    Float,
    Numeric,
    Boolean,
    Date,
    DateTime,
    Time,
    Interval,
    LargeBinary,
    JSON,
    ARRAY,
    Enum,
    SmallInteger,
    BigInteger,
    Unicode,
    UnicodeText,
    PickleType,
    BLOB,
    CLOB 
)

In [52]:
names.to_sql(
    name='names2',
    con=mysql_conn,
    if_exists='replace',
    dtype={
   'id':INTEGER,
   'name':VARCHAR(20),
   'year':INTEGER,
   'gender':VARCHAR(10),
   'count':INTEGER
   }
)

2000

#### 4) 테이블 조회/저장 실습

In [None]:
"""
tips.csv 파일의 데이터를 활용하여 아래 과정을 진행해주세요.

1. 1 ~ 100 행
- MYSQL에 저장 (to_sql 활용)
	- 테이블 이름 : 'tips'
	- if_exist 조건 : replace
	
2. 101 ~ 244 행
- POSTGRESQL에 저장 (to_sql 활용)
	- 테이블 이름 : 'tips'
	- if_exist 조건 : replace
	
3. MYSQL tips 테이블 + POSTGRESQL tips 테이블을 각각 dataframe으로 불러와서 concat 해주세요.	
"""

In [53]:
## 1) 데이터 읽기
tips = pd.read_csv(tips_path)
tips.head(), tips.shape

(   id  total_bill   tip smoker  day    time  size
 0   1       16.99  1.01     No  Sun  Dinner     2
 1   2       10.34  1.66     No  Sun  Dinner     3
 2   3       21.01  3.50     No  Sun  Dinner     3
 3   4       23.68  3.31     No  Sun  Dinner     2
 4   5       24.59  3.61     No  Sun  Dinner     4,
 (244, 7))

In [54]:
## 2) 데이터 잘라서 저장
mysql_df = tips.iloc[:100]
progres_df = tips.iloc[100:]

mysql_df.shape, progres_df.shape

((100, 7), (144, 7))

In [55]:
## 3) sql들 연결하기
from sqlalchemy import create_engine, text

## MYSQL connection
engine_name = "mysql+pymysql"
user = 'root'
password = '123456'
host = 'localhost'
port = 3300
database = 'docker_mysql'

# connection 객체 생성
mysql_conn = create_engine(f"{engine_name}://{user}:{password}@{host}:{port}/{database}")
print(mysql_conn)

## POSTGRESQL connection
engine_name = "postgresql"
user = 'codeit'
password = 'sprint'
host = 'localhost'
port = 5430
database = 'docker_postgres'

# connection 객체 생성
pg_conn = create_engine(f"{engine_name}://{user}:{password}@{host}:{port}/{database}")
print(pg_conn)

Engine(mysql+pymysql://root:***@localhost:3300/docker_mysql)
Engine(postgresql://codeit:***@localhost:5430/docker_postgres)


In [59]:
## 4) 데이터 저장

# MYSQL에 저장
mysql_df.to_sql(
    name="tips", # 데이터베이스에 저장될 테이블의 이름
    con=mysql_conn, # sqlalchemy 연결 객체
    if_exists="replace", # 데이터베이스에 동일한 이름의 테이블이 존재할 경우 작업 방식 -> fail, append, replace
    index = False # 인덱스 컬럼 사라짐
)

# POSTGRESQL에 저장
progres_df.to_sql(
    name="tips", # 데이터베이스에 저장될 테이블의 이름
    con=pg_conn, # sqlalchemy 연결 객체
    if_exists="replace", # 데이터베이스에 동일한 이름의 테이블이 존재할 경우 작업 방식 -> fail, append, replace
    index = False # 인덱스 컬럼 사라짐
)

144

In [60]:
## 5) 데이터 블러오기

# MYSQL에 pd.read_sql()
df_1 = pd.read_sql(
    sql="SELECT * FROM tips",
    con=mysql_conn
)
# POSTGRESQL에 pd.read_sql()
df_2 = pd.read_sql(
    sql="SELECT * FROM tips",
    con=pg_conn
)

display(df_1), display(df_2) 

Unnamed: 0,id,total_bill,tip,smoker,day,time,size
0,1,16.99,1.01,No,Sun,Dinner,2
1,2,10.34,1.66,No,Sun,Dinner,3
2,3,21.01,3.50,No,Sun,Dinner,3
3,4,23.68,3.31,No,Sun,Dinner,2
4,5,24.59,3.61,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
95,96,40.17,4.73,Yes,Fri,Dinner,4
96,97,27.28,4.00,Yes,Fri,Dinner,2
97,98,12.03,1.50,Yes,Fri,Dinner,2
98,99,21.01,3.00,Yes,Fri,Dinner,2


Unnamed: 0,id,total_bill,tip,smoker,day,time,size
0,101,11.35,2.50,Yes,Fri,Dinner,2
1,102,15.38,3.00,Yes,Fri,Dinner,2
2,103,44.30,2.50,Yes,Sat,Dinner,3
3,104,22.42,3.48,Yes,Sat,Dinner,2
4,105,20.92,4.08,No,Sat,Dinner,2
...,...,...,...,...,...,...,...
139,240,29.03,5.92,No,Sat,Dinner,3
140,241,27.18,2.00,Yes,Sat,Dinner,2
141,242,22.67,2.00,Yes,Sat,Dinner,2
142,243,17.82,1.75,No,Sat,Dinner,2


(None, None)

In [61]:
## 6) 데이터 합치기
result_df = pd.concat([df_1, df_2], axis=0)
result_df

Unnamed: 0,id,total_bill,tip,smoker,day,time,size
0,1,16.99,1.01,No,Sun,Dinner,2
1,2,10.34,1.66,No,Sun,Dinner,3
2,3,21.01,3.50,No,Sun,Dinner,3
3,4,23.68,3.31,No,Sun,Dinner,2
4,5,24.59,3.61,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
139,240,29.03,5.92,No,Sat,Dinner,3
140,241,27.18,2.00,Yes,Sat,Dinner,2
141,242,22.67,2.00,Yes,Sat,Dinner,2
142,243,17.82,1.75,No,Sat,Dinner,2


## 3. dotenv 라이브러리를 활용한 민감 정보 관리

- 환경 변수에 대한 관리를 효과적이고 안전하게 할 수 있도록 도와주는 python 라이브러리
- DB정보, 비밀번호, API KEY 등 외부에 공유되거나 Git에 올라가면 안되는 값들을 하드코딩 하지 않고 사용이 가능.

    ```
    pip install python-dotenv
    ```

    > https://velog.io/@newnew_daddy/python-dotenv

#### 1) 기본 기능 사용

In [63]:
import dotenv

# .env 파일 경로 찾기(자동으로 찾아줌)
env_path = dotenv.find_dotenv()

# .env 파일  (내용이 있으면 -> True, 없으면 -> False)
dotenv.load_dotenv(env_path)

# .env 파일에 등록된 정보 출력
dotenv.dotenv_values(env_path)

OrderedDict([('MYSQL_ENGINE_NAME', 'mysql+pymysql'),
             ('MYSQL_USER', 'root'),
             ('MYSQL_PASSWORD', '123456'),
             ('MYSQL_HOST', 'localhost'),
             ('MYSQL_PORT', '3300'),
             ('MYSQL_DATABASE', 'docker_mysql'),
             ('PG_ENGINE_NAME', 'postgresql'),
             ('PG_USER', 'codeit'),
             ('PG_PASSWORD', 'sprint'),
             ('PG_HOST', 'localhost'),
             ('PG_PORT', '5430'),
             ('PG_DATABASE', 'docker_postgres')])

In [64]:
dotenv.find_dotenv()

'/Users/goodnews/Documents/codeit/lesson/data_engineering/DataEngineeringRepo/01_python_database/.env'

#### 2) .env 파일 작성

In [None]:
ENGINE_NAME=""
USER=''
PASSWORD=''
HOST=''
PORT=''
DATABASE=''

#### 3) 값들 Load해오기

In [65]:
import os

# os.getenv("키 값(예시: MYSQL_ENGINE_NAME)")
os.getenv("MYSQL_ENGINE_NAME")

'mysql+pymysql'

##### 3-1) 

In [66]:
# ## 3) sql들 연결하기
# from sqlalchemy import create_engine, text

# ## MYSQL connection
# engine_name = "mysql+pymysql"
# user = 'root'
# password = '123456'
# host = 'localhost'
# port = 3300
# database = 'docker_mysql'

# # connection 객체 생성
# mysql_conn = create_engine(f"{engine_name}://{user}:{password}@{host}:{port}/{database}")
# print(mysql_conn)

# ## POSTGRESQL connection
# engine_name = "postgresql"
# user = 'codeit'
# password = 'sprint'
# host = 'localhost'
# port = 5430
# database = 'docker_postgres'

# # connection 객체 생성
# pg_conn = create_engine(f"{engine_name}://{user}:{password}@{host}:{port}/{database}")
# print(pg_conn)

from sqlalchemy import create_engine, text
import os

## MYSQL connection
mysql_engine_name = os.getenv("MYSQL_ENGINE_NAME", "")
mysql_user = os.getenv("MYSQL_USER", "")
mysql_password = os.getenv("MYSQL_PASSWORD", "")
mysql_host = os.getenv("MYSQL_HOST", "")
mysql_port = os.getenv("MYSQL_PORT", "")
mysql_database = os.getenv("MYSQL_DATABASE", "")

# connection 객체 생성
mysql_conn = create_engine(f"{mysql_engine_name}://{mysql_user}:{mysql_password}@{mysql_host}:{mysql_port}/{mysql_database}")
print(mysql_conn)

## POSTGRESQL connection
pg_engine_name = os.getenv("PG_ENGINE_NAME", "")
pg_user = os.getenv("PG_USER", "")
pg_password = os.getenv("PG_PASSWORD", "")
pg_host = os.getenv("PG_HOST", "")
pg_port = os.getenv("PG_PORT", "")
pg_database = os.getenv("PG_DATABASE", "")

# connection 객체 생성
pg_conn = create_engine(f"{pg_engine_name}://{pg_user}:{pg_password}@{pg_host}:{pg_port}/{pg_database}")
print(pg_conn)

Engine(mysql+pymysql://root:***@localhost:3300/docker_mysql)
Engine(postgresql://codeit:***@localhost:5430/docker_postgres)


#### 4) DB Connection Test

In [68]:
pd.read_sql(
    sql = 'SELECT * FROM tips LIMIT 5',
    con=mysql_conn
)

Unnamed: 0,id,total_bill,tip,smoker,day,time,size
0,1,16.99,1.01,No,Sun,Dinner,2
1,2,10.34,1.66,No,Sun,Dinner,3
2,3,21.01,3.5,No,Sun,Dinner,3
3,4,23.68,3.31,No,Sun,Dinner,2
4,5,24.59,3.61,No,Sun,Dinner,4


## 4. Python Class를 사용한 DB 접속 관리

#### 1) self에 대한 이해
- Class 내에서 생성된 객체나 정보들을 저장할 수 있는 dictionary 자료형!
- 'self'를 매개로 Class 내에서 정보/데이터를 공유할 수 있다.

In [70]:
# 외부 변수 : name, age 가 있다고 가정

class TempClass:
    def __init__(self, name, age):
        self.name = name
        self.age = age

    # # 오류남
    # def print_msg():
    #     print()

    #오류 안남
    def print_msg(self):
        print(self.name)
        print(self.age)

tc1 = TempClass('Paul', 30)

# 이떄,
# self = {
#     "names" = "Paul",
#     "age" = 30
# }

# 내부에서 딕션어리에 저장된 키값 알아보는 코드
# tc1.__dict__ # -> 이게 self임

tc1.print_msg()

Paul
30


보통 셀프에 다 때려박고 필요한걸 꺼내쓰는 느낌

#### 2) Class 작성

In [117]:
class DBConnector:
    def __init__(self,engine_name,user,password,host,port,database):
            self.engine_name = engine_name
            self.user = user
            self.password = password
            self.host = host
            self.port = port
            self.database = database

    # PYMYSQL 연결 (방법 1: return으로 빼내는 방법)
    def pymysql_connection(self):
          pymysql_conn = pymysql.connect(
            user=self.user,
            password=self.password,
            host=self.host,
            port=int(self.port), # 몇년째 안고쳐주는 버그때문에 이렇게 해야함
            database=self.database,
            charset='utf8'
            )
          return pymysql_conn
    
    # PSYCOPG2 연결 (방법 2: self에 저장을 해서 뺴내기)
    def psycopg2_connection(self):
          self.psycopg2_conn = psycopg2.connect(
            user=self.user,
            password=self.password,
            host=self.host,
            port=self.port,
            dbname=self.database,
            )
          
    # SQLALCHEMY 연결
    def sqlalchemy_connection(self):
          sqlalchemy_conn = create_engine(f"{self.engine_name}://{self.user}:{self.password}@{self.host}:{self.port}/{self.database}")
          return sqlalchemy_conn
          
    

In [102]:
# 외부 변수 가져오기!(MYSQL)
engine_name = os.getenv("MYSQL_ENGINE_NAME", "")
user = os.getenv("MYSQL_USER", "")
password = os.getenv("MYSQL_PASSWORD", "")
host = os.getenv("MYSQL_HOST", "")
port = os.getenv("MYSQL_PORT", "")
database = os.getenv("MYSQL_DATABASE", "")

# 객체 생성

## 방법 1: 순서가 중요
conn_obj = DBConnector(engine_name, user, password, host, port, database)

## 방법 2: key - value 형식이랑 순서 상관 x
conn_obj = DBConnector(
    engine_name=engine_name, 
    user=user, 
    password=password, 
    host=host, 
    port=port, 
    database=database
)

In [103]:
conn_obj.__dict__

{'engine_name': 'mysql+pymysql',
 'user': 'root',
 'password': '123456',
 'host': 'localhost',
 'port': '3300',
 'database': 'docker_mysql'}

In [104]:
# 메소드 호출(방법 1: 리턴값 뺴내오기, 이 방법이 직관적이라 수업때 사용할 것임)
conn_obj.pymysql_connection()

<pymysql.connections.Connection at 0x108572170>

In [109]:
conn_obj.__dict__

{'engine_name': 'mysql+pymysql',
 'user': 'root',
 'password': '123456',
 'host': 'localhost',
 'port': '3300',
 'database': 'docker_mysql'}

In [108]:
# 메소드 호출(방법 2: self로 뺴내는 법)
conn_obj.psycopg2_conn

<connection object at 0x1080b6260; dsn: 'user=codeit password=xxx dbname=docker_postgres host=localhost port=5430', closed: 0>

In [122]:
conn_obj.sqlalchemy_connection()

Engine(mysql+pymysql://root:***@localhost:3300/docker_mysql)

#### 3) Asterisk(*)에 대한 이해

In [115]:
# * -> spread method

# a = 1
# b = 2
# c = 3
# d = 4
ab = [1, 2, 3, 4]

def temp(var1, var2, var3, var4):
    print(var1)
    print(var2)
    print(var3)
    print(var4)

temp(*ab)

1
2
3
4


In [121]:
def temp2(val1):

    print(val1)

# temp2에 필요한 파라미터가 2개라면? -> 함수를 수정 해야함
# 몇 개가 필요한지 모르는 경우라면? -> 함수 파라미터 넣는 곳에 *를 써보자

def temp3(*val1):

    print(val1)

temp3(1, 2, 3, 4, 10 ,20 ,30)

(1, 2, 3, 4, 10, 20, 30)


In [127]:
ab= dict(
    var1 = 1,
    var2 = 2,
    var3 = 3,
    var4 = 4
)

def temp4(var1, var2, var3, var4):
    print(var1)
    print(var2)
    print(var3)
    print(var4)

temp4(**ab)

1
2
3
4


In [128]:
# 외부 변수 가져오기!(MYSQL)
engine_name = os.getenv("MYSQL_ENGINE_NAME", "")
user = os.getenv("MYSQL_USER", "")
password = os.getenv("MYSQL_PASSWORD", "")
host = os.getenv("MYSQL_HOST", "")
port = os.getenv("MYSQL_PORT", "")
database = os.getenv("MYSQL_DATABASE", "")

conn_list = [engine_name, user, password, host, port, database]

## 순서가 중요!
conn_obj = DBConnector(*conn_list)

In [129]:
# 외부 변수 가져오기!(MYSQL)
engine_name = os.getenv("MYSQL_ENGINE_NAME", "")
user = os.getenv("MYSQL_USER", "")
password = os.getenv("MYSQL_PASSWORD", "")
host = os.getenv("MYSQL_HOST", "")
port = os.getenv("MYSQL_PORT", "")
database = os.getenv("MYSQL_DATABASE", "")

conn_dict = dict(
    engine_name=engine_name, 
    user=user, 
    password=password, 
    host=host, 
    port=port, 
    database=database
)

conn_obj = DBConnector(**conn_dict)

{'engine_name': 'mysql+pymysql',
 'user': 'root',
 'password': '123456',
 'host': 'localhost',
 'port': '3300',
 'database': 'docker_mysql'}

#### 4) connection parameter 합치기

In [138]:
mysql_params = dict(
   engine_name = os.getenv('MYSQL_ENGINE_NAME', ""),
   user = os.getenv('MYSQL_USER', ""),
   password = os.getenv('MYSQL_PASSWORD', ""),
   host = os.getenv('MYSQL_HOST', ""),
   port = os.getenv('MYSQL_PORT', ""),
   database = os.getenv('MYSQL_DATABASE', "")
)

pg_params = dict(
   engine_name = os.getenv('PG_ENGINE_NAME', ""),
   user = os.getenv('PG_USER', ""),
   password = os.getenv('PG_PASSWORD', ""),
   host = os.getenv('PG_HOST', ""),
   port = os.getenv('PG_PORT', ""),
   database = os.getenv('PG_DATABASE', "")
)

#### 5) DBconnector에 asterisk 적용

In [139]:
conn_obj = DBConnector(**mysql_params)
conn_obj.__dict__

{'engine_name': 'mysql+pymysql',
 'user': 'root',
 'password': '123456',
 'host': 'localhost',
 'port': '3300',
 'database': 'docker_mysql'}

In [134]:
conn_obj = DBConnector(**pg_params)
conn_obj.__dict__

{'engine_name': 'postgresql',
 'user': 'codeit',
 'password': 'sprint',
 'host': 'localhost',
 'port': '5430',
 'database': 'docker_postgres'}

In [152]:
sql_conn = conn_obj.sqlalchemy_connection()

pd.read_sql(
    sql="SELECT * FROM tips",
    con=sql_conn
)

Unnamed: 0,id,total_bill,tip,smoker,day,time,size
0,1,16.99,1.01,No,Sun,Dinner,2
1,2,10.34,1.66,No,Sun,Dinner,3
2,3,21.01,3.50,No,Sun,Dinner,3
3,4,23.68,3.31,No,Sun,Dinner,2
4,5,24.59,3.61,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
95,96,40.17,4.73,Yes,Fri,Dinner,4
96,97,27.28,4.00,Yes,Fri,Dinner,2
97,98,12.03,1.50,Yes,Fri,Dinner,2
98,99,21.01,3.00,Yes,Fri,Dinner,2


In [144]:
# 실습 내용!
"""
Class에서 sqlalchemy connection 정보를 가져와서 아래 작업을 수행해주세요.

- 데이터 저장
    - MYSQL -> pokemon.csv, battle.csv
    - POSTGRES -> trainer.csv

- 데이터 불러오기
    - MYSQL -> pokemon.csv
    - POSTGRES -> trainer.csv
"""

'\nClass에서 sqlalchemy connection 정보를 가져와서 아래 작업을 수행해주세요.\n\n- 데이터 저장\n    - MYSQL -> pokemon.csv, battle.csv\n    - POSTGRES -> trainer.csv\n\n- 데이터 불러오기\n    - MYSQL -> pokemon.csv\n    - POSTGRES -> trainer.csv\n'

In [145]:
# DBConnector 객체 생성
mysql_connector = DBConnector(**mysql_params)
pg_connector = DBConnector(**pg_params)

In [146]:
# DB 엔진 생성
mysql_engine = mysql_connector.sqlalchemy_connection()
pg_engine = pg_connector.sqlalchemy_connection()

In [147]:
# 데이터셋 경로
dataset_path = "/Users/goodnews/Documents/codeit/lesson/data_engineering/DataEngineeringRepo/01_python_database/dataset"

# CSV 파일 경로
pokemon_csv = os.path.join(dataset_path, "pokemon.csv")
battle_csv = os.path.join(dataset_path, "battle.csv")
trainer_csv = os.path.join(dataset_path, "trainer.csv")

# CSV 파일을 데이터프레임으로 읽기
pokemon_df = pd.read_csv(pokemon_csv)
battle_df = pd.read_csv(battle_csv)
trainer_df = pd.read_csv(trainer_csv)

In [150]:
# 데이터 저장

# MySQL에 pokemon 데이터 저장
pokemon_df.to_sql(
    name="pokemon", 
    con=mysql_engine, 
    if_exists="replace", 
    index=False
)

# MySQL에 battle 데이터 저장
battle_df.to_sql(
    name="battle", 
    con=mysql_engine, 
    if_exists="replace", 
    index=False
)

# PostgreSQL에 trainer 데이터 저장
trainer_df.to_sql(
    name="trainer", 
    con=pg_engine, 
    if_exists="replace", 
    index=False
)

90

In [151]:
# 데이터 불러오기

# MySQL에서 pokemon 데이터 불러오기
pokemon_loaded_df = pd.read_sql(
    sql="SELECT * FROM pokemon", 
    con=mysql_engine
)
print(pokemon_loaded_df.head())

# MySQL에서 battle 데이터 불러오기
battle_loaded_df = pd.read_sql(
    sql="SELECT * FROM battle", 
    con=mysql_engine
)
print(battle_loaded_df.head())

# PostgreSQL에서 trainer 데이터 불러오기
trainer_loaded_df = pd.read_sql(
    sql="SELECT * FROM trainer", 
    con=pg_engine
)
print(trainer_loaded_df.head())

   id kor_name    eng_name  type1   type2  total  hp  attack  defense  \
0   1     이상해씨   Bulbasaur  Grass  Poison    318  45      49       49   
1   2     이상해풀     Ivysaur  Grass  Poison    405  60      62       63   
2   3     이상해꽃    Venusaur  Grass  Poison    525  80      82       83   
3   4      파이리  Charmander   Fire    None    309  39      52       43   
4   5      리자드  Charmeleon   Fire    None    405  58      64       58   

   special_attack  special_defense  speed  generation  is_legendary  
0              65               65     45           1             0  
1              80               80     60           1             0  
2             100              100     80           1             0  
3              60               50     65           1             0  
4              80               65     80           1             0  
   id  player1_id  player2_id  winner_id battle_date      battle_datetime  \
0   1          61          49       61.0  2024-10-03  2024-10-03

강사님 풀이

In [None]:
# 1) connection 생성
DB_SETTINGS = dict(
    mysql_params = dict(
        engine_name = os.getenv('MYSQL_ENGINE_NAME', ""),
        user = os.getenv('MYSQL_USER', ""),
        password = os.getenv('MYSQL_PASSWORD', ""),
        host = os.getenv('MYSQL_HOST', ""),
        port = os.getenv('MYSQL_PORT', ""),
        database = os.getenv('MYSQL_DATABASE', "")
    ),

    pg_params = dict(
        engine_name = os.getenv('PG_ENGINE_NAME', ""),
        user = os.getenv('PG_USER', ""),
        password = os.getenv('PG_PASSWORD', ""),
        host = os.getenv('PG_HOST', ""),
        port = os.getenv('PG_PORT', ""),
        database = os.getenv('PG_DATABASE', "")
    )
)

mysql_alchemy_conn = DBConnector(**DB_SETTINGS['mysql_params']).sqlalchemy_connection()
pg_alchemy_conn = DBConnector(**DB_SETTINGS['pg_params']).sqlalchemy_connection()


{'engine_name': 'postgresql',
 'user': 'codeit',
 'password': 'sprint',
 'host': 'localhost',
 'port': '5430',
 'database': 'docker_postgres'}

#### 심화) class 객체에 with문 적용
Bad Case

<img src="https://velog.velcdn.com/images/newnew_daddy/post/df312bda-0b22-4476-8a03-505f1d3cf5b4/image.png" width="50%">

Good Case

<img src="https://velog.velcdn.com/images/newnew_daddy/post/707d46b0-8a0b-4862-ad95-285dc04ddc29/image.png" width="50%">

- Python에서 파일 또는 리소스 관리를 더 효과적으로 처리하기 위한 블록 구조
- 리소스를 열고 사용한 후 자동으로 닫아주기 때문에 닫아주는 코드를 작성할 필요가 없습니다. 
- 주로 파일 입출력, 데이터베이스 연결, 네트워크 연결 등 리소스 관리에 사용됩니다.

    ```
    with문을 사용할 때는 with 키워드 다음에 리소스를 관리하는 객체를 생성하는 표현식을 사용하며, 
    이 객체는 __enter__와 __exit__ 메소드를 구현해야 합니다. 
    with 블록 내에서 리소스를 사용하고 블록을 벗어나면 __exit__ 메소드가 호출되어 리소스를 정리합니다.
    ```

- enter, exit 적용
    > [https://docs.python.org/ko/3/reference/datamodel.html#object.__enter__](https://docs.python.org/ko/3/reference/datamodel.html#object.__enter__)

## 5. Loguru를 활용한 작업 로깅

#### 로깅이란?
- 프로그램 실행 중 발생하는 이벤트, 상태, 오류 등을 기록하는 프로세스
- 단순히 `print()`로 콘솔에 출력하여 메세지를 확인할 수 있지만, 로깅 모듈을 활용하면 로그 메시지를 파일에 저장하거나 특정 형식으로 관리할 수 있습니다.
  
#### Loguru란?
- 파이썬의 기본 `logging` 모듈보다 더 간단하고 직관적인 설정으로 로깅을 구현할 수 있도록 해주는 라이브러리.

In [None]:
from loguru import logger

logger.add('logger.log')

# log_format = "{time:YYYY-MM-DD HH:mm:ss} | {level} | {name} | {message}"
# logger.add(
#         "task.log",
#         format=log_format,
#         level="DEBUG",
#     )

#### Loguru 로그 레벨
1. TRACE (레벨 5)
   - 가장 낮은 레벨로, 매우 세부적인 디버깅 정보를 기록할 때 사용.
   - 예: 변수 값 추적, 함수 호출 흐름 등.

2. DEBUG (레벨 10)
   - 디버깅 목적으로 상세 정보를 기록할 때 사용.
   - 예: 프로그램 흐름, 내부 상태 디버깅.

3. INFO (레벨 20)
   - 일반적인 정보 메시지를 기록할 때 사용.
   - 예: 프로그램 시작/종료, 주요 작업 완료.

4. SUCCESS (레벨 25)
   - 작업이 성공적으로 완료되었음을 나타낼 때 사용.
   - 예: 파일 처리 완료, 데이터 저장 성공.

5. WARNING (레벨 30)
   - 경고 상황, 잠재적 문제나 주의가 필요한 경우에 사용.
   - 예: 설정값이 예상 밖이거나, 비추천 기능 사용.

6. ERROR (레벨 40)
   - 오류가 발생했지만 프로그램이 계속 실행 가능한 경우에 사용.
   - 예: 파일 읽기 실패, 네트워크 연결 오류.

7. CRITICAL (레벨 50)
   - 심각한 오류로, 프로그램이 중단되거나 복구 불가능한 상태일 때 사용.
   - 예: 데이터베이스 연결 완전 실패, 시스템 크래시.

---

#### 로그 레벨 사용 방법
```python
from loguru import logger

logger.trace("This is a trace message")
logger.debug("This is a debug message")
logger.info("This is an info message")
logger.success("This is a success message")
logger.warning("This is a warning message")
logger.error("This is an error message")
logger.critical("This is a critical message")
```

#### 로그 레벨 필터링
`logger.add()`에서 `level` 파라미터를 설정하여 특정 레벨 이상의 로그만 기록하도록 필터링할 수 있습니다:
```python
logger.add("task.log", level="INFO")  # INFO 이상만 기록
```

In [None]:
def info_msg():
    logger.info("This is a INFO message.")

def debug_msg():
    logger.info("This is a DEBUG message.")