In [None]:
# !pip install sqlalchemy
#!pip3 install mysql-connector-python
## Mac 이면 pip3 



![image.png](attachment:image.png)

### **⚙️ 01. 환경 변수 설정 및 MySQL 데이터베이스 연결**

먼저 MySQL 데이터베이스와 상호작용하기 위해 필요한 라이브러리를 설치하고 불러옵니다. 환경 변수를 로드하여 보안 정보를 관리합니다. `.env`파일에 저장된 MySQL 서버 정보로 데이터베이스에 연결합니다.

In [1]:
# 패키지 불러오기
from sqlalchemy import create_engine, MetaData, Table, Column
from sqlalchemy import text 
from sqlalchemy import Integer, String, Float, DateTime
from sqlalchemy.engine import URL
import pandas as pd
import os 
from dotenv import load_dotenv

load_dotenv()


# MySQL 연결 정보 설정
DB_SERVER_HOST = os.environ.get('DB_SERVER_HOST')  # 데이터베이스 서버의 호스트 이름 (로컬호스트로 설정)
DB_USERNAME = os.environ.get('DB_USERNAME')      # 데이터베이스 아이디 
DB_PASSWORD = os.environ.get('DB_PASSWORD')      # 데이터베이스 비밀번호
DB_DATABASE = os.environ.get('DB_DATABASE') # 사용할 데이터베이스 이름
DB_PORT = os.environ.get('DB_PORT')              # 데이터베이스 연결을 위한 포트 (Default: 3306)


#연결 URL 생성
connection_url = URL.create(
    drivername="mysql+mysqlconnector",
    username=DB_USERNAME,
    password=DB_PASSWORD,
    host=DB_SERVER_HOST,
    port=DB_PORT,
    database=DB_DATABASE,
)

print(connection_url)
print(f"DB_SERVER_HOST: {DB_SERVER_HOST}")
print(f"DB_USERNAME: {DB_USERNAME}")
print(f"DB_PASSWORD: {'*' * len(DB_PASSWORD) if DB_PASSWORD else None}")  # Masked for safety
print(f"DB_DATABASE: {DB_DATABASE}")
print(f"DB_PORT: {DB_PORT}")


# SQLAlchemy 엔진 생성
# url 기반으로 엔진을 만드는데 이 엔진 가지고 나중에 insert 할 거임.
engine = create_engine(connection_url)

mysql+mysqlconnector://root:***@localhost:3306/test_db
DB_SERVER_HOST: localhost
DB_USERNAME: root
DB_PASSWORD: ********
DB_DATABASE: test_db
DB_PORT: 3306


### **02. 생성 테이블 구조 정의**

🤙 **PK (Primary Key)와 FK (Foreign Key) 기초 강의**

**1. PK (Primary Key)란?**

- **정의**: 데이터베이스 테이블에서 각 행을 **고유하게 식별**하는 컬럼(또는 컬럼들의 조합)입니다.
- **특징**:
    - **유일성**: 한 테이블 내에서 중복되지 않는 값이어야 합니다.
    - **NULL 허용 불가**: Primary Key는 항상 값이 있어야 합니다.
- **예시**: 학생 테이블에서 student_id가 각 학생을 유일하게 구분하는 경우, student_id가 Primary Key가 될 수 있습니다.

**2. FK (Foreign Key)란?**

- **정의**: 다른 테이블의 Primary Key를 **참조**하는 컬럼으로, 두 테이블 간의 관계를 형성합니다.
- **목적:**
    - 데이터의 무결성을 유지합니다.
    - 테이블 간의 관계를 정의합니다.
- **예시**: 수강 테이블에서 student_id가 학생 테이블의 Primary Key를 참조한다면, student_id는 Foreign Key가 됩니다.

**3. 간단한 예시를 통한 이해**

![image.png](attachment:image.png)

이렇게 설정된 관계에서는 수강 테이블의 `student_id`는 학생 테이블의 `student_id`와 일치하는 값만 가질 수 있으므로, 데이터 일관성이 유지됩니다. 

1.  테이블을 구성할 때 **하나 이상의 컬럼을 조합하여 Primary Key를 만들 수 있습니다**. 이를 **복합 키(Composite Key)**라고 합니다.
- **정의**: 두 개 이상의 컬럼을 조합하여 Primary Key로 설정하여, 각 행을 고유하게 식별합니다.
- **사용 사례**: 복합 키는 두 개 이상의 값의 조합이 반드시 유일하게 유지되어야 할 때 사용됩니다.
- **아래 날씨 데이터는 복합키를 사용하도록 하겠습니다.**

MySQL에 데이터를 저장할 테이블 구조를 정의합니다

In [None]:
from sqlalchemy import MetaData, Table, Column
from sqlalchemy import Integer, String, Float, DateTime

# 테이블 메타데이터 설정
metadata = MetaData()
table_name = 'daily_weather'

# 테이블 정의
table = Table(
    table_name, metadata,
    Column('dt', String(8), nullable=False, primary_key=True),  # 'dt'는 문자열이며 기본 키로 설정됨
    Column('time', String(6), nullable=False, primary_key=True), # 'time'은 문자열이며 기본 키로 설정됨
    Column('measured_at', DateTime, nullable=False),             # 'measured_at'은 DateTime 타입
    Column('id', Integer, primary_key=True),                     # 'id'는 정수 타입이며 기본 키
    Column('city', String(100), nullable=True),                  # 'city'는 문자열
    Column('temperature', Float, nullable=True),                 # 'temperature'는 부동소수점 타입
    Column('humidity', Integer, nullable=True),                  # 'humidity'는 정수
    Column('wind_speed', Float, nullable=True)                   # 'wind_speed'는 부동소수점 타입
)

create를 아무리 많이 돌려도 에러가 나오지 않는다. 이미 테이블이 있으면 얘네가 아무 것도 안 함 ㅋㅋㅋ

SQL 로 치면 Create Not Exists 거든요. 이 쿼리가 돌아가는 게.

존재하지 않으면 만들고. 존재하면 난 아무 것도 안 할거야.

- `dt` (기준년월일), `time` (기준시간), `id` (도시ID)를 활용하여 복합키를 만들어보겠습니다. 이를 조합하면 테이블에 대한 고유 값이 생성됩니다.

### **🛠️ 03. 삽입 할 데이터 준비**

삽입 할 데이터 샘플을 만들어줍니다.

In [2]:
from sqlalchemy import MetaData, Table, Column
from sqlalchemy import Integer, String, Float, DateTime

# 테이블 메타데이터 설정
metadata = MetaData()
table_name = 'daily_weather'


data = {
    'dt': ['20241112', '20241112'],
    'time': ['120000', '123000'],
    'measured_at': pd.to_datetime(['2024-11-12 12:00:00', '2024-11-12 12:30:00']),
    'id': [1, 2],
    'city': ['Seoul', 'Seoul'],
    'temperature': [15.5, 16.0],
    'humidity': [45, 50],
    'wind_speed': [3.5, 4.0]
}

df = pd.DataFrame(data)
df.head()

Unnamed: 0,dt,time,measured_at,id,city,temperature,humidity,wind_speed
0,20241112,120000,2024-11-12 12:00:00,1,Seoul,15.5,45,3.5
1,20241112,123000,2024-11-12 12:30:00,2,Seoul,16.0,50,4.0


### 04.  MySQL DB 데이터 조작 및 처리 방법

04-1. 테이블 생성 (CREATE)

In [None]:
### 04. MySQL 테이블 구조 설정 및 테이블 생성 

# 테이블에 대한 Metadata 설정 
metadata = MetaData()
table_name = 'daily_weather'


table = Table(
    table_name, metadata,
    Column('dt', String(8), nullable=False, primary_key=True),  # 'dt'는 문자열이며 기본 키로 설정됨 (고유값)
    Column('time', String(6), nullable=False, primary_key=True), # 'time'는 문자열이며 기본 키로 설정됨 (고유값)
    Column('measured_at', DateTime, nullable=False),    # 'measured_at'은 DateTime 타입이고 null이 허용되지 않음
    Column('id', Integer, primary_key=True),            # 'id'는 정수 타입이며 기본 키로 설정됨 (고유값)
    Column('city', String(100), nullable=True),         # 'city'은 문자열이며 null이 허용됨
    Column('temperature', Float, nullable=True),        # 'temperature'는 부동소수점 타입이며 null이 허용됨
    Column('humidity', Integer, nullable=True),         # 'humidity'는 정수 타입이며 null이 허용됨
    Column('wind_speed', Float, nullable=True)          # 'wind_speed'는 부동소수점 타입이며 null이 허용됨
)

# CREATE 
metadata.create_all(engine)
print(f"'{table_name}' 테이블이 생성되었습니다.")

- 새로운 테이블을 정의하고 만들어보겠습니다. 테이블은 특정 구조(열 이름과 데이터 타입)를 가지며, 데이터를 저장하고 관리할 수 있는 저장소 역할을 합니다.
- `create_all` 메서드를 사용할 때 테이블이 이미 존재할 경우에는 무시합니다.

### 05. 데이터베이스 조작 기법: DROP, INSERT, UPSERT 이해 및 활용

#### 05-1. 테이블 삭제 (DROP)

In [None]:
# 테이블 삭제 (DROP)  
with engine.connect() as connection:
    connection.execute(text(f"DROP TABLE IF EXISTS {table_name}")) 
    print(f"'{table_name}' 테이블이 삭제되었습니다.")

- 테이블 삭제(DROP)는 기존의 테이블을 **완전히 제거**하고 데이터베이스에서 지우는 작업입니다. 이 작업은 데이터베이스 구조가 변경되었거나 더 이상 필요하지 않은 테이블을 삭제할 때 유용합니다.
- 주의할 점은 DROP 명령어는 테이블을 완전히 삭제하기 때문에 해당 테이블에 저장된 데이터도 **모두** 삭제됩니다. 따라서 데이터 손실에 주의해야 하며, 백업이 필요한 경우 사전에 수행해야 합니다.

#### 05-2. 데이터 삽입 (INSERT)

![image.png](attachment:image.png)

In [None]:
#존재하는 테이블에 데이터 삽입 (INSERT) 
df.to_sql(name=table_name, con=engine, if_exists='append', index=False)
print(f"'{table_name}' 테이블에 데이터가 삽입되었습니다.")

2

- 데이터 삽입은 새로운 데이터를 데이터베이스에 추가하는 과정입니다. 여기서는 Pandas DataFrame 데이터를 `to_sql` 함수를 사용하여 MySQL 테이블에 삽입하고 있습니다.
- `if_exists='append'` 옵션은 기존 테이블에 데이터를 추가하는 역할을 합니다. 즉, 이미 존재하는 테이블에 추가 데이터를 삽입할 때 유용하며, 데이터 누적이 필요할 때 주로 사용됩니다.
- `index=False`는 DataFrame의 인덱스를 별도의 열로 테이블에 작성하지 않도록 지정합니다.
- 새로운 데이터를 추가함으로써 테이블의 정보를 최신 상태로 유지할 수 있습니다.

#### 05-2. 데이터 삭제 후 삽입 (DELETE+INSERT)
![image.png](attachment:image.png)

In [None]:
# 데이터 삭제 후 삽입 (DELETE+INSERT)

# 데이터프레임을 레코드의 리스트(딕셔너리로 구성된)로 변환
data = df.to_dict(orient='records')

# 테이블에서 고유 키(Primary Key) 열을 가져옴
key_columns = [pk_column.name for pk_column in table.primary_key.columns.values()]
key_values = [tuple(row[pk] for pk in key_columns) for row in data]
delete_values = ", ".join([f"({', '.join(map(repr, values))})" for values in key_values])

# DELETE 문 실행 후 재삽입
with engine.connect() as connection:
    if key_values:
        delete_sql = f"""
            DELETE FROM {DB_DATABASE}.{table.name}
            WHERE ({', '.join(key_columns)}) IN (
                {delete_values}
            )
        """
        connection.execute(text(delete_sql)) 
        connection.commit() # 생성된 DELETE 문 실행
        print(f"기존 데이터가 '{table_name}' 테이블에서 삭제되었습니다.")
        
# 변환된 데이터프레임을 테이블에 추가 (INSERT)
df.to_sql(name=table_name, con=engine, if_exists='append', index=False)
print(f"새로운 데이터가 '{table_name}' 테이블에 삽입되었습니다.")


2

- 이 과정은 기존 데이터를 삭제한 후 새로운 데이터를 삽입하는 방식입니다. 데이터베이스에서 특정 조건을 만족하는 기존 데이터를 삭제하고, 최신 데이터를 삽입하는데 사용됩니다.
- 주로 최신 데이터로 테이블을 업데이트해야 할 때 활용되며, 중복 데이터나 데이터 일관성을 유지하는 데 유용합니다.
- 이 방법은 특정 기준을 기반으로 기존 데이터를 삭제하고 새로운 데이터를 삽입하기 때문에 전체 데이터가 아닌 필요한 데이터만 교체할 수 있는 유연성을 제공합니다.
- 데이터가 중복되거나 업데이트가 필요한 경우, 기존 데이터 삭제 후 새로운 데이터 삽입을 통해 정확하고 최신의 데이터를 유지할 수 있습니다.

### 06. 객체지향 프로그래밍 Object Oriented Programming (OOP) 

In [8]:
from sqlalchemy import create_engine, MetaData, Table
from sqlalchemy import text
from sqlalchemy.engine import URL
import pandas as pd


class MySqlClient:
    """
    MySQL 데이터베이스와 상호작용하기 위한 클라이언트 클래스입니다.
    """

    def __init__(
        self,
        server_name: str,
        database_name: str,
        username: str,
        password: str,
        port: int = 5432,
    ):
        # 데이터베이스 연결을 위한 초기 설정
        self.host_name = server_name
        self.database_name = database_name
        self.username = username
        self.password = password
        self.port = port

        # MySQL 연결 URL 생성
        connection_url = URL.create(
            drivername="mysql+mysqlconnector",
            username=username,
            password=password,
            host=server_name,
            port=port,
            database=database_name,
        )

        # SQLAlchemy 엔진 생성
        self.engine = create_engine(connection_url)

    def create_table(self, metadata: MetaData) -> None:
        """
        주어진 메타데이터 객체를 기반으로 테이블을 생성합니다.

        Parameters:
        - metadata (MetaData): 테이블 정의를 포함하는 SQLAlchemy MetaData 객체.
        """
        metadata.create_all(self.engine)

    def drop_table(self, table_name: str) -> None:
        """
        지정된 테이블을 삭제합니다. 테이블이 존재하지 않으면 무시합니다.

        Parameters:
        - table_name (str): 삭제할 테이블의 이름.
        """
        with self.engine.connect() as connection:
            connection.execute(text(f"DROP TABLE IF EXISTS {table_name}"))

    def insert(self, df: pd.DataFrame, table: Table, metadata: MetaData) -> None:
        """
        데이터를 테이블에 삽입합니다. 테이블이 없으면 생성 후 추가합니다.

        Parameters:
        - df (pd.DataFrame): 삽입할 데이터를 포함하는 Pandas DataFrame.
        - metadata (MetaData): 테이블 정의를 포함하는 SQLAlchemy MetaData 객체.
        """
        self.create_table(metadata=metadata)
        df.to_sql(name=table.name, con=self.engine, if_exists="append", index=False)

    def upsert(self, df: pd.DataFrame, table: Table, metadata: MetaData) -> None:
        """
        데이터를 테이블에 삽입하고, 기존 레코드가 있으면 업데이트합니다. 테이블이 없으면 생성 후 추가합니다.

        Parameters:
        - df (pd.DataFrame): 삽입 또는 갱신할 데이터를 포함하는 Pandas DataFrame.
        - table (Table): 업서트 작업을 수행할 SQLAlchemy 테이블 객체.
        - metadata (MetaData): 테이블 정의를 포함하는 SQLAlchemy MetaData 객체.
        """
        self.create_table(metadata=metadata)

        # 데이터프레임을 레코드(딕셔너리 목록)으로 변환
        data = df.to_dict(orient="records")

        # 테이블의 고유 키(Primary Key) 추출
        key_columns = [
            pk_column.name for pk_column in table.primary_key.columns.values()
        ]
        key_values = [tuple(row[pk] for pk in key_columns) for row in data]
        delete_values = ", ".join(
            [f"({', '.join(map(repr, values))})" for values in key_values]
        )

        with self.engine.connect() as connection:
            if key_values:
                delete_sql = f"""
                    DELETE FROM {self.database_name}.{table.name}
                    WHERE ({', '.join(key_columns)}) IN (
                        {delete_values}
                    )
                """
                connection.execute(text(delete_sql))
                connection.commit()  # DELETE 문 실행

        # 변환된 데이터프레임을 테이블에 추가 (INSERT)
        df.to_sql(name=table.name, con=self.engine, if_exists="append", index=False)


- `__init__` : MySQL 데이터베이스에 연결하는 클라이언트를 초기화합니다. 서버 정보와 사용자 정보를 설정하여 연결 URL을 생성합니다.
- `create_table`: 주어진 metadata를 기반으로 테이블을 생성합니다.
- `drop_table`: 지정된 테이블을 삭제합니다.
- `insert`: 데이터를 테이블에 삽입합니다. 테이블이 없으면 생성 후 추가합니다.
- `upsert`: 데이터를 테이블에 삽입하고, 기존 레코드가 있으면 업데이트합니다. 테이블이 없으면 생성 후 추가합니다.

In [9]:
from sqlalchemy import Integer, String, Float, DateTime
from sqlalchemy import MetaData, Table, Column
import pandas as pd
import os
from dotenv import load_dotenv

load_dotenv()

# 2회차에서 쌓아둔 데이터 불러오기 
df = pd.read_csv(
    '/Users/jun/GitStudy/Data_4/src/challenge/week2/weather_api.csv',
    dtype={
        'dt': 'object', 
        'time': 'object', 
        'id': 'int64', 
        'city': 'object', 
        'temperature': 'float64', 
        'humidity': 'int64', 
        'wind_speed': 'float64'
    },
    parse_dates=['measured_at'] 
)

df

Unnamed: 0,dt,time,measured_at,id,city,temperature,humidity,wind_speed
0,20241118,63851,2024-11-18 06:38:51,1850144,Tokyo,14.34,56,5.14
1,20241118,63902,2024-11-18 06:39:02,1853909,Osaka,13.99,60,8.75
2,20241118,63701,2024-11-18 06:37:01,2147714,Sydney,22.98,54,8.23


In [10]:
table_name = 'daily_weather'

# 테이블에 대한 Metadata 설정 
metadata = MetaData()
table = Table(
    table_name, metadata,
    Column('dt', String(8), nullable=False, primary_key=True),  # 'dt'는 문자열이며 기본 키로 설정됨 (고유값)
    Column('time', String(6), nullable=False, primary_key=True), # 'time'는 문자열이며 기본 키로 설정됨 (고유값)
    Column('measured_at', DateTime, nullable=False),    # 'measured_at'은 DateTime 타입이고 null이 허용되지 않음
    Column('id', Integer, primary_key=True),            # 'id'는 정수 타입이며 기본 키로 설정됨 (고유값)
    Column('city', String(100), nullable=True),         # 'city'은 문자열이며 null이 허용됨
    Column('temperature', Float, nullable=True),        # 'temperature'는 부동소수점 타입이며 null이 허용됨
    Column('humidity', Integer, nullable=True),         # 'humidity'는 정수 타입이며 null이 허용됨
    Column('wind_speed', Float, nullable=True)          # 'wind_speed'는 부동소수점 타입이며 null이 허용됨
)

DB_SERVER_HOST = os.environ.get('DB_SERVER_HOST') 
DB_USERNAME = os.environ.get('DB_USERNAME')  
DB_PASSWORD = os.environ.get('DB_PASSWORD') 
DB_DATABASE = os.environ.get('DB_DATABASE') 
DB_PORT = os.environ.get('DB_PORT') 

my_sql_client = MySqlClient(
    server_name=DB_SERVER_HOST, 
    database_name=DB_DATABASE, 
    username=DB_USERNAME, 
    password=DB_PASSWORD, 
    port=DB_PORT
)
my_sql_client.create_table(metadata=metadata)
my_sql_client.insert(df=df, table=table, metadata=metadata)
# my_sql_client.upsert(df=df, table=table, metadata=metadata)