df.iterrows() vs. df.itertuples() vs. enumerate()
* <font size=4 color=red><b> iterrows() : 행을 시리즈로 반환
* <font size=4 color=red><b> itertuples() : 행반환
* <font size=4 color=red><b> enumerate() : i번째, 행반환

<!DOCTYPE html>
<html lang="ko">
<head>
    <meta charset="UTF-8">
    <style>
        .pandas-table {
            width: 100%;
            border-collapse: collapse;
            font-family: 'Pretendard', sans-serif;
            margin: 20px 0;
            font-size: 14px;
        }
        .pandas-table th {
            background-color: #1f2937;
            color: white;
            padding: 12px;
            text-align: left;
        }
        .pandas-table td {
            border: 1px solid #e5e7eb;
            padding: 12px;
            line-height: 1.6;
        }
        .pandas-table tr:nth-child(even) {
            background-color: #f9fafb;
        }
        .pandas-table tr:hover {
            background-color: #f3f4f6;
        }
        .rank {
            font-weight: bold;
            display: inline-block;
            padding: 2px 8px;
            border-radius: 4px;
        }
        .rank-1 { background-color: #dcfce7; color: #166534; } /* 벡터화 */
        .rank-2 { background-color: #fef9c3; color: #854d0e; } /* apply */
        .rank-3 { background-color: #f3f4f6; color: #374151; } /* itertuples */
        .rank-4 { background-color: #fee2e2; color: #991b1b; } /* iterrows */
    </style>
</head>
<body>

<table class="pandas-table">
    <thead>
        <tr>
            <th>순회 방식</th>
            <th>반환 형태</th>
            <th>속도 서열</th>
            <th>핵심 특징 및 차이점</th>
            <th>추천 사용 상황</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td><strong>Vectorization</strong></td>
            <td>Series / Array</td>
            <td><span class="rank rank-1">1위 (압도적)</span></td>
            <td>C로 구현된 내부 라이브러리 직접 이용. Python 수준의 루프가 없어 가장 빠름.</td>
            <td><strong>최우선 순위.</strong> 사칙연산, np.where 등 대부분의 수치 연산.</td>
        </tr>
        <tr>
            <td><strong>apply()</strong></td>
            <td>Series / Value</td>
            <td><span class="rank rank-2">2위</span></td>
            <td>내부적으로 루프를 최적화하여 실행. 벡터화가 불가능한 복잡한 로직 처리에 적합.</td>
            <td>복잡한 조건문이 포함된 함수를 모든 행에 적용해야 할 때.</td>
        </tr>
        <tr>
            <td><strong>itertuples()</strong></td>
            <td>NamedTuple</td>
            <td><span class="rank rank-3">3위</span></td>
            <td>각 행을 튜플로 반환. <code>row.column</code>으로 접근. 데이터 타입을 보존하며 루프 중 가장 빠름.</td>
            <td><strong>불가피하게 루프가 필요할 때의 표준.</strong> 가독성과 성능을 모두 챙길 때.</td>
        </tr>
        <tr>
            <td><strong>iterrows()</strong></td>
            <td>(Index, Series)</td>
            <td><span class="rank rank-4">4위 (지양)</span></td>
            <td>매 행마다 새로운 Series 객체 생성. 오버헤드가 매우 크고 데이터 타입이 변질될 수 있음.</td>
            <td><strong>비추천.</strong> 데이터가 아주 적고 인덱싱 구조가 반드시 필요할 때만 예외적 사용.</td>
        </tr>
        <tr>
            <td><strong>enumerate()</strong></td>
            <td>(Index, Value)</td>
            <td>변수</td>
            <td>Python 기본 기능. <code>df.values</code>와 결합 시 빠르나 판다스의 편의성(컬럼명 등) 상실.</td>
            <td>순수 배열 데이터만 빠르게 훑으며 인덱스 번호가 필요할 때.</td>
        </tr>
    </tbody>
</table>

</body>
</html>

In [3]:
import pandas as pd
import numpy as np

df = pd.read_csv('./data/dept.csv')
df



Unnamed: 0,DEPTNO,DNAME,LOC
0,10,ACCOUNTING,NEW YORK
1,20,RESEARCH,DALLAS
2,30,SALES,CHICAGO
3,40,OPERATIONS,BOSTON


iterrows()

In [7]:
for idx, row in df.iterrows():
    print(idx, row)
    print('--'*20)

0 DEPTNO            10
DNAME     ACCOUNTING
LOC         NEW YORK
Name: 0, dtype: object
----------------------------------------
1 DEPTNO          20
DNAME     RESEARCH
LOC         DALLAS
Name: 1, dtype: object
----------------------------------------
2 DEPTNO         30
DNAME       SALES
LOC       CHICAGO
Name: 2, dtype: object
----------------------------------------
3 DEPTNO            40
DNAME     OPERATIONS
LOC           BOSTON
Name: 3, dtype: object
----------------------------------------


itertuples()

In [8]:
for tuples in df.itertuples():
    print(tuples)
    print('--'*20)

Pandas(Index=0, DEPTNO=10, DNAME='ACCOUNTING', LOC='NEW YORK')
----------------------------------------
Pandas(Index=1, DEPTNO=20, DNAME='RESEARCH', LOC='DALLAS')
----------------------------------------
Pandas(Index=2, DEPTNO=30, DNAME='SALES', LOC='CHICAGO')
----------------------------------------
Pandas(Index=3, DEPTNO=40, DNAME='OPERATIONS', LOC='BOSTON')
----------------------------------------


In [10]:
for tuples in df.itertuples():
    print(tuples.DNAME)  # 요소만 뽑기
    print('--'*20)

ACCOUNTING
----------------------------------------
RESEARCH
----------------------------------------
SALES
----------------------------------------
OPERATIONS
----------------------------------------


enumerate()

In [11]:
for idx, rows in enumerate(df):
    print(idx, rows)
    print('--'*20)

0 DEPTNO
----------------------------------------
1 DNAME
----------------------------------------
2 LOC
----------------------------------------


In [None]:
for i, col in enumerate(col_list) :  #train.columns) :