# 1교시: Pandas 개요 & DataFrame 만들기

In [15]:
!pip install pandas

Collecting pandas
  Downloading pandas-2.3.1-cp313-cp313-win_amd64.whl.metadata (19 kB)
Collecting pytz>=2020.1 (from pandas)
  Downloading pytz-2025.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Downloading tzdata-2025.2-py2.py3-none-any.whl.metadata (1.4 kB)
Downloading pandas-2.3.1-cp313-cp313-win_amd64.whl (11.0 MB)
   ---------------------------------------- 0.0/11.0 MB ? eta -:--:--
   -------- ------------------------------- 2.4/11.0 MB 11.7 MB/s eta 0:00:01
   --------------- ------------------------ 4.2/11.0 MB 11.7 MB/s eta 0:00:01
   ------------------- -------------------- 5.2/11.0 MB 9.7 MB/s eta 0:00:01
   ------------------- -------------------- 5.2/11.0 MB 9.7 MB/s eta 0:00:01
   -------------------------- ------------- 7.3/11.0 MB 7.0 MB/s eta 0:00:01
   ---------------------------------- ----- 9.4/11.0 MB 7.5 MB/s eta 0:00:01
   ---------------------------------------- 11.0/11.0 MB 7.4 MB/s eta 0:00:00
Downloading pytz-2025.2-py2.py


[notice] A new release of pip is available: 25.1.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [16]:
import pandas as pd
s = pd.Series([10, 20, 30], index=["a","b","c"])
print(s)

a    10
b    20
c    30
dtype: int64


In [17]:
data = {"user_id":[101,102,103], "status":[200,404,500]}
df = pd.DataFrame(data)
print(df)

   user_id  status
0      101     200
1      102     404
2      103     500


# 실습 1: Series와 DataFrame 만들기

In [19]:
# Series
s = pd.Series([120, 350, 95], index=["req1","req2","req3"])
print(s)

req1    120
req2    350
req3     95
dtype: int64


In [20]:
# DataFrame
data = {"user_id":[101,102,103],
        "status":[200,404,500],
        "response_time":[120, 350, 95]}
df_sample = pd.DataFrame(data)
print(df_sample)

   user_id  status  response_time
0      101     200            120
1      102     404            350
2      103     500             95


#  실습 2: CSV 파일 불러오기

In [None]:
# logs.csv 읽기
df = pd.read_csv("logs.csv")

print("===상위 5행 ===")
print(df.head())

print("\n=== 데이터 구조 ===")
print(df.info())

print("\n=== 요약 통계 ===")
print(df.describe())

# 1. JSON 다루기

In [None]:
# JSON 파일 불러오기
df_json = pd.read_json("data.json")
print("=== JSON 불러오기 ===")
print(df_json.head())

# JSON 파일 저장하기
df_json.to_json("export.json", orient="records", force_ascii=False)
print("JSON 파일 저장 완료")

# 2교시 : 데이터 선택 & 필터링

In [24]:
# 1. 열 선택
df["status"].head()
df[["user_id","status"]].head()

Unnamed: 0,user_id,status
0,101,200
1,102,404
2,103,500


In [25]:
# 정수 위치 기반 선택: iloc
df.iloc[0]         # 첫 번째 행
df.iloc[0:5]       # 0~4행

Unnamed: 0,user_id,status
0,101,200
1,102,404
2,103,500


In [26]:
# 라벨 기반 선택: loc
df.loc[0,"status"]    # 0번 행의 status 값
df.loc[0:3, ["user_id","status"]]

Unnamed: 0,user_id,status
0,101,200
1,102,404
2,103,500


In [None]:
# 3. 조건 필터링(Boolean Indexing)
df[df["status"] == 200]    # status가 200인 행
df[df["response_time_ms"] > 300]   # 응답시간 > 300

In [None]:
df[(df["status"] == 200) & (df["response_time_ms"] < 200)]

In [None]:
# 실습 1: 열 선택

df = pd.read_csv("logs.csv")

print("=== status 열 ===")
print(df["status"].head())

print("\n=== user_id, status 열 ===")
print(df[["user_id","status"]].head())

In [None]:
# 실습 2: 행 선택
# 정수 위치 기반
print("첫 번째 행:\n", df.iloc[0])
print("앞 3행:\n", df.iloc[:3])

# 라벨 기반
print("0번 행, status 값:", df.loc[0,"status"])
print("0~2행, user_id & endpoint:\n", df.loc[0:2, ["user_id","endpoint"]])

In [None]:
# 실습 3: 조건 필터링
# status가 500인 에러 로그
error_500 = df[df["status"] == 500]
print("500에러 개수:", len(error_500))

# 응답시간이 400ms 이상인 로그
slow = df[df["response_time_ms"] >= 400]
print("느린 요청 개수:", len(slow))

# 복합 조건 (200 성공 & 응답시간 < 150)
fast_success = df[(df["status"] == 200) & (df["response_time_ms"] < 150)]
print("빠른 성공 요청 개수:", len(fast_success))

In [None]:
# status가 200 또는 404인 로그만 선택
df[df["status"].isin([200, 404])]

# 응답 시간이 100ms 이상 300ms 이하인 로그 선택
df[df["response_time_ms"].between(100, 300)]

In [35]:
# 샘플 데이터 생성
data = {
    "user_id": [101,102,103,104,105],
    "status": [200,404,500,200,404],
    "response_time_ms": [120, 350, 95, 280, 150]
}
df = pd.DataFrame(data)

In [36]:
print(df)

   user_id  status  response_time_ms
0      101     200               120
1      102     404               350
2      103     500                95
3      104     200               280
4      105     404               150


In [37]:
# 1) isin 활용
print("\n=== status가 200 또는 404인 로그 ===")
print(df[df["status"].isin([200, 404])])

# 2) between 활용
print("\n=== 응답시간 100~300ms 사이 로그 ===")
print(df[df["response_time_ms"].between(100, 300)])


=== status가 200 또는 404인 로그 ===
   user_id  status  response_time_ms
0      101     200               120
1      102     404               350
3      104     200               280
4      105     404               150

=== 응답시간 100~300ms 사이 로그 ===
   user_id  status  response_time_ms
0      101     200               120
3      104     200               280
4      105     404               150


In [None]:
# status, endpoint 별 요청 개수 집계
df_grouped = df.groupby(["status","endpoint"]).size()

# status가 200인 경우만 출력
print(df_grouped.loc[200])

In [40]:
# 실습

# 샘플 로그 데이터
data = {
    "user_id":[101,102,103,104,105,106],
    "status":[200,200,404,500,200,404],
    "endpoint":["/api/v1","/home","/api/v1","/home","login","/api/v1"]
}
df = pd.DataFrame(data)

print(df)

   user_id  status endpoint
0      101     200  /api/v1
1      102     200    /home
2      103     404  /api/v1
3      104     500    /home
4      105     200    login
5      106     404  /api/v1


In [None]:
# status, endpoint 조합별 요청 개수
df_grouped = df_groupby(["status","endpoint"]).size()
print(df_grouped)
print("\n=== 그룹화 결과 (MultiIndex) ===")

In [None]:
# status가 200인 경우만 선택
print("\n=== status=200인 endpoint별 요청 개수 ===")
print(df_grouped.loc[200])

# 3교시 : 정렬 & 컬럼 조작

In [None]:
# 1.정렬

df.sort_values("response_time_ms")                  # 오름차순 ascending
df.sort_values("response_time_ms", ascending=False) # 내림차순 descending

In [None]:
# 여러 열 기준 정렬
df.sort_values(["status","response_time_ms"], ascending=[True, False])

In [None]:
# 2. 컬럼 추가
df["is_error"] = df["status"] >= 400
df["sec"] = df["response_time_ms"] / 1000

In [None]:
# 3. 컬럼 삭제
df = df.drop("sec", axis=1)

# 실습 1: 정렬

In [None]:
df = pd.read_csv("logs.csv")

# 응답시간 오름차순 정렬
print(df.sort_values("response_time_ms").head())

# 응답시간 내림차순 (가장 느린 요청 Top 5)
print(df.sort_values("response_time_ms", ascending=False).head())

# 실습 2: 다중 열 정렬

In [None]:
# status 오름차순, 같은 status 내에서 응답시간 내림차순
df_sorted = df.sort_values(["status","response_time_ms"],
                           ascending=[True, False])
print(df_sorted.head(10))
