# pandas
- https://pandas.pydata.org/
- 파이썬에서 사용하는 데이터 분석 라이브러리
- 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있게 되며 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리
---

### 설치
    npm install pandas
---

### Series

In [None]:
# Series 하나의 열에 대하여 처리

import pandas as pd

obj = pd.Series([2, 4, 6, 8, 10])
print(obj)

In [None]:
print(obj.values)
print(type(obj.values))

print(obj.index)
print(type(obj.index))

print(obj.dtype)
print(type(obj.dtype))

In [None]:
# index에 숫자대신 문자를 넣을 수 있다.
obj = pd.Series([1, 3, 5, 7, 9], index=["a", "b", "c", "d", "e"])
print(obj)

In [None]:
# 키가 index로 들어가는 형태
dic_data = {"x": 100, "y": 200, "z": 300}
obj = pd.Series(dic_data)
print(obj)

In [None]:
obj.index = ["Q", "W", "E"]
print(obj)

In [None]:
obj.index.name = "idx"
obj.name = "my_data"
print(obj)

### Data Frame

In [None]:
# 행열, Table 모양으로 데이터 처리
# 엑셀과 비슷한...

data = {
    "name": ["A", "B", "C", "D"],
    "age": [20, 21, 22, 23],
    "blood": ["B", "B", "A", "O"],
}

df = pd.DataFrame(data)
print(df)

In [None]:
print(df.index)
print(df.columns)
print(df.values)
print(type(df.values))

In [None]:
df.index.name = "No."
df.columns.name = "Info"
print(df)

In [None]:
df = pd.DataFrame(data, columns=["name", "age", "blood", "MBTI"], index=[1, 2, 3, 4])
print(df)

In [None]:
print(df.describe())

In [None]:
print(df["name"])
print(df.name)

In [None]:
print(df[["name", "MBTI"]])

In [None]:
df["point"] = 0
print(df)

In [None]:
df["point"] = [100, 200, 300, 0]
print(df)

In [None]:
import numpy as np

df["np_idx"] = np.arange(4)
print(df)

In [None]:
val = pd.Series([-1.2, -1.5, -1.7], index=[2, 3, 4])
df["minus"] = val
print(df)

In [None]:
df["np_idx"] = df["age"]
print(df)

In [None]:
df["bool_test"] = df["age"] % 2 == 0
print(df)

In [None]:
df.index.name = "No."
df.columns.name = "Info"
print(df)

In [None]:
print(df[0:2])

In [None]:
df.index = ["ONE", "TWO", "THREE", "FOUR"]
print(df)
print(df["TWO":"THREE"])

In [None]:
print(df.loc["TWO"])
print("=" * 20)
print(df.loc["TWO":"THREE"])

In [None]:
print(df.loc["TWO":"THREE", "point"])
print("=" * 20)
print(df.loc[:, "name":"blood"])

In [None]:
del df["np_idx"]
print(df)

In [None]:
df.loc["FIVE", :] = ["E", 30, "AB", "ISTP", 0, -1, False]
print(df)

In [None]:
print(df.iloc[1])
print("=" * 20)
print(df.iloc[1:2])

In [None]:
print(df.iloc[0:2, 0:2])
print(df.iloc[[0, 1, 3], [0, 3]])
print(df.iloc[:, 1:4])

In [None]:
print(df["age"] < 22)

In [None]:
print(df.loc[df["age"] < 22, :])

In [None]:
print(df.loc[df["name"] == "A", ["name", "age"]])
print("=" * 20)
print(df.loc[(df["name"] == "A") | (df["name"] == "B"), ["name", "age"]])

In [None]:
df.loc[df["point"] == 0, "point"] = 10000
print(df)

### data

In [None]:
df = pd.DataFrame(np.random.randn(6, 4))
df

In [None]:
df.columns = ["A", "B", "C", "D"]
df.index = pd.date_range("20260101", periods=6)
print(df.index)
print("=" * 100)
print(df)

In [None]:
df["F"] = [1.0, np.nan, 3.5, 6.1, np.nan, 7.0]
df

In [None]:
print(df.dropna(how="any"))
print("=" * 100)
print(df)

In [None]:
print(df.dropna(how="all"))
print("=" * 100)
print(df)

In [None]:
print(df.fillna(value=0.5))

In [None]:
print(df.isnull())

In [None]:
print(df.loc[df.isnull()["F"], :])

In [None]:
pd.to_datetime("20260102")

In [None]:
print(df.drop(pd.to_datetime("20260102")))
print("=" * 100)
df.drop([pd.to_datetime("20260102"), pd.to_datetime("20260104")])

In [None]:
print(df.drop("F", axis=1))
print("=" * 100)
print(df)

In [None]:
print(df.drop("20260101", axis=0))
print("=" * 100)
print(df)

In [None]:
print(df.drop(["A", "F"], axis=1))
print("=" * 100)
print(df)

### 함수

In [None]:
data = [[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]]
df = pd.DataFrame(data, columns=["one", "two"], index=["a", "b", "c", "d"])
print(df)

In [None]:
print(df.head(2))

In [None]:
print(df.info())

In [None]:
print(df.sum(axis=0))
print(df.sum(axis=1))
print(df.sum(axis=1, skipna=False))

In [None]:
print(df['one'].sum())
print(df.loc['b'].sum())

In [None]:
# count - 전체 성분의(NaN이 아닌)값의 갯수를 계산
# min // max - 전체 성본의 최소, 최댓값을 계산
# argmin // argmax - 전체 성분의 최솟값, 최댓값이 위치한 (정수)인덱스를 반환
# idxmin // idxmax - 전체 인덱스 중 최솟값, 최댓값을 반환
# quantile - 전체 성분의 특정 사분위수에 해당하는 값을 반환
# sum - 전체 성분의 합을 계산
# mean - 전체 성분의 평균을 계산
# median - 전체 성분의 중간값을 반환
# mad - 전체 성분의 평균값으로부터의 절대 편차(absolute deviation)의 평균을 계산
# std // var - 전체 성분의 표준편차, 분산을 계산
# cumsum - 맨 첫 번째 성분부터 각 성분까지의 누적합을 계산(0에서부터 계속 더해짐)
# cumprod - 맨 첫 번째 성분부터 각 성분까지의 누적곱을 계산 (1에서부터 계속 곱해짐)

In [None]:
df = pd.DataFrame(np.random.randn(6, 4),
                   columns=["A", "B", "C", "D"],
                   index=pd.date_range("20260101", periods=6))
print(df)
print("=" * 100)
dates = df.index
random_dates = np.random.permutation(dates)
df = df.reindex(index=random_dates, columns=["D", "B", "C", "A"])
print(df)

In [None]:
print(df.sort_index(axis=0))
print("=" * 100)
print(df.sort_index(axis=1))
print("=" * 100)
print(df.sort_index(axis=1, ascending=False))


In [None]:
print(df.sort_values(by='D'))

In [None]:
df["E"] = np.random.randint(0, 6, size=6)
df["F"] = ["alpha", "beta", "gamma", "gamma", "alpha", "gamma"]
print(df)
print("=" * 100)
print(df.sort_values(by=['E', 'F']))

In [None]:
print(df['F'].unique())
print("=" * 30)
print(df['F'].value_counts())

In [None]:
print(df['F'].isin(['alpha','beta']))

In [None]:
df.loc[df['F'].isin(['alpha','beta']),:]

In [None]:
df = pd.DataFrame(np.random.randn(4, 3), columns=["b", "d", "e"], index=["Seoul", "Incheon", "Busan", "Daegu"])
print(df)

In [None]:
func = lambda x: x.max() - x.min()
df.apply(func, axis=0)


### csv

In [None]:
data = {
    '이름': ['철수', '영희', '민수', '지수'],
    '나이': [25, 30, 22, 28],
    '거주지': ['서울', '부산', '대구', '인천']
}

df = pd.DataFrame(data)
print(df)

df.to_csv("student1.csv", index=True, encoding="utf-8-sig")
df.to_csv("student2.csv", index=False, encoding="utf-8-sig")

In [None]:
loaded_df1 = pd.read_csv("student1.csv")
print(loaded_df1)
print("=" * 50)
loaded_df2 = pd.read_csv("student2.csv")
print(loaded_df2)

### group

In [3]:
import pandas as pd

# 실습 데이터: 부서별 매출
data = {
    '부서': ['영업팀', '영업팀', '인사팀', '인사팀', '개발팀', '개발팀'],
    '직원': ['김철수', '이영희', '박민수', '최지수', '정코딩', '홍베타'],
    '매출': [100, 200, 50, 60, 150, 120]
}
df = pd.DataFrame(data)

print("--- 원본 데이터 ---")
print(df)

print("\n--- 1. 부서별 매출 합계 구하기 ---")
# 문법: df.groupby('묶을기준컬럼')['계산할컬럼'].함수()
# 해석: '부서'별로 묶어서, '매출'의 '합계(sum)'를 보여줘
print(df.groupby('부서')['매출'].sum())

print("\n--- 2. 여러 가지 통계 한 번에 보기 (agg) ---")
# agg = aggregation(집계)의 약자
print(df.groupby('부서')['매출'].agg(['sum', 'mean', 'max']))

--- 원본 데이터 ---
    부서   직원   매출
0  영업팀  김철수  100
1  영업팀  이영희  200
2  인사팀  박민수   50
3  인사팀  최지수   60
4  개발팀  정코딩  150
5  개발팀  홍베타  120

--- 1. 부서별 매출 합계 구하기 ---
부서
개발팀    270
영업팀    300
인사팀    110
Name: 매출, dtype: int64

--- 2. 여러 가지 통계 한 번에 보기 (agg) ---
     sum   mean  max
부서                  
개발팀  270  135.0  150
영업팀  300  150.0  200
인사팀  110   55.0   60


In [4]:
df1 = pd.DataFrame({'A': ['a1', 'a2'], 'B': ['b1', 'b2']})
df2 = pd.DataFrame({'A': ['a3', 'a4'], 'B': ['b3', 'b4']})

print("--- 1. 위아래로 합치기 (행 추가) ---")
# 리스트 안에 합칠 df들을 넣어줍니다. [df1, df2]
result = pd.concat([df1, df2], ignore_index=True) 
print(result)

--- 1. 위아래로 합치기 (행 추가) ---
    A   B
0  a1  b1
1  a2  b2
2  a3  b3
3  a4  b4


In [5]:
# 회원 정보
user_df = pd.DataFrame({
    'ID': [1, 2, 3],
    '이름': ['철수', '영희', '민수']
})

# 구매 내역 (이름은 없고 ID만 있음)
buy_df = pd.DataFrame({
    'ID': [1, 1, 2],
    '상품': ['운동화', '가방', '모자'],
    '가격': [50000, 30000, 20000]
})

print("--- 2. VLOOKUP 처럼 합치기 (Merge) ---")
# 문법: pd.merge(왼쪽표, 오른쪽표, on='기준컬럼', how='방법')
# how='left' : 왼쪽(user_df) 데이터는 다 살리고, 오른쪽 정보를 붙임
result = pd.merge(user_df, buy_df, on='ID', how='left')

print(result)
# 설명: 3번 민수는 구매 내역이 없어서 상품/가격이 NaN(빈값)으로 나옵니다.

--- 2. VLOOKUP 처럼 합치기 (Merge) ---
   ID  이름   상품       가격
0   1  철수  운동화  50000.0
1   1  철수   가방  30000.0
2   2  영희   모자  20000.0
3   3  민수  NaN      NaN


In [6]:
# 실습 데이터 확장
data = {
    '지점': ['강남', '강남', '강북', '강북', '강남'],
    '요일': ['월', '화', '월', '화', '월'],
    '매출': [100, 120, 80, 90, 110]
}
df = pd.DataFrame(data)

print("\n--- 피벗 테이블 만들기 ---")
# index=행, columns=열, values=값
pivot = df.pivot_table(
    index='지점', 
    columns='요일', 
    values='매출', 
    aggfunc='mean' # 평균(기본값)
)

print(pivot)


--- 피벗 테이블 만들기 ---
요일      월      화
지점              
강남  105.0  120.0
강북   80.0   90.0


### 실습1

In [None]:
data = {
    '메뉴': ['아메리카노', '카페라떼', '카페모카', '바닐라라떼', '녹차라떼', '아이스티'],
    '가격': [4000, 4500, 5000, 5500, 5000, 3500],
    '판매량': [50, 30, 20, 15, 25, 40],
    '카테고리': ['커피', '커피', '커피', '커피', '논커피', '논커피']
}

df = pd.DataFrame(data)
print(df)
print("=" * 30)

print(df['메뉴'])
print("=" * 30)
print(df[['메뉴', '가격']])

In [None]:
df_index = df.set_index('메뉴')
print(df_index)

print("\n--- 1. loc ---")
# '아메리카노' 행 전체 가져오기
print(df_index.loc['아메리카노']) 
print("=" * 30)
# '아메리카노'의 '가격'만 콕 집어 가져오기 [행, 열]
print(df_index.loc['아메리카노', '가격'])


print("\n--- 2. iloc  ---")
print(df_index.iloc[0])
print("=" * 30)
print(df_index.iloc[0, 0])

In [None]:
print("--- 1. 가격이 5000원 이상인 메뉴 찾기 ---")
high_price = df['가격'] >= 5000 
print(high_price)

print("\n--- 2. 조건 적용하여 데이터만 남기기 ---")
result = df[high_price]
print(result)

print(df[df['카테고리'] == '커피'])

In [None]:
print("--- 통계 확인 ---")
print("총 매출액 합계:", df['매출액'].sum())
print("평균 가격:", df['가격'].mean())
print("가장 많이 팔린 개수:", df['판매량'].max())

print("\n--- 카테고리별 메뉴 개수 ---")
print(df['카테고리'].value_counts())

In [None]:
# 1. 판매량 30 미만 필터링
low_sales = df[df['판매량'] < 30]

# 2. 가격 내림차순 정렬
low_sales_sorted = low_sales.sort_values(by='가격', ascending=False)
print("--- 판매량 저조 메뉴 (가격순) ---")
print(low_sales_sorted)

# 3. '커피' 카테고리 평균 가격
coffee_df = df[df['카테고리'] == '커피']
avg_price = coffee_df['가격'].mean() 
print("\n커피 평균 가격:", avg_price)

### 실습2

In [7]:
import pandas as pd

# 1. 데이터 준비
store_info = pd.DataFrame({
    '매장코드': ['A01', 'A02', 'B01'],
    '지역': ['강남', '서초', '판교']
})

sales_data = pd.DataFrame({
    '매장코드': ['A01', 'A01', 'A02', 'B01', 'B01'],
    '날짜': ['1일', '2일', '1일', '1일', '2일'],
    '매출액': [100, 120, 150, 200, 180]
})

# --- 수강생 실습 영역 ---

# [풀이 1] 데이터 합치기 (VLOOKUP)
merged_df = pd.merge(sales_data, store_info, on='매장코드', how='left')
print("--- 1. 합쳐진 데이터 ---")
print(merged_df)

# [풀이 2] 지역별 매출 총합 (GroupBy)
region_sum = merged_df.groupby('지역')['매출액'].sum()
print("\n--- 2. 지역별 총 매출 ---")
print(region_sum)

# [풀이 3] 피벗 테이블 (보고서용)
pivot_report = merged_df.pivot_table(
    index='지역',
    columns='날짜',
    values='매출액',
    aggfunc='sum'
)
print("\n--- 3. 요약 보고서 ---")
print(pivot_report)

--- 1. 합쳐진 데이터 ---
  매장코드  날짜  매출액  지역
0  A01  1일  100  강남
1  A01  2일  120  강남
2  A02  1일  150  서초
3  B01  1일  200  판교
4  B01  2일  180  판교

--- 2. 지역별 총 매출 ---
지역
강남    220
서초    150
판교    380
Name: 매출액, dtype: int64

--- 3. 요약 보고서 ---
날짜     1일     2일
지역              
강남  100.0  120.0
서초  150.0    NaN
판교  200.0  180.0


In [None]:
# EOD.