### nlargest
특정 열(column)의 값 기준으로 가장 큰 상위 N개의 행(row)을 빠르게 추출하는 메서드   
   
기본문법
- DataFrame.nlargest(n, columns, keep='first')
- Series.nlargest(n, keep='first')
- n: 가져올 행의 개수
- columns: 기준이 되는 열 이름 (DataFrame에서만 사용)
- keep: 중복 값 처리 방식 ('first', 'last', 'all')

In [1]:
import pandas as pd

df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Score': [85, 92, 78, 95],
    'Age': [23, 25, 22, 24]
})

# Score 기준 상위 2명 추출
df.nlargest(2, 'Score')

Unnamed: 0,Name,Score,Age
3,David,95,24
1,Bob,92,25


In [2]:
df['Score'].nlargest(3)

3    95
1    92
0    85
Name: Score, dtype: int64

### groupby
데이터를 특정 기준으로 그룹화하여 집계(aggregation), 변환(transformation), 필터링(filtering) 등을 수행할 수 있게 해주는 핵심 메서드   
데이터 분석에서 "집단별 통계"를 낼 때 많이 사용   
   
기본문법
- DataFrame.groupby(by, axis=0, level=None, as_index=True, sort=True)
- by : 그룹화 기준 (열 이름, 배열, 함수 등)
- axis : 그룹화할 축 (기본은 행 기준)
- as_index : 그룹 키를 인덱스로 사용할지 여부 (기본값 True)
- sort : 그룹 키를 정렬할지 여부

In [None]:
import pandas as pd

df = pd.DataFrame({
    'Team': ['A', 'A', 'B', 'B', 'C'],
    'Score': [10, 20, 30, 40, 50],
    'Age': [23, 25, 30, 35, 40]
})

grouped = df.groupby('Team')
print(grouped['Score'].mean())


Team
A    15.0
B    35.0
C    50.0
Name: Score, dtype: float64


In [4]:
# 팀과 나이를 기준으로 그룹화
df.groupby(['Team', 'Age'])['Score'].sum()

Team  Age
A     23     10
      25     20
B     30     30
      35     40
C     40     50
Name: Score, dtype: int64

In [6]:
# 집계 함수 적용
df.groupby('Team').agg({
    'Score' : ['mean', 'max'],
    'Age' : 'min'
})

Unnamed: 0_level_0,Score,Score,Age
Unnamed: 0_level_1,mean,max,min
Team,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,15.0,20,23
B,35.0,40,30
C,50.0,50,40


### pivot_table
데이터를 요약·집계하여 테이블 형태로 재구성하는 메서드   
엑셀의 피벗 테이블과 같은 기능을 제공하며, 데이터 분석에서 그룹별 통계나 교차표를 만들 때 사용   
   
기본문법
- DataFrame.pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False)
- values : 집계할 대상 열
- index : 행 그룹화 기준
- columns : 열 그룹화 기준
- aggfunc : 집계 함수 (기본값은 평균, sum, count, max, min 등 가능)
- fill_value : 결측값(NaN)을 대체할 값
- margins : 전체 합계/평균을 추가할지 여부

| 기능 | groupby | pivot_table |
|------|---------|-------------|
| 그룹화 기준 | 주로 행 기준 | 행과 열 모두 가능 |
| 결과 형태 | Series/DataFrame | 교차표 형태의 DataFrame |
| 직관성 | 코드 중심 | 테이블 중심, 시각적으로 직관적 |

In [7]:
import pandas as pd

df = pd.DataFrame({
    'Team': ['A', 'A', 'B', 'B', 'C'],
    'Subject': ['Math', 'English', 'Math', 'English', 'Math'],
    'Score': [85, 90, 78, 88, 95]
})

pivot = df.pivot_table(
    values='Score',
    index='Team',
    columns='Subject',
    aggfunc='mean'
)

print(pivot)

Subject  English  Math
Team                  
A           90.0  85.0
B           88.0  78.0
C            NaN  95.0


In [8]:
# 집계 함수 적용
df.pivot_table(
    values='Score',
    index='Team',
    columns='Subject',
    aggfunc=['mean', 'max']
)

Unnamed: 0_level_0,mean,mean,max,max
Subject,English,Math,English,Math
Team,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,90.0,85.0,90.0,85.0
B,88.0,78.0,88.0,78.0
C,,95.0,,95.0


In [10]:
# 결측치 처리
df.pivot_table(
    values='Score',
    index='Team',
    columns='Subject',
    aggfunc='mean',
    fill_value=0
)

Subject,English,Math
Team,Unnamed: 1_level_1,Unnamed: 2_level_1
A,90.0,85.0
B,88.0,78.0
C,0.0,95.0


### query()
문자열 표현식으로 조건을 작성해 DataFrame을 필터링할 수 있는 기능   
   
기본문법
- DataFrame.query(expr, inplace=False)
- expr: 조건을 문자열로 작성 ("열이름 > 값", "열이름 == '문자열'" 등)
- inplace: 원본을 수정할지 여부 (기본값 False → 새로운 DataFrame 반환)

In [None]:
# 단순 조건 필터링
import pandas as pd

df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'age': [25, 30, 35, 40],
    'score': [85, 90, 95, 80]
})

# 나이가 30 이상인 행만 선택
result = df.query("age >= 30")
print(result)

      name  age  score
1      Bob   30     90
2  Charlie   35     95
3    David   40     80


In [2]:
# 여러 조건 결함
df.query("age >= 30 and score >= 90")

Unnamed: 0,name,age,score
1,Bob,30,90
2,Charlie,35,95


In [3]:
# 변수 사용
threshold = 90
df.query("score > @threshold")  # @변수명으로 외부 변수 참조 가능

Unnamed: 0,name,age,score
2,Charlie,35,95
