# Pandas

## 특징
- 표(테이블) 데이터를 다루는데 특화
- 다양한 외부 소스에서 데이터 가져오기 (csv-comma separated values, excel, SQL db)
- 데이터 정제, 변환, 분석에 필요한 기능 다수
- 결측치 처리, 그룹화, 병합 작업에 효율


In [None]:
%pip install pandas

In [None]:
import numpy as np
import pandas as pd

# numpy 배열 생성하기
np_array = np.arange(1, 10).reshape(3,3)
print(np_array)

# 배열을 Pandas 데이터프레임으로 변환하기
df = pd.DataFrame(np_array, columns=['A', 'B', 'C'])
print(df)


# read_csv()는 CSV 파일을 데이터프레임으로 불러오는 함수
# df = pd.read_csv('어쩌고저쩌고.csv')


## Series
- 1차원 배열(벡터) with 레이블


In [None]:
import pandas as pd

# 기본 series 생성 (별말 없으면 숫자 index) (Series라는 클래스를 호출해서 시리즈 객체 만들기)
s1 = pd.Series([1, 3, 5, 7, 9])
print(s1)

# 인덱스도 지정할 수도 있음
s2 = pd.Series([1, 3, 5, 7, 9], index=['a', 'b', 'c', 'd', 'e'])
print(s2)

# dict로 생성
d = {'a':100, 'b':200, 'c':300}
s3 = pd.Series(d)
print(s3)

# 단일값(스칼라)으로 Series 생성..... 여기서 인덱스는 값이 아니라 라벨!
s4 = pd.Series(5, index=['a', 'b', 'c'])
print(s4)

In [None]:
print(s2)

#값만
print(s2.values)
#인덱스
print(s2.index)
print('-----------------')

#데이터타입
print(s2.dtype)
#차원
print(s2.ndim)
#사이즈
print(s2.size)
#모양
print(s2.shape)
print('----------------')

#앞에 2개
print(s2.head(2))
# 정렬 후 상위 2개 보기!!! top2 = df.sort_values('구매금액', ascending=False).head(2)
# 조건 필터 후 일부 보기!! df[ df['성별']=='여'  ].head(3)

#뒤에 3개
print(s2.tail(3))
#통계 요약
print(s2.describe())



## DataFrame
- 2차원(매트릭스) with Label
- 행(row)과 열(col) 모두에 Label 설정

In [None]:
# 딕셔너리로부터 DataFrame 생성
data = {
    '이름': ['김철수', '이영희', '박민수', '정지영'],
    '나이': [25, 28, 22, 30],
    '성별': ['남', '여', '남', '여'],
    '점수': [85, 92, 78, 90]
}
df1 = pd.DataFrame(data)
print("딕셔너리로부터 DataFrame 생성:")
print(df1)

# 리스트의 리스트로부터 DataFrame 생성
data_list = [
    ['김철수', 25, '남', 85],
    ['이영희', 28, '여', 92],
    ['박민수', 22, '남', 78],
    ['정지영', 30, '여', 90]
]
df2 = pd.DataFrame(data_list, columns=['이름', '나이', '성별', '점수'])
print("\n리스트로부터 DataFrame 생성:")
print(df2)

In [None]:
# Column 정보
print(df1.columns)
# 인덱스(Row 정보)
print(df1.index)
# 값
print(df1.values)
print('-----------------')

# 데이터 타입
print(df1.dtypes)
# 크기
print(df1.size)
# 모양
print(df1.shape)

In [None]:
print(df1.head(2))

print(df1.tail(2))

# '숫자형인 시리즈' 모두 요약.. 오.....
print(df1.describe())

# 점수 컬럼을 기준으로 요약
print(df1['점수'].describe())

In [None]:
# Index(데이터 레코드 별 PK, 고유 id)는 Pandas의 핵심 기능

# 인덱스 재설정
df_reset = df1.reset_index()
print(df_reset)

# 인덱스 설정
df_set = df1.set_index('이름')
print(df_set)

#다중 인덱스 설정
df_multi = df1.set_index(['성별', '이름'])
print(df_multi)

# 인덱스 이름 변경 ????????????????????
df_renamed = df_set.rename_axis('학생명')
print(df_renamed)

## 데이터 접근 및 선택
### 열 선택과 인덱스 접근

In [None]:
# DF에서 단일 열(col) 선택

name_col = df1['이름']
print(name_col) # Series 가 나온다

#다중 열 선택
subset = df1[ ['이름', '점수'] ]
print(subset) # DataFrame이 나온다
print('--------------------')

# Key 접근이 아니라 속성(주어.속성) 방식 접근 -> 공백/특수문자 없을 경우에만 사용 가능
print(df1.나이)
print(df1['나이'])

# 행 선택 (인덱스 기준)
print(df1[:2]) # 맨앞 레코드 2개
print(df1.head(2))


## `loc`와 `iloc`
- loc : 레이블 기반 인덱싱(인덱스 이름 사용)
- iloc : 위치 기반 인덱싱(정수 위치 사용)

In [None]:
## loc 예제

df3 = df1.set_index('이름')
print(df3)
print('------------------')

# 단일 행 선택
row = df3.loc['김철수']
print(row)

# 여러 행 선택
rows = df3.loc[ ['김철수', '이영희'] ]
print(rows)

# row + col 조합으로 선택
data = df3.loc[ ['김철수', '이영희'], ['나이', '점수'] ]
print(data)


In [None]:
# iloc 예제

print(df1)  # index 설정 없음
print('----------------')

# 단일 행 -> 이거 아님 df1[0]
first_row = df1.iloc[0]
print(first_row)

# 다중 행
rows = df1.iloc[1:3]  # df1[1:3] 와 같으나, iloc 사용
print(rows)

# 행 + 열 선택 (숫자 idx)
data = df1.iloc[ [0, 2], [1, 3] ]  # 0, 2는 row 번호 / 1, 3은 col 번호

print(data)


### 불리언 인덱싱

In [None]:
print(df1)

# 나이 25 초과 마스킹
mask = df1['나이'] > 25 #T, F로 이루어진 Series
print(mask)
print()

# 필터링
filtered = df1[mask]
print(filtered)
print()

# 점수 80 이상, 성별 여
mask = (df1['점수'] >= 80) & (df1['성별'] == '여')
print(mask) #T, F로 이루어진 Series
print(df1[mask]) # T인 행들 불러왓!

# 남성이거나 점수 90이상
mask = (df1['점수'] >=92) | (df1['성별']=='남')


#query 메서드로 필터링. 이런 방법도 있구낭...................!
print('query')
print(df1.query('나이>=25 and 점수>=85'))


# isin 메서드로 필터링 
#값들 중에 포함되는지를 판별할 때!!!!!!!!!!!!!!
#['이름']에 ['김철수','김지영']이 있냐? T/F
names = ['김철수', '정지영']
mask = df1['이름'].isin(names)
print(df1[mask])

### 기술 통계

In [None]:
# 눈으로 확인하는 용도
#print(df1.describe())
#print(df1['점수'].describe())

# 개별 통계 함수
print(df1['점수'].mean())
print(df1['점수'].median())
print(df1['점수'].std())
print(df1['점수'].min())
print(df1['점수'].max())
print(df1['점수'].sum())

# 범주형 col 계산
print(df1['성별'].value_counts())


### 데이터 요약 및 그룹화

In [None]:
# 성별로 그루핑하고, 점수의 평균 집계
gender_score = df1.groupby('성별')['점수'].mean()
print(gender_score) # -> 타입은 시리즈. 남, 여는 라벨일 뿐임

# 성별에 따른 여러!!!!!!!!!!!! 통계량
# agg는 집계 함수
stat = df1.groupby('성별').agg({
    # 컬럼 : [정해진 함수 이름]
    '나이': ['mean', 'min', 'max'],
    '점수': ['mean', 'min', 'max', 'std']
})
stat

In [None]:
%pip install matplotlib

In [None]:
import warnings
warnings.filterwarnings('ignore', category=UserWarning)

In [None]:
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False

In [None]:
# plot 은 시각화 하겠다~~~~

# 막대 그래프 그리기
df1.plot(kind='bar', x='이름', y='점수')
# 그래프 꾸미기
plt.title('학생별 점수')
plt.xlabel('학생')
plt.ylabel('점수')
plt.show() # 그래프 보여조~


# 문제 풀어보깅

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 온라인 쇼핑몰 고객 데이터 (가상)
customer_data = {
    '고객ID': [1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008, 1009, 1010],
    '이름': ['김민수', '이지영', '박철호', '정수민', '최영희', '강도현', '윤서연', '임태혁', '송지원', '한미래'],
    '나이': [25, 32, 28, 35, 29, 31, 26, 33, 27, 30],
    '성별': ['남', '여', '남', '여', '여', '남', '여', '남', '여', '여'],
    '구매금액': [50000, 75000, 32000, 98000, 67000, 84000, 41000, 72000, 58000, 89000],
    '구매횟수': [3, 5, 2, 7, 4, 6, 2, 5, 3, 6],
    '회원등급': ['실버', '골드', '브론즈', '플래티넘', '골드', '골드', '실버', '골드', '실버', '플래티넘']
}

df = pd.DataFrame(customer_data)
print("온라인 쇼핑몰 고객 데이터:")
print(df)

In [None]:
# 데이터 정보 확인 (행 개수, 열 개수, 컬럼명)
print(df.shape)
print(list(df.columns))

# 데이터 타입 확인
print(df.dtypes)

# 기술 통계 요약
print(df[ ['나이', '구매금액'] ].describe())

# 범주형 데이터 빈도 (성별 카운트, 등급 카운트)
print(df['성별'].value_counts())
print(df['회원등급'].value_counts())

In [None]:
# 1. 특정 열 선택
print("1. 이름과 구매금액만 선택:")
print(df[['이름', '구매금액']])

# 2. 조건부 필터링
print("\n2. 구매금액이 70000원 이상인 고객:")
print(df[df['구매금액']>70000])     # 수식을 df[ ] 감싸줘야 TF-> 해당 값이 나옴

# 3. 다중 조건 필터링
print("\n3. 여성이면서 구매횟수가 4회 이상인 고객:")
print(df[(df['성별'] == '여') & (df['구매횟수'] >= 4)])

# 4. 특정 값들로 필터링
print("\n4. 골드 또는 플래티넘 회원:")
df[(df['회원등급']=='골드') | (df['회원등급']=='플래티넘')]

mask = df.회원등급.isin(['골드', '플래티넘']) #isin 방법도 있따?????????
print(df[mask])

In [None]:
# [안배웠지만 검색해서 적용해보기]

# 구매금액 기준 정렬. SQL에서 order by
print("구매금액 기준 내림차순 정렬:")
print(df.sort_values('구매금액', ascending=False)) #ascending=False 가 DESC임


# 여러 기준으로 정렬 ()
print("\n회원등급별, 구매금액별 정렬:")

In [None]:
# 금액 계산 (평균, 중앙, 최소, 최대, 표준편차)
print("구매금액 통계:")
print("평균", df['구매금액'].mean())
print("중앙", df['구매금액'].median())
print("최소", df['구매금액'].min())
print("최대", df['구매금액'].max())
print("표준편차", df['구매금액'].std())

# 횟수 계산 (평균, 중앙, 최소, 최대, 표준편차)
print("\n구매횟수 통계:")
print("평균", df['구매횟수'].mean())
print("중앙", df['구매횟수'].median())
print("최소", df['구매횟수'].min())
print("최대", df['구매횟수'].max())
print("표준편차", df['구매횟수'].std())

# 상위/하위
print(df.nlargest(3, '구매금액'))
print(df.nsmallest(3, '구매금액'))

In [None]:
# 성별별(Group) 기본 분석 
print("성별별 분석:")
gender_group = df.groupby('성별')
result = gender_group['구매금액'].agg(['count', 'mean'])
print(result.rename(columns={'count': '고객수', 'mean': '평균구매금액'}))

print('\n고객 수, 평균 구매 금액:')
print(df.groupby('성별').agg({
    '고객ID': 'count',
    '구매금액': 'mean'
}))

#agg에서 다양한 집계함수 사용 가능
#count, mean, sum, max, std...

print('\n평균 구매 횟수')
print(df.groupby('성별').agg({
    '구매횟수': 'mean'
}))

In [None]:
# 등급별(Group) 기본분석
print('회원 등급별 평균 구매 금액 분석')
print(df.groupby('회원등급').agg({
    '구매금액': 'mean'
})
)

# 등급별(Group) 기본분석
print('회원 등급별 평균 구매 금액 분석')
grade_group = df.groupby('회원등급')
print(grade_group['구매금액'].agg('mean')) #어차피 구매금액만 분석하는 거니까

## 시각화 자료 함 보기

In [None]:
# 구매금액 히스토그램
plt.figure(figsize=(10, 6))
plt.hist(df['구매금액'], bins=5, edgecolor='black')
plt.title('고객 구매금액 분포')
plt.xlabel('구매금액 (원)')
plt.ylabel('고객 수')
plt.show()

# 회원등급별 고객 수 막대그래프
grade_counts = df['회원등급'].value_counts()
plt.figure(figsize=(8, 6))
plt.bar(grade_counts.index, grade_counts.values)
plt.title('회원등급별 고객 수')
plt.xlabel('회원등급')
plt.ylabel('고객 수')
plt.show()

# 고객별 구매금액 막대그래프
plt.figure(figsize=(12, 6))
plt.bar(df['이름'], df['구매금액'])
plt.title('고객별 구매금액')
plt.xlabel('고객명')
plt.ylabel('구매금액 (원)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# 결측치 확인

In [1]:
import numpy as np
import pandas as pd

data = {
    '이름': ['김철수', '이영희', '박민수', np.nan, '정지영'],
    '나이': [25, 28, np.nan, 30, 22],
    '성별': ['남', '여', '남', np.nan, '여'],
    '직업': ['회사원', np.nan, '자영업', '공무원', '회사원'],
    '급여': [3500, 4200, np.nan, 3800, 3200]
}


df = pd.DataFrame(data)

In [2]:
print('original', df)

# 결측치 자체를 확인 (T/F)
df.isna()
df.isnull() # 같음

# 결측치 총 개수!!
df.isna().sum() # 각 열별 결측치 개수(T=1로 생각한 거임)

# 결측치 비율!!
df.isna().mean() * 100

# df의 정보 (db 스키마 확인과 비슷)
df.info()
print('--------------------------')
# 결측치가 포함된 열을 확인
df.isna().any(axis=0)

# 결측치가 하나라도 포함된 행!! 확인 -> False가 꽉찬 것
m1 = df.isna().any(axis=1)

# 결측치가 없는 행을 확인 -> True가 꽉찬 것
m2 = df.notna().all(axis=1)

df[m1] # 결측치 있는 애들만 나옴
df[m2] # 결측치 없는 애들만 나옴

original     이름    나이   성별   직업      급여
0  김철수  25.0    남  회사원  3500.0
1  이영희  28.0    여  NaN  4200.0
2  박민수   NaN    남  자영업     NaN
3  NaN  30.0  NaN  공무원  3800.0
4  정지영  22.0    여  회사원  3200.0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   이름      4 non-null      object 
 1   나이      4 non-null      float64
 2   성별      4 non-null      object 
 3   직업      4 non-null      object 
 4   급여      4 non-null      float64
dtypes: float64(2), object(3)
memory usage: 332.0+ bytes
--------------------------


Unnamed: 0,이름,나이,성별,직업,급여
0,김철수,25.0,남,회사원,3500.0
4,정지영,22.0,여,회사원,3200.0


# 결측치 삭제

In [3]:
# 하나라도 결측치가 있으면 행 삭제 (새로 리턴)
df.dropna(axis=0)

# 특정 열의 결측치가 있는 행만 삭제 -> 이름, 성별 없는 행은 삭제하겄다
df.dropna(subset=['이름', '성별'], axis=0)

# 모든 값이 결측치이면 삭제
df.dropna(how='all', axis=0)


# 하나라도 결측치가 있으면 열 삭제
df.dropna(axis=1)


0
1
2
3
4


# 결측치 채우기

In [None]:
# 특정 값으로 결측치 채우기
df.fillna(0)

# 열별로 다른 값 쓰기
fill_values = {
    '이름': '익명',
    '나이': 20,
    '성별': '미입력',
    '직업': '기타',
    '급여': df['급여'].mean() # 평균
}

df.fillna(fill_values)

# 앞/뒤 사람 데이터 복붙
df.ffill() # 앞
df.bfill() # 뒤

In [5]:
# 시계열 데이터 (시간, 날짜)
dates = pd.to_datetime(['2023-01-01', '2023-01-02', '2023-01-05', '2023-01-10'])
data = [1, np.nan, np.nan, 10]

time_data = pd.DataFrame({'value': data}, index=dates)
print(time_data)

            value
2023-01-01    1.0
2023-01-02    NaN
2023-01-05    NaN
2023-01-10   10.0


In [6]:
# 보간법 interpolate (알려진 값으로 모르는걸 추정)

# 선형 보간법 (1차 함수 그려서 추정) -> 시간 흐름은 신경쓰지 않음
time_data.interpolate(method='linear')

# 시간 기반 -> 시간의 흐름까지 고려해 채움
time_data.interpolate(method='time')

Unnamed: 0,value
2023-01-01,1.0
2023-01-02,2.0
2023-01-05,5.0
2023-01-10,10.0


# 데이터 타입 변환

In [None]:
# 문자열 데이터 처리
data = {
    '이름': ['김철수', '이영희', '박민수', '정지영', '최동민'],
    '이메일': ['kim@example.com', 'lee.younghee@company.co.kr', 
              'park_ms@gmail.com', 'jyjeong@school.edu', 'choi@domain.net'],
    '전화번호': ['010-1234-5678', '02-987-6543', '010 3456 7890', 
              '01098765432', '+82-10-5555-6666'],
    '취미': ['축구,야구,농구', '여행,독서', '게임,음악,영화',
            '요리,베이킹', '등산,자전거,수영']
}

df = pd.DataFrame(data)
print("원본 데이터:")
print(df)


# 1. 기본 문자열 메서드
# 대소문자 변환 (영문에 적용)
print("\n이메일 대문자 변환:")
print(df['이메일'].str.upper())

# 문자열 길이
print("\n이름 길이:")
print(df['이름'].str.len())

# 특정 문자열 포함 여부
print("\n지메일 사용자:")
print(df['이메일'].str.contains('gmail'))

# 문자열 교체
print("\n전화번호 형식 통일 (하이픈 제거):")
print(df['전화번호'].str.replace('-', '').str.replace(' ', ''))


# 2. 문자열 추출
# 처음 두 글자 추출 (성씨)
print("\n성씨 추출:")
print(df['이름'].str[:1])

# 정규표현식 사용한 추출
print("\n이메일 도메인 추출:")
print(df['이메일'].str.extract(r'@([^.]+)'))  # @ 다음에 오는 도메인 이름 추출


# 3. 문자열 분할
# 구분자로 분할
print("\n취미 분할:")
hobbies_split = df['취미'].str.split(',')
print(hobbies_split)

# 리스트 인덱스 접근
print("\n첫 번째 취미만 선택:")
print(df['취미'].str.split(',').str[0])


# 4. 응용: 이메일에서 사용자명과 도메인 분리
df['이메일'].str.split('@', expand=True)  # expand False면 Series(list) / True면 DF으로 쪼개버림

# 기존 DF에 추가 컬럼 생성?????? 띠용
df[['사용자명', '도메인']] = df['이메일'].str.split('@', expand=True)


원본 데이터:
    이름                         이메일              전화번호         취미
0  김철수             kim@example.com     010-1234-5678   축구,야구,농구
1  이영희  lee.younghee@company.co.kr       02-987-6543      여행,독서
2  박민수           park_ms@gmail.com     010 3456 7890   게임,음악,영화
3  정지영          jyjeong@school.edu       01098765432     요리,베이킹
4  최동민             choi@domain.net  +82-10-5555-6666  등산,자전거,수영

이메일 대문자 변환:
0               KIM@EXAMPLE.COM
1    LEE.YOUNGHEE@COMPANY.CO.KR
2             PARK_MS@GMAIL.COM
3            JYJEONG@SCHOOL.EDU
4               CHOI@DOMAIN.NET
Name: 이메일, dtype: object

이름 길이:
0    3
1    3
2    3
3    3
4    3
Name: 이름, dtype: int64

지메일 사용자:
0    False
1    False
2     True
3    False
4    False
Name: 이메일, dtype: bool

전화번호 형식 통일 (하이픈 제거):
0      01012345678
1        029876543
2      01034567890
3      01098765432
4    +821055556666
Name: 전화번호, dtype: object

성씨 추출:
0    김
1    이
2    박
3    정
4    최
Name: 이름, dtype: object

이메일 도메인 추출:
         0
0  example
1  company


In [None]:
## 데이터 타입 변환

data = {
    '정수형': ['1', '2', '3', '4', '5'],
    '실수형': ['1.1', '2.2', '3.3', '4.4', '5.5'],
    '문자형': [1, 2, 3, 4, 5],
    '불리언': ['True', 'False', 'True', 'False', 'True'],
    '날짜': ['2023-01-01', '2023-02-01', '2023-03-01', '2023-04-01', '2023-05-01'],
    '혼합형': ['1', '2.2', 'three', '4', 'NaN']
}

df = pd.DataFrame(data)

# str -> int
df['정수형'] = df['정수형'].astype(int)

# str -> float
df['실수형'] = df['실수형'].astype(float)

# int -> str
df['문자형'] = df['문자형'].astype(str)

# str -> bool
df['불리언'] = df['불리언'].astype(bool)


# 혼합형은 어떻게 처리하는가? -> 전체적으로 바꿀 수 있는지 시도 | 오류 처리 옵션
# 에러 처리
try:
    pd.to_numeric(df['혼합형'])
except ValueError as e:
    print(f'Error: {e}')

# 변환 불가능하면, NaN 으로 처리
pd.to_numeric(df['혼합형'], errors='coerce')

# 변환 불가 -> 원래 데이터 유지
pd.to_numeric(df['혼합형'], errors='ignore')


# to_datetime()
df['날짜'] = pd.to_datetime(df['날짜'])

df.info()

Error: Unable to parse string "three" at position 2
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   정수형     5 non-null      int64         
 1   실수형     5 non-null      float64       
 2   문자형     5 non-null      object        
 3   불리언     5 non-null      bool          
 4   날짜      5 non-null      datetime64[ns]
 5   혼합형     5 non-null      object        
dtypes: bool(1), datetime64[ns](1), float64(1), int64(1), object(2)
memory usage: 337.0+ bytes


  pd.to_numeric(df['혼합형'], errors='ignore')


# 행/열 처리

## 열(col) 처리

In [None]:
data = {
    '학번': ['S001', 'S002', 'S003', 'S004', 'S005'],
    '이름': ['김철수', '이영희', '박민수', '정지영', '최동민'],
    '국어': [85, 92, 78, 90, 85],
    '영어': [82, 95, 75, 88, 90],
    '수학': [88, 90, 80, 95, 82],
    '과학': [76, 82, 75, 84, 88],
    '사회': [92, 86, 85, 91, 78],
    '비고': ['', '', '', '', ''],  # 빈 열
    '임시데이터': [0, 0, 0, 0, 0]   # 불필요한 열
}

df = pd.DataFrame(data)
print("원본 데이터:")
print(df)

# 1. 단일 열 삭제
df_drop_single = df.drop('비고', axis=1)  # axis=1은 열 방향
print("\n'비고' 열 삭제 후:")
print(df_drop_single)

# 2. 여러 열 한 번에 삭제
df_drop_multi = df.drop(['비고', '임시데이터'], axis=1)
print("\n여러 열 삭제 후:")
print(df_drop_multi)

# 3. inplace 파라미터를 사용하여 원본 데이터 직접 변경
df.drop(['비고', '임시데이터'], axis=1, inplace=True)
print("\n원본 데이터에서 직접 열 삭제:")
print(df)

# 4. 열 이름 변경
df.columns = ['학번', '이름', '국어점수', '영어점수', '수학점수', '과학점수', '사회점수']
print("\n열 이름 변경 후:")
print(df)

# 5. rename 메서드로 특정 열 이름만 변경
df_renamed = df.rename(columns={
    '국어점수': '국어',
    '영어점수': '영어',
    '수학점수': '수학'
})
print("\nrename 메서드로 특정 열 이름 변경:")
print(df_renamed)

# 6. 열 순서 변경
df_reordered = df[['이름', '학번', '국어점수', '영어점수', '수학점수', '과학점수', '사회점수']]
print("\n열 순서 변경:")
print(df_reordered)

# 7. 열 추가
df['총점'] = df['국어점수'] + df['영어점수'] + df['수학점수'] + df['과학점수'] + df['사회점수']
df['평균'] = df['총점'] / 5
print("\n총점과 평균 열 추가:")
print(df)

# 8. 조건에 따라 새 열 추가
df['성적등급'] = pd.cut(df['평균'], bins=[0, 70, 80, 90, 100], labels=['D', 'C', 'B', 'A'])
print("\n성적등급 열 추가:")
print(df)

# 행(row) 처리

In [None]:
import numpy as np
import pandas as pd

data = {
    '이름': ['김철수', '이영희', '박민수', '정지영', '최동민', '강준호', '윤서연', '임태영', '한미래', '송지원'],
    '나이': [25, 28, 22, 35, 29, 31, 26, 33, 27, np.nan],
    '성별': ['남', '여', '남', '여', '남', '남', '여', '남', '여', '여'],
    '부서': ['영업', '인사', '개발', '영업', '인사', '개발', '개발', '영업', '인사', np.nan],
    '급여': [3500, 4200, 3800, 5400, 4100, 3900, 4300, 5100, 3700, 4200]
}

df = pd.DataFrame(data)
print("원본 데이터:")
print(df)

# 1. 인덱스로 행 삭제
df_drop_index = df.drop(0)  # 첫 번째 행 삭제
print("\n첫 번째 행 삭제:")
print(df_drop_index)

# 2. 여러 행 한 번에 삭제
df_drop_multi = df.drop([0, 2, 4])  # 0, 2, 4번 행 삭제
print("\n여러 행 삭제:")
print(df_drop_multi)

# 3. 조건을 기준으로 행 필터링
# 나이가 30 미만인 직원만 선택
young_employees = df[df['나이'] < 30]
print("\n나이가 30 미만인 직원:")
print(young_employees)

# 4. 결측치가 있는 행 제거
df_no_na = df.dropna()
print("\n결측치가 없는 행만 선택:")
print(df_no_na)

# 5. 특정 열에 결측치가 있는 행만 제거
df_no_na_age = df.dropna(subset=['나이'])
print("\n나이 열에 결측치가 없는 행만 선택:")
print(df_no_na_age)




## 6. 중복된 행 확인 및 제거

# 중복 데이터 생성을 위해 행 추가
duplicated_df = pd.concat([df, df.iloc[2:4]], ignore_index=True) #원래 있던 인덱스 무시하고, 데이터 갖다붙여
print("\n중복 행이 있는 데이터:")
print(duplicated_df)

# 중복 행 확인!!! .duplicated() -> T/F
print("\n중복 여부:")
print(duplicated_df.duplicated())

# 중복 행 제거!! .drop_duplicates()
no_ddf = duplicated_df.drop_duplicates()
print("\n중복 행 제거 후:")
print(no_ddf)

# '특정' 열이 중복되는 행 제거!! subset 사용!
duplicated_df.drop_duplicates(subset=['급여'])




## 7. 행 순서 변경 (정렬) order by
df_sorted = df.sort_values('급여', ascending=False)
print("\n급여 기준 내림차순 정렬:")
print(df_sorted)

# 여러 열을 기준으로 정렬
df_multi_sorted = df.sort_values(['부서', '급여'], ascending=[True, False]) #부서 ㄱㄴㄷ, 급여 높은순
print("\n부서별 급여 내림차순 정렬:")
print(df_multi_sorted)




# 8. 행 인덱스를 재설정 (급여 높은 순으로 인덱스 재설정)
df_reset = df.sort_values('급여', ascending=False).reset_index(drop=True)
print("\n정렬 후 인덱스 재설정:")
print(df_reset)


원본 데이터:
    이름    나이 성별   부서    급여
0  김철수  25.0  남   영업  3500
1  이영희  28.0  여   인사  4200
2  박민수  22.0  남   개발  3800
3  정지영  35.0  여   영업  5400
4  최동민  29.0  남   인사  4100
5  강준호  31.0  남   개발  3900
6  윤서연  26.0  여   개발  4300
7  임태영  33.0  남   영업  5100
8  한미래  27.0  여   인사  3700
9  송지원   NaN  여  NaN  4200

첫 번째 행 삭제:
    이름    나이 성별   부서    급여
1  이영희  28.0  여   인사  4200
2  박민수  22.0  남   개발  3800
3  정지영  35.0  여   영업  5400
4  최동민  29.0  남   인사  4100
5  강준호  31.0  남   개발  3900
6  윤서연  26.0  여   개발  4300
7  임태영  33.0  남   영업  5100
8  한미래  27.0  여   인사  3700
9  송지원   NaN  여  NaN  4200

여러 행 삭제:
    이름    나이 성별   부서    급여
1  이영희  28.0  여   인사  4200
3  정지영  35.0  여   영업  5400
5  강준호  31.0  남   개발  3900
6  윤서연  26.0  여   개발  4300
7  임태영  33.0  남   영업  5100
8  한미래  27.0  여   인사  3700
9  송지원   NaN  여  NaN  4200

나이가 30 미만인 직원:
    이름    나이 성별  부서    급여
0  김철수  25.0  남  영업  3500
1  이영희  28.0  여  인사  4200
2  박민수  22.0  남  개발  3800
4  최동민  29.0  남  인사  4100
6  윤서연  26.0  여  개발  4300
8  한미래  27.0  여