# Pandas 
`02_pandas1.ipynb`

## 특징
- 표(테이블) 데이터를 다루는데 특화
- 다양한 외부 소스에서 데이터 가져오기 (csv, excel, SQL db)
- 데이터 정제, 변환, 분석에 필요한 기능 다수
- 결측치 처리, 그룹화, 병합 작업에 효율

In [None]:
%pip install pandas

In [None]:
import numpy as np
import pandas as pd

# Numpy 배열
np_array = np.arange(1, 10).reshape(3, 3)
print(np_array)

# Pandas 데이터프레임
df = pd.DataFrame(np_array, columns=['A', 'B', 'C'])
print(df)

## Series
1차원 배열(벡터) with 레이블

In [None]:
import pandas as pd

# 기본 Seires 생성 (별말 없으면 숫자 index)
s1 = pd.Series([1, 3, 5, 7, 9])
print(s1)

# 인덱스 지정
s2 = pd.Series([1, 3, 5, 7, 9], index=['a', 'b', 'c', 'd', 'e'])
print(s2)

# dict로 생성
d = {'a': 1, 'b': 2, 'c': 3}
s3 = pd.Series(d)
print(s3)

# 단일값(스칼라)으로 Series 생성
s4 = pd.Series(5, index=['a', 'b', 'c'])
print(s4)


In [None]:
print(s2)
# 값
print(s2.values)
# 인덱스
print(s2.index)
# 데이터타입
print(s2.dtype)
# 차원
print(s2.ndim)
# 크기
print(s2.size)
# 모양
print(s2.shape)

# 앞에 2개
print(s2.head(2))
# 뒤에 3개
print(s2.tail(3))
# 통계 요약
print(s2.describe())

## Dataframe
- 2차원(매트릭스) with Label.
- 행(row)과 열(col) 모두에 Label 설정.

In [None]:
# 딕셔너리로부터 DataFrame 생성
data = {
    '이름': ['김철수', '이영희', '박민수', '정지영'],
    '나이': [25, 28, 22, 30],
    '성별': ['남', '여', '남', '여'],
    '점수': [85, 92, 78, 90]
}
df1 = pd.DataFrame(data)
print("딕셔너리로부터 DataFrame 생성:")
print(df1)

# 리스트의 리스트로부터 DataFrame 생성
data_list = [
    ['김철수', 25, '남', 85],
    ['이영희', 28, '여', 92],
    ['박민수', 22, '남', 78],
    ['정지영', 30, '여', 90]
]
df2 = pd.DataFrame(data_list, columns=['이름', '나이', '성별', '점수'])
print("\n리스트로부터 DataFrame 생성:")
print(df2)

In [None]:
# Column 정보
print(df1.columns)
# 인덱스(Row 정보)
print(df1.index)
# 값
print(df1.values)
# 데이터 타입
print(df1.dtypes)
# 크기
print(df1.size)
# 모양
print(df1.shape)

In [None]:
print(df1.head(2))

print(df1.tail(2))

print(df1.describe())

print(df1['점수'].describe())

In [None]:
# Index(데이터 레코드 별 PK)는 Pandas 의 핵심 기능

# 인덱스 재설정 (0 ~ N으로 인덱스 설정)
df_reset = df1.reset_index()
print(df_reset)

# 인덱스 설정
df_set = df1.set_index('이름')
print(df_set)

# 다중 인덱스 설정
df_multi = df1.set_index(['성별', '이름'])
print(df_multi)

# 인덱스 이름 변경
df_renamed = df_set.rename_axis('학생명')
print(df_renamed)

## 데이터 접근 및 선택

### 열 선택과 인덱스 접근

In [None]:
# DF 에서 단일 열(col) 선택

name_col = df1['이름']
print(name_col)  # Series 가 나온다.

# 다중 열 선택
subset = df1[ ['이름', '점수'] ]
print(subset)  # DataFrame 이 나온다.

# key 접근이 아니라 속성(주어.속성) 방식 접근 - 공백/특수문자 없을경우
print(df1.나이)

# 행 선택 (인덱스 기준)
print(df1[:2])  # 맨 앞 레코드 2개


## `loc` 와 `iloc`
- `loc` : 레이블 기반 인덱싱(인덱스 이름 사용)
- `iloc` : 위치 기반 인덱싱(정수 위치 사용)

In [None]:
# loc 예제

df3 = df1.set_index('이름')

# 단일 행 선택
row = df3.loc['김철수']
print(row)

# 여러 행 선택
rows = df3.loc[ ['김철수', '이영희'] ]
print(rows)

# row + col 조합으로 선택
data = df3.loc[ ['김철수', '이영희'], ['나이', '점수'] ]
print(data)

In [None]:
# iloc 예제

print(df1)  # index 설정 없음

# 단일 행 -> 이거 아님 df1[0]
first_row = df1.iloc[0]
print(first_row)

# 다중 행
rows = df1.iloc[1:3]  # df1[1:3] 와 같으나, iloc 사용
print(rows)

# 행 + 열 선택 (숫자 idx)
data = df1.iloc[ [0, 2], [1, 3] ]  # 0, 2는 row 번호 / 1, 3은 col 번호

print(data)

### 불리언 인덱싱

In [None]:
print(df1)
print()
# 나이 25 초과 마스킹
mask = df1['나이'] > 25  # T, F로 이루어진 Series
print(mask)
print()
# 필터링
filtered = df1[mask]
print(filtered)
print()

# 점수 80이상, 성별 '여'
mask = (df1['점수'] >= 80) & (df1['성별'] == '여')
print(df1[mask])
print()

# 남성이거나, 점수 90점 이상
mask = (df1['점수'] >= 92) | (df1['성별'] == '남')
print(df1[mask])


# query메서드로 필터링
print('query')
print(df1.query('나이 >= 25 and 점수 >= 85'))

# isin 메서드로 필터링
names = ['김철수', '정지영']
mask = df1['이름'].isin(names)
print(df1[mask])

### 기술 통계

In [None]:
# 눈으로 확인하는 용도
print(df1.describe())
print(df1['점수'].describe())

# 개별 통계 함수
print(df1['점수'].mean())  # 평균
print(df1['점수'].median())  # 중앙
print(df1['점수'].std())  # 표준편차
print(df1['점수'].min())  # 최소값
print(df1['점수'].max())  # 최대값
print(df1['점수'].sum())  # 총합

# 범주형 col 빈도 계산
print(df1['성별'].value_counts())

### 데이터 요약 및 그룹화

In [None]:
# df1 표에서 성별로 그루핑하고, 점수의 평균 집계 (단순)
gender_score = df1.groupby('성별')['점수'].mean()
print(gender_score)

# 성별에 따른 여러 통계량 (복잡)
stat = df1.groupby('성별').agg({
    # 컬럼: [정해진 키워드(함수이름)]
    '나이': ['mean', 'min', 'max'],
    '점수': ['mean', 'min', 'max', 'std']
})

stat

In [None]:
%pip install matplotlib

In [None]:
import warnings
warnings.filterwarnings('ignore', category=UserWarning)

In [None]:
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False

In [None]:
# 막대그래프

# (막대) 그래프 그리기
df1.plot(kind='bar', x='이름', y='점수')
# 그래프 설정하기
plt.title('학생별 점수')
plt.xlabel('학생')
plt.ylabel('점수')
plt.show()

In [None]:
gender_score.plot(kind='bar')
plt.title('성별 평균 점수')
plt.xlabel('성별')
plt.ylabel('평균 점수')
plt.show()

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# 온라인 쇼핑몰 고객 데이터 (가상)
customer_data = {
    '고객ID': [1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008, 1009, 1010],
    '이름': ['김민수', '이지영', '박철호', '정수민', '최영희', '강도현', '윤서연', '임태혁', '송지원', '한미래'],
    '나이': [25, 32, 28, 35, 29, 31, 26, 33, 27, 30],
    '성별': ['남', '여', '남', '여', '여', '남', '여', '남', '여', '여'],
    '구매금액': [50000, 75000, 32000, 98000, 67000, 84000, 41000, 72000, 58000, 89000],
    '구매횟수': [3, 5, 2, 7, 4, 6, 2, 5, 3, 6],
    '회원등급': ['실버', '골드', '브론즈', '플래티넘', '골드', '골드', '실버', '골드', '실버', '플래티넘']
}

df = pd.DataFrame(customer_data)
print("온라인 쇼핑몰 고객 데이터:")
print(df)

In [None]:
# 데이터 정보 확인 (행 개수, 열 개수, 컬럼명)
row_count, col_count = df.shape
print(row_count, col_count)
print(list(df.columns))
# 데이터 타입 확인
print(df.dtypes)
# 기술 통계 요약
print(df[ ['나이', '구매금액', '구매횟수'] ].describe())
# 범주형 데이터 빈도 (성별 카운트, 등급 카운트)
print(df['성별'].value_counts())
print(df['회원등급'].value_counts())

In [None]:
# 1. 특정 열 선택
print("1. 이름과 구매금액만 선택:")
print(df[ ['이름', '구매금액'] ])

# 2. 조건부 필터링
print("\n2. 구매금액이 70000원 이상인 고객:")
mask = df['구매금액'] >= 70_000
print(df[mask])

# 3. 다중 조건 필터링
print("\n3. 여성이면서 구매횟수가 4회 이상인 고객:")
mask = (df['성별'] == '여') & (df['구매횟수'] > 3)
print(df[mask])

# 4. 특정 값들로 필터링
print("\n4. 골드 또는 플래티넘 회원:")
mask = df.회원등급.isin(['골드', '플래티넘'])
print(df[mask])

In [None]:
# [안배웠지만 검색해서 적용해보기]

# 구매금액 기준 정렬
print("구매금액 기준 내림차순 정렬:")
# SELECT 구매금액 FROM df ORDER BY 구매금액 DESC
print(df.sort_values('구매금액', ascending=False)['구매금액'])

# 여러 기준으로 정렬 ()
print("\n회원등급별, 구매금액별 정렬:")
# SELECT * FROM df ORDER BY 회원등급, 구매금액
print(df.sort_values(['회원등급', '구매금액'], ascending=[True, False]))

In [None]:
# 금액 계산 (평균, 중앙, 최소, 최대, 표준편차)
print("구매금액 통계:")
print(df['구매금액'].mean())
print(df['구매금액'].median())
print(df['구매금액'].min())
print(df['구매금액'].max())
print(df['구매금액'].std())
# 횟수 계산 (평균, 중앙, 최소, 최대, 표준편차)
print("\n구매횟수 통계:")
print(df['구매횟수'].mean())
print(df['구매횟수'].median())
print(df['구매횟수'].min())
print(df['구매횟수'].max())
print(df['구매횟수'].std())

# 상위/하위 (숫자, 컬럼)
print(df.nlargest(3, '구매금액'))
print(df.nsmallest(3, '구매금액'))

In [None]:
# 성별별(Group) 기본 분석  
print("성별별 분석:")

print('\n고객 수, 평균 구매 금액:')
gender_group = df.groupby('성별')
result = gender_group['구매금액'].agg(['count', 'mean'])

# AS 로 컬럼명 바꾸기 == .rename()
print(result.rename(columns={'count': '고객 수', 'mean': '평균구매금액'}))

print('\n평균 구매 횟수')
print(gender_group['구매횟수'].agg('mean').rename('평균구매횟수'))

In [None]:
# 등급별(Group) 기본분석
print('회원 등급별 평균 구매 금액 분석')
grade_group = df.groupby('회원등급')
print(grade_group['구매금액'].agg('mean'))

In [None]:
# 구매금액 히스토그램
plt.figure(figsize=(10, 6))
plt.hist(df['구매금액'], bins=5, edgecolor='black')
plt.title('고객 구매금액 분포')
plt.xlabel('구매금액 (원)')
plt.ylabel('고객 수')
plt.show()

# 회원등급별 고객 수 막대그래프
grade_counts = df['회원등급'].value_counts()
plt.figure(figsize=(8, 6))
plt.bar(grade_counts.index, grade_counts.values)
plt.title('회원등급별 고객 수')
plt.xlabel('회원등급')
plt.ylabel('고객 수')
plt.show()

# 고객별 구매금액 막대그래프
plt.figure(figsize=(12, 6))
plt.bar(df['이름'], df['구매금액'])
plt.title('고객별 구매금액')
plt.xlabel('고객명')
plt.ylabel('구매금액 (원)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 결측치 처리

In [None]:
import numpy as np
import pandas as pd

data = {
    '이름': ['김철수', '이영희', '박민수', np.nan, '정지영'],
    '나이': [25, 28, np.nan, 30, 22],
    '성별': ['남', '여', '남', np.nan, '여'],
    '직업': ['회사원', np.nan, '자영업', '공무원', '회사원'],
    '급여': [3500, 4200, np.nan, 3800, 3200]
}

df = pd.DataFrame(data)

### 결측치 확인

In [None]:
print('original', df)

# 결측치 자체를 확인 (T/F)
df.isna()
df.isnull()  # 같음

# 결측치 총 개수
df.isna().sum()  # 각 열별 결측치 개수

# 결측치 비율
df.isna().mean() * 100

# df 의 정보 (db 스키마 확인과 비슷)
df.info()

# 결측치가 포함된 열을 확인
df.isna().any()  # axis=0을 써주는게 확실함

# 결측치가 포함된 행을 확인
m1 = df.isna().any(axis=1)  # 하나라도 결측치가 있다 => False 가 꽉찬것

# 결측치가 없는 행을 확인
m2 = df.notna().all(axis=1)  # 하나도 결측치가 없다 => True 과 꽉찬것

df[m1]  # 결측치 있는 애들만 나옴
df[m2]  # 결측치 없는 애들만 나옴

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# 결측치 시각화
plt.figure(figsize=(10, 6))
sns.heatmap(df.isna(), cmap='viridis', cbar=False, yticklabels=False)
plt.title('결측치 현황')
plt.tight_layout()
plt.show()

# 결측치 개수 막대 그래프
plt.figure(figsize=(10, 6))
df.isna().sum().plot(kind='bar')
plt.title('컬럼별 결측치 개수')
plt.ylabel('결측치 수')
plt.tight_layout()
plt.show()

### 결측치 삭제

In [None]:
# 결측치가 있는 모든 행을 삭제 (새로 리턴)
df.dropna(axis=0)

# 특정 열의 결측치가 있는 행만 삭제 -> 이름, 성별이 없는 행은 삭제
df.dropna(subset=['이름', '성별'], axis=0)

# 모든 값이 결측치이면 삭제
df.dropna(how='all', axis=0)

# 결측치가 있는 모든 열을 삭제
df.dropna(axis=1)

### 결측치 채우기

In [None]:
# 특정 값으로 결측치 채우기
df.fillna(0)

# 열별로 다른 값 쓰기
fill_values = {
    '이름': '익명',
    '나이': 20,
    '성별': '미입력',
    '직업': '기타',
    '급여': df['급여'].mean()  # 평균
}

df.fillna(fill_values)

# 앞/뒤에 사람 데이터 복붙
# df.fillna(method='ffill')  # 과거버전 용. 미래에는 에러남
df.ffill()  # 앞사람 데이터로 채우기
df.bfill()  # 뒷사람 데이터로 채우기

In [None]:
# 시계열 데이터(시간)
dates = pd.to_datetime(['2023-01-01', '2023-01-02', '2023-01-05', '2023-01-10'])
data = [1, np.nan, np.nan, 10]

time_data = pd.DataFrame({'value': data}, index=dates)


In [None]:
# 보간법 - interpolate (알려진 값으로 모르는걸 추정)

# 선형 보간법 (1차함수를 그려서 추정) -> 시간의 흐름은 신경쓰지 않음
lin_interp = time_data.interpolate(method='linear')

# 시간 기반 -> 시간의 흐름까지 고려 하여 채움
time_interp = time_data.interpolate(method='time')

## 데이터 타입 변환

In [None]:
# 문자열 데이터 처리
data = {
    '이름': ['김철수', '이영희', '박민수', '정지영', '최동민'],
    '이메일': ['kim@example.com', 'lee.younghee@company.co.kr', 
              'park_ms@gmail.com', 'jyjeong@school.edu', 'choi@domain.net'],
    '전화번호': ['010-1234-5678', '02-987-6543', '010 3456 7890', 
              '01098765432', '+82-10-5555-6666'],
    '취미': ['축구,야구,농구', '여행,독서', '게임,음악,영화',
            '요리,베이킹', '등산,자전거,수영']
}

df = pd.DataFrame(data)
print("원본 데이터:")
# print(df)

# 1. 기본 문자열 메서드
# 대소문자 변환 (영문에 적용)
df['이메일'].str.upper()

# 문자열 길이
df['이름'].str.len()

# 특정 문자열 포함 여부
m = df['이메일'].str.contains('gmail')
df[m]

# 문자열 교체 (Series 데이터 각각에 str 에서 사용하는 메서드를 쓰겠다.)
df['전화번호'].str.replace('-', '').str.replace(' ', '')

# 2. 문자열 추출
# 처음 두 글자 추출 (성씨)
df['이름'].str[:1]

# 정규표현식 사용한 추출
df['이메일'].str.extract(r'@([^.]+)')  # @ 다음에 오는 도메인 이름 추출

# 3. 문자열 분할
# 구분자로 분할
df['취미'].str.split(',')  # '축구,야구,농구' -> 리스트로 쪼개짐

# 리스트 인덱스 접근
df['취미'].str.split(',').str[0]

# 4. 응용: 이메일에서 사용자명과 도메인 분리
df['이메일'].str.split('@', expand=True)  # expand False면 Series(list) / True면 DF으로 쪼개버림

# 기존 DF에 추가 컬럼 생성
df[['사용자명', '도메인']] = df['이메일'].str.split('@', expand=True)

df

In [None]:
# 데이터 타입 변환
data = {
    '정수형': ['1', '2', '3', '4', '5'],
    '실수형': ['1.1', '2.2', '3.3', '4.4', '5.5'],
    '문자형': [1, 2, 3, 4, 5],
    '불리언': ['True', 'False', 'True', 'False', 'True'],
    '날짜': ['2023-01-01', '2023-02-01', '2023-03-01', '2023-04-01', '2023-05-01'],
    '혼합형': ['1', '2.2', 'three', '4', 'NaN']
}

df = pd.DataFrame(data)

# str -> int
df['정수형'] = df['정수형'].astype(int)

# str -> float
df['실수형'] = df['실수형'].astype(float)

# int -> str
df['문자형'] = df['문자형'].astype(str)

# str -> bool
df['불리언'] = df['불리언'].astype(bool)


# 혼합형은 어떻게 처리하는가? -> 전체적으로 바꿀 수 있는지 시도 | 오류 처리 옵션
# 에러 처리
try:
    pd.to_numeric(df['혼합형'])
except ValueError as e:
    print(f'Error: {e}')

# 변환 불가능하면, NaN 으로 처리
pd.to_numeric(df['혼합형'], errors='coerce')

# 변환 불가 -> 원래 데이터 유지
pd.to_numeric(df['혼합형'], errors='ignore')

# to_datetime()
df['날짜'] = pd.to_datetime(df['날짜'])

df.info()

## 행/열 처리

### 열(col) 처리

In [None]:
data = {
    '학번': ['S001', 'S002', 'S003', 'S004', 'S005'],
    '이름': ['김철수', '이영희', '박민수', '정지영', '최동민'],
    '국어': [85, 92, 78, 90, 85],
    '영어': [82, 95, 75, 88, 90],
    '수학': [88, 90, 80, 95, 82],
    '과학': [76, 82, 75, 84, 88],
    '사회': [92, 86, 85, 91, 78],
    '비고': ['', '', '', '', ''],  # 빈 열
    '임시데이터': [0, 0, 0, 0, 0]   # 불필요한 열
}

df = pd.DataFrame(data)
print("원본 데이터:")
print(df)

# 1. 단일 열 삭제
df_drop_single = df.drop('비고', axis=1)  # axis=1은 열 방향
print("\n'비고' 열 삭제 후:")
print(df_drop_single)

# 2. 여러 열 한 번에 삭제
df_drop_multi = df.drop(['비고', '임시데이터'], axis=1)
print("\n여러 열 삭제 후:")
print(df_drop_multi)

# 3. inplace 파라미터를 사용하여 원본 데이터 직접 변경
df.drop(['비고', '임시데이터'], axis=1, inplace=True)
print("\n원본 데이터에서 직접 열 삭제:")
print(df)

# 4. 열 이름 변경
df.columns = ['학번', '이름', '국어점수', '영어점수', '수학점수', '과학점수', '사회점수']
print("\n열 이름 변경 후:")
print(df)

# 5. rename 메서드로 특정 열 이름만 변경
df_renamed = df.rename(columns={
    '국어점수': '국어',
    '영어점수': '영어',
    '수학점수': '수학'
})
print("\nrename 메서드로 특정 열 이름 변경:")
print(df_renamed)

# 6. 열 순서 변경
df_reordered = df[['이름', '학번', '국어점수', '영어점수', '수학점수', '과학점수', '사회점수']]
print("\n열 순서 변경:")
print(df_reordered)

# 7. 열 추가
df['총점'] = df['국어점수'] + df['영어점수'] + df['수학점수'] + df['과학점수'] + df['사회점수']
df['평균'] = df['총점'] / 5
print("\n총점과 평균 열 추가:")
print(df)

# 8. 조건에 따라 새 열 추가
df['성적등급'] = pd.cut(df['평균'], bins=[0, 70, 80, 90, 100], labels=['D', 'C', 'B', 'A'])
print("\n성적등급 열 추가:")
print(df)

### 행(row) 처리

In [None]:
import numpy as np
import pandas as pd

data = {
    '이름': ['김철수', '이영희', '박민수', '정지영', '최동민', '강준호', '윤서연', '임태영', '한미래', '송지원'],
    '나이': [25, 28, 22, 35, 29, 31, 26, 33, 27, np.nan],
    '성별': ['남', '여', '남', '여', '남', '남', '여', '남', '여', '여'],
    '부서': ['영업', '인사', '개발', '영업', '인사', '개발', '개발', '영업', '인사', np.nan],
    '급여': [3500, 4200, 3800, 5400, 4100, 3900, 4300, 5100, 3700, 4200]
}

df = pd.DataFrame(data)
print("원본 데이터:")
print(df)

# 1. 인덱스로 행 삭제
df_drop_index = df.drop(0)  # 첫 번째 행 삭제
print("\n첫 번째 행 삭제:")
print(df_drop_index)

# 2. 여러 행 한 번에 삭제
df_drop_multi = df.drop([0, 2, 4])  # 0, 2, 4번 행 삭제
print("\n여러 행 삭제:")
print(df_drop_multi)

# 3. 조건을 기준으로 행 필터링
# 나이가 30 미만인 직원만 선택
young_employees = df[df['나이'] < 30]
print("\n나이가 30 미만인 직원:")
print(young_employees)

# 4. 결측치가 있는 행 제거
df_no_na = df.dropna()
print("\n결측치가 없는 행만 선택:")
print(df_no_na)

# 5. 특정 열에 결측치가 있는 행만 제거
df_no_na_age = df.dropna(subset=['나이'])
print("\n나이 열에 결측치가 없는 행만 선택:")
print(df_no_na_age)

# 6. 중복된 행 확인 및 제거
# 중복 데이터 생성을 위해 행 추가
d_df = pd.concat([df,df[2:4]], ignore_index=True)
# 원본에 2~3 줄 이어 붙여서 중복 만들기
d_df

# 중복확인 -> T/F Series -> 처음 등장은 F, 이후 등장은 T
print(d_df.duplicated())
# keep=False -> 모든 중복행은 True
print(d_df.duplicated(keep=False))

# 중복된 행 제거
no_ddf = d_df.drop_duplicates()
# 특정 열이 중복되는 행 제거
d_df.drop_duplicates(subset=['급여'])

# 7. 행 정렬
df.sort_values('급여', ascending=False)
df.sort_values(['부서', '급여'], ascending=[True, False])

# 8. 인덱스 재 설정 | 급여 높은순으로 인덱스 재 설정
df.sort_values('급여', ascending=False).reset_index(drop=True)

원본 데이터:
    이름    나이 성별   부서    급여
0  김철수  25.0  남   영업  3500
1  이영희  28.0  여   인사  4200
2  박민수  22.0  남   개발  3800
3  정지영  35.0  여   영업  5400
4  최동민  29.0  남   인사  4100
5  강준호  31.0  남   개발  3900
6  윤서연  26.0  여   개발  4300
7  임태영  33.0  남   영업  5100
8  한미래  27.0  여   인사  3700
9  송지원   NaN  여  NaN  4200

첫 번째 행 삭제:
    이름    나이 성별   부서    급여
1  이영희  28.0  여   인사  4200
2  박민수  22.0  남   개발  3800
3  정지영  35.0  여   영업  5400
4  최동민  29.0  남   인사  4100
5  강준호  31.0  남   개발  3900
6  윤서연  26.0  여   개발  4300
7  임태영  33.0  남   영업  5100
8  한미래  27.0  여   인사  3700
9  송지원   NaN  여  NaN  4200

여러 행 삭제:
    이름    나이 성별   부서    급여
1  이영희  28.0  여   인사  4200
3  정지영  35.0  여   영업  5400
5  강준호  31.0  남   개발  3900
6  윤서연  26.0  여   개발  4300
7  임태영  33.0  남   영업  5100
8  한미래  27.0  여   인사  3700
9  송지원   NaN  여  NaN  4200

나이가 30 미만인 직원:
    이름    나이 성별  부서    급여
0  김철수  25.0  남  영업  3500
1  이영희  28.0  여  인사  4200
2  박민수  22.0  남  개발  3800
4  최동민  29.0  남  인사  4100
6  윤서연  26.0  여  개발  4300
8  한미래  27.0  여

Unnamed: 0,이름,나이,성별,부서,급여
0,정지영,35.0,여,영업,5400
1,임태영,33.0,남,영업,5100
2,윤서연,26.0,여,개발,4300
3,이영희,28.0,여,인사,4200
4,송지원,,여,,4200
5,최동민,29.0,남,인사,4100
6,강준호,31.0,남,개발,3900
7,박민수,22.0,남,개발,3800
8,한미래,27.0,여,인사,3700
9,김철수,25.0,남,영업,3500


: 

### 행/열 동시 조작

In [45]:
data = {
    '이름': ['김철수', '이영희', '박민수', '정지영', '최동민'],
    '국어': [85, 92, 78, 90, 85],
    '영어': [82, 95, 75, 88, 90],
    '수학': [88, 90, 80, 95, 82],
    '과학': [76, 82, 75, 84, 88],
    '사회': [92, 86, 85, 91, 78]
}

df = pd.DataFrame(data)
print(df)
# 1. iloc 행/열 선택 앞에서 2행, 앞에서 3열
subset1 = df.iloc[0:2, 0:3]
subset1

# 2. loc 행/열 선택
subset2 = df.loc[0:2, ['이름', '영어', '과학']]
subset2

# 3. 조건에 따른 행 선택 및 특정 열 처리
# 국어 점수 80점 이상인 학생의 이름과 국어점수
high_kor = df.loc[ df['국어'] >= 80, ['이름', '국어'] ]
high_kor

# 4. 모든 과목에서 85점 이상인 학생
mask = (df['국어'] >= 85) & (df['영어'] >= 85) & (df['수학'] >= 85) & (df['과학'] >= 85) & (df['사회'] >= 85)
df[mask]

# 과목명만 있는 Series
subjects = df.columns.drop('이름')
# ge -> greater equal -> 이상
good_mask = df[subjects].ge(80).all(axis=1)
df[good_mask]

# 5. 열 통계와 행 필터링 조합
subjects = df.columns.drop('이름')
# 학생평균 (axis=1) | 과목평균 (axis=0)
avg = df[subjects].mean(axis=1)

# 평균 컬럼을 추가해보자
df['평균'] = avg

# 평균 85 초과
df[df['평균'] > 85]

# 특정 데이터 수정(민수, 국어)
df.loc[2, '국어'] = 100
df

    이름  국어  영어  수학  과학  사회
0  김철수  85  82  88  76  92
1  이영희  92  95  90  82  86
2  박민수  78  75  80  75  85
3  정지영  90  88  95  84  91
4  최동민  85  90  82  88  78


Unnamed: 0,이름,국어,영어,수학,과학,사회,평균
0,김철수,85,82,88,76,92,84.6
1,이영희,92,95,90,82,86,89.0
2,박민수,100,75,80,75,85,78.6
3,정지영,90,88,95,84,91,89.6
4,최동민,85,90,82,88,78,84.6
