## 🐼 Pandas 완전 정복: 실습 편 (Part 1 - Pandas 기초)

Python의 강력한 데이터 분석 라이브러리인 Pandas의 핵심 개념을 익히고 실습하는 것을 목표로 합니다. 
제공되는 예제와 연습 문제를 통해 Pandas 활용 능력을 키워보세요.

> **📁 데이터셋 준비**: 튜토리얼을 진행하기 전에 일부 연습 문제에서는 `datasets` 폴더의 데이터셋을 활용합니다. 데이터셋이 있는지 확인해주세요.

-----

### 목차 (주요 내용)

#### 기본편

1.  [Pandas 소개 및 설치, Series와 DataFrame 기초](https://www.google.com/search?q=%231-pandas-%EC%86%8C%EA%B0%9C-%EB%B0%8F-%EC%84%A4%EC%B9%98-series%EC%99%80-dataframe-%EA%B8%B0%EC%B4%88)
2.  [데이터 읽기/쓰기 (CSV, Excel)](https://www.google.com/search?q=%232-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%9D%BD%EA%B8%B0%EC%93%B0%EA%B8%B0-csv-excel)
3.  [기본 데이터 조작 (선택, 추가, 필터링, 정렬)](https://www.google.com/search?q=%233-%EA%B8%B0%EB%B3%B8-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%A1%B0%EC%9E%91-%EC%84%A0%ED%83%9D-%EC%B6%94%EA%B0%80-%ED%95%84%ED%84%B0%EB%A7%81-%EC%A0%95%EB%A0%AC)

#### 중급편

4.  [고급 인덱싱과 선택 (`.loc`, `.iloc`, `query`)](https://www.google.com/search?q=%234-%EA%B3%A0%EA%B8%89-%EC%9D%B8%EB%8D%B1%EC%8B%B1%EA%B3%BC-%EC%84%A0%ED%83%9D-loc-iloc-query)
5.  [데이터 정제와 변환 (결측값 처리, 타입 변환, `apply`, `map`)](https://www.google.com/search?q=%235-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%A0%95%EC%A0%9C%EC%99%80-%EB%B3%80%ED%99%98-%EA%B2%B0%EC%B8%A1%EA%B0%92-%EC%B2%98%EB%A6%AC-%ED%83%80%EC%9E%85-%EB%B3%80%ED%99%98-apply-map)

-----


### 기본편

#### 1\. Pandas 소개 및 설치, Series와 DataFrame 기초

##### 💡 개념 (Concept)

**Pandas**는 Python에서 데이터를 쉽고 직관적으로 처리할 수 있도록 설계된 핵심 라이브러리입니다. 특히, 표와 같은 형태의 데이터나 시계열 데이터를 다루는 데 매우 강력한 기능을 제공합니다. Pandas의 주요 데이터 구조는 **Series**와 **DataFrame**입니다.

  * **Series**: 1차원 배열과 같은 구조로, 각 데이터 값에 인덱스(index)가 부여됩니다.
  * **DataFrame**: 2차원 테이블 형태의 데이터 구조로, 여러 개의 Series가 모인 것으로 생각할 수 있습니다. 각 열(column)은 고유한 이름을 가지며, 각 행(row)은 인덱스로 구분됩니다.

**설치**

Pandas를 사용하기 위해서는 먼저 설치해야 합니다.
일반적으로 NumPy도 함께 설치됩니다.
터미널이나 명령 프롬프트에서 다음 명령어를 (!) 표시를 제외하고 설치할수도 있습니다.
아래 코드 셀을 실행하여 설치하세요.

In [None]:
!pip install pandas numpy


##### 💻 예시 코드 (Example Code)

In [1]:
# Pandas 및 NumPy 임포트
import pandas as pd
import numpy as np

In [None]:
# 경고 메세지 출력 안함
import warnings
warnings.filterwarnings(action='ignore')

In [2]:
# 버전 확인 (선택 사항)
print(f"Pandas 버전: {pd.__version__}")
print(f"NumPy 버전: {np.__version__}")

Pandas 버전: 2.2.2
NumPy 버전: 2.0.2


In [121]:
# 1. 리스트로부터 Series 생성
s1 = pd.Series([10, 20, 30, 40, 50])
print("기본 Series:")
s1

기본 Series:


Unnamed: 0,0
0,10
1,20
2,30
3,40
4,50


In [120]:
# 2. 인덱스를 지정하여 Series 생성
s2 = pd.Series([10, 20, 30, 40, 50],
               index=['a', 'b', 'c', 'd', 'e'])
print("\n인덱스가 있는 Series:")
s2


인덱스가 있는 Series:


Unnamed: 0,0
a,10
b,20
c,30
d,40
e,50


In [5]:
# Series 인덱싱
print(f"\ns2의 'c' 인덱스 값: {s2['c']}")


s2의 'c' 인덱스 값: 30


In [119]:
# 3. 딕셔너리로부터 Series 생성
data_dict = {'서울': 9700000, '부산': 3400000, '인천': 3000000}
s3 = pd.Series(data_dict)
print("딕셔너리로부터 생성한 Series:")
s3

딕셔너리로부터 생성한 Series:


Unnamed: 0,0
서울,9700000
부산,3400000
인천,3000000


In [117]:
# Series 속성 확인
print(f"s3의 값 타입: {s3.dtype}")
print(f"s3의 인덱스: {s3.index}")
print(f"s3의 값들: {s3.values}")

s3의 값 타입: int64
s3의 인덱스: Index(['서울', '부산', '인천'], dtype='object')
s3의 값들: [9700000 3400000 3000000]


In [116]:
# 1. 딕셔너리로부터 DataFrame 생성 (키가 컬럼명이 됨)
data_df = {
    '이름': ['민준', '서연', '도윤', '하은'],
    '나이': [28, 31, 25, 34],
    '도시': ['서울', '부산', '서울', '인천']
}
df1 = pd.DataFrame(data_df)
print("딕셔너리로부터 생성한 DataFrame:")
df1

딕셔너리로부터 생성한 DataFrame:


Unnamed: 0,이름,나이,도시
0,민준,28,서울
1,서연,31,부산
2,도윤,25,서울
3,하은,34,인천


In [114]:
# DataFrame 모양 (행, 열)
print(f"DataFrame 모양 (행, 열): {df1.shape}")

DataFrame 모양 (행, 열): (4, 3)


In [115]:
# DataFrame 컬럼 확인
print(f"DataFrame 컬럼: {df1.columns.tolist()}")

DataFrame 컬럼: ['이름', '나이', '도시']


In [110]:
# DataFrame 인덱스 확인
print(f"DataFrame 인덱스: {df1.index.tolist()}")

DataFrame 인덱스: [0, 1, 2, 3]


In [109]:
# DataFrame 정보 요약
print("DataFrame 정보 요약:")
df1.info()

DataFrame 정보 요약:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      4 non-null      object
 1   나이      4 non-null      int64 
 2   도시      4 non-null      object
dtypes: int64(1), object(2)
memory usage: 228.0+ bytes


In [124]:
# DataFrame 기술 통계 (숫자형 컬럼)
print("DataFrame 기술 통계 (숫자형 컬럼):")
df1.describe()

DataFrame 기술 통계 (숫자형 컬럼):


Unnamed: 0,나이
count,4.0
mean,29.5
std,3.872983
min,25.0
25%,27.25
50%,29.5
75%,31.75
max,34.0


In [123]:
# DataFrame 처음 3행 보기
print("DataFrame 처음 3행 보기:")
df1.head(3)

DataFrame 처음 3행 보기:


Unnamed: 0,이름,나이,도시
0,민준,28,서울
1,서연,31,부산
2,도윤,25,서울


In [122]:
# DataFrame 마지막 2행 보기
print("DataFrame 마지막 2행 보기:")
df1.tail(2)

DataFrame 마지막 2행 보기:


Unnamed: 0,이름,나이,도시
2,도윤,25,서울
3,하은,34,인천


##### ✏️ 연습 문제 (Practice Problems)

1.  학생들의 이름과 점수를 각각 리스트로 가지고 있습니다. 이를 이용하여 '이름'과 '점수' 컬럼을 가진 DataFrame을 생성하고, '점수'가 80점 이상인 학생들의 정보만 출력해 보세요.

      * 이름: `['지아', '준서', '유진', '시우']`
      * 점수: `[85, 92, 78, 95]`

2.  다음 딕셔너리를 사용하여 Series `s_pop`을 만드세요. 그 후, 인구가 200만 이상인 도시만 필터링하여 출력하고, 전체 도시의 평균 인구를 계산하여 출력하세요.

      * 데이터: `{'서울': 960, '부산': 335, '인천': 294, '대구': 238, '대전': 149, '광주': 148}` (단위: 만 명)

<!-- end list -->

In [None]:
# 연습 문제 1번 풀이 공간

In [None]:
# 연습 문제 2번 풀이 공간

-----

#### 2\. 데이터 읽기/쓰기 (CSV, Excel)

##### 💡 개념 (Concept)

Pandas는 다양한 형식의 파일을 읽고 쓰는 강력한 기능을 제공합니다. 가장 일반적으로 사용되는 파일 형식은 CSV(Comma-Separated Values)와 Excel 스프레드시트입니다.

  * **CSV 파일 읽기**: `pd.read_csv('파일경로/파일명.csv')`
  * **CSV 파일 쓰기**: `df.to_csv('저장할파일경로/파일명.csv', index=False)`
      * `index=False` 옵션은 DataFrame의 인덱스를 파일에 쓰지 않도록 합니다. 기본값은 `True`입니다.
  * **Excel 파일 읽기**: `pd.read_excel('파일경로/파일명.xlsx', sheet_name='시트명')`
      * Excel 파일을 읽기 위해서는 `openpyxl` 또는 `xlrd` 라이브러리가 설치되어 있어야 합니다. (`pip install openpyxl`)
  * **Excel 파일 쓰기**: `df.to_excel('저장할파일경로/파일명.xlsx', sheet_name='시트명', index=False)`

다양한 옵션(구분자 지정, 특정 컬럼만 읽기, 헤더 설정 등)을 사용하여 파일을 더 정교하게 다룰 수 있습니다.

##### 💻 예시 코드 (Example Code)

In [16]:
import pandas as pd
import os

# datasets 폴더가 없으면 생성
if not os.path.exists('datasets'):
    os.makedirs('datasets')

**예제 DataFrame 생성 및 CSV 파일로 저장**

In [17]:
# 예제 DataFrame 생성
sample_data = {
    '제품ID': [101, 102, 103, 104, 105],
    '제품명': ['노트북', '키보드', '마우스', '모니터', '태블릿'],
    '가격': [1200000, 50000, 25000, 300000, 450000],
    '카테고리': ['PC', '주변기기', '주변기기', 'PC', '모바일']
}
df_products_sample = pd.DataFrame(sample_data)

# CSV 파일로 저장
csv_file_path = 'datasets/sample_products.csv'
df_products_sample.to_csv(csv_file_path, index=False, encoding='utf-8-sig') # utf-8-sig for Excel Korean
print(f"'{csv_file_path}' 파일이 저장되었습니다.")

'datasets/sample_products.csv' 파일이 저장되었습니다.


In [107]:
# CSV 파일 읽기
df_from_csv = pd.read_csv(csv_file_path)
print("CSV 파일에서 읽은 데이터:")
df_from_csv.head()

CSV 파일에서 읽은 데이터:


Unnamed: 0,제품ID,제품명,가격,카테고리
0,101,노트북,1200000,PC
1,102,키보드,50000,주변기기
2,103,마우스,25000,주변기기
3,104,모니터,300000,PC
4,105,태블릿,450000,모바일


In [19]:
# Excel 파일로 저장
excel_file_path = 'datasets/sample_products.xlsx'
df_products_sample.to_excel(excel_file_path, index=False, sheet_name='제품 정보')
print(f"\n'{excel_file_path}' 파일이 저장되었습니다.")


'datasets/sample_products.xlsx' 파일이 저장되었습니다.


In [None]:
# Excel 파일 읽기
# Excel 파일을 읽으려면 openpyxl 라이브러리가 필요합니다.
!pip install openpyxl

In [63]:
df_from_excel = pd.read_excel(excel_file_path, sheet_name='제품 정보')
print("\nExcel 파일에서 읽은 데이터:")
df_from_excel.head()


Excel 파일에서 읽은 데이터:


Unnamed: 0,제품ID,제품명,가격,카테고리
0,101,노트북,1200000,PC
1,102,키보드,50000,주변기기
2,103,마우스,25000,주변기기
3,104,모니터,300000,PC
4,105,태블릿,450000,모바일


##### ✏️ 연습 문제 (Practice Problems)

1.  다음 내용으로 `datasets/my_practice_data.csv` 파일을 Cursor 편집기로 만드세요.
    ```
    ID,Name,Age,City
    1,Alice,24,New York
    2,Bob,27,Los Angeles
    3,Charlie,22,Chicago
    4,David,30,Houston
    ```
    이 CSV 파일을 Pandas DataFrame으로 읽어온 후, 'Age' 컬럼의 평균을 계산하고, 'City'가 'Chicago'인 사람의 'Name'을 출력하세요.

In [None]:
# 연습 문제 1번 풀이 공간

2.  연습 문제 1에서 불러온 DataFrame에 'Salary' 컬럼을 임의의 값으로 추가한 후 (예: `[50000, 60000, 55000, 70000]`), 이 DataFrame을 `datasets/my_data_updated.xlsx` 파일의 '직원 정보' 시트에 저장하세요. 저장 시 인덱스는 포함하지 마세요.


In [None]:
# 연습 문제 2번 풀이 공간

-----

#### 3\. 기본 데이터 조작 (선택, 추가, 필터링, 정렬)

##### 💡 개념 (Concept)

DataFrame에서 원하는 데이터를 추출하거나 변형하는 것은 데이터 분석의 핵심입니다.

  * **컬럼 선택**:
      * 단일 컬럼 선택: `df['컬럼명']` (Series 반환) 또는 `df.컬럼명` (컬럼명이 변수명 규칙에 맞을 때)
      * 여러 컬럼 선택: `df[['컬럼명1', '컬럼명2']]` (DataFrame 반환)
  * **컬럼 추가/수정**: `df['새컬럼명'] = 값_또는_Series_또는_배열`
  * **행 선택 (필터링)**:
      * 조건을 이용한 필터링: `df[df['컬럼명'] > 조건값]`
      * 여러 조건 조합: `df[(조건1) & (조건2)]` (AND), `df[(조건1) | (조건2)]` (OR)
      * `isin()` 메소드: `df[df['컬럼명'].isin(['값1', '값2'])]`
  * **정렬**:
      * 값 기준 정렬: `df.sort_values(by='컬럼명', ascending=True/False)`
          * 여러 컬럼 기준 정렬: `df.sort_values(by=['컬럼명1', '컬럼명2'], ascending=[True, False])`
      * 인덱스 기준 정렬: `df.sort_index(ascending=True/False)`

##### 💻 예시 코드 (Example Code)

In [21]:
import pandas as pd
import numpy as np
import os

# datasets 폴더 및 employees_practice.csv 파일 생성
if not os.path.exists('datasets'):
    os.makedirs('datasets')

data_employees = {
    '이름': ['민준', '서연', '도윤', '하은', '지호', '유나'],
    '부서': ['영업', '마케팅', '개발', '영업', '개발', '마케팅'],
    '연봉': [4500, 5200, 6000, 4800, 5500, 5000], # 단위: 만원
    '나이': [30, 35, 28, 32, 29, 33],
    '도시': ['서울', '부산', '서울', '인천', '대전', '서울']
}
df_emp_data = pd.DataFrame(data_employees)
emp_csv_path = 'datasets/employees_practice.csv'
df_emp_data.to_csv(emp_csv_path, index=False, encoding='utf-8-sig')
print(f"'{emp_csv_path}' 파일 생성 완료.")

'datasets/employees_practice.csv' 파일 생성 완료.


In [61]:
# 데이터 읽기
df = pd.read_csv(emp_csv_path)
print("원본 DataFrame:")
df

원본 DataFrame:


Unnamed: 0,이름,부서,연봉,나이,도시
0,민준,영업,4500,30,서울
1,서연,마케팅,5200,35,부산
2,도윤,개발,6000,28,서울
3,하은,영업,4800,32,인천
4,지호,개발,5500,29,대전
5,유나,마케팅,5000,33,서울


In [106]:
# 단일 컬럼 선택 ('이름')
names = df['이름']
print("이름 컬럼 (Series):")
names

이름 컬럼 (Series):


Unnamed: 0,이름
0,민준
1,서연
2,도윤
3,하은
4,지호
5,유나


In [105]:
# 여러 컬럼 선택 ('이름', '부서')
name_dept = df[['이름', '부서']]
print("이름과 부서 컬럼 (DataFrame):")
name_dept.head()

이름과 부서 컬럼 (DataFrame):


Unnamed: 0,이름,부서
0,민준,영업
1,서연,마케팅
2,도윤,개발
3,하은,영업
4,지호,개발


In [104]:
# '고연봉자' 컬럼 추가 (연봉 > 5000)
df['고연봉자'] = df['연봉'] > 5000
print("새 컬럼('고연봉자') 추가 후 DataFrame:")
df.head()

새 컬럼('고연봉자') 추가 후 DataFrame:


Unnamed: 0,이름,부서,연봉,나이,도시,고연봉자
0,민준,영업,4500,30,서울,False
1,서연,마케팅,5200,35,부산,True
2,도윤,개발,6000,28,서울,True
3,하은,영업,4800,32,인천,False
4,지호,개발,5500,29,대전,True


In [103]:
# '부서'가 '마케팅'인 직원 선택
marketing_team = df[df['부서'] == '마케팅']
print("마케팅 부서 직원:")
marketing_team

마케팅 부서 직원:


Unnamed: 0,이름,부서,연봉,나이,도시
1,서연,마케팅,5200,35,부산
5,유나,마케팅,5000,33,서울


In [102]:
# '도시'가 '서울'이고 '연봉'이 5000 초과인 직원 선택
seoul_high_salary = df[(df['도시'] == '서울') & (df['연봉'] > 5000)]
print("서울 거주 고연봉자:")
seoul_high_salary

서울 거주 고연봉자:


Unnamed: 0,이름,부서,연봉,나이,도시
2,도윤,개발,6000,28,서울


In [101]:
# '부서'가 '개발' 또는 '영업'인 직원 선택 (isin 사용)
dev_or_sales = df[df['부서'].isin(['개발', '영업'])]
print("개발 또는 영업 부서 직원:")
dev_or_sales.head() # 일부만 출력

개발 또는 영업 부서 직원:


Unnamed: 0,이름,부서,연봉,나이,도시
0,민준,영업,4500,30,서울
2,도윤,개발,6000,28,서울
3,하은,영업,4800,32,인천
4,지호,개발,5500,29,대전


In [100]:
# '연봉' 기준 내림차순 정렬
df_sorted_salary = df.sort_values(by='연봉', ascending=False)
print("연봉 내림차순 정렬:")
df_sorted_salary.head()

연봉 내림차순 정렬:


Unnamed: 0,이름,부서,연봉,나이,도시
2,도윤,개발,6000,28,서울
4,지호,개발,5500,29,대전
1,서연,마케팅,5200,35,부산
5,유나,마케팅,5000,33,서울
3,하은,영업,4800,32,인천


In [99]:
# '부서'(오름차순) 및 '나이'(오름차순) 기준 정렬
df_sorted_dept_age = df.sort_values(by=['부서', '나이'], ascending=[True, True])
print("부서 및 나이 오름차순 정렬:")
df_sorted_dept_age.head() # 일부만 출력

부서 및 나이 오름차순 정렬:


Unnamed: 0,이름,부서,연봉,나이,도시
2,도윤,개발,6000,28,서울
4,지호,개발,5500,29,대전
5,유나,마케팅,5000,33,서울
1,서연,마케팅,5200,35,부산
0,민준,영업,4500,30,서울


##### ✏️ 연습 문제 (Practice Problems)

1.  위 예제에서 사용한 `datasets/employees_practice.csv` 파일을 읽어, '개발' 부서에 속하면서 '나이'가 30세 미만인 직원의 '이름'과 '연봉'을 출력하세요.

In [None]:
# 연습 문제 1번 풀이 공간

2.  `datasets/employees_practice.csv` 데이터를 사용하여 '도시'가 '서울'이 아닌 직원들의 정보를 추출하고, 이들을 '연봉'의 오름차순으로 정렬하여 상위 3명의 '이름', '부서', '연봉', '도시' 정보를 출력하세요. 또한, 이 DataFrame에 '입사년도' 컬럼을 임의로 추가해보세요 (예: 각 직원의 나이에 따라 다르게 설정. 예: 2024 - (나이 - 25)).

In [None]:
# 연습 문제 2번 풀이 공간

-----

### 중급편

#### 4\. 고급 인덱싱과 선택 (`.loc`, `.iloc`, `query`)

##### 💡 개념 (Concept)

Pandas는 데이터 선택을 위한 다양한 방법을 제공합니다. `.loc`과 `.iloc`은 그중 가장 명시적이고 강력한 방법입니다. `query` 메소드는 문자열 기반으로 조건을 표현하여 가독성을 높일 수 있습니다.

  * **`.loc` (Label-based selection)**: 레이블(인덱스명, 컬럼명)을 기반으로 데이터를 선택합니다.
      * `df.loc[row_label, col_label]`
      * `df.loc[row_label_slice, col_label_slice]`
      * `df.loc[boolean_array_for_rows, boolean_array_for_cols]`
  * **`.iloc` (Integer-location based selection)**: 정수 위치(0부터 시작하는 인덱스)를 기반으로 데이터를 선택합니다.
      * `df.iloc[row_position, col_position]`
      * `df.iloc[row_position_slice, col_position_slice]`
  * **`query()` 메소드**: 문자열 형태로 조건을 작성하여 데이터를 필터링합니다. 컬럼명에 공백이나 특수문자가 없을 때 유용하며, 복잡한 조건도 간결하게 표현 가능합니다.
      * `df.query('컬럼명 > 값 and 컬럼명2 == "문자열"')`
      * 변수를 사용하려면 `@` 기호를 사용: `min_val = 10; df.query('컬럼명 > @min_val')`

##### 💻 예시 코드 (Example Code)

In [31]:
import pandas as pd
import numpy as np
import os

# datasets 폴더 및 sales_data_practice.csv 파일 생성
if not os.path.exists('datasets'):
    os.makedirs('datasets')

data_sales = {
    'date': pd.to_datetime(['2024-01-01', '2024-01-01', '2024-01-02', '2024-01-02', '2024-01-03', '2024-01-03', '2024-01-04', '2024-01-04']),
    'region': ['서울', '부산', '서울', '인천', '부산', '서울', '인천', '부산'],
    'product': ['A', 'B', 'A', 'C', 'B', 'C', 'A', 'A'],
    'quantity': [10, 5, 8, 12, 7, 15, 9, 11],
    'unit_price': [1000, 2500, 1000, 1200, 2500, 1200, 1000, 1000]
}
df_sales_data = pd.DataFrame(data_sales)
df_sales_data['total_amount'] = df_sales_data['quantity'] * df_sales_data['unit_price']
sales_csv_path = 'datasets/sales_data_practice.csv'
df_sales_data.to_csv(sales_csv_path, index=False, encoding='utf-8-sig') # index=False로 저장
print(f"'{sales_csv_path}' 파일 생성 완료.")

'datasets/sales_data_practice.csv' 파일 생성 완료.


In [52]:
# 데이터 읽기 (date 컬럼을 DatetimeIndex로 설정)
df_s = pd.read_csv(sales_csv_path, parse_dates=['date'])
df_s = df_s.set_index('date') # date 컬럼을 인덱스로 설정
print("판매 데이터 (인덱스: date):")
df_s.head()

판매 데이터 (인덱스: date):


Unnamed: 0_level_0,region,product,quantity,unit_price,total_amount
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2024-01-01,서울,A,10,1000,10000
2024-01-01,부산,B,5,2500,12500
2024-01-02,서울,A,8,1000,8000
2024-01-02,인천,C,12,1200,14400
2024-01-03,부산,B,7,2500,17500


In [98]:
# .loc 예제: 특정 날짜('2024-01-02')의 데이터
print(".loc 예제: 2024-01-02 데이터")
df_s.loc['2024-01-02']

.loc 예제: 2024-01-02 데이터


Unnamed: 0_level_0,region,product,quantity,unit_price,total_amount
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2024-01-02,서울,A,8,1000,8000
2024-01-02,인천,C,12,1200,14400


In [97]:
# .loc 예제: 날짜 범위와 특정 컬럼 선택
print(".loc 예제: 2024-01-01부터 2024-01-02까지 region, total_amount")
df_s.loc['2024-01-01':'2024-01-02', ['region', 'total_amount']]

.loc 예제: 2024-01-01부터 2024-01-02까지 region, total_amount


Unnamed: 0_level_0,region,total_amount
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2024-01-01,서울,10000
2024-01-01,부산,12500
2024-01-02,서울,8000
2024-01-02,인천,14400


In [96]:
# .loc 예제: 특정 조건에 맞는 행의 특정 컬럼 선택
print(".loc 예제: 서울 지역 데이터의 product, quantity")
df_s.loc[df_s['region'] == '서울', ['product', 'quantity']]

.loc 예제: 서울 지역 데이터의 product, quantity


Unnamed: 0_level_0,product,quantity
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2024-01-01,A,10
2024-01-02,A,8
2024-01-03,C,15


In [95]:
# .iloc 예제: 첫 번째 행 (0번 인덱스)의 데이터
print(".iloc 예제: 첫 번째 행 (0번 인덱스)")
df_s.iloc[0]

.iloc 예제: 첫 번째 행 (0번 인덱스)


Unnamed: 0,2024-01-01
region,서울
product,A
quantity,10
unit_price,1000
total_amount,10000


In [94]:
# .iloc 예제: 처음 3개 행, 처음 2개 컬럼
print(".iloc 예제: 처음 3행, 처음 2컬럼")
df_s.iloc[:3, :2]

.iloc 예제: 처음 3행, 처음 2컬럼


Unnamed: 0_level_0,region,product
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2024-01-01,서울,A
2024-01-01,부산,B
2024-01-02,서울,A


In [93]:
# .iloc 예제: 특정 위치의 값들 (0, 2번 행 & 1, 3번 컬럼 - product, unit_price)
print(".iloc 예제: 0, 2번 행 & 1(product), 3(unit_price)번 컬럼")
df_s.iloc[[0, 2], [1, 3]]

.iloc 예제: 0, 2번 행 & 1(product), 3(unit_price)번 컬럼


Unnamed: 0_level_0,product,unit_price
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2024-01-01,A,1000
2024-01-02,A,1000


In [92]:
# query 메서드 예제: 수량이 10개 초과인 데이터
print("query 메서드 예제: quantity > 10")
df_s.query('quantity > 10')

query 메서드 예제: quantity > 10


Unnamed: 0_level_0,region,product,quantity,unit_price,total_amount
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2024-01-02,인천,C,12,1200,14400
2024-01-03,서울,C,15,1200,18000
2024-01-04,부산,A,11,1000,11000


In [90]:
# query 메서드 예제: 지역이 '부산'이고 총액이 15000 이상인 데이터
print("query 메서드 예제: region == '부산' and total_amount >= 15000")
df_s.query('region == "부산" and total_amount >= 15000')

query 메서드 예제: region == '부산' and total_amount >= 15000


Unnamed: 0_level_0,region,product,quantity,unit_price,total_amount
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2024-01-03,부산,B,7,2500,17500


In [91]:
# query 메서드 예제: 변수 사용
min_qty = 8
target_product = 'A'
print(f"query 메서드 예제: quantity > {min_qty} 이고 product == '{target_product}'")
df_s.query('quantity > @min_qty and product == @target_product')

query 메서드 예제: quantity > 8 이고 product == 'A'


Unnamed: 0_level_0,region,product,quantity,unit_price,total_amount
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2024-01-01,서울,A,10,1000,10000
2024-01-04,인천,A,9,1000,9000
2024-01-04,부산,A,11,1000,11000


##### ✏️ 연습 문제 (Practice Problems)

1.  위 예제에서 사용한 `datasets/sales_data_practice.csv` 데이터를 `df_s`로 읽어온 후 (date를 인덱스로 설정), `.loc`을 사용하여 2024년 1월 3일 데이터 중 'product'가 'C'인 행의 'quantity'와 'total\_amount'를 출력하세요.

In [None]:
# 연습 문제 1번 풀이 공간

2.  `df_s` 데이터에서 `.iloc`을 사용하여 마지막 3개 행의 'region', 'product', 'quantity' 컬럼(위치로 선택)을 출력하세요. (힌트: 음수 인덱싱 및 컬럼 위치 파악)

In [None]:
# 연습 문제 2번 풀이 공간

3.  `df_s` 데이터에서 `query()` 메소드를 사용하여 'region'이 '서울'이 아니고('\!=') 'unit\_price'가 1000원인 데이터를 찾아 출력하세요.

In [None]:
# 연습 문제 3번 풀이 공간

-----

#### 5\. 데이터 정제와 변환 (결측값 처리, 타입 변환, `apply`, `map`)

##### 💡 개념 (Concept)

실제 데이터는 종종 비어있는 값(결측값, `NaN`)을 포함하거나, 데이터 타입이 분석에 적합하지 않은 형태로 되어 있을 수 있습니다. 또한, 기존 컬럼을 바탕으로 새로운 의미를 가진 컬럼을 생성해야 할 때도 있습니다.

  * **결측값 처리**:
      * 확인: `df.isnull().sum()` (컬럼별 결측값 개수), `df.isna().sum()`
      * 제거: `df.dropna(axis=0/1, how='any'/'all', subset=['컬럼명'])`
          * `axis=0`: 결측값이 있는 행 제거 (기본값)
          * `axis=1`: 결측값이 있는 열 제거
          * `how='any'`: 하나라도 있으면 제거, `how='all'`: 모든 값이 결측값이면 제거
          * `subset`: 특정 컬럼들을 기준으로 결측값 검사
      * 채우기: `df.fillna(value, method='ffill'/'bfill', limit=n)`
          * `value`: 특정 값으로 채우기 (딕셔너리로 컬럼별 다른 값 지정 가능)
          * `method='ffill'`: 앞의 값으로 채우기 (forward fill)
          * `method='bfill'`: 뒤의 값으로 채우기 (backward fill)
  * **데이터 타입 변환**: `df['컬럼명'].astype(새타입)` (예: `int`, `float`, `str`, `category`)
      * `pd.to_datetime(df['날짜컬럼'])`, `pd.to_numeric(df['숫자형문자열컬럼'], errors='coerce')`
  * **`apply()`**: DataFrame의 행이나 열 전체, 또는 Series의 각 요소에 사용자 정의 함수나 람다 함수를 적용합니다.
      * `df.apply(함수, axis=0/1)` (axis=0: 열 단위, axis=1: 행 단위)
      * `df['컬럼명'].apply(함수)`
  * **`map()`**: Series의 각 요소에 특정 함수를 적용하거나, 딕셔너리를 전달하여 값을 매핑(치환)합니다.
      * `df['컬럼명'].map(함수)`
      * `df['컬럼명'].map(딕셔너리)`

##### 💻 예시 코드 (Example Code)

In [65]:
import pandas as pd
import numpy as np
import os

# datasets 폴더 및 missing_data_practice.csv 파일 생성
if not os.path.exists('datasets'):
    os.makedirs('datasets')

data_missing = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace'],
    'age': [24, np.nan, 22, 30, 28, np.nan, 35],
    'score': [85.0, 90.0, np.nan, 78.0, 92.0, 88.0, np.nan],
    'grade': ['A', 'A+', 'B', np.nan, 'A+', 'B+', 'C'],
    'salary_str': ['50000', '65k', '58000', '72000', 'None', '60k', '80000']
}
df_m_data = pd.DataFrame(data_missing)
missing_csv_path = 'datasets/missing_data_practice.csv'
df_m_data.to_csv(missing_csv_path, index=False, encoding='utf-8-sig')
print(f"'{missing_csv_path}' 파일 생성 완료.")

'datasets/missing_data_practice.csv' 파일 생성 완료.


In [68]:
# 데이터 읽기
df_m = pd.read_csv(missing_csv_path)
print("원본 데이터 (결측값 포함):")
df_m

원본 데이터 (결측값 포함):


Unnamed: 0,name,age,score,grade,salary_str
0,Alice,24.0,85.0,A,50000
1,Bob,,90.0,A+,65k
2,Charlie,22.0,,B,58000
3,David,30.0,78.0,,72000
4,Eva,28.0,92.0,A+,
5,Frank,,88.0,B+,60k
6,Grace,35.0,,C,80000


In [89]:
# 컬럼별 결측값 개수
print("컬럼별 결측값 개수:")
df_m.isnull().sum()

컬럼별 결측값 개수:


Unnamed: 0,0
name,0
age,2
score,2
grade,1
salary_str,1


In [88]:
# 'age' 컬럼에 결측값이 있는 행 보기
print("'age' 컬럼에 결측값이 있는 행 보기:")
df_m[df_m['age'].isnull()]

'age' 컬럼에 결측값이 있는 행 보기:


Unnamed: 0,name,age,score,grade,salary_str
1,Bob,,90.0,A+,65k
5,Frank,,88.0,B+,60k


In [87]:
# 1. 'age' 결측값을 평균으로 채우기 (새로운 DataFrame에 저장)
df_m_filled_age = df_m.copy()
mean_age = df_m_filled_age['age'].mean()
df_m_filled_age['age'].fillna(mean_age, inplace=True)
print(f"'age' 결측값을 평균({mean_age:.2f})으로 채운 후")
df_m_filled_age

'age' 결측값을 평균(27.80)으로 채운 후


Unnamed: 0,name,age,score,grade,salary_str
0,Alice,24.0,85.0,A,50000
1,Bob,27.8,90.0,A+,65k
2,Charlie,22.0,,B,58000
3,David,30.0,78.0,,72000
4,Eva,28.0,92.0,A+,
5,Frank,27.8,88.0,B+,60k
6,Grace,35.0,,C,80000


In [75]:
# 2. 'score' 결측값이 있는 행 제거
df_m_dropped_score = df_m.dropna(subset=['score'])
print("\n'score' 결측값 행 제거 후")
df_m_dropped_score


'score' 결측값 행 제거 후


Unnamed: 0,name,age,score,grade,salary_str
0,Alice,24.0,85.0,A,50000
1,Bob,,90.0,A+,65k
3,David,30.0,78.0,,72000
4,Eva,28.0,92.0,A+,
5,Frank,,88.0,B+,60k


In [79]:
# 3. 'grade' 결측값을 'N/A'로 채우기 (df_m_filled_age DataFrame에 적용)
df_m_filled_age['grade'].fillna('N/A', inplace=True)
print("\n'grade' 결측값을 'N/A'로 채운 후 (df_m_filled_age):")
df_m_filled_age


'grade' 결측값을 'N/A'로 채운 후 (df_m_filled_age):


Unnamed: 0,name,age,score,grade,salary_str
0,Alice,24.0,85.0,A,50000
1,Bob,27.8,90.0,A+,65k
2,Charlie,22.0,,B,58000
3,David,30.0,78.0,,72000
4,Eva,28.0,92.0,A+,
5,Frank,27.8,88.0,B+,60k
6,Grace,35.0,,C,80000


In [80]:
# 'salary_str'을 숫자형으로 변환하는 함수 정의
def convert_salary(salary):
    if pd.isna(salary) or str(salary).lower() == 'none':
        return 0
    salary_val = str(salary).lower().replace('k', '000')
    try:
        return int(salary_val)
    except ValueError:
        return 0 # 변환 실패 시 0으로

df_m_types = df_m.copy() # 원본 데이터로 다시 시작
df_m_types['salary_numeric'] = df_m_types['salary_str'].apply(convert_salary)
print("\n'salary_str'을 'salary_numeric'로 변환 후")
df_m_types[['name', 'salary_str', 'salary_numeric']]


'salary_str'을 'salary_numeric'로 변환 후


Unnamed: 0,name,salary_str,salary_numeric
0,Alice,50000,50000
1,Bob,65k,65000
2,Charlie,58000,58000
3,David,72000,72000
4,Eva,,0
5,Frank,60k,60000
6,Grace,80000,80000


In [86]:
# 'age' 컬럼을 숫자형(정수)으로 변환 (결측값은 0으로 채움)
df_m_types['age'] = pd.to_numeric(df_m_types['age'], errors='coerce').fillna(0).astype(int)
print("'age' 컬럼 타입 변환 후")
df_m_types[['name', 'age']]


'age' 컬럼 타입 변환 후


Unnamed: 0,name,age
0,Alice,24
1,Bob,0
2,Charlie,22
3,David,30
4,Eva,28
5,Frank,0
6,Grace,35


In [85]:
print("변환 후 전체 데이터 타입")
df_m_types.dtypes

변환 후 전체 데이터 타입


Unnamed: 0,0
name,object
age,int64
score,float64
grade,object
salary_str,object
salary_numeric,int64


In [84]:
# 점수를 기준으로 Pass/Fail 결정하는 함수 정의
def pass_fail(score):
    if pd.isna(score):
        return 'Unknown'
    return 'Pass' if score >= 80 else 'Fail'

df_m_apply = df_m_types.copy() # 타입 변환된 데이터 사용
df_m_apply['pass_status'] = df_m_apply['score'].apply(pass_fail)
print("apply 예제 (pass_status 컬럼 생성)")
df_m_apply[['name', 'score', 'pass_status']]

apply 예제 (pass_status 컬럼 생성)


Unnamed: 0,name,score,pass_status
0,Alice,85.0,Pass
1,Bob,90.0,Pass
2,Charlie,,Unknown
3,David,78.0,Fail
4,Eva,92.0,Pass
5,Frank,88.0,Pass
6,Grace,,Unknown


In [125]:
# 행 전체에 apply (예: age와 salary_numeric의 합을 1000으로 나눈 값 - 결측값 고려)
df_m_apply['age_plus_salary_div_1000'] = df_m_apply.apply(
    lambda row: (row['age'] if pd.notna(row['age']) else 0) + \
                (row['salary_numeric']/1000 if pd.notna(row['salary_numeric']) else 0),
    axis=1
)
print("apply 예제 (행 단위 연산 - age_plus_salary_div_1000):")
df_m_apply[['name', 'age', 'salary_numeric', 'age_plus_salary_div_1000']]

apply 예제 (행 단위 연산 - age_plus_salary_div_1000):


Unnamed: 0,name,age,salary_numeric,age_plus_salary_div_1000
0,Alice,24,50000,74.0
1,Bob,0,65000,65.0
2,Charlie,22,58000,80.0
3,David,30,72000,102.0
4,Eva,28,0,28.0
5,Frank,0,60000,60.0
6,Grace,35,80000,115.0


In [126]:
# grade를 점수 구간으로 매핑하는 딕셔너리
grade_map_dict = {'A+': 4.5, 'A': 4.0, 'B+': 3.5, 'B': 3.0, 'C': 2.0}
df_m_map = df_m_apply.copy() # 앞선 apply 결과 사용

# map 적용 전 'grade' 컬럼의 결측값을 'Unknown' 등으로 채우기 (선택적)
df_m_map['grade'] = df_m_map['grade'].fillna('Unknown')
df_m_map['gpa'] = df_m_map['grade'].map(grade_map_dict).fillna(0.0) # 매핑 안된 값은 0.0
print("map 예제 (gpa 컬럼 생성):")
df_m_map[['name', 'grade', 'gpa']]

map 예제 (gpa 컬럼 생성):


Unnamed: 0,name,grade,gpa
0,Alice,A,4.0
1,Bob,A+,4.5
2,Charlie,B,3.0
3,David,Unknown,0.0
4,Eva,A+,4.5
5,Frank,B+,3.5
6,Grace,C,2.0


##### ✏️ 연습 문제 (Practice Problems)

1.  위 예제에서 사용한 `datasets/missing_data_practice.csv` 파일을 읽어 `df_ex1`로 저장하세요.

      * 'score' 컬럼의 결측값을 'score' 컬럼의 \*\*중앙값(median)\*\*으로 채우세요.
      * 'grade' 컬럼의 결측값이 있는 행만 선택하여 출력하세요.
      * 모든 결측값을 0으로 채운 새로운 DataFrame `df_ex1_filled_zero`를 만들고 첫 3행을 출력하세요.

In [None]:
# 연습 문제 1번 풀이 공간

2.  `datasets/missing_data_practice.csv`에서 `df_ex2`로 데이터를 읽으세요.

      * `apply`를 사용하여 'age' 컬럼의 각 나이에 10을 더한 'age\_plus\_10' 컬럼을 새로 만드세요. (결측값은 그대로 결측값 유지)
      * 'name' 컬럼의 각 이름의 길이를 구하여 'name\_length'라는 새 컬럼을 만드세요. (힌트: `lambda`와 `len()` 사용, 이름이 문자열이 아닐 경우 처리)
      * `map`을 사용하여 'grade'가 'A' 또는 'A+'이면 'Excellent', 'B' 또는 'B+'이면 'Good', 그 외 (결측 포함)는 'Needs Improvement'로 매핑하는 'performance' 컬럼을 만드세요.

In [None]:
# 연습 문제 2번 풀이 공간