## Pandas 기본

In [2]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

2.3.0
2.2.6


In [26]:
# 경고 메세지 출력 안함
import warnings
warnings.filterwarnings(action='ignore')

### Series

In [13]:
# Series 생성
s1 = pd.Series([1, 3, 5, 7, 9])
print(s1)

# 인덱스 지정
s2 = pd.Series([10, 20, 30, 40, 50],
               index=['a', 'b', 'c', 'd', 'e'])
print(s2)

# dict으로 생성
data_dict = {'서울': 9776000, '부산': 3419000, '대구': 2438000}
s3 = pd.Series(data_dict)
print(s3)

0    1
1    3
2    5
3    7
4    9
dtype: int64
a    10
b    20
c    30
d    40
e    50
dtype: int64
서울    9776000
부산    3419000
대구    2438000
dtype: int64


In [27]:
# Series 인덱싱
print(s2['c'])

30


In [14]:
# Series 기본 속성
print(s3.dtype)
print(s3.index)
print(s3.values)
print(s3.size)
print(s3.shape) # 열 x

int64
Index(['서울', '부산', '대구'], dtype='object')
[9776000 3419000 2438000]
3
(3,)


In [15]:
# 기본 통계 정보
print(f"{s3.mean():,.0f}")
print(f"{s3.max():,.0f}")
print(f"{s3.min():,.0f}")

5,211,000
9,776,000
2,438,000


### DataFrame

In [17]:
# DataFrame 생성
# 데이터셋 불러오기
df = pd.read_csv('datasets/employees.csv')

print(df)

    이름  나이  도시    연봉   부서         입사일
0  김철수  25  서울  3500   개발  2020-01-31
1  이영희  30  부산  4200  마케팅  2020-04-30
2  박민수  35  대구  4800   개발  2020-07-31
3  최지영  28  인천  3800   인사  2020-10-31
4  정다은  32  광주  4100  마케팅  2021-01-31
5  장민호  29  서울  3900   개발  2021-04-30
6  윤서연  26  부산  3600  디자인  2021-07-31
7  임준혁  33  대전  5200   개발  2021-10-31
8  송하늘  31  울산  4500   영업  2022-01-31
9  조은비  27  서울  3700   인사  2022-04-30


In [19]:
# 인덱스 설정
df_indexed = df.set_index('이름')
df_indexed.head()

Unnamed: 0_level_0,나이,도시,연봉,부서,입사일
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
김철수,25,서울,3500,개발,2020-01-31
이영희,30,부산,4200,마케팅,2020-04-30
박민수,35,대구,4800,개발,2020-07-31
최지영,28,인천,3800,인사,2020-10-31
정다은,32,광주,4100,마케팅,2021-01-31


In [23]:
# 기본 정보 확인
print(df.shape)
print(list(df.columns))
print(list(df.index))
print(df.dtypes)

(10, 6)
['이름', '나이', '도시', '연봉', '부서', '입사일']
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
이름     object
나이      int64
도시     object
연봉      int64
부서     object
입사일    object
dtype: object


In [24]:
# 처음 / 마지막 행 확인
print(df.head())
print(df.tail(2))

    이름  나이  도시    연봉   부서         입사일
0  김철수  25  서울  3500   개발  2020-01-31
1  이영희  30  부산  4200  마케팅  2020-04-30
2  박민수  35  대구  4800   개발  2020-07-31
3  최지영  28  인천  3800   인사  2020-10-31
4  정다은  32  광주  4100  마케팅  2021-01-31
    이름  나이  도시    연봉  부서         입사일
8  송하늘  31  울산  4500  영업  2022-01-31
9  조은비  27  서울  3700  인사  2022-04-30


In [28]:
# 정보 요약
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      10 non-null     object
 1   나이      10 non-null     int64 
 2   도시      10 non-null     object
 3   연봉      10 non-null     int64 
 4   부서      10 non-null     object
 5   입사일     10 non-null     object
dtypes: int64(2), object(4)
memory usage: 612.0+ bytes


In [25]:
# 기술 통계 정보
df.describe()

Unnamed: 0,나이,연봉
count,10.0,10.0
mean,29.6,4130.0
std,3.204164,553.875237
min,25.0,3500.0
25%,27.25,3725.0
50%,29.5,4000.0
75%,31.75,4425.0
max,35.0,5200.0


### 데이터 읽기/쓰기

In [29]:
import pandas as pd
import os

# datasets 폴더가 없으면 생성
if not os.path.exists('datasets'):
    os.makedirs('datasets')

In [30]:
sample_data = {
    '제품ID': [101, 102, 103, 104, 105],
    '제품명': ['노트북', '키보드', '마우스', '모니터', '태블릿'],
    '가격': [1200000, 50000, 25000, 300000, 450000],
    '카테고리': ['PC', '주변기기', '주변기기', 'PC', '모바일']
}
df_products_sample = pd.DataFrame(sample_data)

In [31]:
# csv 파일 저장
csv_file_path = 'datasets/sample_products.csv'
df_products_sample.to_csv(csv_file_path, index=False, encoding='utf-8-sig')
print(f"'{csv_file_path}' 파일이 저장되었습니다.")

'datasets/sample_products.csv' 파일이 저장되었습니다.


In [32]:
# csv 파일 읽기
df_from_csv = pd.read_csv(csv_file_path)
df_from_csv.head()

Unnamed: 0,제품ID,제품명,가격,카테고리
0,101,노트북,1200000,PC
1,102,키보드,50000,주변기기
2,103,마우스,25000,주변기기
3,104,모니터,300000,PC
4,105,태블릿,450000,모바일


In [None]:
!pip install openpyxl

In [35]:
# excel 파일 저장
excel_file_path = 'datasets/sample_products.xlsx'
df_products_sample.to_excel(excel_file_path, index=False, sheet_name='제품 정보')
print(f"'{excel_file_path}' 파일이 저장되었습니다.")

'datasets/sample_products.xlsx' 파일이 저장되었습니다.


In [36]:
# excel 파일 읽기
df_from_excel = pd.read_excel(excel_file_path, sheet_name='제품 정보')
df_from_excel.head()

Unnamed: 0,제품ID,제품명,가격,카테고리
0,101,노트북,1200000,PC
1,102,키보드,50000,주변기기
2,103,마우스,25000,주변기기
3,104,모니터,300000,PC
4,105,태블릿,450000,모바일


### 기본 데이터 조작

In [38]:
df = pd.read_csv('datasets/employees_practice.csv')
df.head()

Unnamed: 0,이름,부서,연봉,나이,도시
0,민준,영업,4500,30,서울
1,서연,마케팅,5200,35,부산
2,도윤,개발,6000,28,서울
3,하은,영업,4800,32,인천
4,지호,개발,5500,29,대전


In [39]:
# 단일 컬럼 선택 (Series)
names = df['이름']
names

0    민준
1    서연
2    도윤
3    하은
4    지호
5    유나
Name: 이름, dtype: object

In [40]:
# 여러 컬럼 선택
name_dept = df[['이름', '부서']]
name_dept.head()

Unnamed: 0,이름,부서
0,민준,영업
1,서연,마케팅
2,도윤,개발
3,하은,영업
4,지호,개발


In [41]:
# '고연봉자' 컬럼 추가 (연봉 > 5000)
df['고연봉자'] = df['연봉'] > 5000
df.head()

Unnamed: 0,이름,부서,연봉,나이,도시,고연봉자
0,민준,영업,4500,30,서울,False
1,서연,마케팅,5200,35,부산,True
2,도윤,개발,6000,28,서울,True
3,하은,영업,4800,32,인천,False
4,지호,개발,5500,29,대전,True


In [42]:
# '부서'가 '마케팅'인 직원 선택
marketing_team = df[df['부서'] == '마케팅']
marketing_team

Unnamed: 0,이름,부서,연봉,나이,도시,고연봉자
1,서연,마케팅,5200,35,부산,True
5,유나,마케팅,5000,33,서울,False


In [43]:
# 다중 조건 &, |
seoul_high_salary = df[(df['도시'] == '서울') & (df['연봉'] > 5000)]
seoul_high_salary

Unnamed: 0,이름,부서,연봉,나이,도시,고연봉자
2,도윤,개발,6000,28,서울,True


In [44]:
# isin() - '개발' 또는 '영업'인 직원
dev_or_sales = df[df['부서'].isin(['개발', '영업'])]
dev_or_sales.head()

Unnamed: 0,이름,부서,연봉,나이,도시,고연봉자
0,민준,영업,4500,30,서울,False
2,도윤,개발,6000,28,서울,True
3,하은,영업,4800,32,인천,False
4,지호,개발,5500,29,대전,True


In [45]:
# 내림차순 정렬
df_sorted_salary = df.sort_values(by='연봉', ascending=False)
df_sorted_salary.head()

Unnamed: 0,이름,부서,연봉,나이,도시,고연봉자
2,도윤,개발,6000,28,서울,True
4,지호,개발,5500,29,대전,True
1,서연,마케팅,5200,35,부산,True
5,유나,마케팅,5000,33,서울,False
3,하은,영업,4800,32,인천,False


In [46]:
# 부서 - 오름차순, 나이 - 오름차순
df_sorted_dept_age = df.sort_values(by=['부서', '나이'], ascending=[True, True])
df_sorted_dept_age.head()

Unnamed: 0,이름,부서,연봉,나이,도시,고연봉자
2,도윤,개발,6000,28,서울,True
4,지호,개발,5500,29,대전,True
5,유나,마케팅,5000,33,서울,False
1,서연,마케팅,5200,35,부산,True
0,민준,영업,4500,30,서울,False


## 중급

### 인덱싱과 선택

In [48]:
df_s = pd.read_csv('datasets/sales_data_practice.csv', parse_dates=['date'])
df_s = df_s.set_index('date')
df_s.head()

Unnamed: 0_level_0,region,product,quantity,unit_price,total_amount
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2024-01-01,서울,A,10,1000,10000
2024-01-01,부산,B,5,2500,12500
2024-01-02,서울,A,8,1000,8000
2024-01-02,인천,C,12,1200,14400
2024-01-03,부산,B,7,2500,17500


In [49]:
# .loc[행(인덱스명), 열(컬럼명)]
df_s.loc['2024-01-02']

Unnamed: 0_level_0,region,product,quantity,unit_price,total_amount
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2024-01-02,서울,A,8,1000,8000
2024-01-02,인천,C,12,1200,14400


In [50]:
# 특정 날짜 범위와 컬럼 선택
df_s.loc['2024-01-01':'2024-01-02', ['region', 'total_amount']]

Unnamed: 0_level_0,region,total_amount
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2024-01-01,서울,10000
2024-01-01,부산,12500
2024-01-02,서울,8000
2024-01-02,인천,14400


In [51]:
# 조건에 맞는 행의 특정 컬럼 선택
df_s.loc[df_s['region'] == '서울', ['product', 'quantity']]

Unnamed: 0_level_0,product,quantity
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2024-01-01,A,10
2024-01-02,A,8
2024-01-03,C,15


In [52]:
# .iloc[] 인덱스 정수 기반 특정 데이터 선택
# 첫 번째 행
df_s.iloc[0]

region             서울
product             A
quantity           10
unit_price       1000
total_amount    10000
Name: 2024-01-01 00:00:00, dtype: object

In [54]:
# 슬라이싱
df_s.iloc[:3, :2]

Unnamed: 0_level_0,region,product
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2024-01-01,서울,A
2024-01-01,부산,B
2024-01-02,서울,A


In [55]:
# 특정 위치 값들
df_s.iloc[[0, 2], [1, 3]]

Unnamed: 0_level_0,product,unit_price
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2024-01-01,A,1000
2024-01-02,A,1000


In [56]:
# query() : 문자열 형태로 조건을 작성하여 데이터 필터링
df_s.query('quantity > 10')

Unnamed: 0_level_0,region,product,quantity,unit_price,total_amount
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2024-01-02,인천,C,12,1200,14400
2024-01-03,서울,C,15,1200,18000
2024-01-04,부산,A,11,1000,11000


In [57]:
# 지역이 '부산'이고 총액이 15000 이상
df_s.query('region == "부산" and total_amount >= 15000')

Unnamed: 0_level_0,region,product,quantity,unit_price,total_amount
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2024-01-03,부산,B,7,2500,17500


In [58]:
# 변수 사용 - @변수명
min_qty = 8
target_product = 'A'
df_s.query('quantity > @min_qty and product == @target_product')

Unnamed: 0_level_0,region,product,quantity,unit_price,total_amount
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2024-01-01,서울,A,10,1000,10000
2024-01-04,인천,A,9,1000,9000
2024-01-04,부산,A,11,1000,11000


### 데이터 정제와 변환

In [60]:
df_m = pd.read_csv('datasets/missing_data_practice.csv')
df_m.head()

Unnamed: 0,name,age,score,grade,salary_str
0,Alice,24.0,85.0,A,50000
1,Bob,,90.0,A+,65k
2,Charlie,22.0,,B,58000
3,David,30.0,78.0,,72000
4,Eva,28.0,92.0,A+,


In [61]:
# 결측치 확인
df_m.isnull().sum()

name          0
age           2
score         2
grade         1
salary_str    1
dtype: int64

In [62]:
# 특정 컬럼에 결측값이 있는 행 보기
df_m[df_m['age'].isnull()]

Unnamed: 0,name,age,score,grade,salary_str
1,Bob,,90.0,A+,65k
5,Frank,,88.0,B+,60k


In [65]:
# fillna() : 결측치를 평균으로 채우기 -> 새로운 DataFrame에 저장
df_m_filled_age = df_m.copy()

mean_age = df_m_filled_age['age'].mean()
df_m_filled_age['age'].fillna(mean_age, inplace=True) # df에 반영

df_m_filled_age['grade'].fillna('N/A', inplace=True)
df_m_filled_age

Unnamed: 0,name,age,score,grade,salary_str
0,Alice,24.0,85.0,A,50000
1,Bob,27.8,90.0,A+,65k
2,Charlie,22.0,,B,58000
3,David,30.0,78.0,,72000
4,Eva,28.0,92.0,A+,
5,Frank,27.8,88.0,B+,60k
6,Grace,35.0,,C,80000


In [64]:
# dropna() : 결측치가 있는 행 제거
df_m_dropped_score = df_m.dropna(subset=['score'])
df_m_dropped_score

Unnamed: 0,name,age,score,grade,salary_str
0,Alice,24.0,85.0,A,50000
1,Bob,,90.0,A+,65k
3,David,30.0,78.0,,72000
4,Eva,28.0,92.0,A+,
5,Frank,,88.0,B+,60k
