In [1]:
import numpy as np
import pandas as pd

### 시리즈 (Series)

In [2]:
s = pd.Series([1, np.nan, 3.5])
s

0    1.0
1    NaN
2    3.5
dtype: float64

### 데이터프레임 (DataFrame)

- 데이터프레임 관리

In [13]:
df = pd.DataFrame({
  'country' : ['Korea', 'UK', 'Thailand'],
  'city' : ['Seoul', 'London', 'Bangkok'],
  'population' : [51, 69, 71]
})
df

Unnamed: 0,country,city,population
0,Korea,Seoul,51
1,UK,London,69
2,Thailand,Bangkok,71


In [5]:
# 데이터프레임 정보
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   country     3 non-null      object
 1   city        3 non-null      object
 2   population  3 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes


In [None]:
# 기초 통계정보 출력
df.describe()

Unnamed: 0,population
count,3.0
mean,63.666667
std,11.015141
min,51.0
25%,60.0
50%,69.0
75%,70.0
max,71.0


In [14]:
# 행 기준(위/아래)으로 합치기 (ignore_index=True 기존 인덱스 무시)
row_data = pd.DataFrame({
  'country' : ['USA', 'China'],
  'city' : ['Washington DC', 'Beijing'],
  'population' : [347, 1416]
})

df = pd.concat([df, row_data], ignore_index=True)
df

Unnamed: 0,country,city,population
0,Korea,Seoul,51
1,UK,London,69
2,Thailand,Bangkok,71
3,USA,Washington DC,347
4,China,Beijing,1416


In [15]:
# 열 기준(옆)으로 합치기
column_data = pd.DataFrame({
    'country' : ['Korea', 'UK'],
    'language' : ['Korean', 'English']
})

df = pd.merge(df, column_data, on='country')
df

Unnamed: 0,country,city,population,language
0,Korea,Seoul,51,Korean
1,UK,London,69,English


- 행/열 관리

In [40]:
df = pd.DataFrame({
    'month' : [3, 7, 12],
    'stone' : ['Aquamarine', 'Ruby', 'Topaz']
})
df

Unnamed: 0,month,stone
0,3,Aquamarine
1,7,Ruby
2,12,Topaz


In [26]:
# 행 인덱스 정보
df.index

RangeIndex(start=0, stop=3, step=1)

In [27]:
# 열 인덱스 정보
df.columns

Index(['month', 'stone'], dtype='object')

In [28]:
# 열 데이터 타입 정보
df.dtypes

month     int64
stone    object
dtype: object

In [41]:
# 2번째 행(인덱스 1)의 이름을 '7월 탄생석' 으로 변경
df.rename(index={1 : '7월 탄생석'})

Unnamed: 0,month,stone
0,3,Aquamarine
7월 탄생석,7,Ruby
2,12,Topaz


In [42]:
# 'month' 열의 이름을 'birthmonth' 로 변경 (inplace=True 덮어쓰기)
df.rename(columns={'month' : 'birthmonth'}, inplace=True)
df

Unnamed: 0,birthmonth,stone
0,3,Aquamarine
1,7,Ruby
2,12,Topaz


In [43]:
# 마지막 행(인덱스 2) 삭제 (inplace=True 덮어쓰기)
df.drop(2, inplace=True)
df

Unnamed: 0,birthmonth,stone
0,3,Aquamarine
1,7,Ruby


In [45]:
# 'stone' 열 삭제
df.drop(columns='stone')
df

Unnamed: 0,birthmonth,stone
0,3,Aquamarine
1,7,Ruby


- 데이터 조회

In [57]:
df = pd.DataFrame({
    'name' : ['Emily', 'Cillian', 'Joan', 'Nicholas'],
    'role' : ['AA', 'DA', 'TA', 'QA'],
    'salary' : [650, 700, 800, 400]
})
df

Unnamed: 0,name,role,salary
0,Emily,AA,650
1,Cillian,DA,700
2,Joan,TA,800
3,Nicholas,QA,400


In [47]:
# 첫 행부터 5개 출력
df.head()

Unnamed: 0,name,role,salary
0,Emily,AA,650
1,Cillian,DA,700
2,Joan,TA,800
3,Nicholas,QA,400


In [48]:
# 마지막 행부터 5개 출력
df.tail()

Unnamed: 0,name,role,salary
0,Emily,AA,650
1,Cillian,DA,700
2,Joan,TA,800
3,Nicholas,QA,400


In [53]:
# 'DA' 업무를 하는 사람의 급여 조회

# 행/열 인덱스로 추출 (iloc)
df.iloc[1, 2]

# 행/열 이름(라벨)으로 추출 (loc)
df.loc[1, 'salary']

np.int64(700)

In [54]:
# 'Cillian', 'Joan' 의 역할과 급여 조회

# 행/열 인덱스로 추출 (iloc)
df.iloc[1:3, 1:]

# 행/열 이름(라벨)으로 추출 (loc)
df.loc[1:2, 'role':'salary']

Unnamed: 0,role,salary
1,DA,700
2,TA,800


In [55]:
# 급여가 500 이상 700 이하인 사람 조회
df[(df['salary'] >= 500) & (df['salary'] <= 700)]

Unnamed: 0,name,role,salary
0,Emily,AA,650
1,Cillian,DA,700


In [56]:
# 'AA' 업무 또는 'QA' 업무를 하는 사람 조회
df[df['role'].isin(['AA', 'QA'])]

Unnamed: 0,name,role,salary
0,Emily,AA,650
3,Nicholas,QA,400


- 데이터 관리

In [73]:
df = pd.DataFrame({
  'teacher' : ['T-01', 'T-02', 'T-03', 'T-04'],
  'subject' : ['English', 'Math', 'Science', 'Music'],
  'nationality' : ['British', np.nan, 'German', 'British'],
  'rate' : [1.3, 4, 2.7, 5],
})
df

Unnamed: 0,teacher,subject,nationality,rate
0,T-01,English,British,1.3
1,T-02,Math,,4.0
2,T-03,Science,German,2.7
3,T-04,Music,British,5.0


In [74]:
# 데이터 고유값 종류
df['nationality'].unique()

array(['British', nan, 'German'], dtype=object)

In [75]:
# 데이터 고유값별 갯수
df['nationality'].value_counts()

nationality
British    2
German     1
Name: count, dtype: int64

In [76]:
# 평점 평균값
df['rate'].mean()

np.float64(3.25)

In [77]:
# 같은 국적의 강사 평점 총합
df.groupby('nationality')['rate'].sum()

nationality
British    6.3
German     2.7
Name: rate, dtype: float64

In [78]:
# 평점 높은순으로 정렬
df.sort_values('rate', ascending=False)

Unnamed: 0,teacher,subject,nationality,rate
3,T-04,Music,British,5.0
1,T-02,Math,,4.0
2,T-03,Science,German,2.7
0,T-01,English,British,1.3


In [79]:
# Null값 확인 - Boolean 타입으로 출력
df.isnull()

Unnamed: 0,teacher,subject,nationality,rate
0,False,False,False,False
1,False,False,True,False
2,False,False,False,False
3,False,False,False,False


In [80]:
# Null값 갯수 확인 - 출력된 Boolean 타입 갯수 합 출력
df.isnull().sum()

teacher        0
subject        0
nationality    1
rate           0
dtype: int64

In [81]:
# Null값을 'Korean' 으로 채우기 (inplace=True 덮어쓰기)
df.fillna('Korean', inplace=True)
df

Unnamed: 0,teacher,subject,nationality,rate
0,T-01,English,British,1.3
1,T-02,Math,Korean,4.0
2,T-03,Science,German,2.7
3,T-04,Music,British,5.0


In [82]:
# 평점 데이터 이전 값과의 차이 구하기
df['rate'].diff()

0    NaN
1    2.7
2   -1.3
3    2.3
Name: rate, dtype: float64

In [83]:
# 입사일자 추가
df['startdate'] = ['2020-01-01', '2015-05-01', '2023-07-01', '2025-01-01']
df

Unnamed: 0,teacher,subject,nationality,rate,startdate
0,T-01,English,British,1.3,2020-01-01
1,T-02,Math,Korean,4.0,2015-05-01
2,T-03,Science,German,2.7,2023-07-01
3,T-04,Music,British,5.0,2025-01-01


In [84]:
# 강사 국적에 따른 국가명 열 추가 - map(매핑될 요소 - 딕셔너리, 함수, ...)
country = {
    'British' : 'UK',
    'Korean' : 'Korea',
    'German' : 'Germany'
}

df['country'] = df['nationality'].map(country)
df

Unnamed: 0,teacher,subject,nationality,rate,startdate,country
0,T-01,English,British,1.3,2020-01-01,UK
1,T-02,Math,Korean,4.0,2015-05-01,Korea
2,T-03,Science,German,2.7,2023-07-01,Germany
3,T-04,Music,British,5.0,2025-01-01,UK


In [85]:
# 평점 표기 변경 - apply(lambda 입력변수 : 리턴값)
df['rate'] = df['rate'].apply(lambda rate : f'{rate}점')
df

Unnamed: 0,teacher,subject,nationality,rate,startdate,country
0,T-01,English,British,1.3점,2020-01-01,UK
1,T-02,Math,Korean,4.0점,2015-05-01,Korea
2,T-03,Science,German,2.7점,2023-07-01,Germany
3,T-04,Music,British,5.0점,2025-01-01,UK
