In [3]:
import pandas as pd
import numpy as np
import random
from faker import Faker

In [None]:
# %pip install faker

## 시리즈 생성과 구조

In [5]:
index = [letter for letter in 'abcde']
values = list(range(5))

print(index)
print(values)

['a', 'b', 'c', 'd', 'e']
[0, 1, 2, 3, 4]


In [6]:
series = pd.Series(values, index=index)

series

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [7]:
values[0] == series[0]
values[0] == series['a']

True

In [8]:
py_dict = dict(zip(index, values))
py_dict

{'a': 0, 'b': 1, 'c': 2, 'd': 3, 'e': 4}

In [9]:
series_dict = pd.Series(py_dict)
series_dict

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [10]:
py_dict.values() == series_dict # 딕셔너리는 순서가 없기 때문에 

a    False
b    False
c    False
d    False
e    False
dtype: bool

In [11]:
list(py_dict.values()) == series_dict

a    True
b    True
c    True
d    True
e    True
dtype: bool

## 시리즈 인덱싱과 슬라이싱

In [12]:
random_seed = 42

In [13]:
fake = Faker('ko_KR')
Faker.seed(random_seed)

names = [fake.name() for _ in range(10)]
ages = [random.randint(25, 50) for _ in range(10)]
index = [chr(ord('A') + i) for i in range(10)]
print(names)
print(ages)
print(index)


['김수민', '서정남', '김영자', '김영일', '김재호', '김은서', '김지원', '이민지', '이미숙', '홍예준']
[32, 37, 33, 32, 35, 32, 31, 31, 25, 48]
['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J']


In [14]:
ns = pd.Series(names, index=index)
ns

A    김수민
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    이미숙
J    홍예준
dtype: object

In [15]:
print("ns['D']:", ns['D'])
print('ns[2]:', ns[2])

print("ns.loc['D']:", ns.loc['D'])
print("ns.iloc[2]:", ns.iloc[2])

print("ns.at['D']:", ns.at['D'])
print("ns.iat[2]:", ns.iat[2])

ns['D']: 김영일
ns[2]: 김영자
ns.loc['D']: 김영일
ns.iloc[2]: 김영자
ns.at['D']: 김영일
ns.iat[2]: 김영자


In [16]:
tmp = pd.Series(names[:3], index=[0, 2, 5])
display(tmp)
print('tmp[0]:', tmp[0]) # 김수민
print('tmp.loc[2]:', tmp.loc[2]) # 서정남
print('tmp.iloc[2]:', tmp.iloc[2]) # 김영자
print('tmp[2]:', tmp[2]) # 라벨기반인지 정수기반의 인덱스인지 확실하게 해주는 loc, iloc 필요

0    김수민
2    서정남
5    김영자
dtype: object

tmp[0]: 김수민
tmp.loc[2]: 서정남
tmp.iloc[2]: 김영자
tmp[2]: 서정남


In [17]:
print("ns.loc['B':'E']:")
print(ns.loc['B':'E'])

print("ns.iloc[1:5]:")
print(ns.iloc[1:5])

print("ns['B':'E']:")
print(ns['B':'E'])

ns.loc['B':'E']:
B    서정남
C    김영자
D    김영일
E    김재호
dtype: object
ns.iloc[1:5]:
B    서정남
C    김영자
D    김영일
E    김재호
dtype: object
ns['B':'E']:
B    서정남
C    김영자
D    김영일
E    김재호
dtype: object


## 시리즈 속성

In [18]:
ns

A    김수민
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    이미숙
J    홍예준
dtype: object

In [19]:
ns.index

Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], dtype='object')

In [20]:
ns.values

array(['김수민', '서정남', '김영자', '김영일', '김재호', '김은서', '김지원', '이민지', '이미숙',
       '홍예준'], dtype=object)

In [21]:
ns.dtype

dtype('O')

In [22]:
ns.shape

(10,)

In [23]:
ns.size

10

In [24]:
ns.hasnans
ns[0] = np.nan
print(ns)
ns.hasnans

A    NaN
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    이미숙
J    홍예준
dtype: object


True

In [25]:
ns.is_unique
ns['I':'J'] = '강상구'
print(ns)
ns.is_unique

A    NaN
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    강상구
J    강상구
dtype: object


False

In [26]:
ns.name = '시리즈 테스트 - 이름'
ns

A    NaN
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    강상구
J    강상구
Name: 시리즈 테스트 - 이름, dtype: object

## 시리즈 기능

In [27]:
display(ns.head())
display(ns.tail())

A    NaN
B    서정남
C    김영자
D    김영일
E    김재호
Name: 시리즈 테스트 - 이름, dtype: object

F    김은서
G    김지원
H    이민지
I    강상구
J    강상구
Name: 시리즈 테스트 - 이름, dtype: object

In [28]:
ns.head(12)

A    NaN
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    강상구
J    강상구
Name: 시리즈 테스트 - 이름, dtype: object

In [29]:
ns.unique()

array([nan, '서정남', '김영자', '김영일', '김재호', '김은서', '김지원', '이민지', '강상구'],
      dtype=object)

In [30]:
print(ns.duplicated(keep="first")) # default
print(ns.duplicated(keep="last"))
print(ns.duplicated(keep=False))

A    False
B    False
C    False
D    False
E    False
F    False
G    False
H    False
I    False
J     True
Name: 시리즈 테스트 - 이름, dtype: bool
A    False
B    False
C    False
D    False
E    False
F    False
G    False
H    False
I     True
J    False
Name: 시리즈 테스트 - 이름, dtype: bool
A    False
B    False
C    False
D    False
E    False
F    False
G    False
H    False
I     True
J     True
Name: 시리즈 테스트 - 이름, dtype: bool


In [31]:
ns.value_counts()

시리즈 테스트 - 이름
강상구    2
서정남    1
김영자    1
김영일    1
김재호    1
김은서    1
김지원    1
이민지    1
Name: count, dtype: int64

In [32]:
ns.value_counts(dropna=False, ascending=False)

시리즈 테스트 - 이름
강상구    2
NaN    1
서정남    1
김영자    1
김영일    1
김재호    1
김은서    1
김지원    1
이민지    1
Name: count, dtype: int64

In [33]:
ns.value_counts(dropna=False, sort=False)

시리즈 테스트 - 이름
NaN    1
서정남    1
김영자    1
김영일    1
김재호    1
김은서    1
김지원    1
이민지    1
강상구    2
Name: count, dtype: int64

In [34]:
ns.value_counts(normalize=True, dropna=False, ascending=False)

시리즈 테스트 - 이름
강상구    0.2
NaN    0.1
서정남    0.1
김영자    0.1
김영일    0.1
김재호    0.1
김은서    0.1
김지원    0.1
이민지    0.1
Name: proportion, dtype: float64

In [35]:
ns.sort_values() # 원본에 영향을 끼치지 않음

I    강상구
J    강상구
D    김영일
C    김영자
F    김은서
E    김재호
G    김지원
B    서정남
H    이민지
A    NaN
Name: 시리즈 테스트 - 이름, dtype: object

In [36]:
# 원본을 바꾸는 방법
# ns.sort_values(inplace=True)
sorted_ns = ns.sort_values(na_position='first') # default = 'last'
sorted_ns

A    NaN
I    강상구
J    강상구
D    김영일
C    김영자
F    김은서
E    김재호
G    김지원
B    서정남
H    이민지
Name: 시리즈 테스트 - 이름, dtype: object

In [37]:
ns.describe() # 통계 요약을 해줌

count       9
unique      8
top       강상구
freq        2
Name: 시리즈 테스트 - 이름, dtype: object

In [38]:
ages_sr = pd.Series(ages, index=index)
ages_sr

A    32
B    37
C    33
D    32
E    35
F    32
G    31
H    31
I    25
J    48
dtype: int64

In [39]:
ages_sr.sort_values().values

array([25, 31, 31, 32, 32, 32, 33, 35, 37, 48])

In [40]:
ages_sr.describe()

count    10.000000
mean     33.600000
std       5.929212
min      25.000000
25%      31.250000
50%      32.000000
75%      34.500000
max      48.000000
dtype: float64

In [41]:
ages_sr

A    32
B    37
C    33
D    32
E    35
F    32
G    31
H    31
I    25
J    48
dtype: int64

In [42]:
ages_sr.idxmax()

'J'

In [43]:
ages_sr['A'] = 50
ages_sr.idxmax()

'A'

In [44]:
ages_sr.idxmin()

'I'

In [45]:
ages_sr.isin([27])
ages_sr.isin([27, 50])

A     True
B    False
C    False
D    False
E    False
F    False
G    False
H    False
I    False
J    False
dtype: bool

In [46]:
def square(x):
    return x**2

squared = ages_sr.apply(square) # 원본데이터에 영향을 미치지 않음
squared

A    2500
B    1369
C    1089
D    1024
E    1225
F    1024
G     961
H     961
I     625
J    2304
dtype: int64

In [47]:
ages_sr.apply(lambda x: x+100) 

A    150
B    137
C    133
D    132
E    135
F    132
G    131
H    131
I    125
J    148
dtype: int64

In [48]:
ages_sr.add(150)

A    200
B    187
C    183
D    182
E    185
F    182
G    181
H    181
I    175
J    198
dtype: int64

In [49]:
ns.add(' 님') # 시리즈 안에 숫자와 문자가 공존할 때 add func 사용 불가

A      NaN
B    서정남 님
C    김영자 님
D    김영일 님
E    김재호 님
F    김은서 님
G    김지원 님
H    이민지 님
I    강상구 님
J    강상구 님
Name: 시리즈 테스트 - 이름, dtype: object

In [50]:
ns.str.contains('강')

A      NaN
B    False
C    False
D    False
E    False
F    False
G    False
H    False
I     True
J     True
Name: 시리즈 테스트 - 이름, dtype: object

In [51]:
ns.str.contains('.') # 정규표현식

A     NaN
B    True
C    True
D    True
E    True
F    True
G    True
H    True
I    True
J    True
Name: 시리즈 테스트 - 이름, dtype: object

In [52]:
ns.str.contains('.', regex=False)

A      NaN
B    False
C    False
D    False
E    False
F    False
G    False
H    False
I    False
J    False
Name: 시리즈 테스트 - 이름, dtype: object

## 데이터프레임 생성과 구조

In [53]:
names_sr = pd.Series(names, index=index, name='이름')
ages_sr = pd.Series(ages, index=index, name='나이')
display(names_sr)
display(ages_sr)

A    김수민
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    이미숙
J    홍예준
Name: 이름, dtype: object

A    32
B    37
C    33
D    32
E    35
F    32
G    31
H    31
I    25
J    48
Name: 나이, dtype: int64

In [55]:
df1 = pd.DataFrame(names_sr)
df1

Unnamed: 0,이름
A,김수민
B,서정남
C,김영자
D,김영일
E,김재호
F,김은서
G,김지원
H,이민지
I,이미숙
J,홍예준


In [56]:
# df1['나이'] = ages (배열을 바로 할당도 가능)
df1['나이'] = ages_sr
df1

Unnamed: 0,이름,나이
A,김수민,32
B,서정남,37
C,김영자,33
D,김영일,32
E,김재호,35
F,김은서,32
G,김지원,31
H,이민지,31
I,이미숙,25
J,홍예준,48


In [57]:
extended_ages = [14, 15, *ages]
extended_ages

[14, 15, 32, 37, 33, 32, 35, 32, 31, 31, 25, 48]

In [58]:
df1['나이2'] = extended_ages # 기존 행의 개수와 길이가 다른 배열을 넣으려고 시도하면 에러가 남
df1

ValueError: Length of values (12) does not match length of index (10)

In [59]:
jobs = [fake.job() for _ in range(10)]
jobs

['주유원',
 '환경/청소 및 경비 관련 관리자',
 '금속기계부품 조립원',
 '기타 음식서비스 종사원',
 '모피 및 가죽의복 제조원',
 '선장/항해사 및 도선사',
 '보험 심사원 및 사무원',
 '웹 개발자',
 '주조원',
 '감독 및 기술감독']

In [60]:
df_dict = {
    '이름': names_sr, '나이': ages_sr, '직업': jobs
}
df_dict

{'이름': A    김수민
 B    서정남
 C    김영자
 D    김영일
 E    김재호
 F    김은서
 G    김지원
 H    이민지
 I    이미숙
 J    홍예준
 Name: 이름, dtype: object,
 '나이': A    32
 B    37
 C    33
 D    32
 E    35
 F    32
 G    31
 H    31
 I    25
 J    48
 Name: 나이, dtype: int64,
 '직업': ['주유원',
  '환경/청소 및 경비 관련 관리자',
  '금속기계부품 조립원',
  '기타 음식서비스 종사원',
  '모피 및 가죽의복 제조원',
  '선장/항해사 및 도선사',
  '보험 심사원 및 사무원',
  '웹 개발자',
  '주조원',
  '감독 및 기술감독']}

In [61]:
df2 = pd.DataFrame(df_dict)
df2

Unnamed: 0,이름,나이,직업
A,김수민,32,주유원
B,서정남,37,환경/청소 및 경비 관련 관리자
C,김영자,33,금속기계부품 조립원
D,김영일,32,기타 음식서비스 종사원
E,김재호,35,모피 및 가죽의복 제조원
F,김은서,32,선장/항해사 및 도선사
G,김지원,31,보험 심사원 및 사무원
H,이민지,31,웹 개발자
I,이미숙,25,주조원
J,홍예준,48,감독 및 기술감독


In [62]:
df1 == df2

ValueError: Can only compare identically-labeled (both index and columns) DataFrame objects

In [63]:
df1['직업'] = jobs
df1 == df2

Unnamed: 0,이름,나이,직업
A,True,True,True
B,True,True,True
C,True,True,True
D,True,True,True
E,True,True,True
F,True,True,True
G,True,True,True
H,True,True,True
I,True,True,True
J,True,True,True


## 데이터프레임 인덱싱과 슬라이싱

In [66]:
df2['나이']

A    32
B    37
C    33
D    32
E    35
F    32
G    31
H    31
I    25
J    48
Name: 나이, dtype: int64

In [67]:
df2['A'] # dataframe에서 bracket indexing으로 인덱스를 이용한 조회 불가

KeyError: 'A'

In [68]:
df2['나이']['A']

32

In [69]:
df2.loc['A']

이름    김수민
나이     32
직업    주유원
Name: A, dtype: object

In [70]:
df2.iloc[3]

이름             김영일
나이              32
직업    기타 음식서비스 종사원
Name: D, dtype: object

In [71]:
df2.loc['나이']

KeyError: '나이'

In [72]:
df2.loc[:, '나이']

A    32
B    37
C    33
D    32
E    35
F    32
G    31
H    31
I    25
J    48
Name: 나이, dtype: int64

In [74]:
df2.loc['A':'F', '나이']

A    32
B    37
C    33
D    32
E    35
F    32
Name: 나이, dtype: int64

In [76]:
df2.iloc[1:4,2]

B    환경/청소 및 경비 관련 관리자
C           금속기계부품 조립원
D         기타 음식서비스 종사원
Name: 직업, dtype: object

In [77]:
df2.나이 # 컬럼명에 공백이 있는 경우에는 사용 못함. 그래서 잘 사용 x

A    32
B    37
C    33
D    32
E    35
F    32
G    31
H    31
I    25
J    48
Name: 나이, dtype: int64

In [80]:
ages_above_40 = df2['나이'] > 40
ages_above_40

A    False
B    False
C    False
D    False
E    False
F    False
G    False
H    False
I    False
J     True
Name: 나이, dtype: bool

In [81]:
df2[ages_above_40] # boolean indexing

Unnamed: 0,이름,나이,직업
J,홍예준,48,감독 및 기술감독


In [83]:
df2[df2['직업'] == '웹 개발자']

Unnamed: 0,이름,나이,직업
H,이민지,31,웹 개발자


In [86]:
names_sr[names_sr.values == '서정남'] # boolean indexing series에도 사용 가능

B    서정남
Name: 이름, dtype: object

In [90]:
df2[['직업', '이름']] # 데이터프레임 반환

Unnamed: 0,직업,이름
A,주유원,김수민
B,환경/청소 및 경비 관련 관리자,서정남
C,금속기계부품 조립원,김영자
D,기타 음식서비스 종사원,김영일
E,모피 및 가죽의복 제조원,김재호
F,선장/항해사 및 도선사,김은서
G,보험 심사원 및 사무원,김지원
H,웹 개발자,이민지
I,주조원,이미숙
J,감독 및 기술감독,홍예준


## 데이터프레임 속성

In [91]:
df2.index

Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], dtype='object')

In [92]:
df2.columns

Index(['이름', '나이', '직업'], dtype='object')

In [93]:
df2.values

array([['김수민', 32, '주유원'],
       ['서정남', 37, '환경/청소 및 경비 관련 관리자'],
       ['김영자', 33, '금속기계부품 조립원'],
       ['김영일', 32, '기타 음식서비스 종사원'],
       ['김재호', 35, '모피 및 가죽의복 제조원'],
       ['김은서', 32, '선장/항해사 및 도선사'],
       ['김지원', 31, '보험 심사원 및 사무원'],
       ['이민지', 31, '웹 개발자'],
       ['이미숙', 25, '주조원'],
       ['홍예준', 48, '감독 및 기술감독']], dtype=object)

In [94]:
df2.dtypes

이름    object
나이     int64
직업    object
dtype: object

In [95]:
df2.shape

(10, 3)

In [96]:
df2.size

30

In [98]:
df2_T = df2.T
df2_T

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
이름,김수민,서정남,김영자,김영일,김재호,김은서,김지원,이민지,이미숙,홍예준
나이,32,37,33,32,35,32,31,31,25,48
직업,주유원,환경/청소 및 경비 관련 관리자,금속기계부품 조립원,기타 음식서비스 종사원,모피 및 가죽의복 제조원,선장/항해사 및 도선사,보험 심사원 및 사무원,웹 개발자,주조원,감독 및 기술감독


In [99]:
df2_T.loc['이름']

A    김수민
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    이미숙
J    홍예준
Name: 이름, dtype: object

In [100]:
df2_T.shape

(3, 10)

## 데이터프레임 기능

In [101]:
df2.head()

Unnamed: 0,이름,나이,직업
A,김수민,32,주유원
B,서정남,37,환경/청소 및 경비 관련 관리자
C,김영자,33,금속기계부품 조립원
D,김영일,32,기타 음식서비스 종사원
E,김재호,35,모피 및 가죽의복 제조원


In [102]:
df2.tail(11)

Unnamed: 0,이름,나이,직업
A,김수민,32,주유원
B,서정남,37,환경/청소 및 경비 관련 관리자
C,김영자,33,금속기계부품 조립원
D,김영일,32,기타 음식서비스 종사원
E,김재호,35,모피 및 가죽의복 제조원
F,김은서,32,선장/항해사 및 도선사
G,김지원,31,보험 심사원 및 사무원
H,이민지,31,웹 개발자
I,이미숙,25,주조원
J,홍예준,48,감독 및 기술감독


In [106]:
df2.describe(include='all')

Unnamed: 0,이름,나이,직업
count,10,10.0,10
unique,10,,10
top,김수민,,주유원
freq,1,,1
mean,,33.6,
std,,5.929212,
min,,25.0,
25%,,31.25,
50%,,32.0,
75%,,34.5,


In [109]:
df2.loc['I', '나이'] = np.NaN
df2['이름']['B'] = '김재호' # warning
df2.loc['J', '이름'] = None
df2

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Unnamed: 0,이름,나이,직업
A,김수민,32.0,주유원
B,김재호,37.0,환경/청소 및 경비 관련 관리자
C,김영자,33.0,금속기계부품 조립원
D,김영일,32.0,기타 음식서비스 종사원
E,김재호,35.0,모피 및 가죽의복 제조원
F,김은서,32.0,선장/항해사 및 도선사
G,김지원,31.0,보험 심사원 및 사무원
H,이민지,31.0,웹 개발자
I,이미숙,,주조원
J,,48.0,감독 및 기술감독


In [110]:
df2.describe(include='all')

Unnamed: 0,이름,나이,직업
count,9,9.0,10
unique,8,,10
top,김재호,,주유원
freq,2,,1
mean,,34.555556,
std,,5.410894,
min,,31.0,
25%,,32.0,
50%,,32.0,
75%,,35.0,


In [115]:
df2.info(show_counts=True)

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, A to J
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   이름      9 non-null      object 
 1   나이      9 non-null      float64
 2   직업      10 non-null     object 
dtypes: float64(1), object(2)
memory usage: 620.0+ bytes


In [117]:
df2.isna() # df2.isnull()

Unnamed: 0,이름,나이,직업
A,False,False,False
B,False,False,False
C,False,False,False
D,False,False,False
E,False,False,False
F,False,False,False
G,False,False,False
H,False,False,False
I,False,True,False
J,True,False,False


In [124]:
fillna_df = df2.fillna({'이름': '홍길동', '나이': df2['나이'].mean().astype(int)})
fillna_df

Unnamed: 0,이름,나이,직업
A,김수민,32.0,주유원
B,김재호,37.0,환경/청소 및 경비 관련 관리자
C,김영자,33.0,금속기계부품 조립원
D,김영일,32.0,기타 음식서비스 종사원
E,김재호,35.0,모피 및 가죽의복 제조원
F,김은서,32.0,선장/항해사 및 도선사
G,김지원,31.0,보험 심사원 및 사무원
H,이민지,31.0,웹 개발자
I,이미숙,34.0,주조원
J,홍길동,48.0,감독 및 기술감독


In [125]:
df2.dropna() # defauls axis = 0 행

Unnamed: 0,이름,나이,직업
A,김수민,32.0,주유원
B,김재호,37.0,환경/청소 및 경비 관련 관리자
C,김영자,33.0,금속기계부품 조립원
D,김영일,32.0,기타 음식서비스 종사원
E,김재호,35.0,모피 및 가죽의복 제조원
F,김은서,32.0,선장/항해사 및 도선사
G,김지원,31.0,보험 심사원 및 사무원
H,이민지,31.0,웹 개발자


In [126]:
df2.dropna(axis=1)

Unnamed: 0,직업
A,주유원
B,환경/청소 및 경비 관련 관리자
C,금속기계부품 조립원
D,기타 음식서비스 종사원
E,모피 및 가죽의복 제조원
F,선장/항해사 및 도선사
G,보험 심사원 및 사무원
H,웹 개발자
I,주조원
J,감독 및 기술감독


In [128]:
df2.dropna(subset='이름')

Unnamed: 0,이름,나이,직업
A,김수민,32.0,주유원
B,김재호,37.0,환경/청소 및 경비 관련 관리자
C,김영자,33.0,금속기계부품 조립원
D,김영일,32.0,기타 음식서비스 종사원
E,김재호,35.0,모피 및 가죽의복 제조원
F,김은서,32.0,선장/항해사 및 도선사
G,김지원,31.0,보험 심사원 및 사무원
H,이민지,31.0,웹 개발자
I,이미숙,,주조원


In [129]:
df2.dropna(subset=['이름', '나이'])

Unnamed: 0,이름,나이,직업
A,김수민,32.0,주유원
B,김재호,37.0,환경/청소 및 경비 관련 관리자
C,김영자,33.0,금속기계부품 조립원
D,김영일,32.0,기타 음식서비스 종사원
E,김재호,35.0,모피 및 가죽의복 제조원
F,김은서,32.0,선장/항해사 및 도선사
G,김지원,31.0,보험 심사원 및 사무원
H,이민지,31.0,웹 개발자


In [131]:
df2.dropna(axis=1, subset='J')

Unnamed: 0,나이,직업
A,32.0,주유원
B,37.0,환경/청소 및 경비 관련 관리자
C,33.0,금속기계부품 조립원
D,32.0,기타 음식서비스 종사원
E,35.0,모피 및 가죽의복 제조원
F,32.0,선장/항해사 및 도선사
G,31.0,보험 심사원 및 사무원
H,31.0,웹 개발자
I,,주조원
J,48.0,감독 및 기술감독


In [132]:
df2.drop('A')

Unnamed: 0,이름,나이,직업
B,김재호,37.0,환경/청소 및 경비 관련 관리자
C,김영자,33.0,금속기계부품 조립원
D,김영일,32.0,기타 음식서비스 종사원
E,김재호,35.0,모피 및 가죽의복 제조원
F,김은서,32.0,선장/항해사 및 도선사
G,김지원,31.0,보험 심사원 및 사무원
H,이민지,31.0,웹 개발자
I,이미숙,,주조원
J,,48.0,감독 및 기술감독


In [133]:
df2.drop(['A', 'D'])

Unnamed: 0,이름,나이,직업
B,김재호,37.0,환경/청소 및 경비 관련 관리자
C,김영자,33.0,금속기계부품 조립원
E,김재호,35.0,모피 및 가죽의복 제조원
F,김은서,32.0,선장/항해사 및 도선사
G,김지원,31.0,보험 심사원 및 사무원
H,이민지,31.0,웹 개발자
I,이미숙,,주조원
J,,48.0,감독 및 기술감독


In [135]:
# df2.drop('이름', axis = 1)
df2.drop(index=['A', 'C'])

Unnamed: 0,이름,나이,직업
B,김재호,37.0,환경/청소 및 경비 관련 관리자
D,김영일,32.0,기타 음식서비스 종사원
E,김재호,35.0,모피 및 가죽의복 제조원
F,김은서,32.0,선장/항해사 및 도선사
G,김지원,31.0,보험 심사원 및 사무원
H,이민지,31.0,웹 개발자
I,이미숙,,주조원
J,,48.0,감독 및 기술감독


In [136]:
df2.drop(columns=['이름'])

Unnamed: 0,나이,직업
A,32.0,주유원
B,37.0,환경/청소 및 경비 관련 관리자
C,33.0,금속기계부품 조립원
D,32.0,기타 음식서비스 종사원
E,35.0,모피 및 가죽의복 제조원
F,32.0,선장/항해사 및 도선사
G,31.0,보험 심사원 및 사무원
H,31.0,웹 개발자
I,,주조원
J,48.0,감독 및 기술감독


In [137]:
df2.reset_index()

Unnamed: 0,index,이름,나이,직업
0,A,김수민,32.0,주유원
1,B,김재호,37.0,환경/청소 및 경비 관련 관리자
2,C,김영자,33.0,금속기계부품 조립원
3,D,김영일,32.0,기타 음식서비스 종사원
4,E,김재호,35.0,모피 및 가죽의복 제조원
5,F,김은서,32.0,선장/항해사 및 도선사
6,G,김지원,31.0,보험 심사원 및 사무원
7,H,이민지,31.0,웹 개발자
8,I,이미숙,,주조원
9,J,,48.0,감독 및 기술감독


In [140]:
iidx_df = df2.reset_index(drop=True)
iidx_df

Unnamed: 0,이름,나이,직업
0,김수민,32.0,주유원
1,김재호,37.0,환경/청소 및 경비 관련 관리자
2,김영자,33.0,금속기계부품 조립원
3,김영일,32.0,기타 음식서비스 종사원
4,김재호,35.0,모피 및 가죽의복 제조원
5,김은서,32.0,선장/항해사 및 도선사
6,김지원,31.0,보험 심사원 및 사무원
7,이민지,31.0,웹 개발자
8,이미숙,,주조원
9,,48.0,감독 및 기술감독


In [141]:
df2.sort_values(by='나이')

Unnamed: 0,이름,나이,직업
G,김지원,31.0,보험 심사원 및 사무원
H,이민지,31.0,웹 개발자
A,김수민,32.0,주유원
D,김영일,32.0,기타 음식서비스 종사원
F,김은서,32.0,선장/항해사 및 도선사
C,김영자,33.0,금속기계부품 조립원
E,김재호,35.0,모피 및 가죽의복 제조원
B,김재호,37.0,환경/청소 및 경비 관련 관리자
J,,48.0,감독 및 기술감독
I,이미숙,,주조원


In [144]:
df2.sort_values(by=['나이', '이름'], na_position='first', ignore_index=True)

Unnamed: 0,이름,나이,직업
0,이미숙,,주조원
1,김지원,31.0,보험 심사원 및 사무원
2,이민지,31.0,웹 개발자
3,김수민,32.0,주유원
4,김영일,32.0,기타 음식서비스 종사원
5,김은서,32.0,선장/항해사 및 도선사
6,김영자,33.0,금속기계부품 조립원
7,김재호,35.0,모피 및 가죽의복 제조원
8,김재호,37.0,환경/청소 및 경비 관련 관리자
9,,48.0,감독 및 기술감독
