## **Random seed로 샘플데이터 만들기**

In [3]:
import random

In [4]:
random.randint(0, 10)

10

In [5]:
random.seed(42)

for _ in range(5):
    print(random.randint(0, 10))

10
1
0
4
3


In [6]:
grade = [l for l in 'ABCDF']

for _ in range(5):
    print(grade[random.randint(0, len(grade) - 1)])
    print(random.choice(grade))

data = random.choices(grade, k=5)
print(data)

B
B
A
F
A
F
D
A
A
A
['B', 'C', 'A', 'A', 'D']


In [7]:
%pip install Faker

Collecting Faker
  Downloading faker-37.6.0-py3-none-any.whl.metadata (15 kB)
Downloading faker-37.6.0-py3-none-any.whl (1.9 MB)
   ---------------------------------------- 0.0/1.9 MB ? eta -:--:--
   ---------------------------------------- 1.9/1.9 MB 21.6 MB/s eta 0:00:00
Installing collected packages: Faker
Successfully installed Faker-37.6.0
Note: you may need to restart the kernel to use updated packages.


In [8]:
from faker import Faker

In [12]:
fake = Faker('ko_KR')
Faker.seed(42)

names = [fake.name() for _ in range(10)]
print(names)

first_names = [fake.first_name_female() for _ in range(10)]
print(first_names)

jobs = [fake.job() for _ in range(10)]
print(jobs)

['김수민', '서정남', '김영자', '김영일', '김재호', '김은서', '김지원', '이민지', '이미숙', '홍예준']
['지원', '지민', '옥자', '현지', '영미', '유진', '지은', '은정', '채원', '은경']
['도금 및 금속분무기 조작원', '응용 소프트웨어 개발자', '기타 판매 및 고객 서비스 관리자', '기타 식품가공관련 기계조작원', '판사 및 검사', '인쇄기 조작원', '큐레이터 및 문화재 보존원', '웹 개발자', '변리사', '금속 / 재료공학 연구원 및 기술자']


---

## **Series 만들기**

In [13]:
import pandas as pd
import numpy as np

In [16]:
values = list(range(5))
index = [letter for letter in 'ABCDE']
print(values)
print(index)

[0, 1, 2, 3, 4]
['A', 'B', 'C', 'D', 'E']


In [17]:
series = pd.Series(values, index=index)
series

A    0
B    1
C    2
D    3
E    4
dtype: int64

In [18]:
values == series

A    True
B    True
C    True
D    True
E    True
dtype: bool

In [19]:
values[0] == series

A     True
B    False
C    False
D    False
E    False
dtype: bool

In [20]:
py_dict = dict(zip(index, values))
py_dict

{'A': 0, 'B': 1, 'C': 2, 'D': 3, 'E': 4}

In [21]:
series_dict = pd.Series(py_dict)
series_dict

A    0
B    1
C    2
D    3
E    4
dtype: int64

In [23]:
py_dict.values() == series_dict

A    False
B    False
C    False
D    False
E    False
dtype: bool

In [24]:
list(py_dict.values()) == series_dict

A    True
B    True
C    True
D    True
E    True
dtype: bool

---

## **Series 인덱싱과 슬라이싱**

In [26]:
import pandas as pd
import numpy as np
import random
from faker import Faker

random_seed = 42

In [30]:
fake = Faker('ko_KR')
Faker.seed(random_seed)

names = [fake.name() for _ in range(10)]
ages = [random.randint(25, 50) for _ in range(10)]
index = [chr(ord('A') + i) for i in range(10)]

print(names)
print(ages)
print(index)

['김수민', '서정남', '김영자', '김영일', '김재호', '김은서', '김지원', '이민지', '이미숙', '홍예준']
[27, 37, 28, 36, 36, 44, 33, 50, 26, 48]
['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J']


In [31]:
name_series = pd.Series(names, index=index)
name_series

A    김수민
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    이미숙
J    홍예준
dtype: object

In [37]:
print('name_series[2]:', name_series[2])
print("name_series['D']:", name_series['D'])

print("name_series.loc['D']:", name_series.loc['D'])
print("name_series.iloc[2]:", name_series.iloc[2])

print("name_series.at['D']:", name_series.at['D'])
print("name_series.iat[2]:", name_series.iat[2])

name_series[2]: 김영자
name_series['D']: 김영일
name_series.loc['D']: 김영일
name_series.iloc[2]: 김영자
name_series.at['D']: 김영일
name_series.iat[2]: 김영자


  print('name_series[2]:', name_series[2])


In [42]:
tmp = pd.Series(names[:3], index=[0, 2, 5])
display(tmp)

print('tmp[0]:', tmp[0])
print('tmp.loc[2]:', tmp.loc[2])
print('tmp.iloc[2]:', tmp.iloc[2])
print('tmp[2]:', tmp[2])

0    김수민
2    서정남
5    김영자
dtype: object

tmp[0]: 김수민
tmp.loc[2]: 서정남
tmp.iloc[2]: 김영자
tmp[2]: 서정남


In [43]:
name_series['B':'E']

B    서정남
C    김영자
D    김영일
E    김재호
dtype: object

---
## **Series 속성**

In [44]:
name_series

A    김수민
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    이미숙
J    홍예준
dtype: object

In [45]:
name_series.index

Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], dtype='object')

In [46]:
name_series.values

array(['김수민', '서정남', '김영자', '김영일', '김재호', '김은서', '김지원', '이민지', '이미숙',
       '홍예준'], dtype=object)

In [48]:
name_series.dtype

dtype('O')

In [49]:
name_series.shape

(10,)

In [50]:
name_series.size

10

In [51]:
name_series.hasnans

False

In [52]:
name_series[0] = np.nan
name_series.hasnans

  name_series[0] = np.nan


True

In [53]:
name_series.is_unique

True

In [54]:
name_series['I':'J'] = '강성구'
name_series.is_unique

False

In [56]:
name_series.name = '시리즈 테스트 - 이름'
name_series

A    NaN
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    강성구
J    강성구
Name: 시리즈 테스트 - 이름, dtype: object

---
## **Series 기능**

In [57]:
name_series.head()

A    NaN
B    서정남
C    김영자
D    김영일
E    김재호
Name: 시리즈 테스트 - 이름, dtype: object

In [58]:
name_series.tail()

F    김은서
G    김지원
H    이민지
I    강성구
J    강성구
Name: 시리즈 테스트 - 이름, dtype: object

In [59]:
name_series.unique()

array([nan, '서정남', '김영자', '김영일', '김재호', '김은서', '김지원', '이민지', '강성구'],
      dtype=object)

In [60]:
name_series.duplicated()

A    False
B    False
C    False
D    False
E    False
F    False
G    False
H    False
I    False
J     True
Name: 시리즈 테스트 - 이름, dtype: bool

In [61]:
name_series.duplicated(keep='last')

A    False
B    False
C    False
D    False
E    False
F    False
G    False
H    False
I     True
J    False
Name: 시리즈 테스트 - 이름, dtype: bool

In [62]:
name_series.value_counts()

시리즈 테스트 - 이름
강성구    2
서정남    1
김영자    1
김영일    1
김재호    1
김은서    1
김지원    1
이민지    1
Name: count, dtype: int64

In [63]:
name_series.value_counts(dropna=False)

시리즈 테스트 - 이름
강성구    2
NaN    1
서정남    1
김영자    1
김영일    1
김재호    1
김은서    1
김지원    1
이민지    1
Name: count, dtype: int64

In [64]:
name_series.value_counts(dropna=False, ascending=True)

시리즈 테스트 - 이름
NaN    1
서정남    1
김영자    1
김영일    1
김재호    1
김은서    1
김지원    1
이민지    1
강성구    2
Name: count, dtype: int64

In [65]:
name_series.value_counts(dropna=False, sort=False)

시리즈 테스트 - 이름
NaN    1
서정남    1
김영자    1
김영일    1
김재호    1
김은서    1
김지원    1
이민지    1
강성구    2
Name: count, dtype: int64

In [66]:
name_series.value_counts(normalize=True, dropna=False, sort=False)

시리즈 테스트 - 이름
NaN    0.1
서정남    0.1
김영자    0.1
김영일    0.1
김재호    0.1
김은서    0.1
김지원    0.1
이민지    0.1
강성구    0.2
Name: proportion, dtype: float64

In [67]:
name_series.sort_values()

I    강성구
J    강성구
D    김영일
C    김영자
F    김은서
E    김재호
G    김지원
B    서정남
H    이민지
A    NaN
Name: 시리즈 테스트 - 이름, dtype: object

In [68]:
name_series

A    NaN
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    강성구
J    강성구
Name: 시리즈 테스트 - 이름, dtype: object

In [69]:
sorted_ns = name_series.sort_values(na_position='first')
sorted_ns

A    NaN
I    강성구
J    강성구
D    김영일
C    김영자
F    김은서
E    김재호
G    김지원
B    서정남
H    이민지
Name: 시리즈 테스트 - 이름, dtype: object

In [70]:
name_series.describe()

count       9
unique      8
top       강성구
freq        2
Name: 시리즈 테스트 - 이름, dtype: object

In [71]:
ages_ss = pd.Series(ages, index=index)
ages_ss

A    27
B    37
C    28
D    36
E    36
F    44
G    33
H    50
I    26
J    48
dtype: int64

In [72]:
ages_ss.describe()

count    10.000000
mean     36.500000
std       8.540752
min      26.000000
25%      29.250000
50%      36.000000
75%      42.250000
max      50.000000
dtype: float64

In [74]:
ages_ss.idxmax()

'H'

In [75]:
ages_ss['A'] = 50
ages_ss.idxmax()

'A'

In [76]:
ages_ss.isin(37)

TypeError: only list-like objects are allowed to be passed to isin(), you passed a `int`

In [79]:
ages_ss.isin([37, 50])

A     True
B     True
C    False
D    False
E    False
F    False
G    False
H     True
I    False
J    False
dtype: bool

In [83]:
def square(x):
    return x**2

ages_ss.apply(square)

A    2500
B    1369
C     784
D    1296
E    1296
F    1936
G    1089
H    2500
I     676
J    2304
dtype: int64

In [82]:
ages_ss.apply(lambda x: x + 100)

A    150
B    137
C    128
D    136
E    136
F    144
G    133
H    150
I    126
J    148
dtype: int64

In [84]:
ages_ss.add(150)

A    200
B    187
C    178
D    186
E    186
F    194
G    183
H    200
I    176
J    198
dtype: int64

In [85]:
name_series.add(' 님')

A      NaN
B    서정남 님
C    김영자 님
D    김영일 님
E    김재호 님
F    김은서 님
G    김지원 님
H    이민지 님
I    강성구 님
J    강성구 님
Name: 시리즈 테스트 - 이름, dtype: object

In [86]:
name_series.str.contains('구')

A      NaN
B    False
C    False
D    False
E    False
F    False
G    False
H    False
I     True
J     True
Name: 시리즈 테스트 - 이름, dtype: object

In [87]:
name_series.str.contains('.')

A     NaN
B    True
C    True
D    True
E    True
F    True
G    True
H    True
I    True
J    True
Name: 시리즈 테스트 - 이름, dtype: object

In [88]:
name_series.str.contains('.', regex=False)

A      NaN
B    False
C    False
D    False
E    False
F    False
G    False
H    False
I    False
J    False
Name: 시리즈 테스트 - 이름, dtype: object

---
## **DataFrame 만들기**

In [89]:
ns = pd.Series(names, index=index, name='이름')
ags = pd.Series(ages, index=index, name='나이')

display(ns)
display(ags)

A    김수민
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    이미숙
J    홍예준
Name: 이름, dtype: object

A    27
B    37
C    28
D    36
E    36
F    44
G    33
H    50
I    26
J    48
Name: 나이, dtype: int64

In [91]:
df1 = pd.DataFrame(ns)
df1

Unnamed: 0,이름
A,김수민
B,서정남
C,김영자
D,김영일
E,김재호
F,김은서
G,김지원
H,이민지
I,이미숙
J,홍예준


In [93]:
df1['나이'] = ags
df1

Unnamed: 0,이름,나이
A,김수민,27
B,서정남,37
C,김영자,28
D,김영일,36
E,김재호,36
F,김은서,44
G,김지원,33
H,이민지,50
I,이미숙,26
J,홍예준,48


In [94]:
jobs = [fake.job() for _ in range(10)]
jobs

['주유원',
 '환경/청소 및 경비 관련 관리자',
 '금속기계부품 조립원',
 '기타 음식서비스 종사원',
 '모피 및 가죽의복 제조원',
 '선장/항해사 및 도선사',
 '보험 심사원 및 사무원',
 '웹 개발자',
 '주조원',
 '감독 및 기술감독']

In [96]:
df_dict = {'이름': ns,
           '나이': ags,
           '직업': jobs}
df_dict

{'이름': A    김수민
 B    서정남
 C    김영자
 D    김영일
 E    김재호
 F    김은서
 G    김지원
 H    이민지
 I    이미숙
 J    홍예준
 Name: 이름, dtype: object,
 '나이': A    27
 B    37
 C    28
 D    36
 E    36
 F    44
 G    33
 H    50
 I    26
 J    48
 Name: 나이, dtype: int64,
 '직업': ['주유원',
  '환경/청소 및 경비 관련 관리자',
  '금속기계부품 조립원',
  '기타 음식서비스 종사원',
  '모피 및 가죽의복 제조원',
  '선장/항해사 및 도선사',
  '보험 심사원 및 사무원',
  '웹 개발자',
  '주조원',
  '감독 및 기술감독']}

In [98]:
df2 = pd.DataFrame(df_dict)
df2

Unnamed: 0,이름,나이,직업
A,김수민,27,주유원
B,서정남,37,환경/청소 및 경비 관련 관리자
C,김영자,28,금속기계부품 조립원
D,김영일,36,기타 음식서비스 종사원
E,김재호,36,모피 및 가죽의복 제조원
F,김은서,44,선장/항해사 및 도선사
G,김지원,33,보험 심사원 및 사무원
H,이민지,50,웹 개발자
I,이미숙,26,주조원
J,홍예준,48,감독 및 기술감독


In [100]:
df1['직업'] = jobs
df1 == df2

Unnamed: 0,이름,나이,직업
A,True,True,True
B,True,True,True
C,True,True,True
D,True,True,True
E,True,True,True
F,True,True,True
G,True,True,True
H,True,True,True
I,True,True,True
J,True,True,True


---
## **DataFrame 인덱싱과 슬라이싱**

In [101]:
df2['나이']

A    27
B    37
C    28
D    36
E    36
F    44
G    33
H    50
I    26
J    48
Name: 나이, dtype: int64

In [103]:
df2['나이']['A']

27

In [104]:
df2.loc['A']

이름    김수민
나이     27
직업    주유원
Name: A, dtype: object

In [105]:
df2.iloc[3]

이름             김영일
나이              36
직업    기타 음식서비스 종사원
Name: D, dtype: object

In [107]:
df2.loc[:, '나이']

A    27
B    37
C    28
D    36
E    36
F    44
G    33
H    50
I    26
J    48
Name: 나이, dtype: int64

In [108]:
df2.loc['A':'F', '나이']

A    27
B    37
C    28
D    36
E    36
F    44
Name: 나이, dtype: int64

In [111]:
df2.iloc[1:4, 2]

B    환경/청소 및 경비 관련 관리자
C           금속기계부품 조립원
D         기타 음식서비스 종사원
Name: 직업, dtype: object

In [114]:
df2.나이

A    27
B    37
C    28
D    36
E    36
F    44
G    33
H    50
I    26
J    48
Name: 나이, dtype: int64

In [117]:
age_ablove_40 = df2['나이'] > 40
age_ablove_40


A    False
B    False
C    False
D    False
E    False
F     True
G    False
H     True
I    False
J     True
Name: 나이, dtype: bool

In [118]:
df2[age_ablove_40]

Unnamed: 0,이름,나이,직업
F,김은서,44,선장/항해사 및 도선사
H,이민지,50,웹 개발자
J,홍예준,48,감독 및 기술감독


In [119]:
df2['직업'] == '웹 개발자'

A    False
B    False
C    False
D    False
E    False
F    False
G    False
H     True
I    False
J    False
Name: 직업, dtype: bool

In [120]:
df2[df2['직업'] == '웹 개발자']

Unnamed: 0,이름,나이,직업
H,이민지,50,웹 개발자


In [121]:
ns == '서정남'

A    False
B     True
C    False
D    False
E    False
F    False
G    False
H    False
I    False
J    False
Name: 이름, dtype: bool

In [122]:
df2[ns == '서정남']

Unnamed: 0,이름,나이,직업
B,서정남,37,환경/청소 및 경비 관련 관리자


In [124]:
df2['직업']

A                  주유원
B    환경/청소 및 경비 관련 관리자
C           금속기계부품 조립원
D         기타 음식서비스 종사원
E        모피 및 가죽의복 제조원
F         선장/항해사 및 도선사
G         보험 심사원 및 사무원
H                웹 개발자
I                  주조원
J            감독 및 기술감독
Name: 직업, dtype: object

In [123]:
df2[['직업']]

Unnamed: 0,직업
A,주유원
B,환경/청소 및 경비 관련 관리자
C,금속기계부품 조립원
D,기타 음식서비스 종사원
E,모피 및 가죽의복 제조원
F,선장/항해사 및 도선사
G,보험 심사원 및 사무원
H,웹 개발자
I,주조원
J,감독 및 기술감독


In [126]:
print(type(df2['직업']))
print(type(df2[['직업']]))

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


In [127]:
df3 = df2[['직업', '나이']]
df3

Unnamed: 0,직업,나이
A,주유원,27
B,환경/청소 및 경비 관련 관리자,37
C,금속기계부품 조립원,28
D,기타 음식서비스 종사원,36
E,모피 및 가죽의복 제조원,36
F,선장/항해사 및 도선사,44
G,보험 심사원 및 사무원,33
H,웹 개발자,50
I,주조원,26
J,감독 및 기술감독,48


---
## **DataFrame 속성**

In [128]:
df2

Unnamed: 0,이름,나이,직업
A,김수민,27,주유원
B,서정남,37,환경/청소 및 경비 관련 관리자
C,김영자,28,금속기계부품 조립원
D,김영일,36,기타 음식서비스 종사원
E,김재호,36,모피 및 가죽의복 제조원
F,김은서,44,선장/항해사 및 도선사
G,김지원,33,보험 심사원 및 사무원
H,이민지,50,웹 개발자
I,이미숙,26,주조원
J,홍예준,48,감독 및 기술감독


In [129]:
df2.index

Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], dtype='object')

In [130]:
df2.columns

Index(['이름', '나이', '직업'], dtype='object')

In [131]:
df2.values

array([['김수민', 27, '주유원'],
       ['서정남', 37, '환경/청소 및 경비 관련 관리자'],
       ['김영자', 28, '금속기계부품 조립원'],
       ['김영일', 36, '기타 음식서비스 종사원'],
       ['김재호', 36, '모피 및 가죽의복 제조원'],
       ['김은서', 44, '선장/항해사 및 도선사'],
       ['김지원', 33, '보험 심사원 및 사무원'],
       ['이민지', 50, '웹 개발자'],
       ['이미숙', 26, '주조원'],
       ['홍예준', 48, '감독 및 기술감독']], dtype=object)

In [134]:
df2.dtypes

이름    object
나이     int64
직업    object
dtype: object

In [135]:
df2.shape

(10, 3)

In [136]:
df2.size

30

In [138]:
df2_T = df2.T
df2_T

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
이름,김수민,서정남,김영자,김영일,김재호,김은서,김지원,이민지,이미숙,홍예준
나이,27,37,28,36,36,44,33,50,26,48
직업,주유원,환경/청소 및 경비 관련 관리자,금속기계부품 조립원,기타 음식서비스 종사원,모피 및 가죽의복 제조원,선장/항해사 및 도선사,보험 심사원 및 사무원,웹 개발자,주조원,감독 및 기술감독


In [139]:
df2_T.loc['이름']

A    김수민
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    이미숙
J    홍예준
Name: 이름, dtype: object

In [140]:
df2_T.shape

(3, 10)

---
## **DataFrame 기능**

In [141]:
df2

Unnamed: 0,이름,나이,직업
A,김수민,27,주유원
B,서정남,37,환경/청소 및 경비 관련 관리자
C,김영자,28,금속기계부품 조립원
D,김영일,36,기타 음식서비스 종사원
E,김재호,36,모피 및 가죽의복 제조원
F,김은서,44,선장/항해사 및 도선사
G,김지원,33,보험 심사원 및 사무원
H,이민지,50,웹 개발자
I,이미숙,26,주조원
J,홍예준,48,감독 및 기술감독


In [142]:
df2.head()

Unnamed: 0,이름,나이,직업
A,김수민,27,주유원
B,서정남,37,환경/청소 및 경비 관련 관리자
C,김영자,28,금속기계부품 조립원
D,김영일,36,기타 음식서비스 종사원
E,김재호,36,모피 및 가죽의복 제조원


In [143]:
df2.describe()

Unnamed: 0,나이
count,10.0
mean,36.5
std,8.540752
min,26.0
25%,29.25
50%,36.0
75%,42.25
max,50.0


In [144]:
df2.describe(include='all')

Unnamed: 0,이름,나이,직업
count,10,10.0,10
unique,10,,10
top,김수민,,주유원
freq,1,,1
mean,,36.5,
std,,8.540752,
min,,26.0,
25%,,29.25,
50%,,36.0,
75%,,42.25,


In [146]:
df2.loc['I', '나이'] = np.NaN
df2['이름']['B'] = '김재호'
df2.loc['J', '이름'] = None
df2

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df2['이름']['B'] = '김재호'
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2['이름']['B'] = '김재호'


Unnamed: 0,이름,나이,직업
A,김수민,27.0,주유원
B,김재호,37.0,환경/청소 및 경비 관련 관리자
C,김영자,28.0,금속기계부품 조립원
D,김영일,36.0,기타 음식서비스 종사원
E,김재호,36.0,모피 및 가죽의복 제조원
F,김은서,44.0,선장/항해사 및 도선사
G,김지원,33.0,보험 심사원 및 사무원
H,이민지,50.0,웹 개발자
I,이미숙,,주조원
J,,48.0,감독 및 기술감독


In [147]:
df2.describe(include='all')

Unnamed: 0,이름,나이,직업
count,9,9.0,10
unique,8,,10
top,김재호,,주유원
freq,2,,1
mean,,37.666667,
std,,8.170067,
min,,27.0,
25%,,33.0,
50%,,36.0,
75%,,44.0,


In [148]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, A to J
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   이름      9 non-null      object 
 1   나이      9 non-null      float64
 2   직업      10 non-null     object 
dtypes: float64(1), object(2)
memory usage: 620.0+ bytes


In [149]:
df2.isna()

Unnamed: 0,이름,나이,직업
A,False,False,False
B,False,False,False
C,False,False,False
D,False,False,False
E,False,False,False
F,False,False,False
G,False,False,False
H,False,False,False
I,False,True,False
J,True,False,False


In [150]:
df2.fillna('홍길동')

Unnamed: 0,이름,나이,직업
A,김수민,27.0,주유원
B,김재호,37.0,환경/청소 및 경비 관련 관리자
C,김영자,28.0,금속기계부품 조립원
D,김영일,36.0,기타 음식서비스 종사원
E,김재호,36.0,모피 및 가죽의복 제조원
F,김은서,44.0,선장/항해사 및 도선사
G,김지원,33.0,보험 심사원 및 사무원
H,이민지,50.0,웹 개발자
I,이미숙,홍길동,주조원
J,홍길동,48.0,감독 및 기술감독


In [151]:
df2.fillna({'이름': '홍길동'})

Unnamed: 0,이름,나이,직업
A,김수민,27.0,주유원
B,김재호,37.0,환경/청소 및 경비 관련 관리자
C,김영자,28.0,금속기계부품 조립원
D,김영일,36.0,기타 음식서비스 종사원
E,김재호,36.0,모피 및 가죽의복 제조원
F,김은서,44.0,선장/항해사 및 도선사
G,김지원,33.0,보험 심사원 및 사무원
H,이민지,50.0,웹 개발자
I,이미숙,,주조원
J,홍길동,48.0,감독 및 기술감독


In [155]:
fillna_df = df2.fillna({'이름': '홍길동', '나이':df2['나이'].mean().astype(int)})
fillna_df

Unnamed: 0,이름,나이,직업
A,김수민,27.0,주유원
B,김재호,37.0,환경/청소 및 경비 관련 관리자
C,김영자,28.0,금속기계부품 조립원
D,김영일,36.0,기타 음식서비스 종사원
E,김재호,36.0,모피 및 가죽의복 제조원
F,김은서,44.0,선장/항해사 및 도선사
G,김지원,33.0,보험 심사원 및 사무원
H,이민지,50.0,웹 개발자
I,이미숙,37.0,주조원
J,홍길동,48.0,감독 및 기술감독


In [157]:
df2

Unnamed: 0,이름,나이,직업
A,김수민,27.0,주유원
B,김재호,37.0,환경/청소 및 경비 관련 관리자
C,김영자,28.0,금속기계부품 조립원
D,김영일,36.0,기타 음식서비스 종사원
E,김재호,36.0,모피 및 가죽의복 제조원
F,김은서,44.0,선장/항해사 및 도선사
G,김지원,33.0,보험 심사원 및 사무원
H,이민지,50.0,웹 개발자
I,이미숙,,주조원
J,,48.0,감독 및 기술감독


In [158]:
df2.dropna(axis=0)

Unnamed: 0,이름,나이,직업
A,김수민,27.0,주유원
B,김재호,37.0,환경/청소 및 경비 관련 관리자
C,김영자,28.0,금속기계부품 조립원
D,김영일,36.0,기타 음식서비스 종사원
E,김재호,36.0,모피 및 가죽의복 제조원
F,김은서,44.0,선장/항해사 및 도선사
G,김지원,33.0,보험 심사원 및 사무원
H,이민지,50.0,웹 개발자


In [159]:
df2.dropna(axis=1)

Unnamed: 0,직업
A,주유원
B,환경/청소 및 경비 관련 관리자
C,금속기계부품 조립원
D,기타 음식서비스 종사원
E,모피 및 가죽의복 제조원
F,선장/항해사 및 도선사
G,보험 심사원 및 사무원
H,웹 개발자
I,주조원
J,감독 및 기술감독


In [160]:
df2.dropna(subset='이름')

Unnamed: 0,이름,나이,직업
A,김수민,27.0,주유원
B,김재호,37.0,환경/청소 및 경비 관련 관리자
C,김영자,28.0,금속기계부품 조립원
D,김영일,36.0,기타 음식서비스 종사원
E,김재호,36.0,모피 및 가죽의복 제조원
F,김은서,44.0,선장/항해사 및 도선사
G,김지원,33.0,보험 심사원 및 사무원
H,이민지,50.0,웹 개발자
I,이미숙,,주조원


In [161]:
df2.dropna(subset=['이름', '나이'])

Unnamed: 0,이름,나이,직업
A,김수민,27.0,주유원
B,김재호,37.0,환경/청소 및 경비 관련 관리자
C,김영자,28.0,금속기계부품 조립원
D,김영일,36.0,기타 음식서비스 종사원
E,김재호,36.0,모피 및 가죽의복 제조원
F,김은서,44.0,선장/항해사 및 도선사
G,김지원,33.0,보험 심사원 및 사무원
H,이민지,50.0,웹 개발자


In [162]:
df2.drop(['A'])

Unnamed: 0,이름,나이,직업
B,김재호,37.0,환경/청소 및 경비 관련 관리자
C,김영자,28.0,금속기계부품 조립원
D,김영일,36.0,기타 음식서비스 종사원
E,김재호,36.0,모피 및 가죽의복 제조원
F,김은서,44.0,선장/항해사 및 도선사
G,김지원,33.0,보험 심사원 및 사무원
H,이민지,50.0,웹 개발자
I,이미숙,,주조원
J,,48.0,감독 및 기술감독


In [164]:
df2.drop(['A', 'D'])

Unnamed: 0,이름,나이,직업
B,김재호,37.0,환경/청소 및 경비 관련 관리자
C,김영자,28.0,금속기계부품 조립원
E,김재호,36.0,모피 및 가죽의복 제조원
F,김은서,44.0,선장/항해사 및 도선사
G,김지원,33.0,보험 심사원 및 사무원
H,이민지,50.0,웹 개발자
I,이미숙,,주조원
J,,48.0,감독 및 기술감독


In [165]:
df2.drop(['이름'], axis=1)

Unnamed: 0,나이,직업
A,27.0,주유원
B,37.0,환경/청소 및 경비 관련 관리자
C,28.0,금속기계부품 조립원
D,36.0,기타 음식서비스 종사원
E,36.0,모피 및 가죽의복 제조원
F,44.0,선장/항해사 및 도선사
G,33.0,보험 심사원 및 사무원
H,50.0,웹 개발자
I,,주조원
J,48.0,감독 및 기술감독


In [166]:
df2.drop(index=['A', 'C'], columns=['나이'])

Unnamed: 0,이름,직업
B,김재호,환경/청소 및 경비 관련 관리자
D,김영일,기타 음식서비스 종사원
E,김재호,모피 및 가죽의복 제조원
F,김은서,선장/항해사 및 도선사
G,김지원,보험 심사원 및 사무원
H,이민지,웹 개발자
I,이미숙,주조원
J,,감독 및 기술감독


In [167]:
df2.reset_index()

Unnamed: 0,index,이름,나이,직업
0,A,김수민,27.0,주유원
1,B,김재호,37.0,환경/청소 및 경비 관련 관리자
2,C,김영자,28.0,금속기계부품 조립원
3,D,김영일,36.0,기타 음식서비스 종사원
4,E,김재호,36.0,모피 및 가죽의복 제조원
5,F,김은서,44.0,선장/항해사 및 도선사
6,G,김지원,33.0,보험 심사원 및 사무원
7,H,이민지,50.0,웹 개발자
8,I,이미숙,,주조원
9,J,,48.0,감독 및 기술감독


In [168]:
df2.reset_index(drop=True)

Unnamed: 0,이름,나이,직업
0,김수민,27.0,주유원
1,김재호,37.0,환경/청소 및 경비 관련 관리자
2,김영자,28.0,금속기계부품 조립원
3,김영일,36.0,기타 음식서비스 종사원
4,김재호,36.0,모피 및 가죽의복 제조원
5,김은서,44.0,선장/항해사 및 도선사
6,김지원,33.0,보험 심사원 및 사무원
7,이민지,50.0,웹 개발자
8,이미숙,,주조원
9,,48.0,감독 및 기술감독


In [170]:
df2.sort_values(by=['나이', '이름'])

Unnamed: 0,이름,나이,직업
A,김수민,27.0,주유원
C,김영자,28.0,금속기계부품 조립원
G,김지원,33.0,보험 심사원 및 사무원
D,김영일,36.0,기타 음식서비스 종사원
E,김재호,36.0,모피 및 가죽의복 제조원
B,김재호,37.0,환경/청소 및 경비 관련 관리자
F,김은서,44.0,선장/항해사 및 도선사
J,,48.0,감독 및 기술감독
H,이민지,50.0,웹 개발자
I,이미숙,,주조원


In [171]:
df2.sort_values(by=['나이', '이름'], na_position='first')

Unnamed: 0,이름,나이,직업
I,이미숙,,주조원
A,김수민,27.0,주유원
C,김영자,28.0,금속기계부품 조립원
G,김지원,33.0,보험 심사원 및 사무원
D,김영일,36.0,기타 음식서비스 종사원
E,김재호,36.0,모피 및 가죽의복 제조원
B,김재호,37.0,환경/청소 및 경비 관련 관리자
F,김은서,44.0,선장/항해사 및 도선사
J,,48.0,감독 및 기술감독
H,이민지,50.0,웹 개발자


In [172]:
df2.sort_values(by=['나이', '이름'], na_position='first', ignore_index=True)

Unnamed: 0,이름,나이,직업
0,이미숙,,주조원
1,김수민,27.0,주유원
2,김영자,28.0,금속기계부품 조립원
3,김지원,33.0,보험 심사원 및 사무원
4,김영일,36.0,기타 음식서비스 종사원
5,김재호,36.0,모피 및 가죽의복 제조원
6,김재호,37.0,환경/청소 및 경비 관련 관리자
7,김은서,44.0,선장/항해사 및 도선사
8,,48.0,감독 및 기술감독
9,이민지,50.0,웹 개발자
