In [2]:
import pandas as pd
import numpy as np
import random
from faker import Faker

# Series 만들기

In [3]:
values = list(range(5))
index = [letter for letter in 'abcde']

print(values)
print(index)

[0, 1, 2, 3, 4]
['a', 'b', 'c', 'd', 'e']


In [4]:
series = pd.Series(values, index = index)
series

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [5]:
values[0] == series

a     True
b    False
c    False
d    False
e    False
dtype: bool

In [6]:
py_dict = dict(zip(index, values))
py_dict

{'a': 0, 'b': 1, 'c': 2, 'd': 3, 'e': 4}

In [7]:
series_dict = pd.Series(py_dict)
series_dict

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [8]:
py_dict.values() == series_dict

a    False
b    False
c    False
d    False
e    False
dtype: bool

In [9]:
list(py_dict.values()) == series_dict

a    True
b    True
c    True
d    True
e    True
dtype: bool

# Series 인덱싱과 슬라이싱

In [10]:
random_seed = 42

In [11]:
fake = Faker('ko_KR')
Faker.seed(random_seed)

In [12]:
names = [fake.name() for _ in range(10)]
ages = [random.randint(25, 50) for _ in range(10)]
index = [chr(ord('A') + i) for i in range(10)]

print(names)
print(ages)
print(index)

['김수민', '서정남', '김영자', '김영일', '김재호', '김은서', '김지원', '이민지', '이미숙', '홍예준']
[42, 42, 43, 49, 25, 30, 45, 40, 41, 35]
['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J']


In [13]:
ns = pd.Series(names, index = index)
ns

A    김수민
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    이미숙
J    홍예준
dtype: object

In [14]:
print('ns[2] : ', ns[2])
print("ns['D'] : ", ns['D'])

print("ns.loc['D'] : ", ns.loc['D'])
print("ns.iloc[2] : ", ns.iloc[2])

print("ns.at['D'] : ", ns.at['D'])
print("ns.iat[2] : ", ns.iat[2])

ns[2] :  김영자
ns['D'] :  김영일
ns.loc['D'] :  김영일
ns.iloc[2] :  김영자
ns.at['D'] :  김영일
ns.iat[2] :  김영자


  print('ns[2] : ', ns[2])


In [15]:
tmp = pd.Series(names[:3], index = [0, 2, 5])
display(tmp)
print('tmp[0] : ', tmp[0])
print('tmp.loc[2] : ', tmp.loc[2])
print('tmp.iloc[2] : ', tmp.iloc[2])
print('tmp[2] : ', tmp[2])

0    김수민
2    서정남
5    김영자
dtype: object

tmp[0] :  김수민
tmp.loc[2] :  서정남
tmp.iloc[2] :  김영자
tmp[2] :  서정남


In [16]:
ns.loc['B':'E']

B    서정남
C    김영자
D    김영일
E    김재호
dtype: object

In [17]:
ns.iloc[1:5]

B    서정남
C    김영자
D    김영일
E    김재호
dtype: object

# Series 속성

In [18]:
ns

A    김수민
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    이미숙
J    홍예준
dtype: object

In [19]:
ns.index

Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], dtype='object')

In [20]:
ns.values

array(['김수민', '서정남', '김영자', '김영일', '김재호', '김은서', '김지원', '이민지', '이미숙',
       '홍예준'], dtype=object)

In [21]:
ns.dtype

dtype('O')

In [22]:
ns.shape

(10,)

In [23]:
ns.size

10

In [24]:
ns.hasnans

False

In [26]:
ns[0] = np.nan
print(ns)
ns.hasnans

A    NaN
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    이미숙
J    홍예준
dtype: object


  ns[0] = np.nan


True

In [27]:
ns.is_unique

True

In [28]:
ns['I':'J'] = '강상구'
print(ns)
ns.is_unique

A    NaN
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    강상구
J    강상구
dtype: object


False

In [29]:
ns.name = '시리즈 테스트 - 이름'
ns

A    NaN
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    강상구
J    강상구
Name: 시리즈 테스트 - 이름, dtype: object

# Series 기능

In [30]:
ns.head()

A    NaN
B    서정남
C    김영자
D    김영일
E    김재호
Name: 시리즈 테스트 - 이름, dtype: object

In [31]:
ns.tail()

F    김은서
G    김지원
H    이민지
I    강상구
J    강상구
Name: 시리즈 테스트 - 이름, dtype: object

In [32]:
ns.unique()

array([nan, '서정남', '김영자', '김영일', '김재호', '김은서', '김지원', '이민지', '강상구'],
      dtype=object)

In [34]:
ns.duplicated(keep = 'last')

A    False
B    False
C    False
D    False
E    False
F    False
G    False
H    False
I     True
J    False
Name: 시리즈 테스트 - 이름, dtype: bool

In [39]:
ns.value_counts(normalize = True, dropna = False, ascending = True)

시리즈 테스트 - 이름
NaN    0.1
서정남    0.1
김영자    0.1
김영일    0.1
김재호    0.1
김은서    0.1
김지원    0.1
이민지    0.1
강상구    0.2
Name: proportion, dtype: float64

In [43]:
display(ns)
sorted_ns = ns.sort_values(na_position = 'first')
display(sorted_ns)

A    NaN
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    강상구
J    강상구
Name: 시리즈 테스트 - 이름, dtype: object

A    NaN
I    강상구
J    강상구
D    김영일
C    김영자
F    김은서
E    김재호
G    김지원
B    서정남
H    이민지
Name: 시리즈 테스트 - 이름, dtype: object

In [44]:
ns.describe()

count       9
unique      8
top       강상구
freq        2
Name: 시리즈 테스트 - 이름, dtype: object

In [46]:
ages_sr = pd.Series(ages, index = index)
ages_sr

A    42
B    42
C    43
D    49
E    25
F    30
G    45
H    40
I    41
J    35
dtype: int64

In [48]:
ages_sr.sort_values().values

array([25, 30, 35, 40, 41, 42, 42, 43, 45, 49])

In [47]:
ages_sr.describe()

count    10.00000
mean     39.20000
std       7.20802
min      25.00000
25%      36.25000
50%      41.50000
75%      42.75000
max      49.00000
dtype: float64

In [49]:
ages_sr

A    42
B    42
C    43
D    49
E    25
F    30
G    45
H    40
I    41
J    35
dtype: int64

In [50]:
ages_sr.idxmax()

'D'

In [51]:
ages_sr['A'] = 49
ages_sr.idxmax()

'A'

In [54]:
ages_sr.isin([25, 50, 40])

A    False
B    False
C    False
D    False
E     True
F    False
G    False
H     True
I    False
J    False
dtype: bool

In [55]:
def square(x):
    return x**2
    
ages_sr.apply(square)

A    2401
B    1764
C    1849
D    2401
E     625
F     900
G    2025
H    1600
I    1681
J    1225
dtype: int64

In [56]:
ages_sr.apply(lambda x: x + 100)

A    149
B    142
C    143
D    149
E    125
F    130
G    145
H    140
I    141
J    135
dtype: int64

In [58]:
ages_sr.add(150)

A    199
B    192
C    193
D    199
E    175
F    180
G    195
H    190
I    191
J    185
dtype: int64

In [61]:
ns.add(' 님')

A      NaN
B    서정남 님
C    김영자 님
D    김영일 님
E    김재호 님
F    김은서 님
G    김지원 님
H    이민지 님
I    강상구 님
J    강상구 님
Name: 시리즈 테스트 - 이름, dtype: object

In [62]:
ns.str.contains('구')

A      NaN
B    False
C    False
D    False
E    False
F    False
G    False
H    False
I     True
J     True
Name: 시리즈 테스트 - 이름, dtype: object

In [63]:
ns.str.contains('.', regex = False)

A      NaN
B    False
C    False
D    False
E    False
F    False
G    False
H    False
I    False
J    False
Name: 시리즈 테스트 - 이름, dtype: object

# DataFrame 만들기

In [67]:
names_sr = pd.Series(names, index = index, name = '이름')
ages_sr = pd.Series(ages, index = index, name = '나이')
display(name_sr)
display(ages_sr)

A    김수민
B    서정남
C    김영자
D    김영일
E    김재호
F    김은서
G    김지원
H    이민지
I    이미숙
J    홍예준
Name: 이름, dtype: object

A    42
B    42
C    43
D    49
E    25
F    30
G    45
H    40
I    41
J    35
Name: 나이, dtype: int64

In [68]:
df1 = pd.DataFrame(names_sr)
df1

Unnamed: 0,이름
A,김수민
B,서정남
C,김영자
D,김영일
E,김재호
F,김은서
G,김지원
H,이민지
I,이미숙
J,홍예준


In [70]:
df1['나이'] = ages_sr
df1

Unnamed: 0,이름,나이
A,김수민,42
B,서정남,42
C,김영자,43
D,김영일,49
E,김재호,25
F,김은서,30
G,김지원,45
H,이민지,40
I,이미숙,41
J,홍예준,35


In [71]:
extended_ages = [14, 15, *ages]
extended_ages

[14, 15, 42, 42, 43, 49, 25, 30, 45, 40, 41, 35]

In [72]:
df1['나이2'] = extended_ages
df1

ValueError: Length of values (12) does not match length of index (10)

In [73]:
jobs = [fake.job() for _ in range(10)]
jobs

['주유원',
 '환경/청소 및 경비 관련 관리자',
 '금속기계부품 조립원',
 '기타 음식서비스 종사원',
 '모피 및 가죽의복 제조원',
 '선장/항해사 및 도선사',
 '보험 심사원 및 사무원',
 '웹 개발자',
 '주조원',
 '감독 및 기술감독']

In [74]:
df_dict = {'이름' : names_sr, '나이' : ages_sr, '직업' : jobs}
df_dict

{'이름': A    김수민
 B    서정남
 C    김영자
 D    김영일
 E    김재호
 F    김은서
 G    김지원
 H    이민지
 I    이미숙
 J    홍예준
 Name: 이름, dtype: object,
 '나이': A    42
 B    42
 C    43
 D    49
 E    25
 F    30
 G    45
 H    40
 I    41
 J    35
 Name: 나이, dtype: int64,
 '직업': ['주유원',
  '환경/청소 및 경비 관련 관리자',
  '금속기계부품 조립원',
  '기타 음식서비스 종사원',
  '모피 및 가죽의복 제조원',
  '선장/항해사 및 도선사',
  '보험 심사원 및 사무원',
  '웹 개발자',
  '주조원',
  '감독 및 기술감독']}

In [75]:
df2 = pd.DataFrame(df_dict)
df2

Unnamed: 0,이름,나이,직업
A,김수민,42,주유원
B,서정남,42,환경/청소 및 경비 관련 관리자
C,김영자,43,금속기계부품 조립원
D,김영일,49,기타 음식서비스 종사원
E,김재호,25,모피 및 가죽의복 제조원
F,김은서,30,선장/항해사 및 도선사
G,김지원,45,보험 심사원 및 사무원
H,이민지,40,웹 개발자
I,이미숙,41,주조원
J,홍예준,35,감독 및 기술감독


In [76]:
df1 == df2

ValueError: Can only compare identically-labeled (both index and columns) DataFrame objects

In [78]:
df1['직업'] = jobs
df1 == df2

Unnamed: 0,이름,나이,직업
A,True,True,True
B,True,True,True
C,True,True,True
D,True,True,True
E,True,True,True
F,True,True,True
G,True,True,True
H,True,True,True
I,True,True,True
J,True,True,True


# DataFrame 인덱싱과 슬라이싱

In [79]:
df2['나이']

A    42
B    42
C    43
D    49
E    25
F    30
G    45
H    40
I    41
J    35
Name: 나이, dtype: int64

In [80]:
df2['A']

KeyError: 'A'

In [81]:
df2['나이']['A']

np.int64(42)

In [82]:
df2.loc['A']

이름    김수민
나이     42
직업    주유원
Name: A, dtype: object

In [83]:
df2.iloc[3]

이름             김영일
나이              49
직업    기타 음식서비스 종사원
Name: D, dtype: object

In [84]:
df2.loc['나이']

KeyError: '나이'

In [85]:
df2.loc[:, '나이']

A    42
B    42
C    43
D    49
E    25
F    30
G    45
H    40
I    41
J    35
Name: 나이, dtype: int64

In [86]:
df2.loc['A':'F', '나이']

A    42
B    42
C    43
D    49
E    25
F    30
Name: 나이, dtype: int64

In [90]:
df2.iloc[1:4, 2]

B    환경/청소 및 경비 관련 관리자
C           금속기계부품 조립원
D         기타 음식서비스 종사원
Name: 직업, dtype: object

In [91]:
df2.나이

A    42
B    42
C    43
D    49
E    25
F    30
G    45
H    40
I    41
J    35
Name: 나이, dtype: int64

In [94]:
age_above_40 = df2['나이'] >40
age_above_40

A     True
B     True
C     True
D     True
E    False
F    False
G     True
H    False
I     True
J    False
Name: 나이, dtype: bool

In [93]:
df2[age_above_40]

Unnamed: 0,이름,나이,직업
A,김수민,42,주유원
B,서정남,42,환경/청소 및 경비 관련 관리자
C,김영자,43,금속기계부품 조립원
D,김영일,49,기타 음식서비스 종사원
G,김지원,45,보험 심사원 및 사무원
I,이미숙,41,주조원


In [95]:
df2[df2['직업'] == '웹 개발자']

Unnamed: 0,이름,나이,직업
H,이민지,40,웹 개발자


In [100]:
names_sr[names_sr.values == '서정남']

B    서정남
Name: 이름, dtype: object

In [103]:
df2[['직업', '이름']]

Unnamed: 0,직업,이름
A,주유원,김수민
B,환경/청소 및 경비 관련 관리자,서정남
C,금속기계부품 조립원,김영자
D,기타 음식서비스 종사원,김영일
E,모피 및 가죽의복 제조원,김재호
F,선장/항해사 및 도선사,김은서
G,보험 심사원 및 사무원,김지원
H,웹 개발자,이민지
I,주조원,이미숙
J,감독 및 기술감독,홍예준


# DataFrame 속성

In [105]:
df2.index

Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], dtype='object')

In [106]:
df2.columns

Index(['이름', '나이', '직업'], dtype='object')

In [107]:
df2.values

array([['김수민', 42, '주유원'],
       ['서정남', 42, '환경/청소 및 경비 관련 관리자'],
       ['김영자', 43, '금속기계부품 조립원'],
       ['김영일', 49, '기타 음식서비스 종사원'],
       ['김재호', 25, '모피 및 가죽의복 제조원'],
       ['김은서', 30, '선장/항해사 및 도선사'],
       ['김지원', 45, '보험 심사원 및 사무원'],
       ['이민지', 40, '웹 개발자'],
       ['이미숙', 41, '주조원'],
       ['홍예준', 35, '감독 및 기술감독']], dtype=object)

In [108]:
df2.dtypes

이름    object
나이     int64
직업    object
dtype: object

In [109]:
df2.shape

(10, 3)

In [110]:
df2.size

30

In [113]:
df2_T = df2.T
df2_T

Unnamed: 0,A,B,C,D,E,F,G,H,I,J
이름,김수민,서정남,김영자,김영일,김재호,김은서,김지원,이민지,이미숙,홍예준
나이,42,42,43,49,25,30,45,40,41,35
직업,주유원,환경/청소 및 경비 관련 관리자,금속기계부품 조립원,기타 음식서비스 종사원,모피 및 가죽의복 제조원,선장/항해사 및 도선사,보험 심사원 및 사무원,웹 개발자,주조원,감독 및 기술감독


In [114]:
df2_T.shape

(3, 10)

# DataFrame 기능

In [116]:
df2.head()

Unnamed: 0,이름,나이,직업
A,김수민,42,주유원
B,서정남,42,환경/청소 및 경비 관련 관리자
C,김영자,43,금속기계부품 조립원
D,김영일,49,기타 음식서비스 종사원
E,김재호,25,모피 및 가죽의복 제조원


In [118]:
df2.tail(11)

Unnamed: 0,이름,나이,직업
A,김수민,42,주유원
B,서정남,42,환경/청소 및 경비 관련 관리자
C,김영자,43,금속기계부품 조립원
D,김영일,49,기타 음식서비스 종사원
E,김재호,25,모피 및 가죽의복 제조원
F,김은서,30,선장/항해사 및 도선사
G,김지원,45,보험 심사원 및 사무원
H,이민지,40,웹 개발자
I,이미숙,41,주조원
J,홍예준,35,감독 및 기술감독


In [120]:
df2.describe(include = 'all')

Unnamed: 0,이름,나이,직업
count,10,10.0,10
unique,10,,10
top,김수민,,주유원
freq,1,,1
mean,,39.2,
std,,7.20802,
min,,25.0,
25%,,36.25,
50%,,41.5,
75%,,42.75,


In [127]:
df2.loc['I', '나이']  = np.nan
df2['이름']['B'] = '김재호'
df2.loc['J', '이름'] = None
df2

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df2['이름']['B'] = '김재호'
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2['이름']['B'] = '김재호'


Unnamed: 0,이름,나이,직업
A,김수민,42.0,주유원
B,김재호,42.0,환경/청소 및 경비 관련 관리자
C,김영자,43.0,금속기계부품 조립원
D,김영일,49.0,기타 음식서비스 종사원
E,김재호,25.0,모피 및 가죽의복 제조원
F,김은서,30.0,선장/항해사 및 도선사
G,김지원,45.0,보험 심사원 및 사무원
H,이민지,40.0,웹 개발자
I,이미숙,,주조원
J,,35.0,감독 및 기술감독


In [128]:
df2.describe(include = 'all')

Unnamed: 0,이름,나이,직업
count,9,9.0,10
unique,8,,10
top,김재호,,주유원
freq,2,,1
mean,,39.0,
std,,7.615773,
min,,25.0,
25%,,35.0,
50%,,42.0,
75%,,43.0,


In [129]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, A to J
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   이름      9 non-null      object 
 1   나이      9 non-null      float64
 2   직업      10 non-null     object 
dtypes: float64(1), object(2)
memory usage: 620.0+ bytes


In [130]:
df2.isna()

Unnamed: 0,이름,나이,직업
A,False,False,False
B,False,False,False
C,False,False,False
D,False,False,False
E,False,False,False
F,False,False,False
G,False,False,False
H,False,False,False
I,False,True,False
J,True,False,False


In [136]:
fillna_df = df2.fillna({'이름' : '홍길동', '나이' : df2['나이'].mean().astype(int)})
fillna_df

Unnamed: 0,이름,나이,직업
A,김수민,42.0,주유원
B,김재호,42.0,환경/청소 및 경비 관련 관리자
C,김영자,43.0,금속기계부품 조립원
D,김영일,49.0,기타 음식서비스 종사원
E,김재호,25.0,모피 및 가죽의복 제조원
F,김은서,30.0,선장/항해사 및 도선사
G,김지원,45.0,보험 심사원 및 사무원
H,이민지,40.0,웹 개발자
I,이미숙,39.0,주조원
J,홍길동,35.0,감독 및 기술감독


In [141]:
df2

Unnamed: 0,이름,나이,직업
A,김수민,42.0,주유원
B,김재호,42.0,환경/청소 및 경비 관련 관리자
C,김영자,43.0,금속기계부품 조립원
D,김영일,49.0,기타 음식서비스 종사원
E,김재호,25.0,모피 및 가죽의복 제조원
F,김은서,30.0,선장/항해사 및 도선사
G,김지원,45.0,보험 심사원 및 사무원
H,이민지,40.0,웹 개발자
I,이미숙,,주조원
J,,35.0,감독 및 기술감독


In [142]:
df2.dropna(subset = ['이름', '나이'])

Unnamed: 0,이름,나이,직업
A,김수민,42.0,주유원
B,김재호,42.0,환경/청소 및 경비 관련 관리자
C,김영자,43.0,금속기계부품 조립원
D,김영일,49.0,기타 음식서비스 종사원
E,김재호,25.0,모피 및 가죽의복 제조원
F,김은서,30.0,선장/항해사 및 도선사
G,김지원,45.0,보험 심사원 및 사무원
H,이민지,40.0,웹 개발자


In [143]:
df2.drop('A')

Unnamed: 0,이름,나이,직업
B,김재호,42.0,환경/청소 및 경비 관련 관리자
C,김영자,43.0,금속기계부품 조립원
D,김영일,49.0,기타 음식서비스 종사원
E,김재호,25.0,모피 및 가죽의복 제조원
F,김은서,30.0,선장/항해사 및 도선사
G,김지원,45.0,보험 심사원 및 사무원
H,이민지,40.0,웹 개발자
I,이미숙,,주조원
J,,35.0,감독 및 기술감독


In [147]:
iidx_df = df2.reset_index(drop = True)
iidx_df

Unnamed: 0,이름,나이,직업
0,김수민,42.0,주유원
1,김재호,42.0,환경/청소 및 경비 관련 관리자
2,김영자,43.0,금속기계부품 조립원
3,김영일,49.0,기타 음식서비스 종사원
4,김재호,25.0,모피 및 가죽의복 제조원
5,김은서,30.0,선장/항해사 및 도선사
6,김지원,45.0,보험 심사원 및 사무원
7,이민지,40.0,웹 개발자
8,이미숙,,주조원
9,,35.0,감독 및 기술감독


In [149]:
df2.sort_values(by = '나이')

Unnamed: 0,이름,나이,직업
E,김재호,25.0,모피 및 가죽의복 제조원
F,김은서,30.0,선장/항해사 및 도선사
J,,35.0,감독 및 기술감독
H,이민지,40.0,웹 개발자
B,김재호,42.0,환경/청소 및 경비 관련 관리자
A,김수민,42.0,주유원
C,김영자,43.0,금속기계부품 조립원
G,김지원,45.0,보험 심사원 및 사무원
D,김영일,49.0,기타 음식서비스 종사원
I,이미숙,,주조원
