In [None]:
import pandas as pd  # pandas 라이브러리 불러오기

data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])  # 시리즈 데이터 생성, 인덱스 지정

data  # 데이터 출력

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [3]:
data['b']  # 인덱스 'b'에 해당하는 값에 접근

0.5

In [4]:
'a' in data

True

In [5]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [6]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [7]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [8]:
# 명시적 인덱스(최종 인덱스가 슬라이스에 포함)
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [9]:
# 암묵적 인덱스(최종 인덱스 불포함)
data[0:2]

a    0.25
b    0.50
dtype: float64

In [10]:
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [11]:
# 팬시 인덱싱
# 팬시 인덱싱은 pandas에서 리스트나 배열을 사용하여 여러 인덱스를 동시에 선택하는 방법입니다. 예를 들어, data[['a', 'e']]는 인덱스 'a'와 'e'에 해당하는 데이터를 반환합니다.
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

In [12]:
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [13]:
data = pd.Series(['a', 'b', 'c'], index = [1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [14]:
# 인덱싱할 때 명시적 인덱스 사용
data[1]

'a'

In [15]:
# 슬라이싱할 때 암묵적 인덱스 사용
data[1:3]

3    b
5    c
dtype: object

In [16]:
# loc은 언제나 명시적 인덱스를 참조하는 인덱싱과 슬라이싱을 가능하게
data.loc[1]

'a'

In [17]:
data.loc[1:3]

1    a
3    b
dtype: object

In [18]:
# iloc은 인덱싱과 슬라이싱에서 언제나 암묵적 파이썬 스타일의 인덱스를 참조하게 
data.iloc[1]


'b'

In [19]:
data.iloc[1:3]

3    b
5    c
dtype: object

In [22]:
import pandas as pd  # pandas 라이브러리 불러오기

area = pd.Series({
    'California': 423967,  # 캘리포니아 주의 면적
    'Texas': 695662,       # 텍사스 주의 면적
    'Florida': 170312,     # 플로리다 주의 면적
    'New York': 141297,    # 뉴욕 주의 면적
    'Pennsylvania': 119280 # 펜실베니아 주의 면적
})

pop = pd.Series({
    'California': 39538223,  # 캘리포니아 주의 인구
    'Texas': 29145505,       # 텍사스 주의 인구
    'Florida': 21538187,     # 플로리다 주의 인구
    'New York': 20201249,    # 뉴욕 주의 인구
    'Pennsylvania': 13002700 # 펜실베니아 주의 인구
})

# 면적과 인구 데이터를 포함하는 DataFrame 생성
data = pd.DataFrame({'area': area, 'pop': pop})

data  # 생성된 DataFrame 출력

Unnamed: 0,area,pop
California,423967,39538223
Texas,695662,29145505
Florida,170312,21538187
New York,141297,20201249
Pennsylvania,119280,13002700


In [23]:
data['area']

California      423967
Texas           695662
Florida         170312
New York        141297
Pennsylvania    119280
Name: area, dtype: int64

In [24]:
data.area

California      423967
Texas           695662
Florida         170312
New York        141297
Pennsylvania    119280
Name: area, dtype: int64

In [26]:
data.pop

<bound method DataFrame.pop of                 area       pop
California    423967  39538223
Texas         695662  29145505
Florida       170312  21538187
New York      141297  20201249
Pennsylvania  119280  13002700>

In [27]:
data.pop is data['pop']

False

In [30]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,39538223,93.257784
Texas,695662,29145505,41.896072
Florida,170312,21538187,126.463121
New York,141297,20201249,142.97012
Pennsylvania,119280,13002700,109.009893


In [31]:
data.values

array([[4.23967000e+05, 3.95382230e+07, 9.32577842e+01],
       [6.95662000e+05, 2.91455050e+07, 4.18960717e+01],
       [1.70312000e+05, 2.15381870e+07, 1.26463121e+02],
       [1.41297000e+05, 2.02012490e+07, 1.42970120e+02],
       [1.19280000e+05, 1.30027000e+07, 1.09009893e+02]])

In [33]:
data.T  # 데이터프레임 전치

Unnamed: 0,California,Texas,Florida,New York,Pennsylvania
area,423967.0,695662.0,170312.0,141297.0,119280.0
pop,39538220.0,29145500.0,21538190.0,20201250.0,13002700.0
density,93.25778,41.89607,126.4631,142.9701,109.0099


In [34]:
data.values[0]

array([4.23967000e+05, 3.95382230e+07, 9.32577842e+01])

In [35]:
data['area']

California      423967
Texas           695662
Florida         170312
New York        141297
Pennsylvania    119280
Name: area, dtype: int64

In [36]:
# loc와 iloc의 차이점:

# loc: 라벨 기반 인덱싱을 사용하여 데이터에 접근합니다. 행과 열의 이름(라벨)을 기준으로 데이터를 선택합니다.
# iloc: 정수 기반 인덱싱을 사용하여 데이터에 접근합니다. 행과 열의 정수 위치를 기준으로 데이터를 선택합니다.
# data.iloc[:3, :2]의 형태 설명:

# :: 전체 범위를 의미합니다.
# :3: 첫 번째부터 세 번째까지(인덱스 0, 1, 2)의 행을 선택합니다.
# :2: 첫 번째부터 두 번째까지(인덱스 0, 1)의 열을 선택합니다.


data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,39538223
Texas,695662,29145505
Florida,170312,21538187


In [37]:
data.loc[:'Florida', :'pop']

Unnamed: 0,area,pop
California,423967,39538223
Texas,695662,29145505
Florida,170312,21538187


In [38]:
# data.loc[data.density > 120, ['pop', 'density']]
# 'density' 값이 120보다 큰 행에서 'pop'과 'density' 열을 선택

data.loc[data.density > 120, ['pop', 'density']]

Unnamed: 0,pop,density
Florida,21538187,126.463121
New York,20201249,142.97012


In [39]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,39538223,90.0
Texas,695662,29145505,41.896072
Florida,170312,21538187,126.463121
New York,141297,20201249,142.97012
Pennsylvania,119280,13002700,109.009893


In [40]:
data['Florida':'New York']

Unnamed: 0,area,pop,density
Florida,170312,21538187,126.463121
New York,141297,20201249,142.97012


In [41]:
data[1:3]

Unnamed: 0,area,pop,density
Texas,695662,29145505,41.896072
Florida,170312,21538187,126.463121


In [42]:
data[data.density > 120]

Unnamed: 0,area,pop,density
Florida,170312,21538187,126.463121
New York,141297,20201249,142.97012
