In [1]:
import numpy as np
import pandas as pd

In [3]:
s = pd.Series([9904312, 3448737, 2890451, 2466052], index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [4]:
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

In [5]:
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [6]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [7]:
s.values

array([9904312, 3448737, 2890451, 2466052])

In [12]:
# 데이터의 이름 지정
s.name = '인구'

# 인덱스의 이름 지정
s.index.name = '도시'

In [13]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [15]:
# 백터화 연산
s/100

도시
서울    99043.12
부산    34487.37
인천    28904.51
대구    24660.52
Name: 인구, dtype: float64

In [16]:
s['부산']

3448737

In [20]:
# 특정 데이터 추출
s.iloc[1]

3448737

In [27]:
# 특정 여러 데이터 추출
s.iloc[[0,3,1]]
s[['서울','대구','부산']]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [28]:
# 부산 인천 추출 _ 여러가지 방법이 있다
s.iloc[[1,2]]
s[['부산', '인천']]
s.iloc[1:3]
s['부산':'인천']

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [29]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [31]:
# dot(.)을 찍고 바로 출력해도 된다
s.부산
s.인천

2890451

In [32]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [33]:
'부산' in s

True

In [37]:
for k,v in s.items():
    print(k)
    print(v)

서울
9904312
부산
3448737
인천
2890451
대구
2466052


In [42]:
# 2가지 방법으로 Series를 생성 가능

s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=["서울", "부산", "인천", "대구"])

s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})

In [41]:
s #2010년도 인구
s2 # 2015년도 인구

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [43]:
# 인덱스 변경
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158},
              index = ['대전','인천','부산','서울'])
s2

대전    1490158
인천    2632035
부산    3393191
서울    9631482
dtype: int64

In [45]:
# 시리즈 간 연산시 양쪽 모두 자료가 존재하면 계산이 수행
# 어느 한쪽만 자료가 존재하면  NaN(Not a Number)이 나오게 되고
# 전체 결과 자료형 또한 float로 변환

# 사용 빈도가 적음
ds = s-s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [47]:
# 데이터만 출력
# array로 출력

s.values
s2.values

array([1490158, 2632035, 3393191, 9631482])

In [48]:
# 뺄샘 가능

s.values-s2.values

array([ 8414154,   816702,  -502740, -7165430])

In [49]:
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [51]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [52]:
# NaN제외한 데이터 출력

ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [53]:
s # 2010년도 인구

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [54]:
s2 # 2015년도 인구

대전    1490158
인천    2632035
부산    3393191
서울    9631482
dtype: int64

In [65]:
# 연습 문제
# 서울/부산/인천 도시에 대한 인구 감소율(%)을 출력하시오

# 일반 방법
ds2 = (s2 - s)/s*100
ds2[ds2.notnull()]

# %가 붙는 코드
x = (s - s2) / s2 * 100
x[x.notnull()].apply(lambda value: f"{value:.2f}%")

# 감소하면 - 표기
# 인구 증가율 계산
ds2 = (s2 - s) / s * 100

# 유효한 값 필터링 및 % 추가
rs = ds2[ds2.notnull()].apply(lambda value: f"{value:.2f}%" if value > 0 else f"{value:.2f}%")
rs

부산    -1.61%
서울    -2.75%
인천    -8.94%
dtype: object

In [66]:
rs['부산']

'-1.61%'

In [69]:
# 특정 데이터 삭제시
del ds2['서울']
rs

부산    -1.61%
인천    -8.94%
dtype: object

In [70]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [72]:
obj.array
obj.index

RangeIndex(start=0, stop=4, step=1)

In [73]:
obj2 = pd.Series([4, 7, -5, 3], index=["d", "b", "a", "c"])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [74]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [75]:
obj2["a"]

-5

In [76]:
obj2['d'] = 6
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [77]:
obj2[["c", "a", "d"]]

c    3
a   -5
d    6
dtype: int64

In [79]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [80]:
'b' in obj2

True

In [81]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
sdata

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

In [87]:
# dict에서  Series 변환
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [88]:
# Series에서 dict 변환
obj3.to_dict()

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

In [90]:
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [91]:
states = ["California", "Ohio", "Oregon", "Texas"]

In [92]:
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [103]:
obj4.notnull()
obj4.notna()
pd.notnull(obj4)
pd.notna(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [104]:
obj4.isnull()
obj4.isna()
pd.isnull(obj4)
pd.isna(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [105]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [106]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [107]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [108]:
obj4.name = "population"
obj4.index.name = "state"
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [110]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [111]:
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

In [113]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
data

{'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
 'year': [2000, 2001, 2002, 2001, 2002, 2003],
 'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

In [114]:
pd.Series(data)

state    [Ohio, Ohio, Ohio, Nevada, Nevada, Nevada]
year           [2000, 2001, 2002, 2001, 2002, 2003]
pop                  [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
dtype: object

In [116]:
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [118]:
frame.head()
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [None]:
# data2 = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
#         "year": [2000, 2001, 2002, 2001, 2002, 2003],
#         "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
# pd.DataFrame(data2)

In [119]:
frame=pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [120]:
# 순서 변경
pd.DataFrame(data, columns=["year", "state", "pop"])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [121]:
# 새로운 열 추가
pd.DataFrame(data, columns=["year", "state", "pop", "debt"])

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [122]:
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [123]:
frame2.index

RangeIndex(start=0, stop=6, step=1)

In [124]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [125]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [127]:
# 특정 열 추출
frame2['state']
frame2.state

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [128]:
# 특정 행 추출
frame2.iloc[2]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: 2, dtype: object

In [129]:
frame2.loc[2]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: 2, dtype: object

In [130]:
frame2
# iloc와 loc 차이

# loc : frame2를 출력했을 때 눈에 보이는 행 인덱스 라벨 지정하여 자료를 참조
#       행 인덱스 라벨을 지정하여 자료를 참조
#       역순인 -1 등등을 사용 불가능

# iloc : frame2를 출력했을때 눈에 보이지 않는 고유의 인덱스 번호(0~5)를 행 인덱스 라벨이라고 함
#        고유의 행 인덱스 번호를 지정하여 자료를 참조
#        역순인 -1 등등을 사용 가능


Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [137]:
frame2.loc[1]

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: 1, dtype: object

In [135]:
frame2.iloc[-1]

year       2003
state    Nevada
pop         3.2
debt        NaN
Name: 5, dtype: object

In [138]:
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [139]:
s.loc['서울']

9904312

In [140]:
s.iloc[0]

9904312

In [141]:
# 데이터 프레임의 특정 행/열을 추출하면 시리즈가 나오게 됨
frame2['debt']

0    NaN
1    NaN
2    NaN
3    NaN
4    NaN
5    NaN
Name: debt, dtype: object

In [142]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [143]:
frame.loc[2]

state    Ohio
year     2002
pop       3.6
Name: 2, dtype: object

In [147]:
#                    6. : 실수 / 6 : 정수
frame2["debt"] = np.arange(6.)
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,0.0
1,2001,Ohio,1.7,1.0
2,2002,Ohio,3.6,2.0
3,2001,Nevada,2.4,3.0
4,2002,Nevada,2.9,4.0
5,2003,Nevada,3.2,5.0


In [149]:
val = pd.Series([-1.2, -1.5, -1.7], index=["two", "four", "five"])
val

two    -1.2
four   -1.5
five   -1.7
dtype: float64

In [150]:
type(val)

pandas.core.series.Series

In [151]:
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [157]:
frame2["eastern"] = frame2["state"] == "Ohio"
frame2

Unnamed: 0,year,state,pop,debt,eastern
0,2000,Ohio,1.5,,True
1,2001,Ohio,1.7,,True
2,2002,Ohio,3.6,,True
3,2001,Nevada,2.4,,False
4,2002,Nevada,2.9,,False
5,2003,Nevada,3.2,,False


In [158]:
del frame2["eastern"]

In [159]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [161]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [165]:
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
               "Nevada": {2001: 2.4, 2002: 2.9,2003:3.1}}

In [166]:
populations

{'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6},
 'Nevada': {2001: 2.4, 2002: 2.9, 2003: 3.1}}

In [167]:
pd.DataFrame(populations)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9
2003,,3.1


In [168]:
frame3 = pd.DataFrame(populations)
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9
2003,,3.1


In [169]:
# T : 행과 열을 바뀜
frame3.T

Unnamed: 0,2000,2001,2002,2003
Ohio,1.5,1.7,3.6,
Nevada,,2.4,2.9,3.1


In [170]:
populations

{'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6},
 'Nevada': {2001: 2.4, 2002: 2.9, 2003: 3.1}}

In [173]:
pd.DataFrame(populations,index=[2001,2002])

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


In [174]:
pd.DataFrame(populations,index=[2001,2002,2004])

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9
2004,,


In [175]:
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9
2003,,3.1


In [184]:
# 2000년도와 2001년도의 Ohio 데이터 출력

frame3['Ohio'].head(2)
frame3['Ohio'][0:2]
frame3['Ohio'].iloc[[1,2]]
frame3['Ohio'].iloc[0:2]
frame3['Ohio'].loc[[2000,2001]]
frame3['Ohio'].loc[2000:2001]
frame3['Ohio'][:2]

2000    1.5
2001    1.7
Name: Ohio, dtype: float64

In [187]:
frame3['Nevada'][:-2]

2000    NaN
2001    2.4
Name: Nevada, dtype: float64

In [188]:
# Series 2개를 합치기
frame3['Ohio'][:2]
frame3['Nevada'][:-2]

2000    NaN
2001    2.4
Name: Nevada, dtype: float64

In [190]:
pd.DataFrame({
    'Ohio':frame3['Ohio'][:2],
    'Nevada':frame3['Nevada'][:-2]
})

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


In [191]:
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9
2003,,3.1


In [195]:
frame3.index.name="year"

In [196]:
frame3.columns.name="state"

In [197]:
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9
2003,,3.1


In [199]:
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9],
       [nan, 3.1]])

In [201]:
frame2.to_numpy()

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, nan],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, nan],
       [2002, 'Nevada', 2.9, nan],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

In [202]:
obj = pd.Series(np.arange(3), index=["a", "b", "c"])

In [203]:
obj

a    0
b    1
c    2
dtype: int64

In [204]:
obj.index

Index(['a', 'b', 'c'], dtype='object')

In [205]:
index = obj.index

In [207]:
index[1:]

Index(['b', 'c'], dtype='object')

In [210]:
obj2 = pd.Series([1.5, -2.5, 0], index = np.arange(1,4))
obj2

1    1.5
2   -2.5
3    0.0
dtype: float64

In [212]:
obj2.index

Index([1, 2, 3], dtype='int64')

In [214]:
# 4 데이터 유무 확인
4 in obj2.index

False

In [216]:
2024 in frame3.index
'Utah' in frame3.columns

False

In [223]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d", "b", "a", "c"])

In [224]:
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [225]:
obj.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [226]:
obj.reindex(["a", "b", "c", "d", "e"])

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [227]:
obj2 = obj.reindex(["a", "b", "c", "d", "e"])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [228]:
obj3 = pd.Series(["blue", "purple", "yellow"], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [229]:
obj3.reindex(np.arange(6))

0      blue
1       NaN
2    purple
3       NaN
4    yellow
5       NaN
dtype: object

In [231]:
obj3.reindex(np.arange(6), method='ffill') # 결측값을 대체 할때 방향을 forward(위->아래) fill
obj3.reindex(np.arange(6), method='bfill') # 결측값을 대체 할때 방향을 backward(아래->위) fill

0      blue
1    purple
2    purple
3    yellow
4    yellow
5       NaN
dtype: object

In [232]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=["a", "c", "d"],
                     columns=["Ohio", "Texas", "California"])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [233]:
frame2 = frame.reindex(index=["a", "b", "c", "d"])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [234]:
states = ["Texas", "Utah", "California"]

In [237]:
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [238]:
frame

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [239]:
frame.loc[['a','d']]

Unnamed: 0,Texas,Utah,California
a,1,,2
d,7,,8


In [241]:
frame.loc[['a','d','c'],'California']

a    2
d    8
c    5
Name: California, dtype: int64

In [242]:
frame.loc[['a','d','c'],['California','Texas']]

Unnamed: 0,California,Texas
a,2,1
d,8,7
c,5,4


In [243]:
obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [244]:
# del대신에 drop 가능
new_obj=obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [245]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [246]:
obj.drop(["d", "c"])

a    0.0
b    1.0
e    4.0
dtype: float64

In [251]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [248]:
data.drop(["Colorado", "Ohio"])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [249]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [253]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [263]:
# data.drop('two') 에러 발생
data.drop(columns = 'two')
data.drop('two',axis=1)
data.drop('two',axis='columns')

data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [269]:
# drop(삭제) 저장
data.drop('two',axis='columns', inplace=True)

KeyError: "['two'] not found in axis"

In [268]:
data

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [270]:
obj = pd.Series(np.arange(4.), index=["a", "b", "c", "d"])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [275]:
# obj[1]
# obj[2:4]
obj.iloc[[1,3]]
obj[obj<2]

a    0.0
b    1.0
dtype: float64

In [276]:
obj1 = pd.Series([1, 2, 3], index=[2, 0, 1])
obj2 = pd.Series([1, 2, 3], index=["a", "b", "c"])

In [277]:
obj1

2    1
0    2
1    3
dtype: int64

In [278]:
obj2

a    1
b    2
c    3
dtype: int64

In [282]:
# obj1.iloc[0:3]
obj1.loc[[2,0,1]]

2    1
0    2
1    3
dtype: int64

In [283]:
obj2.loc['b':'c']

b    2
c    3
dtype: int64

In [284]:
obj2.loc['b':'c']=10

In [285]:
obj2

a     1
b    10
c    10
dtype: int64

In [312]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [287]:
data["two"]

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [288]:
data[["three", "one"]]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [289]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [293]:
# 연습문제
# three열 값이 5보다 큰 자료를 추출
data[data['three']>5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [294]:
# 5보다 작은지 True/False으로 출력
data<5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [313]:
data[data < 5] = 0

In [314]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [320]:
import numpy as np
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
# 5와 6 출력

# 1번 방식
data[(data == 5) | (data == 6)]

# 2번 방식
data.loc['Colorado'][1:3]

# 3번 방식
data.iloc[1][[1,2]]

# 4번 방식
data.loc["Colorado", ["two", "three"]]

two      5
three    6
Name: Colorado, dtype: int64

In [322]:
data.loc['Colorado']

one      4
two      5
three    6
four     7
Name: Colorado, dtype: int64

In [323]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [324]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [325]:
data.iloc[[2, 1]]

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
Colorado,4,5,6,7


In [330]:
data.iloc[[1, 2],3]

Colorado     7
Utah        11
Name: four, dtype: int64

In [331]:
data.iloc[[1, 2],[3,0]]

Unnamed: 0,four,one
Colorado,7,4
Utah,11,8


In [328]:
data.iloc[2]
data.iloc[2,3]
data.iloc[2,[3,0]]
data.iloc[2,[3,0,1]]

four    11
one      8
two      9
Name: Utah, dtype: int64

In [332]:
data[0:3]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11


In [333]:
data.loc['Ohio':'Utah']

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11


In [334]:
data.loc['Ohio':'Utah']

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11


In [335]:
data.iloc[[0,1,2]]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11


In [336]:
data.iloc[:3]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11


In [337]:
data.iloc[:]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [338]:
data.iloc[:,:3]

Unnamed: 0,one,two,three
Ohio,0,1,2
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


In [339]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [342]:
data.loc['Ohio']

one      0
two      1
three    2
four     3
Name: Ohio, dtype: int64

In [343]:
data.three

Ohio         2
Colorado     6
Utah        10
New York    14
Name: three, dtype: int64

In [344]:
data.three>5

Ohio        False
Colorado     True
Utah         True
New York     True
Name: three, dtype: bool

In [345]:
data[data.three>5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [1]:
import pandas as pd

In [22]:
# 001.
import pandas as pd
# (1) 임의로 두 개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.
s1 = pd.Series([10,20,30,40],index = ['a','b','c','d'])
s2 = pd.Series([5,15,25,35], index = ['c','a','b','d'])

# (2) 위에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다.
add=s1 + s2
sub = s1 - s2
multi = s1 * s2
divis = s1 / s2

print(add)
print(sub)
print(multi)
print(divis)

a    25
b    45
c    35
d    75
dtype: int64
a    -5
b    -5
c    25
d     5
dtype: int64
a     150
b     500
c     150
d    1400
dtype: int64
a    0.666667
b    0.800000
c    6.000000
d    1.142857
dtype: float64


In [35]:
# 002. 다음 조건을 만족하는 임의의 데이터프레임을 하나 만든다.
# (1) 열의 갯수와 행의 갯수가 각각 5개 이상이어야 한다.

# (2) 열에는 정수, 문자열, 실수 자료형 데이터가 각각 1개 이상씩 포함되어 있어야 한다.

import pandas as pd

# 데이터프레임 생성
data = {
    'integer': [1, 2, 3, 4, 5],
    'string': ['a', 'b', 'c', 'd', 'e'],
    'float': [1.1, 2.2, 3.3, 4.4, 5.5],
    'boolean': [True, False, True, False, True],
    'datetime': pd.date_range(start='2024-05-22', periods=5, freq='D')
}

df = pd.DataFrame(data)

print(df)

   integer string  float  boolean   datetime
0        1      a    1.1     True 2024-05-22
1        2      b    2.2    False 2024-05-23
2        3      c    3.3     True 2024-05-24
3        4      d    4.4    False 2024-05-25
4        5      e    5.5     True 2024-05-26


In [34]:
# 003. 다음 데이터프레임에서 지정하는 데이터를 뽑아내거나 처리하라.

data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
# (1) 모든 학생의 수학 점수를 시리즈로 나타낸다.
math = df['수학']
print('\n수학점수')
print(math)

# (2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
language = df[['국어','영어']]
print('\n언어 점수')
print(language)

# (3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
df['평균'] = df.mean(axis = 1)
print('\n평균 점수 추가')
print(df)
# (4) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.
# 직접 할당
df['영어']['방자'] = 80
df['평균'] = df.mean(axis=1)
print('\n방자의 영어 점수 수정 후 다시 계산')
print(df)

# loc 사용
df.loc['방자','영어'] = 80
df['평균'] = df.mean(axis = 1)
print('\n방자의 영어 점수 수정 후 다시 계산')
print(df)

# (5) 춘향의 점수를 데이터프레임으로 나타낸다.
ch = df.loc[['춘향']]
print('\n춘향 과목별 및 평균 점수')
print(ch)

# (6) 향단의 점수를 시리즈로 나타낸다.
hd = df.loc['향단']
print('\n향단 점수(series.ver)')
print(hd)


수학점수
춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

언어 점수
    국어  영어
춘향  80  90
몽룡  90  70
향단  70  60
방자  30  40

평균 점수 추가
    국어  영어  수학         평균
춘향  80  90  90  86.666667
몽룡  90  70  60  73.333333
향단  70  60  80  70.000000
방자  30  40  70  46.666667

춘향 과목별 및 평균 점수
    국어  영어  수학         평균
춘향  80  90  90  86.666667

향단 점수(series.ver)
국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64
