In [1]:
# Panel Datas 판넬 데이터

# Pandas는 주로 데이터 분석에 사용됩니다.
# 대부분의 데이터는 시계열(series)이나 표(table)의 형태로 나타낼 수 있습니다. 
# Pandas 패키지는 이러한 데이터를 다루기 위한 Series 클래스와 DataFrame 클래스를 제공합니다.
# 숫자 테이블과 시계열 을 조작하기 위한 데이터 구조 와 연산을 제공합니다.

In [2]:
import pandas as pd  # pd pd라는 별칭을 사용.

In [3]:
# Series class 
# 시리즈 객체를 생성할 때 series = pd.Series()
# Series 클래스는 Numpy에서 제공하는 1차원 배열과 그 모양이 비슷합니다.

In [4]:
series = pd.Series(["하나", "둘", "셋", "넷", "다섯", 
                    "여섯", "일곱", "여덟", "아홉", "열"],
                index = [_ for _ in range(1, 11)])
series

1     하나
2      둘
3      셋
4      넷
5     다섯
6     여섯
7     일곱
8     여덟
9     아홉
10     열
dtype: object

In [5]:
# Series 생성하기
# Series 객체를 만들 때 첫 인수로 data, 두 번째 인수로는 index를 넣습니다. 
# data 값으로 iterable, 배열, scalar value, dict(key와 index를 동일하게 사용하거나 생략)
# 를 사용할 수 있습니다.
# index는 label이라고도 합니다. index는 data와 length가 동일해야 합니다. 
# label은 꼭 유일(unique)할 필요는 없습니다. 
# 다만 반드시 hashable type만 사용 가능 합니다. 
# 만약 index를 생략할 경우 RangeIndex(0, 1, ... , n)를 제공합니다.

# pandas.Series 생성
# class pandas.Series(data = , index = , dtype =, name =, copy =, fastpath =)

In [6]:
s = pd.Series([9_904_312, 3_448_737, 2_890_451, 2_466_052],
              index = ["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [7]:
test = pd.Series(list(range(10, 100, 10)))
test

0    10
1    20
2    30
3    40
4    50
5    60
6    70
7    80
8    90
dtype: int64

In [8]:
pd.Series(range(10, 14))

# index, value 개수가 동일해야 한다

0    10
1    11
2    12
3    13
dtype: int64

In [9]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [10]:
s.values

# values 속성을 보니 아래 넘파이의 엔디어레이 형태네?

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [11]:
test.values   

# 앤디어레이. 비교연산으로 벡터화연산 가능 

array([10, 20, 30, 40, 50, 60, 70, 80, 90], dtype=int64)

In [12]:
sum(test.values>50)

4

In [13]:
s.name = "인구"       # 시리즈 전체에 대해 이름을 붙여줌
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [14]:
d = {'a' : 1, 'b' : 2, 'c' : 3}
ser = pd.Series(data = d, index = ['a', 'b', 'c'])
ser

# pandas.Series 생성
# class pandas.Series(data = , index = , dtype =, name =, copy =, fastpath =)
# 딕셔너리는 비시퀀스 순서가 없다. 그래서 키 값을ㄴ 가짐. 키:값 ///3.6버전 이상은 순서 지켜줌

a    1
b    2
c    3
dtype: int64

In [15]:
d = {'a' : 1, 'b' : 2, 'c' : 3}
ser = pd.Series(data = d, index = ['x', 'y', 'z'])
ser

# NaN = np.nan
# data가 dict일 때 index가 최초에 dict의 key로 만들어집니다. 
# 그 후 Series는 index 키워드로 전달받은 인수로 index를 재할당합니다. 
# 그래서 밑에 예제와 같이 Series 객체의 값이 NaN의 결과를 출력하는 것을 확인할 수 있습니다.

x   NaN
y   NaN
z   NaN
dtype: float64

In [16]:
a = pd.Series([88, 95, 100, 67],
              index = ["철수", "영희", "길동", "몽룡"])
a

철수     88
영희     95
길동    100
몽룡     67
dtype: int64

In [17]:
# Series index를 속성처럼 활용하기

# 만약 label 값이 공백 없는 문자열인 경우에는 index label이 속성인 것처럼 
# 마침표(.)를 활용하여 해당 index 값에 접근할 수도 있습니다.

d = {'a':1, 'b':2, 'c':3}
ser = pd.Series(data=d, index=['a', 'b', 'c'])
ser

a    1
b    2
c    3
dtype: int64

In [18]:
ser.a, ser.b, ser.c

(1, 2, 3)

In [19]:
# Series의 특징

# Series 객체는 index label을 키(key)로 사용하기에 
# 딕셔너리 자료형과 비슷한 특징을 갖습니다. 
# 그래서 Series를 딕셔너리와 같은 방식으로 사용할 수 있게 구현해놨습니다.
# 예를 들어 in 연산도 가능하고, items() 메서드를 사용해서 
# for문 루프를 돌려 각 요소의 키(key)와 값(value)에 접근할 수도 있습니다.

In [20]:
"서울" in s

True

In [21]:
"대전" in s

False

In [22]:
# 도시
# 서울    9904312
# 부산    3448737
# 인천    2890451
# 대구    2466052
# Name: 인구, dtype: int64

for i, v in s.items():   # 시리즈에 아이템즈라는 메서드 사용.....
    if v > 3_000_000:
        print(f"{i}의 인구는 300만이 넘습니다.")

서울의 인구는 300만이 넘습니다.
부산의 인구는 300만이 넘습니다.


In [23]:
# Series 연산하기

# 넘파이 배열처럼 Series도 벡터화 연산을 할 수 있습니다. 
# 다만 연산은 Series의 value에만 적용되며 index 값은 변하지 않는다. 
# 예를 들어 인구 숫자를 백만 단위로 만들기 위해 
# Series 객체를 1,000,000 으로 나누어도 
# index label에는 영향을 미치지않는 것을 볼 수 있다.

In [24]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [25]:
# Series 인덱싱

# Series는 넘파이 배열에서 가능한 index 방법 이외에도 
# index label을 이용한 인덱싱도 할 수 있습니다. 
# 배열 인덱싱이나 index label을 이용한 슬라이싱(slicing)도 가능합니다.

In [26]:
s[1], s["부산"]

(3448737, 3448737)

In [27]:
s[3], s["대구"]

(2466052, 2466052)

In [28]:
s.대구   # .점찍고 불러오는 방법도 있음!!!!

2466052

In [29]:
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [30]:
# 배열 인덱싱을 하면 부분적인 값을 가지는 Series 자료형을 반환합니다. 
# 자료의 순서를 바꾸거나 특정한 자료만 취사 선택할 수 있습니다.

s[['서울', '대구', '부산']]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [31]:
# 단 하나의 값을 시리즈 형태로 가져오고 싶으면 다음과 같이 값이 
# 하나인 리스트로 인덱싱하여 작성할 수 있습니다.

s[[0]]

도시
서울    9904312
Name: 인구, dtype: int64

In [32]:
s[[2]]     # s[["인천"]] 도 동일 결과가 나옴

도시
인천    2890451
Name: 인구, dtype: int64

In [33]:
# Series 슬라이싱

# 슬라이싱을 해도 부분적인 Series를 반환합니다. 
# 이 때 문자열 label을 이용한 슬라이싱을 하는 경우에는 숫자 인덱싱과 달리 
# 콜론(:) 기호 뒤에 오는 값도 결과에 포함되므로 주의해야 합니다.

In [34]:
s[1:3]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [35]:
s["부산":"대구"]

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [36]:
# Series index 기반 연산

In [37]:
s2 = pd.Series({"서울":9631482, "부산":3393191, "인천":2632035, "대전":1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [38]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [39]:
# 위 내용 설명

# 이번에는 2015년도와 2010년의 인구 증가를 계산해 보겠습니다. 
# 두 개의 Series의 차이를 구하면 됩니다. 두 Series에 대해 연산을 하는 경우
# index가 같은 데이터에 대해서만 차이를 구합니다.
# 대구와 대전의 경우에는 2010년 자료와 2015년 자료가 모두 존재하지
# 않기 때문에 계산이 불가능하므로 NaN(Not a Number)이라는 값을 가지게 됩니다.

In [40]:
# Series에서 값이 NaN인지 확인

# Series의 값이 NaN이면 True NaN이 아니면 False인 
# bool type의 Series를 구하려면 isnull() 메서드를 사용하면 됩니다.

# Series의 값이 NaN이 아니면 True NaN이면 False 값을 갖는 
# bool type의 Series를 구하려면 notnull() 메서드를 사용하면 됩니다.

# notnull() 메서드로 구한 True / False 값을갖는 시리즈를 활용하여 
# NaN인 값을 배제한 Series 객체를 인덱싱하여 만들 수있습니다.

In [41]:
ds.isnull()

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool

In [42]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [43]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [44]:
# Series에서 NaN이 아닌 값 구하기

# 마찬가지로 NaN 값인 것을 배제하고 2010년 대비 2015년 인구 증가율(%)은
# 다음과 같이 구할 수 있습니다.

In [45]:
rs = (s - s2) / s2 *100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [46]:
# 연습문제

p = s - s2
p

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [47]:
p = p[p.notnull()]
p

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [48]:
p[[p.argmax()]]  # 리스트를 감싸서...

서울    272830.0
dtype: float64

In [49]:
# Series 데이터 추가, 갱신, 삭제

# 딕셔너리 때와 비슷하게 인덱싱을 경우에 맞춰 사용하면 
# 데이터를 추가(add)하거나 갱신(update)할 수 있습니다.
# 기존에 있는 index에 값을 할당하면 갱신됩니다.

In [50]:
rs  # 인구 증가율(%)

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [51]:
rs["부산"] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [52]:
# 연습문제
rs["서울"] = 2.83
rs["인천"] = 9.82
rs
# 인덱스 이용

부산    1.63
서울    2.83
인천    9.82
dtype: float64

In [53]:
# 위의 문제 슬라이싱 이용하여 풀이
rs["서울":"인천"] = (2.83, 9.82)   # 튜플같은 경우 ()소괄호 생략 가능합니데이
rs

부산    1.63
서울    2.83
인천    9.82
dtype: float64

In [54]:
# Series 데이터 추가, 갱신, 삭제

# 없는 index에 값을 할당하면 Series에 데이터가 추가(add)됩니다. 
# 아래 예제에서는 “대구"라는 index는 현재 없는데 
# 그 index에 값을 1.41 할당하여 데이터를 추가하고 있습니다.

In [55]:
rs

부산    1.63
서울    2.83
인천    9.82
dtype: float64

In [56]:
rs["대구"] = 1.41   # 데이터 추가
rs

부산    1.63
서울    2.83
인천    9.82
대구    1.41
dtype: float64

In [57]:
rs

부산    1.63
서울    2.83
인천    9.82
대구    1.41
dtype: float64

In [58]:
del rs["서울"]   # 데이터 삭제

In [59]:
rs

부산    1.63
인천    9.82
대구    1.41
dtype: float64

In [60]:
#연습문제

fin1 = {"카카오":60010, "삼성전자":61000, "LG전자":90000}
fin2_value = [60200, 61200, 200100]
fin2_index = ["카카오", "삼성전자", "네이버"]

ser_finance1 = pd.Series(fin1)
ser_finance2 = pd.Series(fin2_value, fin2_index)

print(ser_finance1)
print(ser_finance2)

카카오     60010
삼성전자    61000
LG전자    90000
dtype: int64
카카오      60200
삼성전자     61200
네이버     200100
dtype: int64


In [61]:
ser_finance1 - ser_finance2
# (-, +, * 경우 )LG전자, 네이버에서 결과가 NaN이고, 그 결과 전체 dtype은 float임

LG전자      NaN
네이버       NaN
삼성전자   -200.0
카카오    -190.0
dtype: float64

In [62]:
ser_finance1 + ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    122200.0
카카오     120210.0
dtype: float64

In [63]:
ser_finance1 * ser_finance2

LG전자             NaN
네이버              NaN
삼성전자    3.733200e+09
카카오     3.612602e+09
dtype: float64

In [64]:
ser_finance1 / ser_finance2
# ( / 경우) lG전자, 네이버에서 결과가 NaN 이고, 나눗셈은 항상 결과값이 float임

LG전자         NaN
네이버          NaN
삼성전자    0.996732
카카오     0.996844
dtype: float64

In [65]:
#연습문제

# result.notnull()

In [66]:
result = ser_finance1 - ser_finance2
result[result.notnull()]

# notnull() 기억하기!!

삼성전자   -200.0
카카오    -190.0
dtype: float64

In [67]:
# DataFrame class
# class pandas.DataFrame(data, index, columns, dtype, copy)

# DataFrame은 각 column마다 자료형이 다를 수 있다.
# DataFrame은 Pandas의 주요 데이터 구조입니다. 
# label된 row와 column, 두 개의 축을 갖는 데이터 구조입니다. 
# 산술 연산은 row와 column 모두 적용됩니다. 
# Series 객체를 갖는 dictionary라고 생각하면 비슷합니다.
# 첫 인자로 data, 두 번째 인자로 index를 전달합니다.

# 시리즈 밸류를 갖는 딕셔너리라고 생각을 해라...
# dict --> key(index):value(Series)  2차원!!

In [68]:
# DataFrame 생성

# Series가 1차원 벡터 데이터에 행방향 index(row index)를 붙인 것이라면 
# DataFrame 클래스는 2차원 행렬 데이터에 index를 붙인 것과 형태가 비슷합니다. 
# row와 column을 갖는 2차원이므로 
# 각각의 행 데이터의 이름이 되는 행 index(row index) 뿐 아니라
# 각각의 열 데이터의 이름이 되는 열 index(column index)도 붙일 수 있습니다.


# DataFrame을 만드는 방법은 다양합니다. 가장 간단한 방법은 다음과 같습니다.
# (데이터프레임은 표이고, 시리즈가 모여져서 만들어진거다 생각하면 되겠다....호호)

# 1. 우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비합니다.
# 2. 이 각각의 열에 대한 이름(label)을 키로 가지는 딕셔너리를 만듭니다.
# 3. 이 데이터를 DataFrame 클래스 생성자에 넣는다. 
# 동시에 열방향 index는 columns 인수로, 행방향 index는 index 인수로 지정합니다.

In [69]:
d = {"col1":[1,2], "col2":[3,4]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [70]:
# 좀 더 큰 스케일의 데이터

data = {
    "2015" : [9904312, 3448737, 2890451, 2466052],
    "2010" : [9631482, 3393191, 2632035, 2431774],
    "2005" : [9762546, 3512547, 2517680, 2456016],
    "2000" : [9853972, 3655437, 2466338, 2473990],
    "지역" : ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율" :[0.0283, 0.0163, 0.0982, 0.0141]
}

columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index = index, columns = columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [71]:
df.dtypes

# 앞서 이야기했듯 DataFrame의 각 column은 자료형이 다를 수 있음.

지역                object
2015               int64
2010               int64
2005               int64
2000               int64
2010-2015 증가율    float64
dtype: object

In [72]:
# DataFrame의 속성 values, columns, index

In [73]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [74]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [75]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [76]:
# DataFrame 이름 붙이기

In [77]:
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [78]:
data = {
    "승" : [67, 87, 80, 88],
    "무" : [3, 2, 2, 4],
    "패" : [74, 55, 62, 52],
    "지역" : ["창원", "서울", "수원", "인천"],
    "승률" : [0.475, 0.613, 0.563, 0.629],
    "최근10경기" : ["6승-4패-0무", "4승-6패-0무", "7승-3패-0무", "4승-6패-0무"]
}

columns = ["지역", "승", "무", "패", "승률", "최근10경기"]
index = ["NC", "LG", "KT", "SSG"]
result = pd.DataFrame(data, index = index, columns = columns)
result

Unnamed: 0,지역,승,무,패,승률,최근10경기
NC,창원,67,3,74,0.475,6승-4패-0무
LG,서울,87,2,55,0.613,4승-6패-0무
KT,수원,80,2,62,0.563,7승-3패-0무
SSG,인천,88,4,52,0.629,4승-6패-0무


In [79]:
result.index.name = "팀명"
result.columns.name = "순위"
result

순위,지역,승,무,패,승률,최근10경기
팀명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
NC,창원,67,3,74,0.475,6승-4패-0무
LG,서울,87,2,55,0.613,4승-6패-0무
KT,수원,80,2,62,0.563,7승-3패-0무
SSG,인천,88,4,52,0.629,4승-6패-0무


In [80]:
# 오늘 저녁 맛있는고 먹엉 예빈
# 맛있는 거 뭐먹어? 서현

In [81]:
# DataFrame 전치(Transpose)
df.T  

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [82]:
# DataFrame column 추가, 갱신, 삭제

# "2010-2015 증가율"이라는 이름의 열의 값을 갱신
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [83]:
# DataFrame column 추가, 갱신, 삭제

# "2005-2010 증가율"이라는 이름의 열 추가
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [84]:
# DataFrame column 추가, 갱신, 삭제

# "2010-2015 증가율"이라는 이름의 열 삭제
del df["2010-2015 증가율"] 
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [85]:
# DataFrame column 인덱싱

# DataFrame은 column label을 키로, 
# column Series를 값으로 가지는 딕셔너리와 비슷하다고 하였습니다. 
# 따라서 DataFrame을 인덱싱을 할 때도 column label을 키(key)로 생각하여 
# 인덱싱을 할 수 있습니다. index로 label 값을 하나만 넣으면 Series 객체가 반환됩니다.

In [86]:
# 하나의 column만 인덱싱하면 Series가 반환된다.
df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [87]:
# 2010이라는 column을 반환하면서 Series 자료형으로 반환
df["2010"]

도시
서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [88]:
# 여러 개의 column을 인덱싱하면 부분적인 DataFrame이 반환
df[["2010", "2015"]]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [89]:
# 2010이라는 column을 반환하면서 DataFrame 자료형을 유지
df[["2010"]]

특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [91]:
# DataFrame column 인덱싱
import numpy as np

df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [92]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int32

In [93]:
df2[[1, 2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


In [94]:
# DataFrame row 슬라이싱
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [95]:
df[:1]   #df[:"서울"] --> 문자는  포함, 숫자는 미포함

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [96]:
df[1:2]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [97]:
df["부산":"부산"]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [None]:
# DataFrame row 인덱싱할 경우 
# row 단위로 인덱싱을 하면 KeyError가 발생되는 것을 확인할 수 있다.

In [98]:
# DataFrame 개별 데이터 인덱싱
# DataFrame에서 column label로 인덱싱하면 Series가 됩니다. 
# 이 Series를 다시 row label로 인덱싱하면 개별 데이터가 나옵니다.

df["2015"]["서울"]

9904312

In [99]:
type(df["2015"]["서울"])

numpy.int64

In [100]:
# DataFrame 개별 데이터 인덱싱, 역순은 안 될까? 
# (더 복잡해짐.. 좀 비효율적 인 것 같기도....?)

df["서울":"서울"]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [101]:
df["서울":"서울"]["2015"]

도시
서울    9904312
Name: 2015, dtype: int64

In [102]:
type(df["서울":"서울"]["2015"])

pandas.core.series.Series

In [113]:
data = {
"국어": [80, 90, 70, 30],
"영어": [90, 70, 60, 40],
"수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)

In [114]:
df["수학"]

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [115]:
df[["국어", "영어"]]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [125]:
df["평균 점수"] = ((df["국어"] + df["영어"] + df["수학"]) / 3)
df

# 그 소숫점 두자리까지 표현하려면 round쓰고 뒤쪽에 2 적으면 됨
# 오류를 줄이기 위해서 그렇게 사용하나 봄. 강의자료 참고하기.

Unnamed: 0,국어,영어,수학,평균 점수
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,40,70,46.666667


In [126]:
df['춘향':'춘향']

Unnamed: 0,국어,영어,수학,평균 점수
춘향,80,90,90,86.666667


In [127]:
df.T["향단"]

# df.loc[index] 뒤에서 배울 예정

국어       70.0
영어       60.0
수학       80.0
평균 점수    70.0
Name: 향단, dtype: float64

In [130]:
np.random.seed(0)  
date = pd.date_range("2013-02-26", periods=6)
print(date)

DatetimeIndex(['2013-02-26', '2013-02-27', '2013-02-28', '2013-03-01',
               '2013-03-02', '2013-03-03'],
              dtype='datetime64[ns]', freq='D')


In [132]:
result123 = pd.DataFrame(np.random.randn(6, 4), index = date, columns = list("ABCD"))
result123

Unnamed: 0,A,B,C,D
2013-02-26,2.269755,-1.454366,0.045759,-0.187184
2013-02-27,1.532779,1.469359,0.154947,0.378163
2013-02-28,-0.887786,-1.980796,-0.347912,0.156349
2013-03-01,1.230291,1.20238,-0.387327,-0.302303
2013-03-02,-1.048553,-1.420018,-1.70627,1.950775
2013-03-03,-0.509652,-0.438074,-1.252795,0.77749
