# pandas 패키지의 소개

In [1]:
#표 데이터를 다루기 위한 series 클래스와 dataframe 클래스를 제공한다 pandas
#시리즈 클래스는 넘파이에서 데이터 의미를 표시하는 인덱스를 붙인 것이다
import pandas as pd

In [3]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [4]:
#만약 인덱스 지정안하면 index는 0부터 시작하는 정수값이된다.
x = pd.Series([2,3,1])
x

0    2
1    3
2    1
dtype: int64

In [5]:
#시리즈의 인덱스는 index속성으로 접근할 수 있다.
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [6]:
x.index

RangeIndex(start=0, stop=3, step=1)

In [8]:
x.values
#values 하면 값이 나온다

array([2, 3, 1], dtype=int64)

In [11]:
#name 속성을 이용하여 이름을 붙일 수 있다.
s.name='진구'
s.index.name='도시'

In [12]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 진구, dtype: int64

In [13]:
#시리즈도 벡터연산을 할 수가 있다. index는 영향받지않는다
s/1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 진구, dtype: float64

In [14]:
#배열 인덱싱을 하면 자료의 순서를 바꾸거나 특정한 자료만 선택할 수 있다.
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 진구, dtype: int64

In [15]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 진구, dtype: int64

In [16]:
s[(250e4 < s) & (s < 500e4)]
#조건을 줄수도 있따

도시
부산    3448737
인천    2890451
Name: 진구, dtype: int64

In [20]:
s[1:2]
#:뒤의 인덱스도 결과로 나온다 주의할 것

도시
부산    3448737
Name: 진구, dtype: int64

In [21]:
s["부산":"대구"]
#한글로도 콜론 가능

도시
부산    3448737
인천    2890451
대구    2466052
Name: 진구, dtype: int64

In [22]:
s0 = pd.Series(range(3), index=["a", "b", "c"])
s0

a    0
b    1
c    2
dtype: int64

In [24]:
s0.a
#만약 라벨의 값이 문자열이면 속성처럼 .으로 접근 가능

0

# 시리즈의 딕셔너리 자료형

In [25]:
"서울" in s

True

In [27]:
for k, v in s.items():
    print("%s = %d" % (k, v))
#s에 있는 것을 k.v에 대입하는데 %s에는 문자 %d에는 정수가 들어가게함

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


In [28]:
#딕셔너리 객체에서 시리즈
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [29]:
#딕셔너리의 순서를 지정하려면 인덱스를 하나하나 지정해주어야한다
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158},
               index=["부산", "서울", "인천", "대전"])
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

# 인덱스 기반연산

In [33]:
ds = s - s2
ds
#인덱스 끼리 뺄샘을 한다. 굉장히 신기하다
#대구와 대전은 비대칭이기 때문에 nan으로 뜬다

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [34]:
s.values - s2.values
#하지만 values끼리 연산을 하면 순서대로 다나온다

array([ 6511121, -6182745,   258416,   975894], dtype=int64)

In [35]:
ds.notnull()
#null이 아닌 값을 구할 수 있따.

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [37]:
ds[ds.notnull()]
#결과값을 ds에 넣어서 true 부분만 추출

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

# 데이터의 갱신, 추가, 삭제

In [40]:
s["부산"] = 1.63
s
#데이터를 이렇게 추가할 수 있따.

도시
서울    9904312
부산          1
인천    2890451
대구    2466052
Name: 진구, dtype: int64

In [41]:
del s["서울"]
s

도시
부산          1
인천    2890451
대구    2466052
Name: 진구, dtype: int64

# 연습문제 4.2.1

In [44]:
a = pd.Series([1,2,3],index=(['진구','도라에몽','이슬이']))
a
b = pd.Series([1,2,3],index=(['진구','도라에몽','이슬이']))
b

진구      1
도라에몽    2
이슬이     3
dtype: int64

In [45]:
a-b

진구      0
도라에몽    0
이슬이     0
dtype: int64

# 데이터프레임 클래스

In [47]:
#시리즈가 1차 행렬이면 dataframe은 2차 행렬이라고 보면됨
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df
#데이터를 세로로 만들고 , head지정해주고 index를 열 이름으로 지정해 준다음에, pd.DataFrame에다가 매개변수 넣듯 넣으면 됨

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [49]:
#앞에서 행이라고 설명했지만 이건 1차원짜리 열벡터를 여러개 합쳐 놨다고 생각하는 게 맞다.
import numpy as np
np.ndim(df)
#차원은 2가 나오긴 한다 하지만 각각의 value들의 자료형이 다르다.

2

In [50]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [51]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [55]:
df.index.name = "도시"
df.columns.name = "특성"
df
#행과 열의 이름을 붙여줄 수있따.
df.shape

(4, 6)

In [61]:
#시리즈가 1차 행렬이면 dataframe은 2차 행렬이라고 보면됨
date = {
    "2015": [9904312, 3448737, 2890451, 2466052,1],
    "2010": [9631482, 3393191, 2632035, 2431774,2],
    "2005": [9762546, 3512547, 2517680, 2456016,3],
    "2000": [9853972, 3655437, 2466338, 2473990,4],
    "지역": ["수도권", "경상권", "수도권", "경상권","즐"],

}
columns = ["지역", "2015", "2010", "2005", "2000"]
index = ["서울", "부산", "인천", "대구","진구"]
dt = pd.DataFrame(date, index=index, columns=columns)
df
#데이터를 세로로 만들고 , head지정해주고 index를 열 이름으로 지정해 준다음에, pd.DataFrame에다가 매개변수 넣듯 넣으면 됨


특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [62]:
date = {
    "2015": [9904312, 3448737, 2890451, 2466052,1],
    "2010": [9631482, 3393191, 2632035, 2431774,2],
    "2005": [9762546, 3512547, 2517680, 2456016,3],
    "2000": [9853972, 3655437, 2466338, 2473990,4],
    "지역": ["수도권", "경상권", "수도권", "경상권","즐"],

}
columns = ["지역", "2015", "2010", "2005", "2000"]
index = ["서울", "부산", "인천", "대구","진구"]

In [63]:
date

{'2015': [9904312, 3448737, 2890451, 2466052, 1],
 '2010': [9631482, 3393191, 2632035, 2431774, 2],
 '2005': [9762546, 3512547, 2517680, 2456016, 3],
 '2000': [9853972, 3655437, 2466338, 2473990, 4],
 '지역': ['수도권', '경상권', '수도권', '경상권', '즐']}

In [64]:
columns

['지역', '2015', '2010', '2005', '2000']

In [65]:
dt = pd.DataFrame(date, index=index, columns=columns)
dt

Unnamed: 0,지역,2015,2010,2005,2000
서울,수도권,9904312,9631482,9762546,9853972
부산,경상권,3448737,3393191,3512547,3655437
인천,수도권,2890451,2632035,2517680,2466338
대구,경상권,2466052,2431774,2456016,2473990
진구,즐,1,2,3,4


In [68]:
dt.T
#데이터 프레임 전치같은 배열에서 쓰는 거의 모든 것들이 가능

Unnamed: 0,서울,부산,인천,대구,진구
지역,수도권,경상권,수도권,경상권,즐
2015,9904312,3448737,2890451,2466052,1
2010,9631482,3393191,2632035,2431774,2
2005,9762546,3512547,2517680,2456016,3
2000,9853972,3655437,2466338,2473990,4


In [70]:
dt["서울"]
#행의 인덱싱은 되지 않는 것같다.

KeyError: '서울'

In [72]:
dt["2015"] #행은 가능함

서울    9904312
부산    3448737
인천    2890451
대구    2466052
진구          1
Name: 2015, dtype: int64

In [73]:
#한 행을 따로 빼서 따로 만들수도있다.
x=dt["2015"] 

In [74]:
x

서울    9904312
부산    3448737
인천    2890451
대구    2466052
진구          1
Name: 2015, dtype: int64

In [75]:
df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2
#np와 pandas를 연계해서 사용할 수 도 있다.

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [76]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int32

# 열데이터의 갱신 추가 삭제

In [77]:
#데이터 프레임은 열 시리즈의 딕셔너리로 볼 수 있으므로 갱신 추가 삭제 가능하다.
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [79]:
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df
#간단하게 대입하는 느낌으로 넣으면 된다.

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83,-1.34
부산,경상권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [80]:
del df["2010-2015 증가율"]
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [81]:
#데이터프레임에서 행 인덱싱하고 열인덱싱하면 각 개체가 나온다.
df["2005"]["서울"]

9762546

In [83]:
#위에 안됬던 행 인덱싱하는 방법은 슬라이싱을 하는 것이다.
df[1:2]
#이결과는 부산을 뽑은 것과같다.
#하지만 obs수가 많아지면 이렇게 하기 힘들다.

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


# 연습문제 4.2.3

In [115]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


#모든 학생의 수학 점수를 시리즈로 나타낸다.
#모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
#모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
#방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.
#춘향의 점수를 데이터프레임으로 나타낸다.
#향단의 점수를 시리즈로 나타낸다.

In [89]:
a = pd.Series(['90','60','80','70'])
a

0    90
1    60
2    80
3    70
dtype: object

In [104]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],

}
columns = ["국어", "영어"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [116]:
df.T

Unnamed: 0,춘향,몽룡,향단,방자
국어,80,90,70,30
영어,90,70,60,40
수학,90,60,80,70


In [117]:
df["평균"]=(df["국어"]+df["영어"]+df["수학"])/4

In [118]:
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,65.0
몽룡,90,70,60,55.0
향단,70,60,80,52.5
방자,30,40,70,35.0


In [120]:
df["영어"]["방자"]=80

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [122]:
df["평균"]=(df["국어"]+df["영어"]+df["수학"])/4

In [123]:
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,65.0
몽룡,90,70,60,55.0
향단,70,60,80,52.5
방자,30,80,70,45.0
