#### Pandas 패키지의 소개¶
- Pandas 패키지는 데이터 분석을 할 때 가장 많이 쓰이는 패키지
- 대부분의 데이터는 시계열(series)이나 표(table)의 형태로 나타낼 수 있는데 Pandas 패키지에서는 이러한 표 데이터를 다루기 위한 시리즈(Series) 클래스와 데이터프레임(DataFrame) 클래스를 제공
- `Series` : index와 value로 구성, 벡터화 연산이 가능하지만 인덱스는 변하지 않음

In [1]:
# 인덱스를 지정하지 않았을 때
data = pd.Series(np.random.randint(10, size=5))
data

0    4
1    6
2    6
3    4
4    8
dtype: int32

In [2]:
data.index = [1,2,3,4,5]
data

1    4
2    6
3    6
4    4
5    8
dtype: int32

In [31]:
# 인덱스를 지정했을 때
s = pd.Series([9904312, 3448737, 2890451, 2466052], index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [4]:
s.index, s.values

(Index(['서울', '부산', '인천', '대구'], dtype='object'),
 array([9904312, 3448737, 2890451, 2466052], dtype=int64))

In [5]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [6]:
s / 10000

도시
서울    990.4312
부산    344.8737
인천    289.0451
대구    246.6052
Name: 인구, dtype: float64

In [7]:
s["서울"], s[0], s.서울    # <객체명>.<숫자인덱스>는 안됨

(9904312, 9904312, 9904312)

In [8]:
#숫자인덱스일 경우 그 숫자에 해당하는 value 리턴
data[1], data[2], data[3], data[4], data[5] 

(4, 6, 6, 4, 8)

In [9]:
s[[3,2,1,0]]  # 순서바꾸기

도시
대구    2466052
인천    2890451
부산    3448737
서울    9904312
Name: 인구, dtype: int64

In [10]:
# 문자열 라벨을 이용한 슬라이싱을 할 경우에는 콜론(:)기호 뒤 인덱스값도
# 결과에 포함
s[::-1], s[0:2], s["부산":"대구"]

(도시
 대구    2466052
 인천    2890451
 부산    3448737
 서울    9904312
 Name: 인구, dtype: int64, 도시
 서울    9904312
 부산    3448737
 Name: 인구, dtype: int64, 도시
 부산    3448737
 인천    2890451
 대구    2466052
 Name: 인구, dtype: int64)

In [11]:
s[s > 3000000]

도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64

In [12]:
"서울" in s, "대전" in s

(True, False)

In [13]:
# Series의 index, value로 분리
A = data.index
B = data.values
A, B

(Int64Index([1, 2, 3, 4, 5], dtype='int64'), array([4, 6, 6, 4, 8]))

In [14]:
# Series 각 원소에 접근(짝끼리)
for C, D in data.items():
    print(C, D)

1 4
2 6
3 6
4 4
5 8


In [15]:
# Dictionary로 Seires 생성 가능, 단 순서는 바뀜(index=[ ]로 순서도 지정)
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})
s2

대전    1490158
부산    3393191
서울    9631482
인천    2632035
dtype: int64

#### index 기반 연산

In [16]:
c = s - s2   # 연산에서 두 Series가 다 value를 가지고 있어야 함
c            # NaN값은 float 자료형에서만 가능하므로 다른 결과도 float변환

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [17]:
# NaN 데이터 제거
c.notnull(), c[c.notnull()]

(대구    False
 대전    False
 부산     True
 서울     True
 인천     True
 dtype: bool, 부산     55546.0
 서울    272830.0
 인천    258416.0
 dtype: float64)

In [25]:
# Series 데이터 추가 가능
s["제주"] = 1489320
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
제주    1489320
dtype: int64

In [32]:
del s["서울"]
s

부산    3448737
인천    2890451
대구    2466052
dtype: int64

#### 데이터프레임¶
- Series가 1차원 벡터 데이터에 행방향 인덱스(row index)를 붙인 것이라면 데이터프레임(Data-Frame) 클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷하다.
- 2차원이므로 각각의 행 데이터의 이름이 되는 행방향 인덱스(row index) 뿐 아니라 각각의 열 데이터의 이름이 되는 열방향 인덱스(column index)도 붙일 수 있다.
- 2차원 배열은 모든 원소가 같은 자료형태를 가져야 하지만 데이터프레임은 column마다 형태가 달라도 된다.

#### 데이터프레임 생성¶
1. 우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비한다.
2. 이 각각의 열에 대한 이름(라벨)을 키로 가지는 딕셔너리를 만든다.
3. 이 데이터를 `DataFrame` 클래스 생성자에 넣는다. 동시에 열방향 인덱스는 `columns` 인수로, 행방향 인덱스는 `index` 인수로 지정한다.

In [55]:
# dictionary를 이용하여 DataFrame 생성
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
index = ["서울", "부산", "인천", "대구"]
popdf = pd.DataFrame(data, index=index, columns=columns)
popdf

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [53]:
# list로 DataFrame 생성
df = pd.DataFrame(columns = ["email", "name"])
df["email"] = ["sldkjf@gmail.com", "aaslkdje@naver.com", "xjcxtb@daum.net"]
df["name"] = ["Kang", "Kim", "Park"]
df.index = ["A", "B", "C"]
df

Unnamed: 0,email,name
A,sldkjf@gmail.com,Kang
B,aaslkdje@naver.com,Kim
C,xjcxtb@daum.net,Park


In [54]:
df.values, df.columns, df.index

(array([['sldkjf@gmail.com', 'Kang'],
        ['aaslkdje@naver.com', 'Kim'],
        ['xjcxtb@daum.net', 'Park']], dtype=object),
 Index(['email', 'name'], dtype='object'),
 Index(['A', 'B', 'C'], dtype='object'))

In [65]:
popdf.index.name = "도시"
popdf.columns.name = "변수"
popdf

변수,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [66]:
popdf.T

도시,서울,부산,인천,대구
변수,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [76]:
popdf["서울":"부산"]

변수,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163


In [77]:
popdf[0:1]

변수,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283


In [1]:
popdf.loc["서울"].type

NameError: name 'popdf' is not defined

In [73]:
popdf[["2015"]]

변수,2015
도시,Unnamed: 1_level_1
서울,9904312
부산,3448737
인천,2890451
대구,2466052


In [85]:
popdf["2015"]["서울"]

9904312

In [89]:
popdf["2015-2010"] = popdf["2015"] - popdf["2010"]
popdf

변수,지역,2015,2010,2005,2000,2010-2015 증가율,2015-2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283,272830
부산,경상권,3448737,3393191,3512547,3655437,0.0163,55546
인천,수도권,2890451,2632035,2517680,2466338,0.0982,258416
대구,경상권,2466052,2431774,2456016,2473990,0.0141,34278


In [90]:
del popdf["2015-2010"]
popdf

변수,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


#### 연습 문제 3¶
다음 데이터프레임에서 지정하는 데이터를 뽑아내거나 처리하라.
1. 모든 학생의 수학 점수를 시리즈로 나타낸다.
2. 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
3. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
4. 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.
5. 춘향의 점수를 데이터프레임으로 나타낸다.
6. 향단의 점수를 시리즈로 나타낸다.

In [92]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [93]:
df["수학"]

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [99]:
df[["국어","영어"]]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [130]:
df.loc["과목평균"] = df[["국어", "영어", "수학"]].mean()
df

Unnamed: 0,국어,영어,수학
춘향,80.0,90.0,90.0
몽룡,90.0,70.0,60.0
향단,70.0,60.0,80.0
방자,30.0,40.0,70.0
과목평균,67.5,65.0,75.0


In [150]:
df["평균"] = [df.loc[i].values.mean() for i in df.index]
df.round(2)

Unnamed: 0,국어,영어,수학,평균
춘향,80.0,90.0,90.0,86.67
몽룡,90.0,70.0,60.0,73.33
향단,70.0,60.0,80.0,70.0
방자,30.0,40.0,70.0,46.67
과목평균,67.5,65.0,75.0,69.17
