## 1. 판다스(Pandas)

### 0) 필요 패키지 임포트

In [1]:
import pandas as pd
import numpy as np

### 1) 시리즈(Series)

- 1차원 배열의 값(values)에 각 값에 대응되는 인덱스(index)를 부여할 수 있는 구조를 갖음
- 시리즈 = 값(value) + 인덱스(index)

- 인덱스의 길이는 데이터의 길이와 같아야 함
- 인덱스 값은 문자열 뿐 아니라 날짜, 시간, 정수 등도 가능

#### 1-1) 시리즈 생성

In [3]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [237]:
#s = pd.Series([9904312, 3448737, 2890451, 2466052])
#s

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64

In [53]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [54]:
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

--만약 인덱스를 지정하지 않고 시리즈를 만들면 시리즈의 인덱스는 0부터 시작하는 정수값이 됨

In [236]:
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

--name 속성을 이용하여 시리즈 데이터에 이름 붙임 
<br>--index.name 속성으로 시리즈의 인덱스에도 이름 붙임

In [31]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

#### 1-2) 시리즈 연산

--시리즈는 백터화 연산이 가능
<br>--연산은 시리즈 값에만 적용할 수 있고 인덱스 값은 변하지 않음

In [32]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

#### 1-3) 시리즈 인덱싱

인덱스 라벨을 이용한 인덱싱, 배열 인덱싱이나 인덱스 라벨을 이용한 슬라이싱(slicing)도 가능

In [239]:
# 시리즈 데이터를 인덱싱하면 값이 나옴
s[2], s["부산"]

(2890451, 3448737)

In [35]:
s[3], s["대구"]

(2466052, 2466052)

In [36]:
s[3]

2466052

In [37]:
#자료 순서 바꾸기
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [38]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [39]:
s[(250e4 < s) & (s < 500e4)]  # 인구가 250만 초과, 500만 미만인 경우

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

-- 슬라이싱 가능
<br>-- 문자열일 경우, 콜론(:) 뒤에 오는 값도 결과에 포함

In [241]:
s[1:2]  # 두번째(1)부터 세번째(2)까지 (네번째(3) 미포함)

부산    3448737
dtype: int64

In [240]:
s["부산":"인천"]  # 부산에서 대구까지 (대구도 포함)

부산    3448737
인천    2890451
dtype: int64

-- 라벨 값이 영문 문자열인 경우에는 인덱스 라벨이 속성인것처럼 점(.)을 이용하여 해당 인덱스 값에 접근 가능

In [43]:
s0 = pd.Series(range(3), index=["a", "b", "c"])
s0

a    0
b    1
c    2
dtype: int64

In [50]:
list(range(3))

[0, 1, 2]

In [44]:
s0.a

0

In [243]:
s0.c

2

#### 1-4) 시리즈와 딕셔너리 자료형

-- 시리즈 객체는 라벨 값에 의해 인덱싱이 가능하므로 실질적으로 인덱스 라벨 값을 키(key)로 가지는 딕셔너리 자료형과 같다고 볼 수 있음
<br>-- 딕셔너리 자료형에서 제공하는 in 연산, for 루프를 통한 각 원소의 키(key)와 값(value)에 접근 가능

In [55]:
"서울" in s  # 인덱스 라벨 중에 서울이 있는가

True

In [56]:
"대전" in s  # 인덱스 라벨 중에 대전이 있는가

False

In [57]:
for k, v in s.items():
    print("%s = %d" % (k, v))

서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052


In [245]:
#딕셔너리 객체에서 시리즈 만들기
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, 
                "대전": 1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [63]:
# 딕셔너리는 순서를 가지지 않음 순서 보장 안됨
s2[1]

9631482

-- 딕셔너리의 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않음
<br>-- 만약 순서를 정하고 싶다면 인덱스를 리스트로 지정해야 함

In [246]:
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, 
                "대전": 1490158},
               index=["부산", "서울", "인천", "대전"])
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

In [247]:
s2[1]

9631482

#### 1-5) 인덱스 기반 연산

 -- 2015년도와 2010년의 인구 증가 계산

In [64]:
#인덱스가 같은 데이터에 대해서만 계산 가능
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [248]:
# null 값이 아닌 것 찾기
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [69]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [70]:
#증가율 계산
rs = (s - s2) / s2 * 100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

#### 1-6) 데이터의 갱신, 추가, 삭제

-- 인덱싱을 이용하면 딕셔너리처럼 데이터를 갱신(update)하거나 추가(add) 가능

In [249]:
rs["부산"] = 1.63
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

In [250]:
rs["대구"] = 1.41
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

In [252]:
# 데이터 삭제
del rs["대구"]
rs

부산    1.630000
인천    9.818107
dtype: float64

### #1 연습문제 
<br>(1) 임의로 두 개의 시리즈 객체를 만든다. 모두 문자열 인덱스를 가져야 하며 두 시리즈에 공통적으로 포함되지 않는 라벨이 있어야 한다.
<br>(2) 위에서 만든 두 시리즈 객체를 이용하여 사칙 연산을 한다.

### 2) 데이터프레임(DataFrame)

- 2차원 리스트를 매개변수로 전달하는 구조
- 2차원이므로 행방향 인덱스(index)와 열방향 인덱스(column)가 존재
- 데이터프레임은 열(columns)까지 추가되어 열(columns), 인덱스(index), 값(values)으로 구성
- 시리즈는 인덱스(index)와 값(values)으로 구성

In [262]:
values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
index = ['one', 'two', 'three']
columns = ['A', 'B', 'C']

df = pd.DataFrame(values, index=index, columns=columns)

print('데이터프레임 출력 :')
print('-'*18)
print(df)

데이터프레임 출력 :
------------------
       A  B  C
one    1  2  3
two    4  5  6
three  7  8  9


In [263]:
df1 = pd.DataFrame(values, columns=columns)
print(df1)

   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9


In [12]:
print(df.index)
print(df.columns)
print(df.values)

Index(['one', 'two', 'three'], dtype='object')
Index(['A', 'B', 'C'], dtype='object')
[[1 2 3]
 [4 5 6]
 [7 8 9]]


### 3) 데이터프레임의 생성

테이터 프레임 생성이 가능한 경우 
1. 리스트
2. 시리즈
3. 딕셔너리
4. Numpy의 ndarrays

#### 3-1) 데이터프레임

In [259]:
# 리스트로 생성하기
data = [
    ['1000', 'Steve', 90.72], 
    ['1001', 'James', 78.09], 
    ['1002', 'Doyeon', 98.43], 
    ['1003', 'Jane', 64.19], 
    ['1004', 'Pilwoong', 81.30],
    ['1005', 'Tony', 99.14],
]

df = pd.DataFrame(data)
print(df)

      0         1      2
0  1000     Steve  90.72
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14


In [260]:
type(df)

pandas.core.frame.DataFrame

In [261]:
#열 지정
df = pd.DataFrame(data, columns=['학번', '이름', '점수'])
print(df)

     학번        이름     점수
0  1000     Steve  90.72
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14


In [265]:
# 딕셔너리로 생성하기
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


-- 데이터만 접근하려면 values 속성
<br>-- 열방향 인덱스는 columns 속성
<br>-- 행방향 인덱스는 index 속성

In [82]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [83]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [84]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [85]:
#전치 가능
df.T

Unnamed: 0,서울,부산,인천,대구
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


#### 3-2) 열 데이터의 갱신, 추가, 삭제

-- 데이터프레임은 열 시리즈의 딕셔너리으로 볼 수 있으므로 열 단위로 데이터를 갱신하거나 추가, 삭제할 수 있음 

In [266]:
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [86]:
# "2010-2015 증가율"이라는 이름의 열 추가
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [267]:
# "2005-2010 증가율"이라는 이름의 열 추가
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(3)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283,-1.343
부산,경상권,3448737,3393191,3512547,3655437,0.0163,-3.398
인천,수도권,2890451,2632035,2517680,2466338,0.0982,4.542
대구,경상권,2466052,2431774,2456016,2473990,0.0141,-0.987


In [268]:
# "2010-2015 증가율"이라는 이름의 열 삭제
del df["2010-2015 증가율"]
df

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,-1.343
부산,경상권,3448737,3393191,3512547,3655437,-3.398
인천,수도권,2890451,2632035,2517680,2466338,4.542
대구,경상권,2466052,2431774,2456016,2473990,-0.987


#### 3-3) 열 인덱싱

-- 데이터프레임은 열 라벨을 키로, 열 시리즈를 값으로 가지는 딕셔너리와 비슷함
<br>-- 데이터프레임을 인덱싱을 할 때도 열 라벨(column label)을 키값으로 생각하여 인덱싱 가능

In [269]:
# 하나의 열만 인덱싱하면 시리즈가 반환된다.
df["지역"]

서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [90]:
# 여러개의 열을 인덱싱하면 부분적인 데이터프레임이 반환된다.
df[["2010", "2015"]]

Unnamed: 0,2010,2015
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [91]:
# 2010이라는 열을 반환하면서 데이터프레임 자료형을 유지
df[["2010"]]

Unnamed: 0,2010
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [93]:
type(df[["2010"]])

pandas.core.frame.DataFrame

In [94]:
# 2010이라는 열을 반환하면서 시리즈 자료형으로 변환
df["2010"]

서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [95]:
type(df["2010"])

pandas.core.series.Series

In [97]:
# 문자열 라벨을 가지는 경우 정수 인덱스를 열 인덱싱에 사용할 수 없음
df[0]

KeyError: 0

In [103]:
# 열 인덱스가 정수형일땐 인덱스 값에 정수 사용 가능
df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [None]:
(0,12,1)

In [104]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int32

In [105]:
df2[[1, 2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


#### 3-4) 행 인덱싱

-- 행 단위로 인덱싱을 하고자 하면 항상 슬라이싱(slicing) 사용
<br>-- 인덱스의 값이 문자 라벨이면 라벨 슬라이싱도 가능

In [271]:
df

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,-1.343
부산,경상권,3448737,3393191,3512547,3655437,-3.398
인천,수도권,2890451,2632035,2517680,2466338,4.542
대구,경상권,2466052,2431774,2456016,2473990,-0.987


In [272]:
df[:1]

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,-1.343


In [273]:
df[1:2]

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
부산,경상권,3448737,3393191,3512547,3655437,-3.398


In [274]:
df[1:3]

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
부산,경상권,3448737,3393191,3512547,3655437,-3.398
인천,수도권,2890451,2632035,2517680,2466338,4.542


In [275]:
df["서울":"부산"]

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,-1.343
부산,경상권,3448737,3393191,3512547,3655437,-3.398


In [276]:
df

Unnamed: 0,지역,2015,2010,2005,2000,2005-2010 증가율
서울,수도권,9904312,9631482,9762546,9853972,-1.343
부산,경상권,3448737,3393191,3512547,3655437,-3.398
인천,수도권,2890451,2632035,2517680,2466338,4.542
대구,경상권,2466052,2431774,2456016,2473990,-0.987


In [277]:
# 개별 데이터 인덱싱 / 열 라벨로 인덱싱 후 행 라벨로 인덱싱하면 원하는 개별 데이터 추출
df["2010"]["대구"]

2431774

### #2 연습문제
다음 데이터프레임에서 지정하는 데이터를 뽑아내거나 처리하라.

In [278]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)

In [279]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


(1) 모든 학생의 수학 점수를 시리즈로 나타낸다.

(2) 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.

(3) 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.

(4) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.

(5) 춘향의 점수를 데이터프레임으로 나타낸다.

(6) 향단의 점수를 시리즈로 나타낸다.

### 4) 데이터프레임 조회하기

- df.head(n) - 앞 부분을 n개만 보기
- df.tail(n) - 뒷 부분을 n개만 보기
- df['열이름'] - 해당되는 열을 확인

In [280]:
# 앞 부분을 3개만 보기
print(df.head(3))

    국어  영어  수학
춘향  80  90  90
몽룡  90  70  60
향단  70  60  80


In [281]:
# 뒷 부분을 3개만 보기
print(df.tail(3))

    국어  영어  수학
몽룡  90  70  60
향단  70  60  80
방자  30  40  70


In [283]:
# '학번'에 해당되는 열을 보기
print(df['국어'])

춘향    80
몽룡    90
향단    70
방자    30
Name: 국어, dtype: int64


### 5) 외부 데이터 읽기

- Pandas는 CSV, 텍스트, Excel, SQL, HTML, JSON 등 다양한 데이터 파일을 읽어 데이터프레임 생성이 가능

In [284]:
df = pd.read_csv('RegularSeasonCompactResults.csv')
print(df)

        Season  DayNum  WTeamID  WScore  LTeamID  LScore WLoc  NumOT
0         1985      20     1228      81     1328      64    N      0
1         1985      25     1106      77     1354      70    H      0
2         1985      25     1112      63     1223      56    H      0
3         1985      25     1165      70     1432      54    H      0
4         1985      25     1192      86     1447      74    H      0
...        ...     ...      ...     ...      ...     ...  ...    ...
156084    2018     132     1153      56     1222      55    N      0
156085    2018     132     1172      58     1348      57    N      0
156086    2018     132     1209      74     1426      61    N      0
156087    2018     132     1246      77     1397      72    N      0
156088    2018     132     1335      68     1217      65    N      0

[156089 rows x 8 columns]


In [285]:
# 인덱스 자동 부여
print(df.index)

RangeIndex(start=0, stop=156089, step=1)


#### 5-1) CSV 파일 입력 및 %%writefile 명령

-- 셀에 서술한 내용대로 텍스트 파일을 만드는 명령

In [287]:
%%writefile sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting sample1.csv


In [288]:
pd.read_csv('sample1.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


데이터 파일에 열 인덱스 정보가 없는 경우에는 read_csv 명령의 names 인수로 설정 가능

In [289]:
%%writefile sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting sample2.csv


In [290]:
pd.read_csv('sample2.csv', names=['c1', 'c2', 'c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


테이블 내의 특정한 열을 행 인덱스로 지정하고 싶으면 index_col 인수 사용

In [291]:
pd.read_csv('sample1.csv', index_col='c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


자료 파일 중에 건너 뛰어야 할 행이 있으면 skiprows 인수 사용

In [292]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting sample4.txt


In [293]:
pd.read_csv('sample4.txt', skiprows=[0, 1, 4])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,3,3.33,three


특정한 값을 NaN으로 취급하고 싶으면 na_values 인수에 NaN 값으로 취급할 값을 넣음

In [123]:
%%writefile sample5.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three

Writing sample5.csv


In [294]:
df = pd.read_csv('sample5.csv', na_values=['누락'])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [295]:
df = pd.read_csv('sample5.csv', na_values=['누락', ' '])
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


#### 5-2) CSV 파일 출력

데이터프레임 값을 CSV 파일로 출력하고 싶으면 to_csv 메서드 사용

In [296]:
df.to_csv('sample6.csv')

In [297]:
# !type 함수를 사용해서 파일의 내용을 확인할 수 있음/ 정확한 저장 확인
!type sample6.csv

,c1, c2, c3
0,1.0,1.11, one
1,2.0,, two
2,,3.33, three


#### 5-3) 인터넷 상의 CSV 파일 입력

 read_csv 명령 사용시 파일 패스 대신 URL을 지정하면 Pandas가 직접 해당 파일을 다운로드하여 읽음

In [298]:
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")

In [299]:
pd.set_option("display.max_rows", 20)  # 앞뒤로 모두 20행만 보여준다.
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


### 6. 데이터프레임 고급 인덱싱

- loc : 라벨값 기반의 2차원 인덱싱<br>
- iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱

#### 6-1) loc 인덱서

df.loc[행 인덱싱값]

df.loc[행 인덱싱값, 열 인덱싱값]

In [301]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


#### 인덱싱값을 하나만 받는 경우

In [302]:
# loc 인덱서를 사용하면서 인덱스를 하나만 넣으면 행(row)을 선택
df.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [303]:
# 슬라이스도 가능
df.loc["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [145]:
# 이 때에는 loc를 쓰지 않는 경우와 같음
df["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [147]:
df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [148]:
df.loc[df.A > 15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [304]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=["A", "B", "C", "D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [305]:
# 슬라이스의 마지막 값 포함
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


#### 인덱싱값을 행과 열 모두 받는 경우

- df.loc[행 인덱스, 열 인덱스]와 같은 형태로 사용<br>
- 행 인덱스 라벨값이 a, 열 인덱스 라벨값이 A인 위치의 값을 구

In [308]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [156]:
df.loc["a", "A"]

10

In [307]:
df.loc["b":, "A"]

b    14
c    18
Name: A, dtype: int32

In [158]:
df.loc["a", :]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [159]:
df.loc[["a", "b"], ["B", "D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


In [311]:
# A열에서 10보다 큰 행을 먼저 선택
df.loc[df.A > 10]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [312]:
df.loc[df.A > 10, ["C", "D"]]

Unnamed: 0,C,D
b,16,17
c,20,21


#### 6-2) iloc 인덱서

iloc 인덱서는 loc 인덱서와 반대로 라벨이 아니라 순서를 나타내는 정수(integer) 인덱스만 받음

In [163]:
df = pd.DataFrame(np.arange(10, 22, 1).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [164]:
df.iloc[0, 1]

11

In [165]:
df.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int32

In [313]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [166]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int32

In [167]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


In [314]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [168]:
# loc 인덱서와 마찬가지로 인덱스가 하나만 들어가면 행을 선택
df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int32

### #3 연습문제
1. 모든 행과 열에 라벨을 가지는 5 x 5 이상의 크기를 가지는 데이터프레임을 만든다.
2. 10가지 이상의 방법으로 특정한 행과 열을 선택한다.

### 7. 데이터프레임의 데이터 조작

#### 7-1) 데이터 갯수 세기

count 메서드를 사용해 데이터의 갯수를 확인

In [325]:
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [171]:
# NaN 값은 세지 않음
s.count()

9

In [319]:
np.random.seed(2)
# np.random.seed(2) 난수를 예측 가능하도록 숫자 바꾸면 다른 배열 생성
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
#np.random.randint 0에서 5사이의 정수를 가지는 4*4 배열 생성
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


데이터프레임에서는 각 열마다 별도로 데이터 갯수를 세기 때문에 누락된 부분을 찾을 때 유용

In [177]:
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [183]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


### #4 문제
타이타닉호 승객 데이터의 데이터 개수를 각 열마다 구해본다.

#### 7-2) 카테고리 값 세기

시리즈의 값이 정수, 문자열, 카테고리 값인 경우에는 value_counts 메서드로 각각의 값이 나온 횟수를 셀 수 있음

In [316]:
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int32

In [186]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

데이터프레임에는 value_counts 사용시 각 열마다 별도로 적용 해야함

In [321]:
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [322]:
df[3].value_counts()

2.0    2
1.0    1
Name: 3, dtype: int64

#### 7-3) 정렬

s2 시리즈의 각 데이터 값에 따른 데이터 갯수를 인덱스에 따라 정렬

In [323]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [188]:
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

In [326]:
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [327]:
# NaN값이 있는 경우에는 정렬하면 NaN값이 가장 나중에 나옴
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [328]:
#큰 수에서 작은 수로 반대 방향 정렬하려면 ascending=False 인수를 지정
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

In [329]:
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [330]:
# by 인수로 정렬 기준이 되는 열을 지정
df.sort_values(by=1)

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


- by 인수에 리스트 값을 넣으면 이 순서대로 정렬 기준의 우선 순위가 정해짐
- 리스트의 첫번째 열을 기준으로 정렬한 후 동일한 값이 나오면 그 다음 열로 순서를 따짐

In [331]:
df.sort_values(by=[1, 2])

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


### #5 문제 
sort_values 메서드를 사용하여 타이타닉호 승객에 대해 성별(sex) 인원수, 나이별(age) 인원수, 선실별(class) 인원수, 사망/생존(alive) 인원수를 구하라.

#### 7-4) 행/열 합계

행과 열의 합계를 구할 때는 sum(axis) 메서드를 사용한다. axis 인수에는 합계로 인해 없어지는 방향축(0=행, 1=열)을 지정 / 행방향 합계를 구할 때는 sum(axis=1) 메서드를 사용

In [332]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [198]:
df2.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

In [333]:
df2["RowSum"] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


In [200]:
# 열 합계를 구할 때는 sum(axis=0), 디폴트 값이므로 생략 가능
df2.sum()

0          24
1          33
2          25
3          24
4          15
5          10
6           5
7          16
RowSum    152
dtype: int64

### #6 문제
1. 타이타닉호 승객의 평균 나이를 구하라.
2. 타이타닉호 승객중 여성 승객의 평균 나이를 구하라.
3. 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이를 구하라.

#### 7-5) apply 변환

인수로 행 또는 열을 받는 함수를 apply 메서드의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용시킴

In [203]:
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [205]:
#각 열의 최대값과 최소값의 차이
df3.apply(lambda x: x.max() - x.min())

A    3
B    2
C    4
dtype: int64

In [206]:
#행에 적용
df3.apply(lambda x: x.max() - x.min(), axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [340]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


타이타닉호의 승객 중 나이 20살을 기준으로 성인(adult)과 미성년자(child)를 구별하는 라벨 열을 만들 수 있음

In [334]:
titanic["adult/child"] = titanic.apply(lambda r: "adult" if r.age >= 20 else "child", axis=1)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult


### #7 문제
타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category1 열을 만들어라. category1 카테고리는 다음과 같이 정의된다.

1. 20살이 넘으면 성별을 그대로 사용한다.
2. 20살 미만이면 성별에 관계없이 “child”라고 한다.

#### 7-6) fillna 메서드

NaN 값은 fillna 메서드를 사용하여 원하는 값으로 바꿀 수 있음

In [337]:
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [338]:
df.apply(pd.value_counts).fillna(0.0)

Unnamed: 0,0,1,2,3
0.0,1.0,2.0,0.0,0.0
1.0,0.0,0.0,0.0,1.0
2.0,0.0,1.0,1.0,2.0
3.0,2.0,1.0,1.0,0.0
4.0,1.0,0.0,2.0,0.0


### #8 문제
타이타닉호의 승객 중 나이를 명시하지 않은 고객은 나이를 명시한 고객의 평균 나이 값이 되도록 titanic 데이터프레임을 고쳐라.

#### 7-7) astype 메서드

astype 메서드로 전체 데이터의 자료형을 바꾸는 것도 가능

In [341]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [342]:
df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [211]:
df3.apply(pd.value_counts).fillna(0).astype(int)

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


### #9 문제
타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category2 열을 만들어라. category2 카테고리는 다음과 같이 정의된다.

1. 성별을 나타내는 문자열 male 또는 female로 시작한다.

2. 성별을 나타내는 문자열 뒤에 나이를 나타내는 문자열이 온다.

3. 예를 들어 27살 남성은 male27 값이 된다.

#### 7-8) 실수 값을 카테고리 값으로 변환
- cut: 실수 값의 경계선을 지정하는 경우
- qcut: 갯수가 똑같은 구간으로 나누는 경우

In [353]:
ages = [3, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 99]

In [351]:
#  bins 인수는 카테고리를 나누는 기준
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]
cats = pd.cut(ages, bins, labels=labels)
cats

['미성년자', '미성년자', '미성년자', '청년', '청년', ..., '장년', '미성년자', '중년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [215]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [345]:
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [355]:
ages

[3, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 99]

In [356]:
cats.codes

array([ 0,  0,  0,  1,  1,  2,  2,  3,  0,  2,  2, -1], dtype=int8)

In [354]:
df4 = pd.DataFrame(ages, columns=["ages"])
df4["age_cat"] = pd.cut(df4.ages, bins, labels=labels)
df4

Unnamed: 0,ages,age_cat
0,3,미성년자
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,중년
6,31,중년
7,61,장년
8,20,미성년자
9,41,중년


In [220]:
# age_cat 열값을 astype 메서드 사용해서 문자열로 바꾸기
df4.age_cat.astype(str) + df4.ages.astype(str)

0       nan0
1      미성년자2
2     미성년자10
3       청년21
4       청년23
5       중년37
6       중년31
7       장년61
8     미성년자20
9       중년41
10      중년32
11    nan101
dtype: object

qcut 명령은 구간 경계선을 지정하지 않고 데이터 갯수가 같도록 지정한 수의 구간으로 나눔
<br>예를 들어 다음 코드는 1000개의 데이터를 4개의 구간으로 나누는데 각 구간은 250개씩의 데이터를 가짐

In [358]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
cats

['Q2', 'Q1', 'Q2', 'Q3', 'Q1', ..., 'Q1', 'Q1', 'Q4', 'Q4', 'Q2']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [359]:
pd.value_counts(cats)

Q4    250
Q3    250
Q2    250
Q1    250
dtype: int64

### #10 문제
타이타닉호 승객을 ‘미성년자’, ‘청년’, ‘중년’, ‘장년’, ‘노년’ 나이 그룹으로 나눈다.

In [224]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"]

그리고 각 나이 그룹의 승객 비율을 구한다. 비율의 전체 합은 1이 되어야 한다.

### #11 문제
타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 열인 category3 열을 만들어라. category3 카테고리는 다음과 같이 정의된다.

1. 20살 미만이면 성별에 관계없이 “미성년자”라고 한다.

2. 20살 이상이면 나이에 따라 “청년”, “중년”, “장년”, “노년”을 구분하고 그 뒤에 성별을 나타내는 “남성”, “여성”을 붙인다.

### 8) 그룹분석

groupby 메서드는 데이터를 그룹 별로 분류하는 역할

- size, count: 그룹 데이터의 갯수
- mean, median, min, max: 그룹 데이터의 평균, 중앙값, 최소, 최대
- sum, prod, std, var, quantile : 그룹 데이터의 합계, 곱, 표준편차, 분산, 사분위수
- first, last: 그룹 데이터 중 가장 첫번째 데이터와 가장 나중 데이터

In [360]:
np.random.seed(0)
df2 = pd.DataFrame({
    'key1': ['A', 'A', 'B', 'B', 'A'],
    'key2': ['one', 'two', 'one', 'two', 'one'],
    'data1': [1, 2, 3, 4, 5],
    'data2': [10, 20, 30, 40, 50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


groupby 명령을 사용하여 그룹 A와 그룹 B로 구분한 그룹 데이터를 만듬

In [226]:
groups = df2.groupby(df2.key1)
groups

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000029974CE0AC8>

In [227]:
# 각 그룹 데이터의 인덱스를 저장한 groups 속성 확인
groups.groups

{'A': [0, 1, 4], 'B': [2, 3]}

In [229]:
# A그룹과 B그룹 데이터의 합계
groups.sum()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


In [231]:
# 열 data1에 대해서만 그룹연산
df2.data1.groupby(df2.key1).sum()

key1
A    8
B    7
Name: data1, dtype: int64

In [232]:
# 데이터를 그룹으로 나눈 GroupBy 클래스 객체 또는 그룹분석한 결과에서 data1만 뽑기
df2.groupby(df2.key1)["data1"].sum() 

key1
A    8
B    7
Name: data1, dtype: int64

In [233]:
df2.groupby(df2.key1).sum()["data1"]  
# 전체 데이터를 분석한 후 data1만 선택한 경우

key1
A    8
B    7
Name: data1, dtype: int64