# Pandas(Panel Datas)

##### Pandas package import

In [102]:
import pandas as pd
import numpy as np

## Series class

#### Series 생성하기  
-pandas.Serise
```python
class pandas.Seies(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
```

In [84]:
series = pd.Series(["하나","둘","셋","넷","다섯",
                    "여섯","일곱","여덟","아홉","열"],
                   index = [_ for _ in range(1,11)])
series

1     하나
2      둘
3      셋
4      넷
5     다섯
6     여섯
7     일곱
8     여덟
9     아홉
10     열
dtype: object

In [85]:
s = pd.Series([9_904_312, 3_448_737, 2_890_451, 2_466_052],
              index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [86]:
pd.Series(range(10,14))

0    10
1    11
2    12
3    13
dtype: int64

In [87]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [88]:
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [89]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [90]:
d = {'a': 1,'b': 2,'c': 3}
ser = pd.Series(data=d, index=['a','b','c'])
ser

a    1
b    2
c    3
dtype: int64

In [91]:
d = {'a': 1,'b': 2,'c': 3}
ser = pd.Series(data=d, index=['x','y','z'])
ser # NaN 값이 float자료형에서만 표현이 가능하므로 결과가 float자료형이 되었다.

x   NaN
y   NaN
z   NaN
dtype: float64

In [92]:
s2 = pd.Series({"서울":9_904_312,
                "부산":3_448_737,
                "인천":2_890_451,
                "대구":2_466_052})
s2

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

#### Series index를 속성처럼 활용하기

In [93]:
d = {'a':1,'b':2,'c':3}
ser = pd.Series(data=d,index=['a','b','c'])
ser

a    1
b    2
c    3
dtype: int64

In [94]:
ser.a, ser.b, ser.c

(1, 2, 3)

#### Series의 특징

In [95]:
"서울" in s # 인덱스 레이블 중에 서울이 있는가

True

In [96]:
"대전" in s # 인덱스 레이블 중에 대전이 있는가

False

In [97]:
for k, v in s.items():
    print(f"{k}, {v}")

서울, 9904312
부산, 3448737
인천, 2890451
대구, 2466052


#### Series 연산하기

In [98]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [99]:
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

#### Series 인덱싱

In [100]:
s[1], s["부산"]

(3448737, 3448737)

In [101]:
s[3], s["대구"]

(2466052, 2466052)

In [102]:
s[[0,3,1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [103]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

#### Series 슬라이싱

In [104]:
s[1:3] # 두번째 (1)부터 세번째 (2)까지 (네번째(3) 미포함)

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [105]:
s["부산":"대구"] # 부산에서 대구까지 (대구도 포함)

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

#### Series index 기반 연산

In [106]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [107]:
s2 = pd.Series({"서울": 9631482,"부산":3393191, "인천": 2632035, "대전": 1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [108]:
ds = s -s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

#### Series에서 값이 NaN인지 확인

In [109]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

#### Series에서 NaN이 아닌 값 구하기

In [110]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [111]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [112]:
s # 2015년 도시별 인구

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [113]:
s2 # 2010년 도시별 인구

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [114]:
rs = (s - s2) / s2 * 100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

#### Series 데이터 추가, 갱신, 삭제

In [115]:
rs # 인구 증가율(%)

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [116]:
rs["부산"] = 1.63 # 갱신
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [117]:
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [118]:
rs["대구"] = 1.41 # 추가
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [119]:
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [120]:
del rs["서울"]
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

#### Series 데이터 개수 세기

In [121]:
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [122]:
s.count()

9

In [123]:
len(s)

10

In [124]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4,4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [125]:
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [25]:
# seaborn 이라는 패키지에는 여러가지 데이터를 제공하고 있습니다.
# 그 중 타이타닉호의 승객 데이터도 있는데 아래의 예제처럼 DataFrame으로 읽어올 수 있습니다.
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head(5) # 데이터 중 앞의 5개를 봅니다.

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


#### Series 카테고리 값세기

In [205]:
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int32

In [207]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

### Series 정렬

#### Series 정렬 - index기준

In [211]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [213]:
# sort_index를 적용하면 아래와 같이 정렬된 결과를 볼 수 있습니다.
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

#### Series 정렬 - value기준

In [214]:
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [215]:
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

#### Series 정렬 - 내림차순

In [217]:
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

### Series class 연습문제

##### 아래 fin1과  fin2_value, fin2_index를 활용하여  
Series 객체 ser_finance1, ser_finaance2를 만들어 보세요.  
fin1 = {"카카오":60010, "삼성전자":61000,"LG전자":90000}  
fin2_value = [60200,61200,200100]  
fin2_index = ["카카오", "삼성전자", "네이버"]  

In [127]:
fin1 = {"카카오":60010,"삼성전자":61000,"LG전자":90000}
fin2_value = [60200,61200,200100]
fin2_index = ["카카오", "삼성전자", "네이버"]
ser_finance1 = pd.Series(fin1)
ser_finance2 = pd.Series(fin2_value,fin2_index)

##### 앞서 만든 두 Series 객체를 활용하여 사칙 연산을 각각 수행해보세요.  
사칙연산 중 NaN 값을 갖는 항목과 dtype을 각각 확인해보세요.  
왜 해당 dtype이 나오는지 설명하세요.

In [128]:
ser_finance1 - ser_finance2

LG전자      NaN
네이버       NaN
삼성전자   -200.0
카카오    -190.0
dtype: float64

In [129]:
ser_finance1 + ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    122200.0
카카오     120210.0
dtype: float64

In [130]:
ser_finance1 * ser_finance2

LG전자             NaN
네이버              NaN
삼성전자    3.733200e+09
카카오     3.612602e+09
dtype: float64

In [131]:
ser_finance1 / ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    0.996732
카카오     0.996844
dtype: float64

##### 아래의 연산 결과 중 NaN 값이 없게 Series 객체를 출력해보세요.  
```python
result = ser_finance1 - ser_finance2
```

In [132]:
result = ser_finance1 - ser_finance2
result[result.notnull()]

삼성전자   -200.0
카카오    -190.0
dtype: float64

##### 타이타닉호 승객 데이터를 seaborn 패키지를 통해 불러오고,  
그 데이터 개수를 각 column마다 구해보세요.

In [133]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

## DataFrame class

- pandas.DataFrame
```python
class pandas.DataFrame(data=None, index=None, column=None, dtype=None, copy=None)
```

#### DataFrame 생성하기

- 우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비합니다.
- 이 각각의 열에 대한 이름을 키로 가지는 딕셔너리를 만듭니다.
- 이 데이터를 DataFrame 클래스 생성자에 넣는다.  
동시에 열방향 index는 columns인수로, 행방향 index는 index 인수로 지정합니다

In [282]:
d = {'col1': [1,2], 'col2':[3,4]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [283]:
data = {
    "2015" : [9904312, 3448737, 2890451, 2466052],
    "2010" : [9631482, 3393191, 2632035, 2431774],
    "2005" : [9762564, 3512547, 2517680, 2456016],
    "2000" : [9853972, 3655437, 2466338, 2473990],
    "지역" : ["수도권", "경산권", "수도권", "경상권"],
    "2010-2015 증가율" : [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762564,9853972,0.0283
부산,경산권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


#### DataFrame의 속성 values, columns, index

In [284]:
df.values

array([['수도권', 9904312, 9631482, 9762564, 9853972, 0.0283],
       ['경산권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [285]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [286]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

#### DataFrame에 이름 붙이기

In [287]:
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762564,9853972,0.0283
부산,경산권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


#### DataFeame 전치

In [288]:
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경산권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762564,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


#### DataFrame column 추가, 갱신, 삭제

In [289]:
# "2010-2015 증가율"이라는 이름의 열의 값을 갱신
df["2010-2015 증가율"] = df["2010-2015 증가율"] *100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762564,9853972,2.83
부산,경산권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


In [290]:
# "2005-2010 증가율"이라는 이름의 열 추가
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762564,9853972,2.83,-1.34
부산,경산권,3448737,3393191,3512547,3655437,1.63,-3.4
인천,수도권,2890451,2632035,2517680,2466338,9.82,4.54
대구,경상권,2466052,2431774,2456016,2473990,1.41,-0.99


In [291]:
# "2010-2015 증가율"이라는 이름의 열 삭제
del df["2010-2015 증가율"]
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762564,9853972,-1.34
부산,경산권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


#### DataFrame row 슬라이싱

In [301]:
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762564,9853972,-1.34
부산,경산권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [302]:
df[:1] # df[:"서울"] --> 문자는 포함, 숫자는 미포함

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762564,9853972,-1.34


In [303]:
df[1:2]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경산권,3448737,3393191,3512547,3655437,-3.4


In [304]:
df["부산":"부산"]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경산권,3448737,3393191,3512547,3655437,-3.4


### DataFrame 인덱싱

#### DataFrame column 인덱싱

In [292]:
# 하나의 column만 인덱싱 하면 Series가 반환된다.
df["지역"]

도시
서울    수도권
부산    경산권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [293]:
# 2010이라는 column을 반환하면서 Series 자료형으로 변환
df["2010"]

도시
서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [294]:
type(df["2010"])

pandas.core.series.Series

In [295]:
# 여러 개의 column을 인덱싱하면 부분적인 DataFrame이 반환된다.
df[["2010","2015"]]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [296]:
# 2010이라는 column을 반환하면서 DataFrame 자료형을 유지
df[["2010"]]

특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [297]:
# column index가 문자열 label일 때 는 순서를 나타내는 정수 index를 column 인덱싱에 사용할 수 없습니다.
df[0]

KeyError: 0

In [298]:
import numpy as np
df2 = pd.DataFrame(np.arange(12).reshape(3,4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [299]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int32

In [300]:
df2[[1,2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


#### DataFrame row를 인덱싱 할 경우

In [155]:
df["서울"]

KeyError: '서울'

#### DataFrame 개별 데이터 인덱싱

In [156]:
df["2015"]["서울"]

9904312

In [157]:
type(df["2015"]["서울"])

numpy.int64

#### DataFrame 개별 데이터 인덱싱, 역순은 안 될까?

In [158]:
df["서울":"서울"]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762564,9853972,-1.34


In [159]:
df["서울":"서울"]["2015"] # 효율적이지 않음

도시
서울    9904312
Name: 2015, dtype: int64

In [160]:
type(df["서울":"서울"]["2015"])

pandas.core.series.Series

#### DataFrame 고급 인덱싱

Pandas는 Numpy 배열과 같이 콤마를 사용한 (row인덱스, column인덱스)  
형식의 2차원 인덱싱을 지원하기 위해
다음과 같은 특별한 인덱서 속성도 제공합니다.  
- ioc : label 값 기반의 2차원 인덱싱  
- iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱 

##### DataFrame 고급 인덱싱 - loc 인덱서
이 때 인덱싱 값은 다음 중 하나입니다. row 인덱싱 값은 정수 또는 row index 데이터이고 column 인덱싱 값은 label 문자열입니다.  
- index 데이터
- index 데이터 슬라이스
- index 데이터 리스트
- 같은 row 인덱스를 가지는 boolean Series (row 인덱싱의 경우)
- 또는 위의 값들을 반환하는 함수  

###### loc인덱서는 다음과 같이 사용할 수 있습니다.  
- df.loc[row 인덱싱 값, column 인덱싱 값]  
- df.loc[row 인덱싱 값]

In [161]:
df = pd.DataFrame(np.arange(10,22).reshape(3,4), index=list("abc"), columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [162]:
df.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [163]:
df.loc["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [164]:
df.loc["a":"c"]

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [165]:
df.loc[["b","c"]]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [166]:
df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [167]:
df.loc[df.A > 15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [168]:
# callable한 함수를 만들어서 인덱싱하는데 사용할 수 있습니다.
def select_rows(df, num):
    return df.A > num

In [169]:
select_rows(df, 10)

a    False
b     True
c     True
Name: A, dtype: bool

In [170]:
df.loc[select_rows(df, 10)]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [171]:
# loc 인덱서는 column label 인덱싱이나 column label 리스트 인덱싱은 불가능합니다.
df.loc["A"] # KeyError

KeyError: 'A'

In [172]:
# loc 인덱서는 column label 인덱싱이나 column label 리스트 인덱싱은 불가능합니다.
df.loc[["A","B"]] # KeyError

KeyError: "None of [Index(['A', 'B'], dtype='object')] are in the [index]"

In [173]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4,4),columns=["A","B","C","D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [174]:
# 원래 row 인덱스 값이 정수인 경우에는 마지막 값이 포합됩니다.
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [175]:
df.loc["a","A"]

10

In [176]:
df.loc["b":,"A"]

b    14
c    18
Name: A, dtype: int32

In [177]:
df.loc["a",:]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [178]:
df.loc[["a","b"],["B","D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


In [179]:
df.loc[df.A > 10, ["C","D"]]

Unnamed: 0,C,D
b,16,17
c,20,21


##### DataFrame 고급 인덱싱 - iloc 인덱서
loc인덱서와 반대로 label이 아니라 순서를 나타내는 정수(integer) 인덱스만 받습니다.  
다른 사항은 loc인덱서와 같습니다.

In [180]:
df.iloc[0,1]

11

In [181]:
df.iloc[:2,2]

a    12
b    16
Name: C, dtype: int32

In [182]:
df.iloc[0,-2:]

C    12
D    13
Name: a, dtype: int32

In [183]:
df.iloc[2:3,1:3]

Unnamed: 0,B,C
c,19,20


In [184]:
df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int32

In [185]:
df.iloc[-1] = df.iloc[-1] * 2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42


##### DataFrame 고급 인덱싱 - loc 인덱서 vs iloc 인덱서

In [186]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [187]:
df2.iloc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17


### DataFrame 카테고리 값세기

In [45]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4,4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [46]:
df[0].value_counts()

3.0    2
0.0    1
4.0    1
Name: 0, dtype: int64

In [47]:
df3 = pd.DataFrame(np.ones((3,4)), columns=list('가나다라'))
df['나'] = 2.0
df3.iloc[1,2] = 3.0
df3.iloc[2,3] = np.nan
df3

Unnamed: 0,가,나,다,라
0,1.0,1.0,1.0,1.0
1,1.0,1.0,3.0,1.0
2,1.0,1.0,1.0,


In [48]:
df3.value_counts(['가','다'])

가    다  
1.0  1.0    2
     3.0    1
dtype: int64

In [49]:
df3.value_counts(['가','라'])

가    라  
1.0  1.0    2
dtype: int64

### DataFrame 정렬

In [50]:
df.sort_values(by=1)

Unnamed: 0,0,1,2,3,나
0,0.0,0.0,3.0,2.0,2.0
1,3.0,0.0,2.0,1.0,2.0
2,3.0,2.0,4.0,,2.0
3,4.0,3.0,4.0,2.0,2.0


- by 키워드 인수에 전달할 값으로 리스트 자료형의 형태로 지정할 수 있습니다.
- 요소의 순서대로 정렬 기준의 우선순위가 됩니다.

In [51]:
df.sort_values(by=[1,2])

Unnamed: 0,0,1,2,3,나
1,3.0,0.0,2.0,1.0,2.0
0,0.0,0.0,3.0,2.0,2.0
2,3.0,2.0,4.0,,2.0
3,4.0,3.0,4.0,2.0,2.0


### DataFrame 행/열 합계

In [52]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [53]:
df2.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

In [54]:
df2["Rowsum"] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,Rowsum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


In [21]:
df2.loc["colTotal"] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,Rowsum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
colTotal,24,33,25,24,15,10,5,16,152


In [55]:
df2.loc["colTotal",:] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,Rowsum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
colTotal,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


In [56]:
df2.mean()

0          9.6
1         13.2
2         10.0
3          9.6
4          6.0
5          4.0
6          2.0
7          6.4
Rowsum    60.8
dtype: float64

In [57]:
df2.loc["colTotal", :] = df2.mean()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,Rowsum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
colTotal,9.6,13.2,10.0,9.6,6.0,4.0,2.0,6.4,60.8


### DataFrame 연습문제

#### 지금부터 인터넷 서핑을 통해 자신이 관심있는 데이터를 얻고,
아래 조건을 만족하는 DataFrame을 직점 만들어보세요!
- column의 개수와 row의 개수가 각각 4개 이상이어야 합니다.
- column에는 정수, 문자열, 실수 자료형 데이터가 각각 1개 이상씩 포함되어 있어야 합니다.

In [160]:
data = {
    "2019" : [985, 983, 936, 898, 898],
    "2020" : [995, 990, 960, 910, 910],
    "2021" : [1020, 1018, 972, 926, 925],
    "2022" : [1041, 1040, 992, 956, 955],
    "2023" : [1072, 1071, 1023,987 ,986],
    "지역": ["수도권","수도권","수도권","경상권","경상권"],
}
columns = ["지역","2019","2020","2021","2022","2023"]
index = ["도쿄","가나가와","오사카","사이타마","아이지"]
minimum_wage = pd.DataFrame(data, index=index, columns=columns)
minimum_wage.T

Unnamed: 0,도쿄,가나가와,오사카,사이타마,아이지
지역,수도권,수도권,수도권,경상권,경상권
2019,985,983,936,898,898
2020,995,990,960,910,910
2021,1020,1018,972,926,925
2022,1041,1040,992,956,955
2023,1072,1071,1023,987,986


#### 다음 DataFrame을 활용하여 아래 문제를 해결해보세요.
- 모든 학생의 수학 점수를 Series로 나타낸다.
- 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
- 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.
- 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.
- 춘향의 점수를 DataFrame으로 나타낸다.
- 향단의 점수를 Series로 나타낸다.  
```python
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
```

In [189]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)

In [190]:
df["수학"]
df[["국어","영어"]]
df["평균 점수"] = ((df["국어"] + df["영어"] + df["수학"]) / 3).round()
df["영어"]["방자"] = 80
df["평균 점수"] = ((df["국어"] + df["영어"] + df["수학"]) / 3).round()
df[:1]
df.T["향단"]
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["영어"]["방자"] = 80


Unnamed: 0,국어,영어,수학,평균 점수
춘향,80,90,90,87.0
몽룡,90,70,60,73.0
향단,70,60,80,70.0
방자,30,80,70,60.0


#### 다음 DataFrame을 만들어보세요.
- 랜덤 시드는 0입니다.
- values는 넘파이 서브 패키지 중 random의 randn() 메서드를 사용하세요.
- pd.date_range("20130206", periods=날짜수)을 활용하세요.

In [161]:
np.random.seed(0)
dates = pd.date_range("20130226", periods=6)
df3 = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list("ABCD"))
df3

Unnamed: 0,A,B,C,D
2013-02-26,1.764052,0.400157,0.978738,2.240893
2013-02-27,1.867558,-0.977278,0.950088,-0.151357
2013-02-28,-0.103219,0.410599,0.144044,1.454274
2013-03-01,0.761038,0.121675,0.443863,0.333674
2013-03-02,1.494079,-0.205158,0.313068,-0.854096
2013-03-03,-2.55299,0.653619,0.864436,-0.742165


#### 타이타닉호 승객에 대해 성별(sex) 인원수,  나이별(age) 인원수, 선실별(class) 인원수,  
사망/생존 인원수를 구하고 sort_values 혹은 value_counts 메서드를 사용하여 내림차순으로 정렬해 보세요

In [30]:
titanic["sex"].value_counts().sort_values(ascending=False)

male      577
female    314
Name: sex, dtype: int64

In [31]:
titanic["age"].value_counts().sort_values(ascending=False)

24.00    30
22.00    27
18.00    26
19.00    25
28.00    25
         ..
66.00     1
0.67      1
0.42      1
34.50     1
74.00     1
Name: age, Length: 88, dtype: int64

In [29]:
titanic["class"].value_counts().sort_values(ascending=False)

Third     491
First     216
Second    184
Name: class, dtype: int64

In [309]:
titanic["alive"].value_counts().sort_values(ascending=False)

no     549
yes    342
Name: alive, dtype: int64

#### 다음 문제를 푸시오.
1. 타이타닉호 승객의 평균 나이를 구하세요.  
29.7  
2. 타이타닉호 승객중 여성 승객의 평균 나이를 구하세요.  
27.9
3. 타이타닉호 승객중 1등실(pclass==1)선실의 여성 승객의 평균 나이를 구하세요.  
34.6

In [163]:
round(titanic.age.mean(),1)

29.7

In [157]:
round(titanic.age[(titanic.sex == "female")].mean(),1)

27.9

In [158]:
round(titanic.age[(titanic.sex == "female") & (titanic.pclass == 1)].mean(),1)

34.6

In [140]:
titanic.loc[(titanic.sex == "female") & (titanic.pclass == 1)]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
11,1,1,female,58.0,0,0,26.5500,S,First,woman,False,C,Southampton,yes,True
31,1,1,female,,1,0,146.5208,C,First,woman,False,B,Cherbourg,yes,False
52,1,1,female,49.0,1,0,76.7292,C,First,woman,False,D,Cherbourg,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
856,1,1,female,45.0,1,1,164.8667,S,First,woman,False,,Southampton,yes,False
862,1,1,female,48.0,0,0,25.9292,S,First,woman,False,D,Southampton,yes,True
871,1,1,female,47.0,1,1,52.5542,S,First,woman,False,D,Southampton,yes,False
879,1,1,female,56.0,0,1,83.1583,C,First,woman,False,C,Cherbourg,yes,False


### Pandas 데이터 입출력

#### Pandas 데이터 csv로 출력하기

In [164]:
import pandas as pd
import numpy as np

In [165]:
data = {
    "c1" : [1,2,"누락"],
    "c2" : [1.11,"",3.33],
    "c3" : ["one","two","three"]
}
index = ['0','1','2']
columns = ["c1","c2","c3"]
df_csv = pd.DataFrame(data, index=index,columns=columns)
df_csv

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


In [166]:
df_csv.to_csv("sample1.csv", index=False)

In [167]:
%%writefile sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Writing sample3.txt


In [168]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing sample4.txt


In [174]:
df_na_val.to_csv('sample5.txt', sep='|')

In [175]:
# na_rep 키워드 인수를 사용해서 NaN 표시값을 바꿀 수 있습니다.
df_na_val.to_csv('sample6.csv', na_rep='누락')

#### Pandas csv로 부터 데이터 입력하기

In [169]:
df_read = pd.read_csv("sample1.csv")
df_read

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


In [170]:
df_csv.to_csv("sample2.csv", index=False,header=False)
pd.read_csv('sample2.csv' , names=['c1','c2','c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


In [171]:
pd.read_table('sample3.txt', sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


In [172]:
pd.read_csv('sample4.txt', skiprows=[0,1])#range(2)로 사용가능

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [173]:
# 데이터로 불러올 자려 안 특정한 값을 NaN으로 취급하고 싶으면 na_values안에 값을 넣습니다.
df_na_val = pd.read_csv('sample1.csv', na_values=["누락"])
df_na_val

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


#### 온라인의 csv 파일 가져오기

In [263]:
# 특정 개수만 보고 싶다면 head() 메서드나 tail() 메서드를 사용하면 됩니다. 인수로 출력할 행의 수를 넣으면 됩니다.
titanic = pd.read_csv("https://storage.googleapis.com/tf-datasets/titanic/train.csv")
titanic

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.2500,Third,unknown,Southampton,n
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
2,1,female,26.0,0,0,7.9250,Third,unknown,Southampton,y
3,1,female,35.0,1,0,53.1000,First,C,Southampton,n
4,0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y
...,...,...,...,...,...,...,...,...,...,...
622,0,male,28.0,0,0,10.5000,Second,unknown,Southampton,y
623,0,male,25.0,0,0,7.0500,Third,unknown,Southampton,y
624,1,female,19.0,0,0,30.0000,First,B,Southampton,y
625,0,female,28.0,1,2,23.4500,Third,unknown,Southampton,n
