## Pandas  

- Numpy와 마찬가지로 Pandas 패키지를 사용하기 위해서 임포트 해줘야하고 별칭으로 pd를 사용  
  import pandas as pd   
  
  
#### Series class  

- Series 클래스는 배열과 다르게 각 데이터의 의미를 표시하는 index를 붙일 수 있다.  
  데이터 자체는 값(value)라고 한다.
  
### Series 생성하기  

- Series객체를 만들 때 첫 인수로 data, 두 번째 인수로는 index를 넣습니다.

In [1]:
import pandas as pd  

In [13]:
series = pd.Series(["하나", "둘", "셋", "넷", "다섯", "여섯", "일곱", "여덟", "아홉", "열"], index = [_ for _ in range(1,11)])
series

1     하나
2      둘
3      셋
4      넷
5     다섯
6     여섯
7     일곱
8     여덟
9     아홉
10     열
dtype: object

In [19]:
s = pd.Series([9_904_312, 3_448_737, 2_890_451, 2_466_052], index = ["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [22]:
s[[1,2]]

부산    3448737
인천    2890451
dtype: int64

In [56]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [57]:
s.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [16]:
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

In [59]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [48]:
d = {"a" : 1, "b" : 2, "c" : 3}
ser = pd.Series(data = d, index = {"a", "b", "c"})
ser

a    1
b    2
c    3
dtype: int64

In [49]:
ser.a, ser.b, ser.c

(1, 2, 3)

In [42]:
d = {"a" : 1, "b" : 2, "c" : 3}
ser = pd.Series(data = d, index = {"x", "y", "z"})
ser

z   NaN
x   NaN
y   NaN
dtype: float64

In [52]:
"서울" in s # 인덱스 레이블 중에 서울이 있는가

True

In [53]:
"대전" in s # 인덱스 레이블 중 대전이 있는가

False

In [61]:
for k, v in s.items():
    print(f"{k}, {v}")

서울, 9904312
부산, 3448737
인천, 2890451
대구, 2466052


In [68]:
s / 1000000 # Series 객체를 백만으로 나누어도 index label에는 영향을 미치지 않는다.

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [72]:
s[1],s["부산"]

(3448737, 3448737)

In [70]:
s[3],s["대구"]

(2466052, 2466052)

In [76]:
s[[0, 3, 1]] # 자료형의 순서를 바꾸거나 특정 자료만 선택할 수 있다

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [78]:
s[["서울", "대구", "부산"]] # 자료형의 순서를 바꾸거나 특정 자료만 선택할 수 있다

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [87]:
s[1:2] # 인덱스번호 1부터 2전까지 (2 미포함)

도시
부산    3448737
Name: 인구, dtype: int64

In [88]:
s["부산":"대구"] # 부산부터 대구까지 (대구 포함)

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [96]:
s2 = pd.Series({"서울" : 9631482, "부산" : 3393191, "인천" : 2632035, "대전" : 1430154})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1430154
dtype: int64

In [99]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [104]:
ds.notnull() # NaN인 값을 알 수 있는 메서드

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [107]:
ds[ds.notnull()] # NaN인 값을 배제한 객체를 만들 수 있다.

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [124]:
# 인구 증가율 구하기
rs = (s - s2) / s2 * 100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [125]:
rs["부산"] = 1.63 # 기존에 있는 index에 값을 할당하면 갱신됩니다.
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [126]:
rs["대구"] = 1.41 # 없는 index에 값을 할당하면 데이터가 추가됩니다.
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [127]:
del rs["서울"] # 삭제
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

In [131]:
fin1 = {"카카오": 60010, "삼성전자": 61000, "LG전자": 90000}
fin2_value = [60200, 61200, 200100]
fin2_index = ["카카오", "삼성전자", "네이버"]

In [137]:
ser_finance1 = pd.Series(fin1)
ser_finance1

카카오     60010
삼성전자    61000
LG전자    90000
dtype: int64

In [141]:
ser_finance2 = pd.Series(fin2_value,fin2_index) # Series(value,index) // (소괄호)안은 ,콤마
ser_finance2

카카오      60200
삼성전자     61200
네이버     200100
dtype: int64

In [146]:
ser_finance1 - ser_finance2

LG전자      NaN
네이버       NaN
삼성전자   -200.0
카카오    -190.0
dtype: float64

In [148]:
result = ser_finance1 - ser_finance2
result[result.notnull()]

삼성전자   -200.0
카카오    -190.0
dtype: float64

## DataFrame  

Series가 1차원 벡터 데이터에 행방향 index(row index)를 붙인 것이라면  
DataFrame 클래스는 2차원 행렬 데이터에 index를 붙인 것과 형태가 비슷합니다.

In [554]:
d = {'col1': [1,2], 'col2': [3,4]}
df = pd.DataFrame(data = d)
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [555]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [556]:
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [561]:
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283,-1.34
부산,경상권,3448737,3393191,3512547,3655437,0.0163,-3.4
인천,수도권,2890451,2632035,2517680,2466338,0.0982,4.54
대구,경상권,2466052,2431774,2456016,2473990,0.0141,-0.99


In [268]:
epl_data = {
    "경기" : [18, 18, 19, 18, 18],
    "승점" : [47, 39, 38, 38, 33],
    "승" : [15, 12, 10, 12, 10],
    "무" : [2, 3, 8, 2, 3],
    "패" : [1, 3, 1, 4, 6]
}

epl_columns = ["경기", "승점", "승", "무", "패"]
teams = ["Aresnal", "Man City", "Newcastle", "Man Utd", "Spurs"]

epl_df = pd.DataFrame(epl_data, index = teams, columns = epl_columns)
epl_df

Unnamed: 0,경기,승점,승,무,패
Aresnal,18,47,15,2,1
Man City,18,39,12,3,3
Newcastle,19,38,10,8,1
Man Utd,18,38,12,2,4
Spurs,18,33,10,3,6


In [162]:
df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [170]:
df["2010"] 

도시
서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [172]:
type(df["2010"] ) # 타입 : 시리즈

pandas.core.series.Series

In [165]:
df[["2010", "2015"]]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [167]:
df[["2010"]]

특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [173]:
type(df[["2010"]]) # 타입 : 데이터 프레임

pandas.core.frame.DataFrame

In [32]:
import numpy as np
df2 = pd.DataFrame(np.arange(12).reshape(3,4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [184]:
# column 인덱싱
df2[[1, 2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


In [273]:
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [196]:
# row 슬라이싱
df[:1]

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283


In [198]:
df[1:2]

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,0.0163


In [199]:
df["부산":"부산"]

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,0.0163


In [207]:
df["2015"]["서울"]

9904312

In [201]:
type(df["2015"]["서울"])

numpy.int64

In [203]:
df["서울":"서울"]

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283


In [272]:
df["서울":"서울"]["2015"]

서울    9904312
Name: 2015, dtype: int64

In [205]:
type(df["서울":"서울"]["2015"])

pandas.core.series.Series

In [33]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)

df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [539]:
df["수학"]

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [540]:
df[["국어", "영어"]]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [547]:
df["평균"] = ((df["국어"]+df["영어"]+df["수학"]) /3).round(2) # round(숫자) 숫자만큼 소수점을 보여줌
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [513]:
df["평균"] = round((df["국어"]+df["영어"]+df["수학"]) /3, 2)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [515]:
df["영어"]["방자"] = 80
df["평균"] = ((df["국어"]+df["영어"]+df["수학"]) /3).round(2)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["영어"]["방자"] = 80


Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [516]:
df[:1] 

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.67


In [503]:
#향단의 점수를 시리즈로
df["국어"][2:3],df["영어"][2:3],df["수학"][2:3]

(향단    70
 Name: 국어, dtype: int64,
 향단    60
 Name: 영어, dtype: int64,
 향단    80
 Name: 수학, dtype: int64)

In [518]:
df.T["향단"] # 행과 열을 바꿔주는것

국어    70.0
영어    60.0
수학    80.0
평균    70.0
Name: 향단, dtype: float64

In [575]:
np.random.seed(0)

In [576]:
num = np.random.randn(24).reshape(6,4) # == np.random.randn(6,4)
num

array([[ 1.76405235,  0.40015721,  0.97873798,  2.2408932 ],
       [ 1.86755799, -0.97727788,  0.95008842, -0.15135721],
       [-0.10321885,  0.4105985 ,  0.14404357,  1.45427351],
       [ 0.76103773,  0.12167502,  0.44386323,  0.33367433],
       [ 1.49407907, -0.20515826,  0.3130677 , -0.85409574],
       [-2.55298982,  0.6536186 ,  0.8644362 , -0.74216502]])

In [577]:
date = pd.date_range("20130226",periods=6) # "날짜", periods=날짜수 // 해당날짜 부터 날짜수만큼의 날짜들을 생성해준다.
date

DatetimeIndex(['2013-02-26', '2013-02-27', '2013-02-28', '2013-03-01',
               '2013-03-02', '2013-03-03'],
              dtype='datetime64[ns]', freq='D')

In [578]:
abcd = ["A", "B", "C", "D"]
df = pd.DataFrame(num, index=date, columns=abcd)
df

Unnamed: 0,A,B,C,D
2013-02-26,1.764052,0.400157,0.978738,2.240893
2013-02-27,1.867558,-0.977278,0.950088,-0.151357
2013-02-28,-0.103219,0.410599,0.144044,1.454274
2013-03-01,0.761038,0.121675,0.443863,0.333674
2013-03-02,1.494079,-0.205158,0.313068,-0.854096
2013-03-03,-2.55299,0.653619,0.864436,-0.742165
