# 2022년 11월 22일 - 통계 (판다스에 대해 다루어 본다.)

In [1]:
import pandas as pd

In [3]:
s = pd.Series([1116, 12259, 65119, 16699], index = ['서울', '부산', '인천', '대구'])
s

서울     1116
부산    12259
인천    65119
대구    16699
dtype: int64

* 인덱스의 순서도 중요하니 잘 써주어야 한다.

In [5]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

* object로 되어 있는 것을 볼 수 있다. 만약 index를 넣지 않는다면, range처럼 만들어지게 된다.

In [6]:
s.values

array([ 1116, 12259, 65119, 16699], dtype=int64)

* 자신이 가지고 있는 타입이 어떤건지 아는 것도 중요하다.

In [7]:
s.name = '농작물 생산량(톤)' # 이름이 어떤 것인지 명시를 해줄 수 있다.

In [9]:
s.index.name = '지역구' # 인덱스의 이름을 정해 줄 수 있다.

In [10]:
s

지역구
서울     1116
부산    12259
인천    65119
대구    16699
Name: 농작물 생산량(톤), dtype: int64

In [12]:
 s1 = s / 1000

* 안에 있는 values의 값들이 1000의로 나누어져 있다는 것을 알 수 있다.

In [13]:
s1.name = '농작물 생산량(k톤)'

In [14]:
s1

지역구
서울     1.116
부산    12.259
인천    65.119
대구    16.699
Name: 농작물 생산량(k톤), dtype: float64

In [16]:
(s / 4456952 * 100).round(2) # round를 사용해서 소수점 둘째자리까지 나타낸다.

지역구
서울    0.03
부산    0.28
인천    1.46
대구    0.37
Name: 농작물 생산량(톤), dtype: float64

* 각 지역마다 비율을 나타내본다.

In [17]:
s

지역구
서울     1116
부산    12259
인천    65119
대구    16699
Name: 농작물 생산량(톤), dtype: int64

In [29]:
s[0], s['서울'], s.서울

(1116, 1116, 1116)

* 서울이라는 키값으로 접근이 가능하지만, 상대적인 인덱스로도 접근이 가능한다.

In [21]:
s[[0, 1]]

지역구
서울     1116
부산    12259
Name: 농작물 생산량(톤), dtype: int64

In [20]:
s[[1, 0]]

지역구
부산    12259
서울     1116
Name: 농작물 생산량(톤), dtype: int64

In [22]:
s[['부산', '서울']]

지역구
부산    12259
서울     1116
Name: 농작물 생산량(톤), dtype: int64

* 인덱스로 가지고 오는 것 보다 키값으로 들고 오는 것이 더 안전하다고 볼 수 있다.

In [23]:
s[s > 10000]

지역구
부산    12259
인천    65119
대구    16699
Name: 농작물 생산량(톤), dtype: int64

* s의 값이 10000이상인 서울, 부산, 인천에 대한 값만 가지고 올 수 있다.

### 조건과 연산을 넣어 필요한 데이터 가지고 옴.

In [25]:
s[(s > 10000) & (s < 20000)]

지역구
부산    12259
대구    16699
Name: 농작물 생산량(톤), dtype: int64

* 괄호를 쳐줘서 연산자를 구분해준다.

In [26]:
s[(s / 4456952 * 100) > 0.5] 

지역구
인천    65119
Name: 농작물 생산량(톤), dtype: int64

In [27]:
s[1:3] # 인덱스로 접근하게 되면, 1부터 2까지만 접근이 가능하게 된다.

지역구
부산    12259
인천    65119
Name: 농작물 생산량(톤), dtype: int64

In [28]:
s['서울' : '대구'] # 슬라이싱을 키값으로 하게되면, 서울부터 대구까지 나오게 된다.

지역구
서울     1116
부산    12259
인천    65119
대구    16699
Name: 농작물 생산량(톤), dtype: int64

* 슬라이싱을 할 때, 인덱스와 키값이 접근하는 방법이 조금 다르다는 것을 알 수 있다.

In [37]:
d1 = {'서울' : 1, '부산' : 2}
pd.Series(d1) # d1을 가지고와서 Series로 만드는 것도 가능하다.

서울    1
부산    2
dtype: int64

In [33]:
for k, v in s.items():
    print(k, v) # key와 value가 쌍으로 들어가 있는 것을 볼 수 있다.

서울 1116
부산 12259
인천 65119
대구 16699


In [36]:
print('제주도' in s) # s 안에 들어있는지 없는지를 확인할 수 있다.
'서울' in s.keys()

False


True

In [38]:
s21 = pd.Series([1116, 12259, 65119, 16699], index = ['서울', '부산', '인천', '대구'])
s21

서울     1116
부산    12259
인천    65119
대구    16699
dtype: int64

In [39]:
s20 = pd.Series([628, 11075, 56013, 15695], index = ['서울', '부산', '인천', '대구'])

In [40]:
s21 - s20

서울     488
부산    1184
인천    9106
대구    1004
dtype: int64

* 같은 인덱스여야만 계산이 된다.

In [42]:
s21 = pd.Series([1116, 12259, 65119, 16699], index = ['제주도', '부산', '인천', '대구'])
s21

제주도     1116
부산     12259
인천     65119
대구     16699
dtype: int64

In [43]:
s20 = pd.Series([628, 11075, 56013, 15695], index = ['서울', '부산', '인천', '대구'])

In [44]:
s21 - s20

대구     1004.0
부산     1184.0
서울        NaN
인천     9106.0
제주도       NaN
dtype: float64

In [41]:
import numpy as np
type(np.nan)

float

* 인덱스가 서로 맞지 않게 되면, NaN의 값이 나오게 되는 것을 알 수 있다.

In [49]:
s_sub = s21.sub(s20, fill_value = 0) 

* fill_value하게 되면, 없는 데이터는 0으로 가정하고 연산을 하게 된다.

In [50]:
s_sub.astype(int)

대구     1004
부산     1184
서울     -628
인천     9106
제주도    1116
dtype: int32

In [51]:
s_sub2 = s21.sub(s20)

In [52]:
s_sub2.fillna(0) 

대구     1004.0
부산     1184.0
서울        0.0
인천     9106.0
제주도       0.0
dtype: float64

* 0 값을 넌 값으로 채우는 방법을 한다.

In [53]:
s_sub2.notnull() 

대구      True
부산      True
서울     False
인천      True
제주도    False
dtype: bool

* null인 값을 True로 나오게 되고, null이 아닌 값은 False가 나오게 된다.

In [54]:
s21 = pd.Series([1116, 12259, 65119, 16699], index = ['서울', '부산', '인천', '대구'])
s20 = pd.Series([628, 11075, 56013, 15695], index = ['서울', '부산', '인천', '대구'])

In [57]:
rs = ((s21 - s20) / s20 * 100).round(2) # 인덱스 기반 연산이 일어나고 있다.

In [58]:
rs

서울    77.71
부산    10.69
인천    16.26
대구     6.40
dtype: float64

In [59]:
rs['서울']

77.71

In [60]:
rs['서울'] = 0  # 키값을 사용해서 값을 변경할 수 있다.

In [62]:
rs[0] = 123

#### 데이터 제거

In [63]:
del rs['대구']

In [65]:
del rs['서울']

In [66]:
rs # 대구와 서울을 지워주었기 때문에 부산과 인천만 남는 것을 볼 수 있다.

부산    10.69
인천    16.26
dtype: float64

#### 데이터를 추가하기

In [67]:
rs['서울'] = 77.71

In [68]:
rs

부산    10.69
인천    16.26
서울    77.71
dtype: float64

In [69]:
rs['대구'] = 6.40

#### 랜덤

In [70]:
import random

In [79]:
key100 = random.sample(list(range(1000)), 100)
# pd.Series() # 크기가 100
# 키값 100 밸류값 100
key80 = random.sample(list(range(1000)), 80)
value100 = random.sample(list(range(1000)), 100)
value80 = random.sample(list(range(1000)), 80)
s100 = pd.Series(value100, index = key100)
s80 = pd.Series(value80, index = key80)

In [80]:
s_100_80_sub = s100 - s80

In [87]:
s_100_80_sub.head()

8    NaN
15   NaN
18   NaN
21   NaN
29   NaN
dtype: float64

In [82]:
s_100_80_sub.notnull()

8      False
15     False
18     False
21     False
29     False
       ...  
952    False
955    False
956    False
962    False
982    False
Length: 167, dtype: bool

In [83]:
for k, v in s_100_80_sub.notnull().items():
    if v:
        print(k, v)

135 True
168 True
193 True
220 True
242 True
436 True
471 True
673 True
693 True
711 True
775 True
832 True
939 True


In [85]:
s_100_80_sub[135]

193.0

In [86]:
s80[135]

120

## 2. 데이터 프레임

In [88]:
import pandas as pd

In [107]:
data = {
'2021' : [1116, 12259, 16699, 65119],
'2020' : [628, 11075, 15695, 56013],
'2019' : [678,12700,15148,55443],
'2018' : [712, 13597, 16052, 56024],
'농지면적순위' : [4, 3, 2, 1]
}
columns = ['농지면적순위', '2021', '2020', '2019', '2018']
index = ['서울','부산','대구','인천']
df = pd.DataFrame(data, index = index, columns = columns)
df

Unnamed: 0,농지면적순위,2021,2020,2019,2018
서울,4,1116,628,678,712
부산,3,12259,11075,12700,13597
대구,2,16699,15695,15148,16052
인천,1,65119,56013,55443,56024


* columns에 써주는 것과 키값에 써주는게 맞아 야 NaN값이 안나오게 된다.

In [93]:
df.columns

Index(['면적순위', '2021', '2020', '2019', '2018'], dtype='object')

* 스트링은 다 object로 되어있다.

In [95]:
df.index

Index(['서울', '부산', '대구', '인천'], dtype='object')

In [94]:
df.values

array([[    4,  1116,   628,   678,   712],
       [    3, 12259, 11075, 12700, 13597],
       [    2, 16699, 15695, 15148, 16052],
       [    1, 65119, 56013, 55443, 56024]], dtype=int64)

In [97]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 서울 to 인천
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   면적순위    4 non-null      int64
 1   2021    4 non-null      int64
 2   2020    4 non-null      int64
 3   2019    4 non-null      int64
 4   2018    4 non-null      int64
dtypes: int64(5)
memory usage: 192.0+ bytes


In [99]:
df.index.name = '지역'

In [100]:
df

Unnamed: 0_level_0,면적순위,2021,2020,2019,2018
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,4,1116,628,678,712
부산,3,12259,11075,12700,13597
대구,2,16699,15695,15148,16052
인천,1,65119,56013,55443,56024


In [101]:
df.columns.name = '특성'

In [102]:
df

특성,면적순위,2021,2020,2019,2018
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,4,1116,628,678,712
부산,3,12259,11075,12700,13597
대구,2,16699,15695,15148,16052
인천,1,65119,56013,55443,56024


#### 시리즈는 NaN값이 있으면 자동으로 float로 형 변환이 된다.

In [103]:
pd.Series([1, 2, 3, 4, None]) # 시리즈는 넌값이 있으면 자동으로 float64로 형 변환이 일어나게 된다.

0    1.0
1    2.0
2    3.0
3    4.0
4    NaN
dtype: float64

In [109]:
df['2018-2021 변화율'] = ((df['2021'] - df['2018']) / df['2018'] * 100)

In [110]:
df

Unnamed: 0,농지면적순위,2021,2020,2019,2018,2018-2021 변화율
서울,4,1116,628,678,712,56.741573
부산,3,12259,11075,12700,13597,-9.840406
대구,2,16699,15695,15148,16052,4.03065
인천,1,65119,56013,55443,56024,16.234114


* 2021년과 2018년간에 얼마나 증가를 하였는지를 퍼센테이지로 만들었다.

In [117]:
df[['2018', '2019', '2020', '2021', '농지면적순위', '2018-2021 변화율']]

Unnamed: 0,2018,2019,2020,2021,농지면적순위,2018-2021 변화율
서울,712,678,628,1116,4,56.741573
부산,13597,12700,11075,12259,3,-9.840406
대구,16052,15148,15695,16699,2,4.03065
인천,56024,55443,56013,65119,1,16.234114


* 순서를 바꿀 때는 바꾸고 싶은 순서대로 적어주면 된다.

In [131]:
df['2018-2021 변화율'].astype(int)
df.T

Unnamed: 0,서울,부산,대구,인천
농지면적순위,4.0,3.0,2.0,1.0
2021,1116.0,12259.0,16699.0,65119.0
2020,628.0,11075.0,15695.0,56013.0
2019,678.0,12700.0,15148.0,55443.0
2018,712.0,13597.0,16052.0,56024.0
2018-2021 변화율,56.741573,-9.840406,4.03065,16.234114


In [121]:
df.T

Unnamed: 0,서울,부산,대구,인천
농지면적순위,4.0,3.0,2.0,1.0
2021,1116.0,12259.0,16699.0,65119.0
2020,628.0,11075.0,15695.0,56013.0
2019,678.0,12700.0,15148.0,55443.0
2018,712.0,13597.0,16052.0,56024.0
2018-2021 변화율,56.741573,-9.840406,4.03065,16.234114


In [120]:
df['2018'] # 시리즈 형식으로 출력을 해 줄 수 있다.

서울      712
부산    13597
대구    16052
인천    56024
Name: 2018, dtype: int64

In [119]:
df[['2018']] # 데이터 프레임 형식으로 출력을 해 줄 수 있다.

Unnamed: 0,2018
서울,712
부산,13597
대구,16052
인천,56024


In [122]:
df['2018']['서울']

712

In [123]:
df['2018']

서울      712
부산    13597
대구    16052
인천    56024
Name: 2018, dtype: int64

In [124]:
temp = pd.Series(['a', 'b', 'c', 'd', 'e'])

In [125]:
temp[4]

'e'

In [128]:
print(df['2021']['서울'])
print(df['2021'][0]) # 이렇게 인덱스로 접근이 가능한 이유는 시리즈로 접근을 했기 때문이다.

1116


* 데이터 프레임은 인덱스로 접근하는게 아니라 컬럼으로 접근을 하게된다.

In [132]:
df.sort_values(by = '농지면적순위')

Unnamed: 0,농지면적순위,2021,2020,2019,2018,2018-2021 변화율
인천,1,65119,56013,55443,56024,16.234114
대구,2,16699,15695,15148,16052,4.03065
부산,3,12259,11075,12700,13597,-9.840406
서울,4,1116,628,678,712,56.741573


#### 데이터 프레임에서 인덱스로 접근하는 방법

In [133]:
temp_list = [1,2,3,4]
temp_list[:2]

[1, 2]

In [142]:
df[:1]

Unnamed: 0,농지면적순위,2021,2020,2019,2018,2018-2021 변화율
서울,4,1116,628,678,712,56.741573


In [141]:
df['서울' : '부산']

Unnamed: 0,농지면적순위,2021,2020,2019,2018,2018-2021 변화율
서울,4,1116,628,678,712,56.741573
부산,3,12259,11075,12700,13597,-9.840406


In [155]:
# loc, iloc
df.loc[['부산', '대구']]

Unnamed: 0,농지면적순위,2021,2020,2019,2018,2018-2021 변화율
부산,3,12259,11075,12700,13597,-9.840406
대구,2,16699,15695,15148,16052,4.03065


In [157]:
df.iloc[0, 4]

712

In [156]:
df['2018']['서울'] 

712

* 인덱스 숫자로 가지고오면 뭘 가지고 왔는지 모르겠다 하면 키값을고 가지고 오기

In [159]:
df.iloc[0][0] # 별도로 시리즈로 인덱스로 접근하는 것과 똑같다.

4.0

* 시리즈 데이터는 하나의 값을 받기 때문에 한개만 바뀌어도 이렇게 하게 되면 강제로 형변환이 일어날 수 있다.

In [161]:
df.iloc[0, 0]

4

* 형변환이 일어나지 않게 하기 위해서는 바로 위에 있는 코드처럼 접근해준다.

* 실습
    1. 인덱스는 학생 4명(철수, 영희, 길동, 슬기)
    2. 컬럼은 4개(국어, 영어, 수학, 과학)
        - a. 순서대로 국어 영어 수학 과학
        - b. 철수 : 80, 90, 70, 30
        - c. 영희 : 90, 50, 100, 50
        - d. 길동 : 70, 60, 50, 80
        - e. 슬기 : 50, 100, 70, 80
    3. 해당 데이터로 데이터 프레임 생성
    4. 각 학생들의 과목 평균 column 추가
    5. 과목별 평균 추가

In [189]:
subject_score = {
'국어' : [80, 90, 70, 50],
'영어' : [90, 50, 60, 100],
'수학' : [70, 100, 50, 70],
'과학' : [30, 50, 80, 80]
}
columns = ['국어','영어','수학','과학']
index = ['철수', '영희', '길동', '슬기']
df = pd.DataFrame(subject_score, index = index, columns = columns)
df

Unnamed: 0,국어,영어,수학,과학
철수,80,90,70,30
영희,90,50,100,50
길동,70,60,50,80
슬기,50,100,70,80


In [190]:
df['평균'] = df.mean(axis = 1)
df.loc['평균'] = df.mean()

In [191]:
df

Unnamed: 0,국어,영어,수학,과학,평균
철수,80.0,90.0,70.0,30.0,67.5
영희,90.0,50.0,100.0,50.0,72.5
길동,70.0,60.0,50.0,80.0,65.0
슬기,50.0,100.0,70.0,80.0,75.0
평균,72.5,75.0,72.5,60.0,70.0


In [192]:
# 학생의 평균을 테이블에 나타내었다. 
df['학생평균'] = (df['국어'] + df['영어'] + df['수학'] + df['과학']) / 4

In [178]:
df

Unnamed: 0,국어,영어,수학,과학,평균
철수,80.0,90.0,70.0,30.0,67.5
영희,90.0,50.0,100.0,50.0,67.5
길동,70.0,60.0,50.0,80.0,67.5
슬기,50.0,100.0,70.0,80.0,67.5
평균,72.5,75.0,72.5,60.0,67.5


In [193]:
# 과목의 평균을 테이블에 나타내었다.
df.loc['과목평균'] = (df.loc['철수'] + df.loc['영희'] + df.loc['길동'] + df.loc['슬기']) / 4

In [194]:
df

Unnamed: 0,국어,영어,수학,과학,평균,학생평균
철수,80.0,90.0,70.0,30.0,67.5,67.5
영희,90.0,50.0,100.0,50.0,72.5,72.5
길동,70.0,60.0,50.0,80.0,65.0,65.0
슬기,50.0,100.0,70.0,80.0,75.0,75.0
평균,72.5,75.0,72.5,60.0,70.0,70.0
과목평균,72.5,75.0,72.5,60.0,70.0,70.0


# END