# pandas

## 1 pandas란?

- Python에서 사용하는 데이터를 분석하는 라이브러리
- 행과 열을 쉽게 처리할 수 있는 함수를 제공하는 도구
    
    ※ 각 열은 단일 데이터 형식만 저장
    
- numpy보다 유연하게 수치연산 가능
- numpy는 데이터 누락을 허락하지 않지만, pandas는 데이터 누락을 허락

In [1]:
import pandas as pd
import numpy as np

# 버전 확인
pd.__version__, np.__version__

('2.2.2', '1.26.4')

## 2 Series

- 인덱스와 values로 이루어진 1차원 배열
- 모든 유형의 데이터를 보유할 수 있음
- 인덱스를 지정해 줄 수 있음
- 명시적 인덱스와 암묵적 인덱스를 가짐

### 2.1 Series 형태

- RangeIndex :  인덱스 자동 생성

* DataFrame에서 각각의 컬럼은 Series입니다.
![](https://pandas.pydata.org/docs/_images/01_table_dataframe.svg)

![](https://pandas.pydata.org/docs/_images/01_table_series.svg)

In [5]:
data = [10,20,30,40,50,60]

data = pd.Series(data)

data

Unnamed: 0,0
0,10
1,20
2,30
3,40
4,50
5,60


In [11]:
data[0]
data[2:5]
#data[-1] -> 마이너스 인덱싱은 안됨
data[::-1]

Unnamed: 0,0
5,60
4,50
3,40
2,30
1,20
0,10


In [12]:
type(data)

In [15]:
type(data.values)
data.values

array([10, 20, 30, 40, 50, 60])

In [17]:
# RangeIndex : 인덱스 자동 생성

data.index

RangeIndex(start=0, stop=6, step=1)

In [20]:
data = [10,20,30,40,50,60]
index = ['a', 'b', 'c', 'd', 'e', 'f']

sample = pd.Series(data, index)
sample

Unnamed: 0,0
a,10
b,20
c,30
d,40
e,50
f,60


In [25]:
sample['a']
sample['a' : 'd']

Unnamed: 0,0
a,10
b,20
c,30
d,40


In [23]:
sample[0]

  sample[0]


10

In [27]:
print(sample.values)
print(sample.index)

[10 20 30 40 50 60]
Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')


### 2.2 Series의 산술 연산

In [28]:
pd.Series([10,20,30,40,50,60])

Unnamed: 0,0
0,10
1,20
2,30
3,40
4,50
5,60


In [29]:
data = pd.Series([10,20,30,40,50,60])

data

Unnamed: 0,0
0,10
1,20
2,30
3,40
4,50
5,60


In [34]:
print(data + 100)
print()
print(data - 100)
print()
print(data * 10)
print()
print(data / 10)
print()
print(data // 10)
print()
print(data % 10)
print()
print(data + data)


0    110
1    120
2    130
3    140
4    150
5    160
dtype: int64

0   -90
1   -80
2   -70
3   -60
4   -50
5   -40
dtype: int64

0    100
1    200
2    300
3    400
4    500
5    600
dtype: int64

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
5    6.0
dtype: float64

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

0    0
1    0
2    0
3    0
4    0
5    0
dtype: int64

0     20
1     40
2     60
3     80
4    100
5    120
dtype: int64


In [36]:
data1 = pd.Series([10,20,30])
data2 = pd.Series(['a', 'b', 'c'])

# data + data2 #error

TypeError: 'type' object is not subscriptable

In [38]:
data1 = pd.Series([10,20,30])
data2 = pd.Series(['10', '20', '30'])

#data1 +_data2 #error
data1 + data2.astype(int)

Unnamed: 0,0
0,20
1,40
2,60


### 2.3 Series indexing , slicing, boolean indexing

In [39]:
data = [10,20,30,40,50,60]
index = ['a', 'b', 'c', 'd', 'e', 'f']

sample = pd.Series(data, index)

In [40]:
sample

Unnamed: 0,0
a,10
b,20
c,30
d,40
e,50
f,60


In [43]:
sample['a']
sample[0]
sample.a

  sample[0]


10

In [45]:
#슬라이싱

sample['a':'d']
sample['a':'f':2]
sample[::-1]

Unnamed: 0,0
f,60
e,50
d,40
c,30
b,20
a,10


In [46]:
data = [10,20,30,40,50,60]
index = ['a', 'b', 'c', 'd', 'e', 'f']

sample = pd.Series(data, index)

In [48]:
#불리언 인덱싱

sample[[True, False, True, False, True, False]] #True만 출력


Unnamed: 0,0
a,10
c,30
e,50


In [50]:
sample > 30

Unnamed: 0,0
a,False
b,False
c,False
d,True
e,True
f,True


In [51]:
sample[sample > 30]

Unnamed: 0,0
d,40
e,50
f,60


In [53]:
for i in sample:
  print(i)

10
20
30
40
50
60


In [55]:
sample.index
sample.values

array([10, 20, 30, 40, 50, 60])

In [57]:
for i,j in zip(sample.index, sample.values):
  print(i,j)

a 10
b 20
c 30
d 40
e 50
f 60


In [59]:
d = {
    '학원' : 10,
    '연구원' : 20,
    '출판사' : 30,
    '미디어사' : 40,
    '위니브' : 50
}

d

{'학원': 10, '연구원': 20, '출판사': 30, '미디어사': 40, '위니브': 50}

In [61]:
data = pd.Series(d)
data

Unnamed: 0,0
학원,10
연구원,20
출판사,30
미디어사,40
위니브,50


In [63]:
data['학원':'출판사']

Unnamed: 0,0
학원,10
연구원,20
출판사,30


In [65]:
data[0:3]

Unnamed: 0,0
학원,10
연구원,20
출판사,30


In [67]:
data['출판사':]

Unnamed: 0,0
출판사,30
미디어사,40
위니브,50


In [69]:
data[:-2]

Unnamed: 0,0
학원,10
연구원,20
출판사,30


In [71]:
data[-3:]

Unnamed: 0,0
출판사,30
미디어사,40
위니브,50


In [73]:
data[-4::2]

Unnamed: 0,0
연구원,20
미디어사,40


In [76]:
# 매출액 데이터

d = {
    '2015년' : 100,
    '2016년' : 200,
    '2017년' : 300,
    '2018년' : 400,
    '2019년' : 1100,
    '2020년' : 3000,
    '2021년' : 6000,
    '2022년' : 9000,
}

#중간중간의 연도의 데이터만 확인하고 싶을때
pd.Series(d, index=['2016년', '2018년', '2020년', '2021년', '2022년'])

Unnamed: 0,0
2016년,200
2018년,400
2020년,3000
2021년,6000
2022년,9000


### 2.4 Series에 key, value, index

- index
    - Series, DataFrame의 레코드를 식별
    - 집합 연산이 가능
- loc :  인덱스를 기반으로 행 데이터를 읽음
- iloc :  행 번호를 기반으로 행 데이터를 읽음
- items() : key와 value를 튜플로 묶어서 리턴
- 팬시 인덱싱(fancy indexing) : 스칼라 대신 인덱스 배열을 사용한 인덱싱

In [81]:
data = [10,20,30,40,50,60]
index = ['a', 'b', 'c', 'd', 'e', 'f']

s = pd.Series(data, index)

In [83]:
'a' in s

True

In [85]:
10 in s

False

In [88]:
s.keys()

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

In [90]:
s.items()

<zip at 0x7f8c573f4500>

In [92]:
list(s.items())

[('a', 10), ('b', 20), ('c', 30), ('d', 40), ('e', 50), ('f', 60)]

In [94]:
# s.loc('a') -> error

s.loc['a'] # index를 입력하지 않아 숫자가 자동으로 들어갔을 경우에는 숫자 사용 가능
s.loc['a':'d']

Unnamed: 0,0
a,10
b,20
c,30
d,40


In [96]:
#iloc : 행 번호를 기반으로 행 데이터를 읽음

s.iloc[0]
s.iloc[0:3]
s[0:3]

Unnamed: 0,0
a,10
b,20
c,30


In [98]:
data = [10,20,30,40,50,60]
index = [3,4,5,6,7,8]

s = pd.Series(data, index)

In [100]:
s[3:5]

Unnamed: 0,0
6,40
7,50


In [104]:
data = [10,20,30,40,50]
index = [1,3,5,7,9]
s = pd.Series(data, index)
s

Unnamed: 0,0
1,10
3,20
5,30
7,40
9,50


In [113]:
# loc -> 인덱스값에 들어있는 값을 출력 s.loc[3] : 20
# iloc -> 데이턱값에 있는걸 출력 s.iloc[1] : 20

s.loc[3]

20

In [115]:
data = [10,20,30,40,50]
index = [1,3,5,7,9]
pd.Series(data, index).loc[1:4] #명시적인 인덱스만 따름


Unnamed: 0,0
1,10
3,20


In [117]:
data = [10,20,30,40,50]
index = [1,3,5,7,9]
pd.Series(data, index).iloc[1:4] #묵시적인 인덱스만 따름


Unnamed: 0,0
3,20
5,30
7,40


In [118]:
# 팬시 인덱싱

data = [10,20,30,40,50]
index = ['a', 'b', 'c', 'd', 'e']
s = pd.Series(data, index)

In [120]:
s[['a','d']]

Unnamed: 0,0
a,10
d,40


### 2.5 결측값(NaN, None) 처리

1. NaN
    - 자료형이 Float
    - 배열에서 연산할 경우 오류가 발생하지 않지만  결과값이 NaN이 됨
        - numpy : nan
        - pandas : 연산가능
2. None
    - 자료형이 None
    - 배열 연산을 할 경우 오류가 발생
        - numpy : error
        - pandas : 연산가능

3.  처리방법

    - isnull() : 결측값 확인 (결측 이면  True , 결측이 아니면  False )
    - notnull() : 결측값 확인 (결측 이면  False , 결측이 아니면  True )
    - dropna() : 결측값을 삭제
        - axis=0 : 행 삭제 / axis=1 : 열 삭제
        - inplace = True : drop후 원본에 반영
    - fillna(Num) : 결측을 Num 으로 채워 넣음

In [1]:
import pandas as pd
import numpy as np

In [2]:
data = [10,20,30,40,50, None]

np.array(data)

array([10, 20, 30, 40, 50, None], dtype=object)

In [5]:
data = np.array(data)
# data.sum() -> error

In [6]:
data = [10,20,30,40,50,np.nan]
data = np.array(data)
data.sum()

nan

In [7]:
data = [10,20,30,40,50,None]
data = pd.Series(data)
data.sum()

150.0

In [8]:
data = [10,20,30,40,50,np.nan]
data = pd.Series(data)
data.sum()

150.0

In [12]:
data[5] + 100
data[5] * 100
data[5] + 0

nan

In [13]:
data = [10,20,30,40,50,None]
data = pd.Series(data)
data.sum()

150.0

In [15]:
data[5]

nan

In [17]:
data.sum()
data.min()
data.max()

50.0

In [20]:
# 결측치 확인, true 가 결측치라는거임.

data.isnull()

Unnamed: 0,0
0,False
1,False
2,False
3,False
4,False
5,True


In [22]:
#isnull 의 개수 출력
data.isnull().count()

6

In [26]:
data = [10,20,30,40,50,None]
data = pd.Series(data)

data.isnull()
data.isnull().sum()

1

In [28]:
# notnull() -> 값이 들어가있으면 True, 값이 없으면 False

data.notnull()

Unnamed: 0,0
0,True
1,True
2,True
3,True
4,True
5,False


In [31]:
data.notnull().sum()

5

In [33]:
# dropna() -> 결측값 삭제
# 원본 데이터를 삭제하는것은 아님.

data.dropna()

Unnamed: 0,0
0,10.0
1,20.0
2,30.0
3,40.0
4,50.0


In [38]:
# fillna() -> 결측 데이터를 측정 데이터로 채움

data = [10,20,30,40,50,None,None,1000]
data = pd.Series(data)

data.fillna(0) # 0으로 결측데이터를 채움
data.fillna(data.mean()) # 결측값을 평균으로 변경
data.fillna(method = 'ffill') # 결측값을 앞의 값으로 대체
data.fillna(method = 'bfill') # 결측값을 뒤의 값으로 대체

  data.fillna(method = 'ffill') # 결측값을 앞의 값으로 대체
  data.fillna(method = 'bfill') # 결측값을 뒤의 값으로 대체


Unnamed: 0,0
0,10.0
1,20.0
2,30.0
3,40.0
4,50.0
5,1000.0
6,1000.0
7,1000.0


In [43]:
s = data[:3] #슬라이싱을 하게 되면 원본 데이터도 변경이됨.
s[0] = 1000

In [45]:
data

Unnamed: 0,0
0,1000.0
1,20.0
2,30.0
3,40.0
4,50.0
5,
6,
7,1000.0


In [47]:
data = [10,20,30,40,50,None,None,1000]
data = pd.Series(data)
s = data[:3].copy() #copy() 를 이용하면 원본데이터는 건드리지않음.
s[0] = 1000

In [50]:
s

Unnamed: 0,0
0,1000.0
1,20.0
2,30.0


### 2.6 multiIndex

* 다중 인덱스입니다.

In [51]:
매출 = {
    '2015년':100,
    '2016년':200,
    '2017년':300,
    '2018년':400,
    '2019년':1100,
    '2020년':3000,
    '2021년':6000,
    '2022년':9000,
}
순익 = {
    '2015년':10,
    '2016년':20,
    '2017년':30,
    '2018년':40,
    '2019년':11,
    '2020년':30,
    '2021년':60,
    '2022년':90,
}

In [57]:
index1 = list(zip(['매출' for _ in range(len(매출.keys()))], 매출.keys()))
index2 = list(zip(['순익' for _ in range(len(순익.keys()))], 순익.keys()))
index = index1 + index2
index

[('매출', '2015년'),
 ('매출', '2016년'),
 ('매출', '2017년'),
 ('매출', '2018년'),
 ('매출', '2019년'),
 ('매출', '2020년'),
 ('매출', '2021년'),
 ('매출', '2022년'),
 ('순익', '2015년'),
 ('순익', '2016년'),
 ('순익', '2017년'),
 ('순익', '2018년'),
 ('순익', '2019년'),
 ('순익', '2020년'),
 ('순익', '2021년'),
 ('순익', '2022년')]

In [58]:
index = pd.MultiIndex.from_tuples(index)
index

MultiIndex([('매출', '2015년'),
            ('매출', '2016년'),
            ('매출', '2017년'),
            ('매출', '2018년'),
            ('매출', '2019년'),
            ('매출', '2020년'),
            ('매출', '2021년'),
            ('매출', '2022년'),
            ('순익', '2015년'),
            ('순익', '2016년'),
            ('순익', '2017년'),
            ('순익', '2018년'),
            ('순익', '2019년'),
            ('순익', '2020년'),
            ('순익', '2021년'),
            ('순익', '2022년')],
           )

In [60]:
값 = list(매출.values()) + list(순익.values())
값


[100, 200, 300, 400, 1100, 3000, 6000, 9000, 10, 20, 30, 40, 11, 30, 60, 90]

In [61]:
s = pd.Series(값, index)
s

Unnamed: 0,Unnamed: 1,0
매출,2015년,100
매출,2016년,200
매출,2017년,300
매출,2018년,400
매출,2019년,1100
매출,2020년,3000
매출,2021년,6000
매출,2022년,9000
순익,2015년,10
순익,2016년,20


In [62]:
s['매출']

Unnamed: 0,0
2015년,100
2016년,200
2017년,300
2018년,400
2019년,1100
2020년,3000
2021년,6000
2022년,9000


In [63]:
s['순익']

Unnamed: 0,0
2015년,10
2016년,20
2017년,30
2018년,40
2019년,11
2020년,30
2021년,60
2022년,90


In [64]:
s['순익'][-3:].sum() #최근 3개년동안의 순익을 더한 값 출력


180

### 2.7 연산 함수와 집계 함수

- 연산 함수
    - add : 더하기 연산 함수
    - sub : 빼기 연산 함수
    - mul : 곱하기 연산 함수
    - floordiv : 나누었을 때 몫을 구하는 함수
    - div : 나누기 연산 함수
    - mod : 나머지 구하는 연산 함수
    - pow : 거듭제곱 연산 함수

- 집계 함수
    - count : 데이터 개수 구하는 함수
    - min : 최소값 구하는 함수
    - max  : 최대값 구하는 함수
    - mean : 평균 구하는 함수
    - median : 중앙값 구하는 함수
    - std : 표준편차 구하는 함수
    - var : 분산 구하는 함수
    - mad : 절대 표준편차 구하는 함수
    - describe : 기초 통계를 한 번에 볼 수 있는 함수

In [65]:
s1 = pd.Series([100,200,300,400,500])
s2 = pd.Series([10,20,30,40,50])

In [67]:
s1 + 100

Unnamed: 0,0
0,200
1,300
2,400
3,500
4,600


In [68]:
s1.add(1000)

Unnamed: 0,0
0,1100
1,1200
2,1300
3,1400
4,1500


In [70]:
s1

Unnamed: 0,0
0,100
1,200
2,300
3,400
4,500


In [71]:
s1 + s2

Unnamed: 0,0
0,110
1,220
2,330
3,440
4,550


In [72]:
s1.add(s2)

Unnamed: 0,0
0,110
1,220
2,330
3,440
4,550


In [73]:
s1 - s2

Unnamed: 0,0
0,90
1,180
2,270
3,360
4,450


In [74]:
s1.sub(s2)

Unnamed: 0,0
0,90
1,180
2,270
3,360
4,450


In [75]:
s1 * s2

Unnamed: 0,0
0,1000
1,4000
2,9000
3,16000
4,25000


In [76]:
s1.mul(s2)

Unnamed: 0,0
0,1000
1,4000
2,9000
3,16000
4,25000


In [77]:
s1.mul(s2) #s1 * s2

Unnamed: 0,0
0,1000
1,4000
2,9000
3,16000
4,25000


In [78]:
s1.div(s2) #s1 / s2

Unnamed: 0,0
0,10.0
1,10.0
2,10.0
3,10.0
4,10.0


In [81]:
s1.floordiv(s2) #s1 // s2

Unnamed: 0,0
0,10
1,10
2,10
3,10
4,10


In [82]:
s1.mod(3) #s1 % 3

Unnamed: 0,0
0,1
1,2
2,0
3,1
4,2


In [84]:
s1.pow(2) #s1 ** 2 -> 제곱


Unnamed: 0,0
0,10000
1,40000
2,90000
3,160000
4,250000


In [87]:
s1.min() #최솟값
s1.max() #최대값
s1.mean() #평균 구하는 함수
s1.median() #중앙값 구하는 함수
s1.sum() #전체 다 더하기
s1.std() #표준편차
s1.var() #분산
# s1.mad() #절대 표준편차


25000.0

In [89]:
# 한번에 기초 통계 확인하기.

s1.describe()

Unnamed: 0,0
count,5.0
mean,300.0
std,158.113883
min,100.0
25%,200.0
50%,300.0
75%,400.0
max,500.0


In [94]:
s = pd.Series(range(100))
s.head() #처음 5개 출력
s.head(10) #처음 10개 출력


Unnamed: 0,0
0,0
1,1
2,2
3,3
4,4
5,5
6,6
7,7
8,8
9,9


In [96]:
#tail() : 마지막 5개 데이터 출력. (데이터가 잘 들어왔는지 확인가능.)

s.tail()
s.tail(10)

Unnamed: 0,0
90,90
91,91
92,92
93,93
94,94
95,95
96,96
97,97
98,98
99,99


### 2.8 데이터 결합

- concat : 데이터 프레임이나 시리즈의 결합
    - axis=0 or 1 : 아래로 데이터 연결 / 옆으로 데이터 연결
    - verify_integrity=True일 때, 인덱스의 중복이 존재하면 error 출력
    - ignore_index : 기존의 인덱스를 무시하고 차례대로 인덱스 출력
    - join='inner' : 결합하는 데이터들의 공통 부분만 출력
    - join='outer' : 결합하는 데이터들의 모든 값 출력
- append : 마지막 행에 데이터를 추가

※ concatenate : 배열 결합

In [3]:
import numpy as np

a = np.arange(10).reshape(2,5)
b = np.arange(10).reshape(2,5)
c = np.arange(10).reshape(2,5)
a

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [7]:
# a,b,c 를 합치기 (행추가)

np.concatenate([a,b,c], axis=0)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [9]:
# a,b,c 를 합치기 (열추가)

np.concatenate([a,b,c], axis=1)

array([[0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9, 5, 6, 7, 8, 9, 5, 6, 7, 8, 9]])

In [12]:
import pandas as pd

a = pd.Series(['A','B','C','D','E'])
b = pd.Series(['A','B','C','D','E'])
c = pd.Series(['A','B','C','D','E'])

a

Unnamed: 0,0
0,A
1,B
2,C
3,D
4,E


In [14]:
# Pandas Series 에서 a,b,c 를 합치기 (행추가)

np.concatenate([a,b,c], axis=0)

array(['A', 'B', 'C', 'D', 'E', 'A', 'B', 'C', 'D', 'E', 'A', 'B', 'C',
       'D', 'E'], dtype=object)

In [16]:
a = pd.Series([['A','B'],['C','D'],['E','F']])
b = pd.Series([['A','B'],['C','D'],['E','F']])
c = pd.Series([['A','B'],['C','D'],['E','F']])
a

Unnamed: 0,0
0,"[A, B]"
1,"[C, D]"
2,"[E, F]"


In [18]:
np.concatenate([a,b,c], axis=0)

array([list(['A', 'B']), list(['C', 'D']), list(['E', 'F']),
       list(['A', 'B']), list(['C', 'D']), list(['E', 'F']),
       list(['A', 'B']), list(['C', 'D']), list(['E', 'F'])], dtype=object)

In [20]:
# np.concatenate([a,b,c], axis=1) -> error

In [21]:
a = pd.Series(['A','B','C','D','E'])
b = pd.Series(['A','B','C','D','E'])
c = pd.Series(['A','B','C','D','E'])
a

Unnamed: 0,0
0,A
1,B
2,C
3,D
4,E


In [23]:
np.concatenate([a,b,c])[3]

'D'

In [24]:
pd.concat([a,b,c])

Unnamed: 0,0
0,A
1,B
2,C
3,D
4,E
0,A
1,B
2,C
3,D
4,E


In [26]:
pd.concat([a,b,c])[3]

Unnamed: 0,0
3,D
3,D
3,D


In [28]:
pd.concat([a,b,c], axis=1)

Unnamed: 0,0,1,2
0,A,A,A
1,B,B,B
2,C,C,C
3,D,D,D
4,E,E,E


In [31]:
#verify_integrity=True 일 때, 인덱스의 중복이 존재하면 error 출력

pd.concat([a,b,c], verify_integrity=False)

Unnamed: 0,0
0,A
1,B
2,C
3,D
4,E
0,A
1,B
2,C
3,D
4,E


In [None]:
pd.concat([a,b,c], verify_integrity=True, ignore_index=True)

#ignore_index : 기존의 인덱스를 무시하고 차례대로 인덱스 출력

In [37]:
a = pd.Series(['A','B','C','D','E'])
b = pd.Series(['A','B','C','D'])
c = pd.Series(['A','B','C','D'])

pd.concat([a,b,c], axis=1, join ='inner') #join = 'inner' 결측치 없는 데이터만 합쳐줌


Unnamed: 0,0,1,2
0,A,A,A
1,B,B,B
2,C,C,C
3,D,D,D


In [38]:
pd.concat([a,b,c], axis=1, join ='outer') #join = 'outer' 결측치 있는것 까지 합쳐줌

Unnamed: 0,0,1,2
0,A,A,A
1,B,B,B
2,C,C,C
3,D,D,D
4,E,,


## 3 DataFrame

- 다차원 배열(Series의 특성을 가지고 있는 2차원 배열)
- 가장 기본적인 데이터 구조

### 3.1 DataFrame의 형태

```
연차  연도      매출    순익   직원수
1     2015   1000000  100001        1
2     2016   2000000  200001        2
3     2017   3000000  300001        4
4     2018   4000000  400001        8
5     2019   8000000  800001       16
6     2020  16000000 1600001       32
```

In [41]:
rawData = {
    '연차':[1, 2, 3, 4, 5, 6],
    '연도':[2015, 2016, 2017, 2018, 2019, 2020],
    '매출':[1000000, 2000000, 3000000, 4000000, 8000000, 16000000],
    '순익':[100001, 200001, 300001, 400001, 800001, 1600001],
    '직원수':[1, 2, 4, 8, 16, 32]
}

In [42]:
pd.DataFrame(rawData)

Unnamed: 0,연차,연도,매출,순익,직원수
0,1,2015,1000000,100001,1
1,2,2016,2000000,200001,2
2,3,2017,3000000,300001,4
3,4,2018,4000000,400001,8
4,5,2019,8000000,800001,16
5,6,2020,16000000,1600001,32


In [44]:
type(pd.DataFrame(rawData))

In [47]:
pd.DataFrame(rawData)['연도']

Unnamed: 0,연도
0,2015
1,2016
2,2017
3,2018
4,2019
5,2020


In [51]:
df = pd.DataFrame(rawData)

df.iloc[0:3] #제일 과거 3년동안의 데이터
df.iloc[-3:] #최근 3년간의 데이터
df.iloc[-1] #가장 최근 데이터


Unnamed: 0,5
연차,6
연도,2020
매출,16000000
순익,1600001
직원수,32


In [56]:
#연도를 인덱스로 사용하고 나머지는 컬럼으로 사용하기

df = pd.DataFrame(rawData, columns = ['연차','매출','순익','직원수'], index=rawData['연도'])

#연도를 이런식으로 넣는거도 가능함.(결과값은 같음)
df = pd.DataFrame(rawData, columns = ['연차','매출','순익','직원수'], index=[2015, 2016, 2017, 2018, 2019, 2020])

df

Unnamed: 0,연차,매출,순익,직원수
2015,1,1000000,100001,1
2016,2,2000000,200001,2
2017,3,3000000,300001,4
2018,4,4000000,400001,8
2019,5,8000000,800001,16
2020,6,16000000,1600001,32


In [58]:
df.iloc[0:3]

Unnamed: 0,연차,매출,순익,직원수
2015,1,1000000,100001,1
2016,2,2000000,200001,2
2017,3,3000000,300001,4


In [59]:
df.loc[2015:2017]

Unnamed: 0,연차,매출,순익,직원수
2015,1,1000000,100001,1
2016,2,2000000,200001,2
2017,3,3000000,300001,4


In [60]:
%%writefile rawData.csv
1, 2, 3, 4, 5, 6, 7
연차,1, 2, 3, 4, 5, 6
연도,2015, 2016, 2017, 2018, 2019, 2020
매출,1000000, 2000000, 3000000, 4000000, 8000000, 16000000
순익,100001, 200001, 300001, 400001, 800001, 1600001
직원수,1, 2, 4, 8, 16, 32

Writing rawData.csv


In [None]:
from google.colab import drive
drive.mount('/content/drive')

![](https://pandas.pydata.org/docs/_images/02_io_readwrite.svg)

In [62]:
pd.read_csv('rawData.csv')

Unnamed: 0,1,2,3,4,5,6,7
0,연차,1,2,3,4,5,6
1,연도,2015,2016,2017,2018,2019,2020
2,매출,1000000,2000000,3000000,4000000,8000000,16000000
3,순익,100001,200001,300001,400001,800001,1600001
4,직원수,1,2,4,8,16,32


In [63]:
pd.read_csv('rawData.csv').columns #columns 만 출력


Index(['1', ' 2', ' 3', ' 4', ' 5', ' 6', ' 7'], dtype='object')

In [64]:
pd.read_csv('rawData.csv').index #indexs 만 출력

RangeIndex(start=0, stop=5, step=1)

In [65]:
df = pd.read_html('https://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%9D%B8%EA%B5%AC')

In [71]:
df[4]

Unnamed: 0,연도 (년),추계인구(명),출생자수(명),사망자수(명),자연증가수(명),조출생률 (1000명당),조사망률 (1000명당),자연증가율 (1000명당),합계출산율
0,1925,12997611,558897,359042,199855,43.0,27.6,15.4,6.59
1,1926,13052741,511667,337948,173719,39.2,25.9,13.3,
2,1927,13037169,534524,353818,180706,41.0,27.1,13.9,
3,1928,13105131,566142,357701,208441,43.2,27.3,15.9,
4,1929,13124279,566969,414366,152603,43.2,31.6,11.6,
5,1930,13880469,587144,322611,264533,42.3,23.2,19.1,6.41
6,1931,13895052,589428,346800,242628,42.4,25.0,17.4,
7,1932,14117191,600545,384287,216258,42.5,27.2,15.3,
8,1933,14229277,607021,336232,270789,42.7,23.6,19.1,
9,1934,14449155,618135,356515,261620,42.8,24.7,18.1,


In [75]:
df[4]['출생자수(명)'].sum()

11480088

In [77]:
df[4].to_csv('대한민국 인구통계.csv')

## 4 DataFrame에 데이터 활용

### 4.1 데이터 사전 분석

- info() : DataFrame을 구성하는 행과 열에 대한 정보를 나타내 주는 함수
- head(n) : DataFrame의 처음부터 n줄의 행을 출력
- tail(n) : DataFrame의 마지막 n줄의 행을 출력
- describe() : Series, DataFrame의 각 열에 대한 요약 통계
- dtypes : 데이터 자료형 확인

### 4.2 DataFrame에 데이터 조작

- np.nan : NaN으로 값을 채움
- drop : 컬럼 삭제
    - inplace = True : drop후 원본에 반영
- pd.to_numeric() : 문자형을 숫자형으로 변환

In [78]:
rawData = {
    '연차':[1, 2, 3, 4, 5, 6],
    '연도':[2015, 2016, 2017, 2018, 2019, 2020],
    '매출':[1000000, 2000000, 3000000, 4000000, 8000000, 16000000],
    '순익':[100001, 200001, 300001, 400001, 800001, 1600001],
    '직원수':[1, 2, 4, 8, 16, 32]
}

df = pd.DataFrame(rawData)

In [80]:
df

Unnamed: 0,연차,연도,매출,순익,직원수
0,1,2015,1000000,100001,1
1,2,2016,2000000,200001,2
2,3,2017,3000000,300001,4
3,4,2018,4000000,400001,8
4,5,2019,8000000,800001,16
5,6,2020,16000000,1600001,32


In [82]:
# info() : DataFrame을 구성하는 행과 열에 대한 정보를 나타내 주는 함수

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   연차      6 non-null      int64
 1   연도      6 non-null      int64
 2   매출      6 non-null      int64
 3   순익      6 non-null      int64
 4   직원수     6 non-null      int64
dtypes: int64(5)
memory usage: 368.0 bytes


In [87]:
# head(n) : DataFrame의 처음부터 n줄의 행을 출력
# tail(n) : DataFrame의 마지막 n줄의 행을 출력

df.head()
df.head(3)

df.tail()
df.tail(3)

Unnamed: 0,연차,연도,매출,순익,직원수
3,4,2018,4000000,400001,8
4,5,2019,8000000,800001,16
5,6,2020,16000000,1600001,32


In [89]:
# describe() : Series, DataFrame의 각 열에 대한 요약 통계

df.describe()

Unnamed: 0,연차,연도,매출,순익,직원수
count,6.0,6.0,6.0,6.0,6.0
mean,3.5,2017.5,5666667.0,566667.7,10.5
std,1.870829,1.870829,5609516.0,560951.6,11.861703
min,1.0,2015.0,1000000.0,100001.0,1.0
25%,2.25,2016.25,2250000.0,225001.0,2.5
50%,3.5,2017.5,3500000.0,350001.0,6.0
75%,4.75,2018.75,7000000.0,700001.0,14.0
max,6.0,2020.0,16000000.0,1600001.0,32.0


In [91]:
# dtypes : 데이터 자료형 확인
df.dtypes

Unnamed: 0,0
연차,int64
연도,int64
매출,int64
순익,int64
직원수,int64


In [95]:
# df의 매출확인

df['매출']
df.매출


Unnamed: 0,매출
0,1000000
1,2000000
2,3000000
3,4000000
4,8000000
5,16000000


In [98]:
# df에 '순이익률' 컬럼 추가

df['순이익률'] = (df['순익'] / df['매출']) * 100

df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률
0,1,2015,1000000,100001,1,10.0001
1,2,2016,2000000,200001,2,10.00005
2,3,2017,3000000,300001,4,10.000033
3,4,2018,4000000,400001,8,10.000025
4,5,2019,8000000,800001,16,10.000013
5,6,2020,16000000,1600001,32,10.000006


In [103]:
# df에 컬럼 추가

df['test'] = 100,200,300,400,500,600

df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률,test
0,1,2015,1000000,100001,1,10.0001,100
1,2,2016,2000000,200001,2,10.00005,200
2,3,2017,3000000,300001,4,10.000033,300
3,4,2018,4000000,400001,8,10.000025,400
4,5,2019,8000000,800001,16,10.000013,500
5,6,2020,16000000,1600001,32,10.000006,600


In [113]:
# df의 열 삭제

df.drop('test', axis='columns') #원본은 삭제아니고 삭제한 화면을 보여주는것.

KeyError: "['test'] not found in axis"

In [114]:
# df의 열 삭제 (원본 삭제)

#df.drop('test', axis='columns', inplace=True) #원본삭제, 두번 실행하면 에러 이미 삭제가 되었기떄문에 TEST 라는 컬럼이

df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률
0,1,2015,1000000,100001,1,10.0001
1,2,2016,2000000,200001,2,10.00005
2,3,2017,3000000,300001,4,10.000033
3,4,2018,4000000,400001,8,10.000025
4,5,2019,8000000,800001,16,10.000013
5,6,2020,16000000,1600001,32,10.000006


In [118]:
df['test'] = np.nan

df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률,test
0,1,2015,1000000,100001,1,10.0001,
1,2,2016,2000000,200001,2,10.00005,
2,3,2017,3000000,300001,4,10.000033,
3,4,2018,4000000,400001,8,10.000025,
4,5,2019,8000000,800001,16,10.000013,
5,6,2020,16000000,1600001,32,10.000006,


In [119]:
df['test2'] = None

df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률,test,test2
0,1,2015,1000000,100001,1,10.0001,,
1,2,2016,2000000,200001,2,10.00005,,
2,3,2017,3000000,300001,4,10.000033,,
3,4,2018,4000000,400001,8,10.000025,,
4,5,2019,8000000,800001,16,10.000013,,
5,6,2020,16000000,1600001,32,10.000006,,


In [121]:
df[['test','test2']] = 10000

df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률,test,test2
0,1,2015,1000000,100001,1,10.0001,10000,10000
1,2,2016,2000000,200001,2,10.00005,10000,10000
2,3,2017,3000000,300001,4,10.000033,10000,10000
3,4,2018,4000000,400001,8,10.000025,10000,10000
4,5,2019,8000000,800001,16,10.000013,10000,10000
5,6,2020,16000000,1600001,32,10.000006,10000,10000


In [128]:
#데이터 직접삭제

#del df['test']
df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률,test2
0,1,2015,1000000,100001,1,10.0001,10000
1,2,2016,2000000,200001,2,10.00005,10000
2,3,2017,3000000,300001,4,10.000033,10000
3,4,2018,4000000,400001,8,10.000025,10000
4,5,2019,8000000,800001,16,10.000013,10000
5,6,2020,16000000,1600001,32,10.000006,10000


In [125]:
df2 = pd.DataFrame(np.array([[7, 2021, 160000000, 16000001, 60]]),
        columns=['연차','연도','매출','순익','직원수'])

df2

Unnamed: 0,연차,연도,매출,순익,직원수
0,7,2021,160000000,16000001,60


In [136]:
df = pd.concat([df, df2], ignore_index=True)

df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률,test2
0,1,2015,1000000,100001,1,10.0001,10000.0
1,2,2016,2000000,200001,2,10.00005,10000.0
2,3,2017,3000000,300001,4,10.000033,10000.0
3,4,2018,4000000,400001,8,10.000025,10000.0
4,5,2019,8000000,800001,16,10.000013,10000.0
5,6,2020,16000000,1600001,32,10.000006,10000.0
6,7,2021,160000000,16000001,60,,
7,7,2021,160000000,16000001,60,,
8,7,2021,160000000,16000001,60,,


In [137]:
# 0번째 데이터 삭제

df.drop([0], inplace = True)

In [139]:
df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률,test2
1,2,2016,2000000,200001,2,10.00005,10000.0
2,3,2017,3000000,300001,4,10.000033,10000.0
3,4,2018,4000000,400001,8,10.000025,10000.0
4,5,2019,8000000,800001,16,10.000013,10000.0
5,6,2020,16000000,1600001,32,10.000006,10000.0
6,7,2021,160000000,16000001,60,,
7,7,2021,160000000,16000001,60,,
8,7,2021,160000000,16000001,60,,


In [142]:
df.매출 > 5000000 #매출 컬럼만 보기
df[df.매출 > 5000000] #해당되는 데이터만 보기 (전체에서)

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률,test2
4,5,2019,8000000,800001,16,10.000013,10000.0
5,6,2020,16000000,1600001,32,10.000006,10000.0
6,7,2021,160000000,16000001,60,,
7,7,2021,160000000,16000001,60,,
8,7,2021,160000000,16000001,60,,


In [144]:
# 매출과 순익 데이터만 보기

df[df.매출 > 5000000][['매출','순익']]

Unnamed: 0,매출,순익
4,8000000,800001
5,16000000,1600001
6,160000000,16000001
7,160000000,16000001
8,160000000,16000001


In [147]:
df.loc[df.매출 > 5000000][['매출','순익']]

Unnamed: 0,매출,순익
4,8000000,800001
5,16000000,1600001
6,160000000,16000001
7,160000000,16000001
8,160000000,16000001


In [149]:
rawData = {
    '연차':[1, 2, 3, 4, 5, 6],
    '연도':[2015, 2016, 2017, 2018, 2019, 2020],
    '매출':[1000000, 2000000, 3000000, 4000000, 8000000, 16000000],
    '순익':[100001, 200001, 300001, 400001, 800001, 1600001],
    '직원수':[1.0, 2.0, 4.0, 8.0, 16.0, 32.0]
}

df = pd.DataFrame(rawData)
df

Unnamed: 0,연차,연도,매출,순익,직원수
0,1,2015,1000000,100001,1.0
1,2,2016,2000000,200001,2.0
2,3,2017,3000000,300001,4.0
3,4,2018,4000000,400001,8.0
4,5,2019,8000000,800001,16.0
5,6,2020,16000000,1600001,32.0


In [152]:
df.dtypes

Unnamed: 0,0
연차,int64
연도,int64
매출,int64
순익,int64
직원수,float64


In [154]:
# float 값인 직원수의 값을 int로 변경

df['직원수'] = df['직원수'].astype('int')

df

Unnamed: 0,연차,연도,매출,순익,직원수
0,1,2015,1000000,100001,1
1,2,2016,2000000,200001,2
2,3,2017,3000000,300001,4
3,4,2018,4000000,400001,8
4,5,2019,8000000,800001,16
5,6,2020,16000000,1600001,32


In [156]:
df.dtypes

Unnamed: 0,0
연차,int64
연도,int64
매출,int64
순익,int64
직원수,int64


In [157]:
pd.Series([1,'2','3','tong',True,10.1])

Unnamed: 0,0
0,1
1,2
2,3
3,tong
4,True
5,10.1


In [160]:
# 데이터값을 모두 숫자로 변환 (에러는 안나지만 바꾸진 못함. 애초에 문자열등을 int형으로 바꿀 수 없음.)

pd.to_numeric(pd.Series([1,'2','3','tong',True,10.1]), errors = 'ignore')

  pd.to_numeric(pd.Series([1,'2','3','tong',True,10.1]), errors = 'ignore')


Unnamed: 0,0
0,1
1,2
2,3
3,tong
4,True
5,10.1


In [162]:
#errors = 'coerce' 를 사용하면 NaN 으로 교체해줌 문자열을
pd.to_numeric(pd.Series([1,'2','3','tong',True,10.1]), errors = 'coerce')

Unnamed: 0,0
0,1.0
1,2.0
2,3.0
3,
4,1.0
5,10.1


In [164]:
pd.to_numeric(pd.Series([1,'2','3',True,10.1]))

Unnamed: 0,0
0,1.0
1,2.0
2,3.0
3,1.0
4,10.1


### 4.3 MultiIndex

- Index를 설정할 때 리스트의 리스트 형태로 넣어주면 다중 인덱스가 설정이 된다.

In [166]:
import pandas as pd

df = pd.DataFrame(np.random.randint(50, 100, size=(4, 3)),
            index=[['1학년', '1학년', '2학년', '2학년'], ['1반', '2반', '1반', '2반']],
            columns=['국', '영', '수'])

df

Unnamed: 0,Unnamed: 1,국,영,수
1학년,1반,70,83,82
1학년,2반,73,70,95
2학년,1반,82,80,98
2학년,2반,73,99,80


In [168]:
df.index

MultiIndex([('1학년', '1반'),
            ('1학년', '2반'),
            ('2학년', '1반'),
            ('2학년', '2반')],
           )

In [169]:
df.columns

Index(['국', '영', '수'], dtype='object')

In [172]:
df[['국', '영']]

Unnamed: 0,Unnamed: 1,국,영
1학년,1반,70,83
1학년,2반,73,70
2학년,1반,82,80
2학년,2반,73,99


In [174]:
df.loc['1학년', '1반']

Unnamed: 0_level_0,1학년
Unnamed: 0_level_1,1반
국,70
영,83
수,82
