# pandas

## 1 pandas란?

- Python에서 사용하는 데이터를 분석하는 라이브러리
- 행과 열을 쉽게 처리할 수 있는 함수를 제공하는 도구
    
    ※ 각 열은 단일 데이터 형식만 저장
    
- numpy보다 유연하게 수치연산 가능
- numpy는 데이터 누락을 허락하지 않지만, pandas는 데이터 누락을 허락

In [2]:
import pandas as pd
import numpy as np

pd.__version__, np.__version__

('2.2.2', '1.23.5')

## 2 Series

- 인덱스와 values로 이루어진 1차원 배열
- 모든 유형의 데이터를 보유할 수 있음
- 인덱스를 지정해 줄 수 있음
- 명시적 인덱스와 암묵적 인덱스를 가짐

### 2.1 Series 형태

- RangeIndex :  인덱스 자동 생성

* DataFrame에서 각각의 컬럼은 Series입니다.
![](https://pandas.pydata.org/docs/_images/01_table_dataframe.svg)

![](https://pandas.pydata.org/docs/_images/01_table_series.svg)

In [3]:
data = [10, 20, 30, 40, 50, 60]
data = pd.Series(data)
data

0    10
1    20
2    30
3    40
4    50
5    60
dtype: int64

In [4]:
print(data[0])
print(data[1])
print(data[2:5])
# data[-1]
print(data[::-1])

10
20
2    30
3    40
4    50
dtype: int64
5    60
4    50
3    40
2    30
1    20
0    10
dtype: int64


In [5]:
type(data)

pandas.core.series.Series

In [6]:
type(data.values)

numpy.ndarray

In [7]:
data.values

array([10, 20, 30, 40, 50, 60], dtype=int64)

In [8]:
data.index

RangeIndex(start=0, stop=6, step=1)

In [9]:
data = [10, 20, 30, 40, 50, 60]
index = ['a', 'b', 'c', 'd', 'e', 'f']
sample = pd.Series(data, index)
sample

a    10
b    20
c    30
d    40
e    50
f    60
dtype: int64

In [10]:
sample['a']

10

In [11]:
sample['a':'d']

a    10
b    20
c    30
d    40
dtype: int64

In [12]:
sample.a

10

In [13]:
sample.c

30

In [14]:
sample[0]

  sample[0]


10

In [15]:
sample.values

array([10, 20, 30, 40, 50, 60], dtype=int64)

In [16]:
sample.index

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

### 2.2 Series의 산술 연산

In [17]:
pd.Series([10, 20, 30, 40, 50, 60])

0    10
1    20
2    30
3    40
4    50
5    60
dtype: int64

In [18]:
data = pd.Series([10, 20, 30, 40, 50, 60])

In [19]:
data + 100
data - 100
data * 10
data / 10
data // 10
data % 10
data + data

0     20
1     40
2     60
3     80
4    100
5    120
dtype: int64

In [20]:
data1 = pd.Series([10, 20, 30])
data2 = pd.Series(['10', '20', '30'])

# data1 + data2 #error
data1 + data2.astype('int32')

0    20
1    40
2    60
dtype: int64

In [21]:
data1.dtype

dtype('int64')

### 2.3 Series indexing , slicing, boolean indexing

In [22]:
data = [10, 20, 30, 40, 50, 60]
index = ['a', 'b', 'c', 'd', 'e', 'f']
sample = pd.Series(data, index)

In [23]:
sample

a    10
b    20
c    30
d    40
e    50
f    60
dtype: int64

In [24]:
sample['a']
sample[0]
sample.a
sample[-1] # 우리가 직접 index를 설정했을 경우에는 -indexing이 됩니다.

  sample[0]
  sample[-1] # 우리가 직접 index를 설정했을 경우에는 -indexing이 됩니다.


60

In [25]:
sample['a':'d']
sample['a':'f':2]
sample[::2]
sample[::-1]

f    60
e    50
d    40
c    30
b    20
a    10
dtype: int64

In [26]:
data = [10, 20, 30, 40, 50, 60]
index = ['a', 'b', 'c', 'd', 'e', 'f']
sample = pd.Series(data, index)

In [27]:
sample[[True, True, False, False, False, False]]

a    10
b    20
dtype: int64

In [28]:
sample > 30

a    False
b    False
c    False
d     True
e     True
f     True
dtype: bool

In [29]:
sample[sample > 30]

d    40
e    50
f    60
dtype: int64

In [30]:
for i in sample:
    print(i)

10
20
30
40
50
60


In [31]:
# error
# for index, value in sample:
#     print(index, value)

sample.index
sample.values

array([10, 20, 30, 40, 50, 60], dtype=int64)

In [32]:
for i, j in zip(sample.index, sample.values):
    print(i, j)

a 10
b 20
c 30
d 40
e 50
f 60


In [33]:
d = {
    '학원' : 10,
    '연구원' : 20,
    '출판사' : 30,
    '미디어사' : 40,
    '위니브' : 50
}
d

{'학원': 10, '연구원': 20, '출판사': 30, '미디어사': 40, '위니브': 50}

In [34]:
data = pd.Series(d)
data

학원      10
연구원     20
출판사     30
미디어사    40
위니브     50
dtype: int64

In [35]:
data['학원':'출판사']

학원     10
연구원    20
출판사    30
dtype: int64

In [36]:
data[0]

  data[0]


10

In [37]:
data[0:3]

학원     10
연구원    20
출판사    30
dtype: int64

In [38]:
data

학원      10
연구원     20
출판사     30
미디어사    40
위니브     50
dtype: int64

In [39]:
data['출판사':]

출판사     30
미디어사    40
위니브     50
dtype: int64

In [40]:
data[:-2]

학원     10
연구원    20
출판사    30
dtype: int64

In [41]:
data[-3:]

출판사     30
미디어사    40
위니브     50
dtype: int64

In [42]:
data[-4::2]

연구원     20
미디어사    40
dtype: int64

In [43]:
d = {
    '2015년':100,
    '2016년':200,
    '2017년':300,
    '2018년':400,
    '2019년':1100,
    '2020년':3000,
    '2021년':6000,
    '2022년':9000,
}

pd.Series(d, index=['2016년', '2018년', '2020년', '2021년', '2022년'])

2016년     200
2018년     400
2020년    3000
2021년    6000
2022년    9000
dtype: int64

### 2.4 Series의 key, value, index

- index
    - Series, DataFrame의 레코드를 식별
    - 집합 연산이 가능
- loc :  인덱스를 기반으로 행 데이터를 읽음
- iloc :  행 번호를 기반으로 행 데이터를 읽음
- items() : key와 value를 튜플로 묶어서 리턴
- 팬시 인덱싱(fancy indexing) : 스칼라 대신 인덱스 배열을 사용한 인덱싱

In [44]:
data = [10, 20, 30, 40, 50, 60]
index = ['a', 'b', 'c', 'd', 'e', 'f']
s = pd.Series(data, index)

In [45]:
'a' in s

True

In [46]:
10 in s

False

In [47]:
s.keys()

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

In [48]:
# s.values() # error

In [49]:
s.items()

<zip at 0x1accf48f580>

In [50]:
list(s.items())

[('a', 10), ('b', 20), ('c', 30), ('d', 40), ('e', 50), ('f', 60)]

In [51]:
for i, j in s.items():
    print(i, j)

a 10
b 20
c 30
d 40
e 50
f 60


In [52]:
# s.loc('a') #error
# s.loc[0] #error
s.loc['a'] # index를 입력하지 않아 숫자가 자동으로 들어갔을 경우에는 숫자 사용 가능
s.loc['a' : 'd']
s['a' : 'd']

a    10
b    20
c    30
d    40
dtype: int64

In [53]:
s.iloc[0]
s.iloc[0:3]
s[0:3]

a    10
b    20
c    30
dtype: int64

In [54]:
data = [10, 20, 30, 40, 50, 60]
index = [3, 4, 5, 6, 7, 8]
s = pd.Series(data, index)

In [55]:
s[3:5] #loc가 아니라 iloc가 된 것임!

6    40
7    50
dtype: int64

In [56]:
s[3] #iloc가 아니라 loc가 된 것임!

10

In [57]:
data = [10, 20, 30, 40, 50]
index = [1, 3, 5, 7, 9]
pd.Series(data, index).loc[1:4] # 명시적인 인덱스만 따름

1    10
3    20
dtype: int64

In [58]:
data = [10, 20, 30, 40, 50]
index = [1, 3, 5, 7, 9]
pd.Series(data, index).iloc[1:4] # 묵시적인 인덱스만 따름

3    20
5    30
7    40
dtype: int64

In [59]:
# 팬시 인덱싱
data = [10, 20, 30, 40, 50]
index = ['a', 'b', 'c', 'd', 'e']
s = pd.Series(data, index)

In [60]:
s[['a', 'd']]

a    10
d    40
dtype: int64

### 2.5 결측값(NaN, None) 처리

1. NaN
    - 자료형이 Float
    - 배열에서 연산할 경우 오류가 발생하지 않지만  결과값이 NaN이 됨
        - numpy : nan
        - pandas : 연산가능
2. None 
    - 자료형이 None
    - 배열 연산을 할 경우 오류가 발생
        - numpy : error
        - pandas : 연산가능

3.  처리방법 

    - isnull() : 결측값 확인 (결측 이면  True , 결측이 아니면  False )
    - notnull() : 결측값 확인 (결측 이면  False , 결측이 아니면  True )
    - dropna() : 결측값을 삭제
        - axis=0 : 행 삭제 / axis=1 : 열 삭제
        - inplace = True : drop후 원본에 반영
    - fillna(Num) : 결측을 Num 으로 채워 넣음

In [61]:
import pandas as pd
import numpy as np

In [62]:
data = [10, 20, 30, 40, 50, None]
data = np.array(data)
# data.sum() # error

In [63]:
data = [10, 20, 30, 40, 50, np.nan]
data = np.array(data)
data.sum()

nan

In [64]:
data = [10, 20, 30, 40, 50, None]
data = pd.Series(data)
data.sum()

150.0

In [65]:
data = [10, 20, 30, 40, 50, np.nan]
data = pd.Series(data)
data.sum()

150.0

In [66]:
data[5] + 100
data[5] * 100
data[5] * 0
# data[5] + 'hello' # error

nan

In [67]:
data = [10, 20, 30, 40, 50, None]
data = pd.Series(data)
data.sum()

150.0

In [68]:
data[5]
# data[5] + 100
# data[5] * 100
# data[5] * 0
# data[5] + 'hello' # error

nan

In [69]:
data.sum()
data.min()
data.max()

50.0

In [70]:
data = [10, 20, 30, 40, 50, None, None, None]
data = pd.Series(data)

data.isnull()
data.isnull().sum()

3

In [71]:
data.notnull()
data.notnull().sum()

5

In [72]:
data.dropna()

0    10.0
1    20.0
2    30.0
3    40.0
4    50.0
dtype: float64

In [73]:
data

0    10.0
1    20.0
2    30.0
3    40.0
4    50.0
5     NaN
6     NaN
7     NaN
dtype: float64

In [74]:
data.fillna(0) # 결측값을 0으로 변경
data.fillna(data.mean()) # 결측값을 평균으로변경
data.fillna(method='ffill') # 결측값을 앞의 값으로 대체

  data.fillna(method='ffill') # 결측값을 앞의 값으로 대체


0    10.0
1    20.0
2    30.0
3    40.0
4    50.0
5    50.0
6    50.0
7    50.0
dtype: float64

In [75]:
data = [10, 20, 30, 40, 50, None, None, None, 1000]
data = pd.Series(data)
data.fillna(method='bfill') # 결측값을 뒤의 값으로 대체

  data.fillna(method='bfill') # 결측값을 뒤의 값으로 대체


0      10.0
1      20.0
2      30.0
3      40.0
4      50.0
5    1000.0
6    1000.0
7    1000.0
8    1000.0
dtype: float64

In [76]:
data[:3]

0    10.0
1    20.0
2    30.0
dtype: float64

In [77]:
s = data[:3]
s[0] = 1000
s

0    1000.0
1      20.0
2      30.0
dtype: float64

In [78]:
data

0    1000.0
1      20.0
2      30.0
3      40.0
4      50.0
5       NaN
6       NaN
7       NaN
8    1000.0
dtype: float64

In [79]:
data = [10, 20, 30, 40, 50, None, None, None, 1000]
data = np.array(data)
s = data[:3]
s[0] = 1000
s

array([1000, 20, 30], dtype=object)

In [80]:
data

array([1000, 20, 30, 40, 50, None, None, None, 1000], dtype=object)

In [81]:
data = [10, 20, 30, 40, 50, None, None, None, 1000]
data = np.array(data)
s = data[:3].copy()
s[0] = 1000
s, data

(array([1000, 20, 30], dtype=object),
 array([10, 20, 30, 40, 50, None, None, None, 1000], dtype=object))

In [82]:
data = [10, 20, 30, 40, 50, None, None, None, 1000]
data = pd.Series(data)
s = data[:3].copy()
s[0] = 1000
s, data

(0    1000.0
 1      20.0
 2      30.0
 dtype: float64,
 0      10.0
 1      20.0
 2      30.0
 3      40.0
 4      50.0
 5       NaN
 6       NaN
 7       NaN
 8    1000.0
 dtype: float64)

### 2.6 multiIndex

* 다중 인덱스입니다.

In [83]:
매출 = {
    '2015년':100,
    '2016년':200,
    '2017년':300,
    '2018년':400,
    '2019년':1100,
    '2020년':3000,
    '2021년':6000,
    '2022년':9000,
}
순익 = {
    '2015년':10,
    '2016년':20,
    '2017년':30,
    '2018년':40,
    '2019년':11,
    '2020년':30,
    '2021년':60,
    '2022년':90,
}

In [84]:
index1 = list(zip(['매출' for _ in range(len(매출.keys()))], 매출.keys()))
index2 = list(zip(['순익' for _ in range(len(순익.keys()))], 순익.keys()))
index = index1 + index2
index

[('매출', '2015년'),
 ('매출', '2016년'),
 ('매출', '2017년'),
 ('매출', '2018년'),
 ('매출', '2019년'),
 ('매출', '2020년'),
 ('매출', '2021년'),
 ('매출', '2022년'),
 ('순익', '2015년'),
 ('순익', '2016년'),
 ('순익', '2017년'),
 ('순익', '2018년'),
 ('순익', '2019년'),
 ('순익', '2020년'),
 ('순익', '2021년'),
 ('순익', '2022년')]

In [85]:
index = pd.MultiIndex.from_tuples(index)
index

MultiIndex([('매출', '2015년'),
            ('매출', '2016년'),
            ('매출', '2017년'),
            ('매출', '2018년'),
            ('매출', '2019년'),
            ('매출', '2020년'),
            ('매출', '2021년'),
            ('매출', '2022년'),
            ('순익', '2015년'),
            ('순익', '2016년'),
            ('순익', '2017년'),
            ('순익', '2018년'),
            ('순익', '2019년'),
            ('순익', '2020년'),
            ('순익', '2021년'),
            ('순익', '2022년')],
           )

In [86]:
값 = list(매출.values()) + list(순익.values())
값

[100, 200, 300, 400, 1100, 3000, 6000, 9000, 10, 20, 30, 40, 11, 30, 60, 90]

In [87]:
s = pd.Series(값, index=index)
s

매출  2015년     100
    2016년     200
    2017년     300
    2018년     400
    2019년    1100
    2020년    3000
    2021년    6000
    2022년    9000
순익  2015년      10
    2016년      20
    2017년      30
    2018년      40
    2019년      11
    2020년      30
    2021년      60
    2022년      90
dtype: int64

In [88]:
s['매출']

2015년     100
2016년     200
2017년     300
2018년     400
2019년    1100
2020년    3000
2021년    6000
2022년    9000
dtype: int64

In [89]:
s['순익']

2015년    10
2016년    20
2017년    30
2018년    40
2019년    11
2020년    30
2021년    60
2022년    90
dtype: int64

In [90]:
s['순익']
s['순익'].sum()
s['순익'][-3:].sum()

180

### 2.7 연산 함수와 집계 함수

- 연산 함수
    - add : 더하기 연산 함수
    - sub : 빼기 연산 함수
    - mul : 곱하기 연산 함수
    - floordiv : 나누었을 때 몫을 구하는 함수
    - div : 나누기 연산 함수
    - mod : 나머지 구하는 연산 함수
    - pow : 거듭제곱 연산 함수

- 집계 함수
    - count : 데이터 개수 구하는 함수
    - min : 최소값 구하는 함수
    - max  : 최대값 구하는 함수
    - mean : 평균 구하는 함수
    - median : 중앙값 구하는 함수
    - std : 표준편차 구하는 함수
    - var : 분산 구하는 함수
    - mad : 절대 표준편차 구하는 함수
    - describe : 기초 통계를 한 번에 볼 수 있는 함수

In [91]:
s1 = pd.Series([100, 200, 300, 400, 500])
s2 = pd.Series([10, 20, 30, 40, 50])

In [92]:
s1 + 100

0    200
1    300
2    400
3    500
4    600
dtype: int64

In [93]:
s1.add(1000)

0    1100
1    1200
2    1300
3    1400
4    1500
dtype: int64

In [94]:
s1

0    100
1    200
2    300
3    400
4    500
dtype: int64

In [95]:
s1 + s2

0    110
1    220
2    330
3    440
4    550
dtype: int64

In [96]:
s1.add(s2)

0    110
1    220
2    330
3    440
4    550
dtype: int64

In [97]:
s1 - s2

0     90
1    180
2    270
3    360
4    450
dtype: int64

In [98]:
s1.sub(s2)

0     90
1    180
2    270
3    360
4    450
dtype: int64

In [99]:
s1 * s2
s1 / s2
s1 // s2
s1 % 3
# s1 % '10' #error
s1 ** 2

0     10000
1     40000
2     90000
3    160000
4    250000
dtype: int64

In [100]:
s1.mul(s2)
s1.div(s2)
s1.floordiv(s2)
s1.mod(3)
# s1.mod('3') #error
s1.pow(2)

0     10000
1     40000
2     90000
3    160000
4    250000
dtype: int64

In [101]:
s1.min()
s1.max()
s1.mean() #평균
s1.median() #중앙값
s1.sum()
s1.std() #표준편차
s1.var() #분산
# s1.mad() #절대 표준편차 # pandas 1.5.0 버전 이후로 사용하지 않음

25000.0

In [102]:
s1.describe() #기초 통계를 한 번에 볼 수 있음

count      5.000000
mean     300.000000
std      158.113883
min      100.000000
25%      200.000000
50%      300.000000
75%      400.000000
max      500.000000
dtype: float64

In [103]:
s = pd.Series(range(100))
s.head() # default 5
s.head(10)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [104]:
s.tail() # default 5
s.tail(10)

90    90
91    91
92    92
93    93
94    94
95    95
96    96
97    97
98    98
99    99
dtype: int64

### 2.8 데이터 결합

- concat : 데이터 프레임이나 시리즈의 결합
    - axis=0 or 1 : 아래로 데이터 연결 / 옆으로 데이터 연결
    - verify_integrity=True일 때, 인덱스의 중복이 존재하면 error 출력
    - ignore_index : 기존의 인덱스를 무시하고 차례대로 인덱스 출력
    - join='inner' : 결합하는 데이터들의 공통 부분만 출력
    - join='outer' : 결합하는 데이터들의 모든 값 출력
- append : 마지막 행에 데이터를 추가

※ concatenate : 배열 결합

In [105]:
a = np.arange(10).reshape(2, 5)
b = np.arange(10).reshape(2, 5)
c = np.arange(10).reshape(2, 5)
a

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [106]:
np.concatenate([a, b, c])

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [107]:
np.concatenate([a, b, c], axis=0)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [108]:
np.concatenate([a, b, c], axis=1)

array([[0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9, 5, 6, 7, 8, 9, 5, 6, 7, 8, 9]])

In [109]:
a = pd.Series(['A', 'B', 'C', 'D', 'E'])
b = pd.Series(['A', 'B', 'C', 'D', 'E'])
c = pd.Series(['A', 'B', 'C', 'D', 'E'])
a

0    A
1    B
2    C
3    D
4    E
dtype: object

In [110]:
np.concatenate([a, b, c], axis=0)

array(['A', 'B', 'C', 'D', 'E', 'A', 'B', 'C', 'D', 'E', 'A', 'B', 'C',
       'D', 'E'], dtype=object)

In [126]:
a = pd.Series([['A', 'B'], ['C', 'D'], ['E', 'F']])
b = pd.Series([['A', 'B'], ['C', 'D'], ['E', 'F']])
c = pd.Series([['A', 'B'], ['C', 'D'], ['E', 'F']])
a

0    [A, B]
1    [C, D]
2    [E, F]
dtype: object

In [127]:
np.concatenate([a, b, c], axis=0)

array([list(['A', 'B']), list(['C', 'D']), list(['E', 'F']),
       list(['A', 'B']), list(['C', 'D']), list(['E', 'F']),
       list(['A', 'B']), list(['C', 'D']), list(['E', 'F'])], dtype=object)

In [113]:
# np.concatenate([a, b, c], axis=1) #error

In [128]:
a = pd.Series(['A', 'B', 'C', 'D', 'E'])
b = pd.Series(['A', 'B', 'C', 'D', 'E'])
c = pd.Series(['A', 'B', 'C', 'D', 'E'])
a

0    A
1    B
2    C
3    D
4    E
dtype: object

In [131]:
np.concatenate([a, b, c])[3]

'D'

In [116]:
pd.concat([a, b, c])

0    A
1    B
2    C
3    D
4    E
0    A
1    B
2    C
3    D
4    E
0    A
1    B
2    C
3    D
4    E
dtype: object

In [132]:
type(pd.concat([a, b, c]))

pandas.core.series.Series

In [133]:
pd.concat([a, b, c])[3]

3    D
3    D
3    D
dtype: object

In [136]:
pd.concat([a, b, c], axis=0)

0    A
1    B
2    C
3    D
4    E
0    A
1    B
2    C
3    D
4    E
0    A
1    B
2    C
3    D
4    E
dtype: object

In [137]:
pd.concat([a, b, c], axis=1)

Unnamed: 0,0,1,2
0,A,A,A
1,B,B,B
2,C,C,C
3,D,D,D
4,E,E,E


In [138]:
type(pd.concat([a, b, c], axis=1))

pandas.core.frame.DataFrame

In [140]:
pd.concat([a, b, c], verify_integrity=False) # verify_integrity=True일 때, 인덱스의 중복이 존재하면 error 출력

0    A
1    B
2    C
3    D
4    E
0    A
1    B
2    C
3    D
4    E
0    A
1    B
2    C
3    D
4    E
dtype: object

In [145]:
pd.concat([a, b, c], verify_integrity=True, ignore_index=True) 
# verify_integrity=True일 때, 인덱스의 중복이 존재하면 error 출력
# ignore_index : 기존의 인덱스를 무시하고 차례대로 인덱스 출력

0     A
1     B
2     C
3     D
4     E
5     A
6     B
7     C
8     D
9     E
10    A
11    B
12    C
13    D
14    E
dtype: object

In [148]:
# a.append(b) # pandas 2.0 버전 이후로 사용하지 않음

In [149]:
a = pd.Series(['A', 'B', 'C', 'D', 'E'])
b = pd.Series(['A', 'B', 'C', 'D'])
c = pd.Series(['A', 'B', 'C', 'D'])

pd.concat([a, b, c], axis=1)

Unnamed: 0,0,1,2
0,A,A,A
1,B,B,B
2,C,C,C
3,D,D,D
4,E,,


In [150]:
a = pd.Series(['A', 'B', 'C', 'D', 'E'])
b = pd.Series(['A', 'B', 'C', 'D'])
c = pd.Series(['A', 'B', 'C', 'D'])

pd.concat([a, b, c], axis=1, join='inner') #join='inner' : 결합하는 데이터들의 공통 부분만 출력

Unnamed: 0,0,1,2
0,A,A,A
1,B,B,B
2,C,C,C
3,D,D,D


In [151]:
pd.concat([a, b, c], axis=1, join='outer') # join='outer' : 결합하는 데이터들의 모든 값 출력

Unnamed: 0,0,1,2
0,A,A,A
1,B,B,B
2,C,C,C
3,D,D,D
4,E,,


## 3 DataFrame

- 다차원 배열(Series의 특성을 가지고 있는 2차원 배열)
- 가장 기본적인 데이터 구조

### 3.1 DataFrame의 형태

```
연차  연도      매출    순익   직원수
1     2015   1000000  100001        1
2     2016   2000000  200001        2
3     2017   3000000  300001        4
4     2018   4000000  400001        8
5     2019   8000000  800001       16
6     2020  16000000 1600001       32
```

In [154]:
rawData = {
    '연차':[1, 2, 3, 4, 5, 6],
    '연도':[2015, 2016, 2017, 2018, 2019, 2020],
    '매출':[1000000, 2000000, 3000000, 4000000, 8000000, 16000000],
    '순익':[100001, 200001, 300001, 400001, 800001, 1600001],
    '직원수':[1, 2, 4, 8, 16, 32]
}

In [155]:
pd.DataFrame(rawData)

Unnamed: 0,연차,연도,매출,순익,직원수
0,1,2015,1000000,100001,1
1,2,2016,2000000,200001,2
2,3,2017,3000000,300001,4
3,4,2018,4000000,400001,8
4,5,2019,8000000,800001,16
5,6,2020,16000000,1600001,32


In [156]:
type(pd.DataFrame(rawData))

pandas.core.frame.DataFrame

In [159]:
pd.DataFrame(rawData)['연도']
type(pd.DataFrame(rawData)['연도'])

pandas.core.series.Series

In [160]:
df = pd.DataFrame(rawData)
df.iloc[0:3]
df.iloc[-3:]
df.iloc[-1]

연차            6
연도         2020
매출     16000000
순익      1600001
직원수          32
Name: 5, dtype: int64

In [161]:
rawData['연도']

[2015, 2016, 2017, 2018, 2019, 2020]

In [162]:
# df = pd.DataFrame(rawData, columns=['연차','매출','순익','직원수'], index=[2015, 2016, 2017, 2018, 2019, 2020])
df = pd.DataFrame(rawData, columns=['연차','매출','순익','직원수'], index=rawData['연도'])

In [163]:
df

Unnamed: 0,연차,매출,순익,직원수
2015,1,1000000,100001,1
2016,2,2000000,200001,2
2017,3,3000000,300001,4
2018,4,4000000,400001,8
2019,5,8000000,800001,16
2020,6,16000000,1600001,32


In [164]:
# df.iloc[2015:2017] # 원하는 값이 나오지 않습니다.
df.iloc[0:3]

Unnamed: 0,연차,매출,순익,직원수
2015,1,1000000,100001,1
2016,2,2000000,200001,2
2017,3,3000000,300001,4


In [166]:
df.loc[2015:2017]

Unnamed: 0,연차,매출,순익,직원수
2015,1,1000000,100001,1
2016,2,2000000,200001,2
2017,3,3000000,300001,4


In [167]:
%%writefile rawData.csv
1, 2, 3, 4, 5, 6, 7
연차,1, 2, 3, 4, 5, 6
연도,2015, 2016, 2017, 2018, 2019, 2020
매출,1000000, 2000000, 3000000, 4000000, 8000000, 16000000
순익,100001, 200001, 300001, 400001, 800001, 1600001
직원수,1, 2, 4, 8, 16, 32

Writing rawData.csv


![](https://pandas.pydata.org/docs/_images/02_io_readwrite.svg)

In [168]:
pd.read_csv('rawData.csv')

Unnamed: 0,1,2,3,4,5,6,7
0,연차,1,2,3,4,5,6
1,연도,2015,2016,2017,2018,2019,2020
2,매출,1000000,2000000,3000000,4000000,8000000,16000000
3,순익,100001,200001,300001,400001,800001,1600001
4,직원수,1,2,4,8,16,32


In [169]:
pd.read_csv('rawData.csv').columns

Index(['1', ' 2', ' 3', ' 4', ' 5', ' 6', ' 7'], dtype='object')

In [170]:
pd.read_csv('rawData.csv').index

RangeIndex(start=0, stop=5, step=1)

In [173]:
df = pd.read_html('https://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%9D%B8%EA%B5%AC')

In [174]:
df[4]

Unnamed: 0,연도 (년),추계인구(명),출생자수(명),사망자수(명),자연증가수(명),조출생률 (1000명당),조사망률 (1000명당),자연증가율 (1000명당),합계출산율
0,1925,12997611,558897,359042,199855,43.0,27.6,15.4,6.59
1,1926,13052741,511667,337948,173719,39.2,25.9,13.3,
2,1927,13037169,534524,353818,180706,41.0,27.1,13.9,
3,1928,13105131,566142,357701,208441,43.2,27.3,15.9,
4,1929,13124279,566969,414366,152603,43.2,31.6,11.6,
5,1930,13880469,587144,322611,264533,42.3,23.2,19.1,6.41
6,1931,13895052,589428,346800,242628,42.4,25.0,17.4,
7,1932,14117191,600545,384287,216258,42.5,27.2,15.3,
8,1933,14229277,607021,336232,270789,42.7,23.6,19.1,
9,1934,14449155,618135,356515,261620,42.8,24.7,18.1,


In [175]:
df[4]['출생자수(명)'].sum()

11480088

In [177]:
df[4].to_csv('대한민국인구통계.csv')

## 4 DataFrame에 데이터 활용

### 4.1 데이터 사전 분석

- info() : DataFrame을 구성하는 행과 열에 대한 정보를 나타내 주는 함수
- head(n) : DataFrame의 처음부터 n줄의 행을 출력
- tail(n) : DataFrame의 마지막 n줄의 행을 출력
- describe() : Series, DataFrame의 각 열에 대한 요약 통계
- dtypes : 데이터 자료형 확인

### 4.2 DataFrame에 데이터 조작

- np.nan : NaN으로 값을 채움
- drop : 컬럼 삭제
    - inplace = True : drop후 원본에 반영
- pd.to_numeric() : 문자형을 숫자형으로 변환

In [178]:
rawData = {
    '연차':[1, 2, 3, 4, 5, 6],
    '연도':[2015, 2016, 2017, 2018, 2019, 2020],
    '매출':[1000000, 2000000, 3000000, 4000000, 8000000, 16000000],
    '순익':[100001, 200001, 300001, 400001, 800001, 1600001],
    '직원수':[1, 2, 4, 8, 16, 32]
}

df = pd.DataFrame(rawData)

In [179]:
df

Unnamed: 0,연차,연도,매출,순익,직원수
0,1,2015,1000000,100001,1
1,2,2016,2000000,200001,2
2,3,2017,3000000,300001,4
3,4,2018,4000000,400001,8
4,5,2019,8000000,800001,16
5,6,2020,16000000,1600001,32


In [186]:
# info() : DataFrame을 구성하는 행과 열에 대한 정보를 나타내 주는 함수
# head(n) : DataFrame의 처음부터 n줄의 행을 출력
# tail(n) : DataFrame의 마지막 n줄의 행을 출력
# describe() : Series, DataFrame의 각 열에 대한 요약 통계
# dtypes : 데이터 자료형 확인

df.info()
df.head(3)
df.tail(3)
df.describe()
df.dtypes

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   연차      6 non-null      int64
 1   연도      6 non-null      int64
 2   매출      6 non-null      int64
 3   순익      6 non-null      int64
 4   직원수     6 non-null      int64
dtypes: int64(5)
memory usage: 368.0 bytes


연차     int64
연도     int64
매출     int64
순익     int64
직원수    int64
dtype: object

In [189]:
df['매출']
df.매출

0     1000000
1     2000000
2     3000000
3     4000000
4     8000000
5    16000000
Name: 매출, dtype: int64

In [190]:
df['순이익률'] = (df['순익'] / df['매출']) * 100
df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률
0,1,2015,1000000,100001,1,10.0001
1,2,2016,2000000,200001,2,10.00005
2,3,2017,3000000,300001,4,10.000033
3,4,2018,4000000,400001,8,10.000025
4,5,2019,8000000,800001,16,10.000013
5,6,2020,16000000,1600001,32,10.000006


In [205]:
df['test'] = 100
df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률,test2,test
0,1,2015,1000000,100001,1,10.0001,10000,100
1,2,2016,2000000,200001,2,10.00005,10000,100
2,3,2017,3000000,300001,4,10.000033,10000,100
3,4,2018,4000000,400001,8,10.000025,10000,100
4,5,2019,8000000,800001,16,10.000013,10000,100
5,6,2020,16000000,1600001,32,10.000006,10000,100


In [206]:
df.drop('test', axis='columns') # 원본 삭제가 아닙니다!
df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률,test2,test
0,1,2015,1000000,100001,1,10.0001,10000,100
1,2,2016,2000000,200001,2,10.00005,10000,100
2,3,2017,3000000,300001,4,10.000033,10000,100
3,4,2018,4000000,400001,8,10.000025,10000,100
4,5,2019,8000000,800001,16,10.000013,10000,100
5,6,2020,16000000,1600001,32,10.000006,10000,100


In [207]:
df.drop('test', axis='columns', inplace=True) # 2번 실행하면 error! 있을 때만 실행해야 합니다.
df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률,test2
0,1,2015,1000000,100001,1,10.0001,10000
1,2,2016,2000000,200001,2,10.00005,10000
2,3,2017,3000000,300001,4,10.000033,10000
3,4,2018,4000000,400001,8,10.000025,10000
4,5,2019,8000000,800001,16,10.000013,10000
5,6,2020,16000000,1600001,32,10.000006,10000


In [197]:
df['test'] = np.nan
df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률,test
0,1,2015,1000000,100001,1,10.0001,
1,2,2016,2000000,200001,2,10.00005,
2,3,2017,3000000,300001,4,10.000033,
3,4,2018,4000000,400001,8,10.000025,
4,5,2019,8000000,800001,16,10.000013,
5,6,2020,16000000,1600001,32,10.000006,


In [198]:
df['test2'] = None
df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률,test,test2
0,1,2015,1000000,100001,1,10.0001,,
1,2,2016,2000000,200001,2,10.00005,,
2,3,2017,3000000,300001,4,10.000033,,
3,4,2018,4000000,400001,8,10.000025,,
4,5,2019,8000000,800001,16,10.000013,,
5,6,2020,16000000,1600001,32,10.000006,,


In [202]:
df[['test', 'test2']] = 10000
df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률,test2,test
0,1,2015,1000000,100001,1,10.0001,10000,10000
1,2,2016,2000000,200001,2,10.00005,10000,10000
2,3,2017,3000000,300001,4,10.000033,10000,10000
3,4,2018,4000000,400001,8,10.000025,10000,10000
4,5,2019,8000000,800001,16,10.000013,10000,10000
5,6,2020,16000000,1600001,32,10.000006,10000,10000


In [203]:
del df['test']
df
# df.drop(['test'], axis='columns', inplace=True) #원본에 직접 반영
# df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률,test2
0,1,2015,1000000,100001,1,10.0001,10000
1,2,2016,2000000,200001,2,10.00005,10000
2,3,2017,3000000,300001,4,10.000033,10000
3,4,2018,4000000,400001,8,10.000025,10000
4,5,2019,8000000,800001,16,10.000013,10000
5,6,2020,16000000,1600001,32,10.000006,10000


In [208]:
del df['test2']
df
# df.drop(['test2'], axis='columns', inplace=True) #원본에 직접 반영
# df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률
0,1,2015,1000000,100001,1,10.0001
1,2,2016,2000000,200001,2,10.00005
2,3,2017,3000000,300001,4,10.000033
3,4,2018,4000000,400001,8,10.000025
4,5,2019,8000000,800001,16,10.000013
5,6,2020,16000000,1600001,32,10.000006


In [211]:
df2 = pd.DataFrame(
        np.array([[7, 
                   2021, 
                   160000000, 
                   16000001, 
                   60]]),
        columns=['연차',
                 '연도',
                 '매출',
                 '순익',
                 '직원수'])
df2

Unnamed: 0,연차,연도,매출,순익,직원수
0,7,2021,160000000,16000001,60


In [213]:
# df2.append(df) # pandas 2.0 이상 append 함수 사용하지 않음

In [215]:
# df2 = pd.DataFrame(
#         np.array([[7, 
#                    2021, 
#                    160000000, 
#                    16000001, 
#                    60]]),
#         columns=['연차',
#                  '연도',
#                  '매출',
#                  '순익',
#                  '직원수']).append(df, ignore_index=True) # pandas 2.0 이상 append 함수 사용하지 않음
# df2

In [216]:
df2 = pd.DataFrame(
        np.array([[7, 
                   2021, 
                   160000000, 
                   16000001, 
                   60]]),
        columns=['연차',
                 '연도',
                 '매출',
                 '순익',
                 '직원수'])
df2

Unnamed: 0,연차,연도,매출,순익,직원수
0,7,2021,160000000,16000001,60


In [220]:
df = pd.concat([df, df2], ignore_index=True)

In [222]:
df.drop([0], inplace=True)

In [223]:
df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률
1,2,2016,2000000,200001,2,10.00005
2,3,2017,3000000,300001,4,10.000033
3,4,2018,4000000,400001,8,10.000025
4,5,2019,8000000,800001,16,10.000013
5,6,2020,16000000,1600001,32,10.000006
6,7,2021,160000000,16000001,60,


In [224]:
df.매출 > 5000000
df[df.매출 > 5000000]

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률
4,5,2019,8000000,800001,16,10.000013
5,6,2020,16000000,1600001,32,10.000006
6,7,2021,160000000,16000001,60,


In [225]:
df[df.매출 > 5000000]['매출']
df[df.매출 > 5000000][['매출', '순익']]
# df[df.매출 > 5000000]['매출', '순익'] #error
df.loc[df.매출 > 5000000, ['매출', '순익']]

Unnamed: 0,매출,순익
4,8000000,800001
5,16000000,1600001
6,160000000,16000001


In [3]:
rawData = {
    '연차':[1, 2, 3, 4, 5, 6],
    '연도':[2015, 2016, 2017, 2018, 2019, 2020],
    '매출':[1000000, 2000000, 3000000, 4000000, 8000000, 16000000],
    '순익':[100001, 200001, 300001, 400001, 800001, 1600001],
    '직원수':[1.0, 2.0, 4.0, 8.0, 16.0, 32.0]
}

df = pd.DataFrame(rawData)
df

Unnamed: 0,연차,연도,매출,순익,직원수
0,1,2015,1000000,100001,1.0
1,2,2016,2000000,200001,2.0
2,3,2017,3000000,300001,4.0
3,4,2018,4000000,400001,8.0
4,5,2019,8000000,800001,16.0
5,6,2020,16000000,1600001,32.0


In [4]:
df.dtypes

연차       int64
연도       int64
매출       int64
순익       int64
직원수    float64
dtype: object

In [5]:
df['직원수'] = df['직원수'].astype('int')
df

Unnamed: 0,연차,연도,매출,순익,직원수
0,1,2015,1000000,100001,1
1,2,2016,2000000,200001,2
2,3,2017,3000000,300001,4
3,4,2018,4000000,400001,8
4,5,2019,8000000,800001,16
5,6,2020,16000000,1600001,32


In [6]:
df.dtypes

연차     int64
연도     int64
매출     int64
순익     int64
직원수    int32
dtype: object

In [7]:
pd.Series([1, '2', '3', 'hojun', True, 10.1])

0        1
1        2
2        3
3    hojun
4     True
5     10.1
dtype: object

In [None]:
data = pd.Series([1, '2', '3', 'hojun', True, 10.1])
data.astype('int') # error 발생, 'hojun' 은 int 자료형으로 바꿀 수 없음

In [10]:
pd.to_numeric(pd.Series([1, '2', '3', 'hojun', True, 10.1]), errors='ignore')

  pd.to_numeric(pd.Series([1, '2', '3', 'hojun', True, 10.1]), errors='ignore')


0        1
1        2
2        3
3    hojun
4     True
5     10.1
dtype: object

In [11]:
pd.to_numeric(pd.Series([1, '2', '3', 'hojun', True, 10.1]), errors='coerce')

0     1.0
1     2.0
2     3.0
3     NaN
4     1.0
5    10.1
dtype: float64

In [12]:
pd.to_numeric(pd.Series([1, '2', '3', True, 10.1]))

0     1.0
1     2.0
2     3.0
3     1.0
4    10.1
dtype: float64

### 4.3 MultiIndex

- Index를 설정할 때 리스트의 리스트 형태로 넣어주면 다중 인덱스가 설정이 된다.

In [16]:
df = pd.DataFrame(
            np.random.randint(50, 100, size=(4, 3)),
            index=[['1학년', '1학년', '2학년', '2학년'], 
                   ['1반', '2반', '1반', '2반']],
            columns=['국', '영', '수']
        )

df

Unnamed: 0,Unnamed: 1,국,영,수
1학년,1반,63,54,80
1학년,2반,75,86,79
2학년,1반,51,53,71
2학년,2반,77,52,95


In [17]:
df.index

MultiIndex([('1학년', '1반'),
            ('1학년', '2반'),
            ('2학년', '1반'),
            ('2학년', '2반')],
           )

In [18]:
df.columns

Index(['국', '영', '수'], dtype='object')

In [19]:
df['국']

1학년  1반    63
     2반    75
2학년  1반    51
     2반    77
Name: 국, dtype: int32

In [20]:
df[['국', '영']]

Unnamed: 0,Unnamed: 1,국,영
1학년,1반,63,54
1학년,2반,75,86
2학년,1반,51,53
2학년,2반,77,52


In [21]:
df.loc['1학년']
# df.loc['1학년']['1반']
df.loc['1학년', '1반']

국    63
영    54
수    80
Name: (1학년, 1반), dtype: int32

In [22]:
df.index = [['제주고', '제주고', '제주고', '제주고'], 
            ['1학년', '1학년', '2학년', '2학년'], 
            ['1반', '2반', '1반', '2반']]

df

Unnamed: 0,Unnamed: 1,Unnamed: 2,국,영,수
제주고,1학년,1반,63,54,80
제주고,1학년,2반,75,86,79
제주고,2학년,1반,51,53,71
제주고,2학년,2반,77,52,95
