# pandas

## 1 pandas란?

- Python에서 사용하는 데이터를 분석하는 라이브러리
- 행과 열을 쉽게 처리할 수 있는 함수를 제공하는 도구
    
    ※ 각 열은 단일 데이터 형식만 저장
    
- **numpy보다 유연하게 수치연산 가능**
- numpy는 데이터 누락을 허락하지 않지만, pandas는 데이터 누락을 허락

In [442]:
import pandas as pd
import numpy as np

pd.__version__, np.__version__

('2.2.2', '2.0.1')

## 2 Series

- 인덱스와 values로 이루어진 1차원 배열
- 모든 유형의 데이터를 보유할 수 있음
- 인덱스를 지정해 줄 수 있음
- 명시적 인덱스와 암묵적 인덱스를 가짐

### 2.1 Series 형태

- RangeIndex :  인덱스 자동 생성 

* DataFrame에서 각각의 컬럼은 Series입니다.
![](https://pandas.pydata.org/docs/_images/01_table_dataframe.svg)

![](https://pandas.pydata.org/docs/_images/01_table_series.svg)

In [6]:
data = [10, 20, 30, 40, 50, 60]
data = pd.Series(data)
data # 제일 첫번째 열은 index (자동 생성!)

0    10
1    20
2    30
3    40
4    50
5    60
dtype: int64

In [11]:
print(data[0])
print(data[1])
print(data[2])
print(data[3:6])
# print(data[-1])  # 이건 err
print(data[::-1])

10
20
30
3    40
4    50
5    60
dtype: int64
5    60
4    50
3    40
2    30
1    20
0    10
dtype: int64


In [14]:
print(type(data))
print(type(data.values)) # numpy는 pandas로 이어진다!

<class 'pandas.core.series.Series'>
<class 'numpy.ndarray'>


In [16]:
data.index  # RangeIndex는 자동으로 index가 지정되었다 라는 걸 의미함.

RangeIndex(start=0, stop=6, step=1)

In [24]:
# 우리가 index를 지정해주고 싶다면, 같이 넣어주면 된다.
# 우리가 설정해주더라도, 숫자 인덱스는 자동으로 있음!
data = [10, 20, 30, 40, 50, 60]
idx = ['a', 'b', 'c', 'd', 'e', 'f']

sample = pd.Series(data,idx)
print(sample)

a    10
b    20
c    30
d    40
e    50
f    60
dtype: int64


In [31]:
print(sample['a'])

# print(sample[0]) # warning! (이후 잘못 불러올 수 있다.)

# 위치 기반 찾아오고 싶으면, iloc붙여줘야함.
print(sample.iloc[0])

10
10


In [32]:
# 잘 안 쓰지만, 이런 방법도 있다. (index관련)
print(sample.a)  # 비추!

10


### 2.2 Series의 산술 연산

In [34]:
pd.Series([10,20,30,40,50,60])

0    10
1    20
2    30
3    40
4    50
5    60
dtype: int64

In [35]:
data = pd.Series([10,20,30,40,50,60])

In [37]:
data + 100
data - 100
data * 10
data / 10
data // 10
data % 10
data + data

0     20
1     40
2     60
3     80
4    100
5    120
dtype: int64

In [39]:
data1 = pd.Series([10, 20, 30])
data2 = pd.Series(['a','b','c'])

# data1 + data2 # error

In [40]:
data1 = pd.Series([10, 20, 30])
data2 = pd.Series(['10','20','30'])

data1 + data2.astype('int64') # error

0    20
1    40
2    60
dtype: int64

### 2.3 Series indexing , slicing, boolean indexing

In [4]:
data = [10, 20, 30, 40, 50, 60]
idx = ['a', 'b', 'c', 'd', 'e', 'f']

sample = pd.Series(data,idx)
print(sample)

a    10
b    20
c    30
d    40
e    50
f    60
dtype: int64


In [12]:
print(sample['a'])
print(sample.iloc[0])
print(sample['a':'d':2])


10
10
a    10
c    30
dtype: int64


In [13]:
data = [10, 20, 30, 40, 50, 60]
idx = ['a', 'b', 'c', 'd', 'e', 'f']

sample = pd.Series(data,idx)
print(sample)

a    10
b    20
c    30
d    40
e    50
f    60
dtype: int64


In [22]:
sample[[True,True,False,False,False,False]]

a    10
b    20
dtype: int64

In [24]:
print([i for i in sample])

[10, 20, 30, 40, 50, 60]


In [26]:
# iterate 불가 -> error
# for index, values in sample:
#     print(index, value)

In [36]:
for i, j in zip(sample.index, sample.values):
    print(i,j)

a 10
b 20
c 30
d 40
e 50
f 60


In [39]:
d = {
    '학원' : 10,
    '연구원' : 20,
    '출판사' : 30,
    '미디어사' : 40,
    '위니브' : 50
}


In [44]:
data = pd.Series(d)

print(data['학원' : '출판사'])  # 출판사까지 출력함!
print(data[0:3])

학원     10
연구원    20
출판사    30
dtype: int64
학원     10
연구원    20
출판사    30
dtype: int64


In [46]:
data

학원      10
연구원     20
출판사     30
미디어사    40
위니브     50
dtype: int64

In [48]:
data[2:]

출판사     30
미디어사    40
위니브     50
dtype: int64

In [51]:
data[:-2]

학원     10
연구원    20
출판사    30
dtype: int64

In [54]:
data[0:3]

학원     10
연구원    20
출판사    30
dtype: int64

In [56]:
data[-4::2]

연구원     20
미디어사    40
dtype: int64

In [61]:
d = {
    '2015년':100,
    '2016년':200,
    '2017년':300,
    '2018년':400,
    '2019년':1100,
    '2020년':3000,
    '2021년':6000,
    '2022년':9000,
}

pd.Series(d, index=['2016년', '2020년'])

2016년     200
2020년    3000
dtype: int64

### 2.4 Series에 key, value, index

- index
    - Series, DataFrame의 레코드를 식별
    - 집합 연산이 가능
- loc :  인덱스를 기반으로 행 데이터를 읽음 (행 번호를 loc하면 warning)
- iloc :  행 번호를 기반으로 행 데이터를 읽음
- items() : key와 value를 튜플로 묶어서 리턴
- 팬시 인덱싱(fancy indexing) : 스칼라 대신 인덱스 배열을 사용한 인덱싱

In [65]:
data = [10, 20, 30, 40, 50, 60]
index = ['a', 'b', 'c', 'd', 'e', 'f']
s = pd.Series(data, index)
s

a    10
b    20
c    30
d    40
e    50
f    60
dtype: int64

In [76]:
print('a' in s) 
print(40 in s)  # index만 감지함.

True
False


In [69]:
# keys - items 관계! (java/c계열은 key-value 관계)
s.keys()

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

In [71]:
# s.values()  # err

In [77]:
list(s.items())

[('a', 10), ('b', 20), ('c', 30), ('d', 40), ('e', 50), ('f', 60)]

In [82]:
# s.loc('a') # err
print(s.loc['a'])  # index 입력하지 않아, 숫자가 자동으로 들어간 경우, 숫자 사용ㅅ
print(s.loc['a':'d'])

10
a    10
b    20
c    30
d    40
dtype: int64


In [87]:
s.iloc[0]  # loc, iloc는 index/key로 item을 보는 거니까, []사용
s.iloc[0:3]

a    10
b    20
c    30
dtype: int64

In [111]:
data = [10, 20, 30, 40, 50, 60]
index = [1,3,5,7,9,11]
s = pd.Series(data, index)
s

1     10
3     20
5     30
7     40
9     50
11    60
dtype: int64

In [112]:
# 난 index 3:5를 뽑고 싶은데,,,
# 뭔가 의미가 중의적이야,,
s[3:5]  

7    40
9    50
dtype: int64

In [114]:
# 명시적으로 알 수 있도록, loc, iloc 사용해.
print(s, "\n")

# location으로 빼오기
print(s[3:5])
print(s.iloc[3:5])  # iloc : base index locate (자동 index)

# index로 빼오기
print(s.loc[3:5])  # loc: 설정해준 index로 불러기 (명시적인 index)

# print(s.iloc[3:5])   # 위치 기반
# s.loc[3:5]    # index기반

1     10
3     20
5     30
7     40
9     50
11    60
dtype: int64 

7    40
9    50
dtype: int64
7    40
9    50
dtype: int64
3    20
5    30
dtype: int64


In [124]:
# 팬시 인덱싱
data = [10, 20, 30, 40, 50]
index = ['a', 'b', 'c', 'd', 'e']

# s = pd.Series(index, data)
s = pd.Series(data, index)  # data를 index로 엮을 거다. 라는 순서!
s

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [122]:
s[['a', 'd']]

a    10
d    40
dtype: int64

### 2.5 결측값(NaN, None) 처리

1. NaN
    - 자료형이 Float
    - 배열에서 연산할 경우 오류가 발생하지 않지만  결과값이 NaN이 됨
        - numpy : nan
        - pandas : 연산가능
2. None 
    - 자료형이 None
    - 배열 연산을 할 경우 오류가 발생
        - numpy : error
        - pandas : 연산가능

3.  처리방법 

    - isnull() : 결측값 확인 (결측 이면  True , 결측이 아니면  False )
    - notnull() : 결측값 확인 (결측 이면  False , 결측이 아니면  True )
    - dropna() : 결측값을 삭제
        - axis=0 : 행 삭제 / axis=1 : 열 삭제
        - inplace = True : drop후 원본에 반영
    - fillna(Num) : 결측을 Num 으로 채워 넣음

In [126]:
import pandas as pd
import numpy as np

In [128]:
data = [10, 20, 30, 40, 50, None]
np.array(data)

array([10, 20, 30, 40, 50, None], dtype=object)

In [143]:
data = np.array(data)
# data.sum()  # none 때문에 err

In [163]:
# nan 있어도 더하려면..
data = np.array(data, dtype=np.float32)  
total = np.nansum(data)  # NaN을 무시하고 합계 계산
print(total)  # 결과: 150.0

150.0


- 밑의 예시가 pandas는 numpy보다 유연하게 계산 가능하다는 의미
<ul>
    <li>Numpy</li>
    <ol>
        <li>np.nan이 있으면 nan</li>
        <li>None이 있으면 error</li>
    </ol>
    <li>Pandas</li>
    <ol>
        <li>np.nan가 있어도 계산됨.</li>
        <li>None이 있어도 계산됨.</li> 
    </ol>
</ul>

In [146]:
data = [10, 20, 30, 40, 50, np.nan]
data = np.array(data)
data.sum()

np.float64(nan)

In [159]:
data = [10, 20, 30, 40, 50, np.nan]
data = np.array(data)
data.sum()  # 이건 에러..

np.float64(nan)

In [162]:
data = [10, 20, 30, 40, 50, None]
data = np.array(data)
# data.sum()  # 이건 에러..

In [156]:
data = [10, 20, 30, 40, 50, np.nan]
data = pd.Series(data)
data.sum()

np.float64(150.0)

In [164]:
data = [10, 20, 30, 40, 50, None]
data = pd.Series(data)
data.sum()

np.float64(150.0)

In [166]:
data.isnull()  # null/none인 것은 true

0    False
1    False
2    False
3    False
4    False
5     True
dtype: bool

In [170]:
data.notnull()  # null/none 인 것은 false
data.notnull().sum()  # 개수 파악

np.int64(5)

In [171]:
data.dropna()  # drop nan/none

0    10.0
1    20.0
2    30.0
3    40.0
4    50.0
dtype: float64

In [179]:
data.fillna(0)  # 결측치를 0으로 처리
data.fillna(data.mean())  # 결측치를 평균으로 처리
data.ffill(inplace=True)  # 원본 데이터에 직접 적용
data.bfill(inplace=True)  # ㅑinplace가 false면 원본에 변경값 적용 X

In [181]:
# 간접적으로 원본 data 수정하는 법 (np, pd 전부 적용 가능!)
data = [10, 20, 30, 40, 50, None, None, 1000]
data = np.array(data)

data[1] = 100  # 수정하고자 하는 값을 변
data

array([10, 100, 30, 40, 50, None, None, 1000], dtype=object)

### 2.6 multiIndex

* 다중 인덱스입니다.
  - 유용할 것 같지만, DataFrame배우면 잘 안 씀.

In [184]:
매출 = {
    '2015년':100,
    '2016년':200,
    '2017년':300,
    '2018년':400,
    '2019년':1100,
    '2020년':3000,
    '2021년':6000,
    '2022년':9000,
}

순익 = {
    '2015년':10,
    '2016년':20,
    '2017년':30,
    '2018년':40,
    '2019년':11,
    '2020년':30,
    '2021년':60,
    '2022년':90,
}

In [223]:
print(list(매출.keys()))
print(매출['2015년'])

print("\n-------------------\n")

# 매출과 순익을 함께 묶기
매출_순익 = list(zip(매출.keys(), 매출.values(), 순익.values()))
매출_순익_numpy = np.array(매출_순익)
print(매출_순익)

print("\n-------------------\n")

print("매출 연도:", list(매출.keys()))
print("매출과 순익:", 매출_순익)

['2015년', '2016년', '2017년', '2018년', '2019년', '2020년', '2021년', '2022년']
100

-------------------

[('2015년', 100, 10), ('2016년', 200, 20), ('2017년', 300, 30), ('2018년', 400, 40), ('2019년', 1100, 11), ('2020년', 3000, 30), ('2021년', 6000, 60), ('2022년', 9000, 90)]

-------------------

매출 연도: ['2015년', '2016년', '2017년', '2018년', '2019년', '2020년', '2021년', '2022년']
매출과 순익: [('2015년', 100, 10), ('2016년', 200, 20), ('2017년', 300, 30), ('2018년', 400, 40), ('2019년', 1100, 11), ('2020년', 3000, 30), ('2021년', 6000, 60), ('2022년', 9000, 90)]


In [227]:
index1 = list(zip(["매출" for _ in range(len(매출.keys()))], 매출.keys()))
index2 = list(zip(["순익" for _ in range(len(순익.keys()))], 순익.keys()))

index = index1 + index2
index

[('매출', '2015년'),
 ('매출', '2016년'),
 ('매출', '2017년'),
 ('매출', '2018년'),
 ('매출', '2019년'),
 ('매출', '2020년'),
 ('매출', '2021년'),
 ('매출', '2022년'),
 ('순익', '2015년'),
 ('순익', '2016년'),
 ('순익', '2017년'),
 ('순익', '2018년'),
 ('순익', '2019년'),
 ('순익', '2020년'),
 ('순익', '2021년'),
 ('순익', '2022년')]

In [230]:
index = pd.MultiIndex.from_tuples(index)
index

MultiIndex([('매출', '2015년'),
            ('매출', '2016년'),
            ('매출', '2017년'),
            ('매출', '2018년'),
            ('매출', '2019년'),
            ('매출', '2020년'),
            ('매출', '2021년'),
            ('매출', '2022년'),
            ('순익', '2015년'),
            ('순익', '2016년'),
            ('순익', '2017년'),
            ('순익', '2018년'),
            ('순익', '2019년'),
            ('순익', '2020년'),
            ('순익', '2021년'),
            ('순익', '2022년')],
           )

In [233]:
값 = list(매출.values()) + list(순익.values())
값

[100, 200, 300, 400, 1100, 3000, 6000, 9000, 10, 20, 30, 40, 11, 30, 60, 90]

In [237]:
s = pd.Series(값, index=index)
s

매출  2015년     100
    2016년     200
    2017년     300
    2018년     400
    2019년    1100
    2020년    3000
    2021년    6000
    2022년    9000
순익  2015년      10
    2016년      20
    2017년      30
    2018년      40
    2019년      11
    2020년      30
    2021년      60
    2022년      90
dtype: int64

In [243]:
s['매출'][-3:].sum()  # 최근 3년 데이터 합


np.int64(18000)

### 2.7 연산 함수와 집계 함수

- 연산 함수
    - add : 더하기 연산 함수
    - sub : 빼기 연산 함수
    - mul : 곱하기 연산 함수
    - floordiv : 나누었을 때 몫을 구하는 함수
    - div : 나누기 연산 함수
    - mod : 나머지 구하는 연산 함수
    - pow : 거듭제곱 연산 함수

- 집계 함수
    - count : 데이터 개수 구하는 함수
    - min : 최소값 구하는 함수
    - max  : 최대값 구하는 함수
    - mean : 평균 구하는 함수
    - median : 중앙값 구하는 함수
    - std : 표준편차 구하는 함수
    - var : 분산 구하는 함수
    - mad : 절대 표준편차 구하는 함수
    - describe : 기초 통계를 한 번에 볼 수 있는 함수

In [244]:
s1 = pd.Series([100, 200, 300, 400, 500])
s2 = pd.Series([10, 20, 30, 40, 50])

In [246]:
s1 + 100

0    200
1    300
2    400
3    500
4    600
dtype: int64

In [248]:
s1.add(100)

0    200
1    300
2    400
3    500
4    600
dtype: int64

In [249]:
s1 + s2

0    110
1    220
2    330
3    440
4    550
dtype: int64

In [251]:
s1.add(s2)

0    110
1    220
2    330
3    440
4    550
dtype: int64

In [252]:
s1 - s2

0     90
1    180
2    270
3    360
4    450
dtype: int64

In [253]:
s1.sub(s2)

0     90
1    180
2    270
3    360
4    450
dtype: int64

In [255]:
s1 * s2

0     1000
1     4000
2     9000
3    16000
4    25000
dtype: int64

In [256]:
s1.mul(s2)

0     1000
1     4000
2     9000
3    16000
4    25000
dtype: int64

In [257]:
s1 ** 2

0     10000
1     40000
2     90000
3    160000
4    250000
dtype: int64

In [258]:
s1.pow(2)

0     10000
1     40000
2     90000
3    160000
4    250000
dtype: int64

In [259]:
s1

0    100
1    200
2    300
3    400
4    500
dtype: int64

In [260]:
s1.min()

np.int64(100)

In [261]:
s1.max()

np.int64(500)

In [262]:
s1.mean()

np.float64(300.0)

In [263]:
s1.median()

np.float64(300.0)

In [264]:
s1.std() # 표준편차

np.float64(158.11388300841898)

In [266]:
s1.var() # 분산

np.float64(25000.0)

In [267]:
s1.head(2)

0    100
1    200
dtype: int64

In [268]:
s1.tail(2)

3    400
4    500
dtype: int64

### 2.8 데이터 결합

- concat : 데이터 프레임이나 시리즈의 결합
    - axis=0 or 1 : 아래로 데이터 연결 / 옆으로 데이터 연결
    - verify_integrity=True일 때, 인덱스의 중복이 존재하면 error 출력
    - ignore_index : 기존의 인덱스를 무시하고 차례대로 인덱스 출력
    - join='inner' : 결합하는 데이터들의 공통 부분만 출력
    - join='outer' : 결합하는 데이터들의 모든 값 출력
- append : 마지막 행에 데이터를 추가

※ concatenate : 배열 결합

In [272]:
a = np.arange(10).reshape(2,5)
b = np.arange(10).reshape(2,5)
c = np.arange(10).reshape(2,5)
a

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [273]:
np.concatenate([a,b,c])

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [274]:
np.concatenate([a,b,c], axis=1)

array([[0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9, 5, 6, 7, 8, 9, 5, 6, 7, 8, 9]])

In [276]:
np.concatenate([a,b,c], axis=0)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9],
       [0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [291]:
a = pd.Series(['A','B','C','D','E'], index=range(1,6))
b = pd.Series(['A','B','C','D','E'], index=range(1,6))
c = pd.Series(['A','B','C','D','E'], index=range(1,6))
a

1    A
2    B
3    C
4    D
5    E
dtype: object

In [284]:
np.concatenate([a,b,c])

array(['A', 'B', 'C', 'D', 'E', 'A', 'B', 'C', 'D', 'E', 'A', 'B', 'C',
       'D', 'E'], dtype=object)

In [287]:
a = pd.Series([['A','B'],['C','D'],['E','F']])
b = pd.Series([['A','B'],['C','D'],['E','F']])
c = pd.Series([['A','B'],['C','D'],['E','F']])
a

0    [A, B]
1    [C, D]
2    [E, F]
dtype: object

In [289]:
np.concatenate([a,b,c])

array([list(['A', 'B']), list(['C', 'D']), list(['E', 'F']),
       list(['A', 'B']), list(['C', 'D']), list(['E', 'F']),
       list(['A', 'B']), list(['C', 'D']), list(['E', 'F'])], dtype=object)

In [292]:
# np.concatenate([a,b,c], axis=1)  # 하나의 column이ㅣ에..

In [317]:
a = pd.Series(['A','B','C','D','E'], index=range(1,6))
b = pd.Series(['A','B','C','D','E'], index=range(1,6))
c = pd.Series(['A','B','C','D','E'], index=range(1,6))
a

1    A
2    B
3    C
4    D
5    E
dtype: object

In [299]:
print(np.concatenate([a,b,c]))
print(np.concatenate([a,b,c])[3])
print(type(np.concatenate([a,b,c])[3]))

['A' 'B' 'C' 'D' 'E' 'A' 'B' 'C' 'D' 'E' 'A' 'B' 'C' 'D' 'E']
D
<class 'str'>


In [303]:
# concat : data frame이나 series 결합에 사용
print(pd.concat([a,b,c]))
print("---------------")
print(pd.concat([a,b,c])[3])
print(type(pd.concat([a,b,c])[3]))

1    A
2    B
3    C
4    D
5    E
1    A
2    B
3    C
4    D
5    E
1    A
2    B
3    C
4    D
5    E
dtype: object
---------------
3    C
3    C
3    C
dtype: object
<class 'pandas.core.series.Series'>
---------------


In [305]:
pd.concat([a,b,c], axis=0)

1    A
2    B
3    C
4    D
5    E
1    A
2    B
3    C
4    D
5    E
1    A
2    B
3    C
4    D
5    E
dtype: object

In [309]:
print(pd.concat([a,b,c], axis=1))
print(type(pd.concat([a,b,c], axis=1)))

   0  1  2
1  A  A  A
2  B  B  B
3  C  C  C
4  D  D  D
5  E  E  E
<class 'pandas.core.frame.DataFrame'>


In [311]:
# verify_integrity는 중복 여부 (false면 중복 가능)
pd.concat([a,b,c], verify_integrity=False)

1    A
2    B
3    C
4    D
5    E
1    A
2    B
3    C
4    D
5    E
1    A
2    B
3    C
4    D
5    E
dtype: object

In [313]:
# 중복 data있으면 안 되고, 기존 index를 ignore (임의 재설정해줌)
pd.concat([a,b,c], verify_integrity=True, ignore_index=True)

0     A
1     B
2     C
3     D
4     E
5     A
6     B
7     C
8     D
9     E
10    A
11    B
12    C
13    D
14    E
dtype: object

In [325]:
a = pd.Series(['A','B','C','D','E'], index=range(1,6))
b = pd.Series(['A','B','C','D'], index=range(1,5))
c = pd.Series(['A','B','C','D'], index=range(1,5))
a

1    A
2    B
3    C
4    D
5    E
dtype: object

In [328]:
pd.concat([a,b,c], axis=1) # review)열 개수 유지를 위해 가로로 연산!

Unnamed: 0,0,1,2
1,A,A,A
2,B,B,B
3,C,C,C
4,D,D,D
5,E,,


In [330]:
# 결측치 없는 것만 보여
pd.concat([a,b,c], axis=1, join='inner') 

Unnamed: 0,0,1,2
1,A,A,A
2,B,B,B
3,C,C,C
4,D,D,D


In [331]:
# 모든 데이터 보여줘
pd.concat([a,b,c], axis=1, join='outer') 

Unnamed: 0,0,1,2
1,A,A,A
2,B,B,B
3,C,C,C
4,D,D,D
5,E,,


## 3 DataFrame

- 다차원 배열(Series의 특성을 가지고 있는 2차원 배열)
- Series가 쌓여서 구성된 것으로 생각하면 쉬움.
- 가장 기본적인 데이터 구조

### 3.1 DataFrame의 형태

```
연차  연도      매출    순익   직원수
1     2015   1000000  100001        1
2     2016   2000000  200001        2
3     2017   3000000  300001        4
4     2018   4000000  400001        8
5     2019   8000000  800001       16
6     2020  16000000 1600001       32
```

In [332]:
rawData = {
    '연차':[1, 2, 3, 4, 5, 6],
    '연도':[2015, 2016, 2017, 2018, 2019, 2020],
    '매출':[1000000, 2000000, 3000000, 4000000, 8000000, 16000000],
    '순익':[100001, 200001, 300001, 400001, 800001, 1600001],
    '직원수':[1, 2, 4, 8, 16, 32]
}

In [334]:
pd.DataFrame(rawData)  

Unnamed: 0,연차,연도,매출,순익,직원수
0,1,2015,1000000,100001,1
1,2,2016,2000000,200001,2
2,3,2017,3000000,300001,4
3,4,2018,4000000,400001,8
4,5,2019,8000000,800001,16
5,6,2020,16000000,1600001,32


In [340]:
print(type(pd.DataFrame(rawData)))

<class 'pandas.core.frame.DataFrame'>


In [343]:
print(type(pd.DataFrame(rawData)['연도']))
# 이를 통해, Series들이 쌓여 DataFrame이 됨을 알 수 있다.

<class 'pandas.core.series.Series'>


In [349]:
df = pd.DataFrame(rawData)

# i(i니까, "임시" 의미로 쉽게 생각해주자..) 
# i(임시) location ::> 처음 만들어졌을 때의 index
print(df.iloc[2:5])  

# loc :: 우리가 명시해준 index 
print(df.loc[2:4])   # ::> 현재는 동일!

   연차    연도       매출      순익  직원수
2   3  2017  3000000  300001    4
3   4  2018  4000000  400001    8
4   5  2019  8000000  800001   16
   연차    연도       매출      순익  직원수
2   3  2017  3000000  300001    4
3   4  2018  4000000  400001    8
4   5  2019  8000000  800001   16


In [353]:
# index 설정에서 rawData[~~] 이렇게 직접 명명!
df = pd.DataFrame(rawData, columns=['연차','매출','순익','직원수'], index=rawData['연도'])
df

Unnamed: 0,연차,매출,순익,직원수
2015,1,1000000,100001,1
2016,2,2000000,200001,2
2017,3,3000000,300001,4
2018,4,4000000,400001,8
2019,5,8000000,800001,16
2020,6,16000000,1600001,32


In [358]:
print(df.iloc[2:4])  # 처음 생성될 때 i(임시) index로!
print("--------------")
print(df.loc[2016:2018])  # 명시적 설정해준 index로!

      연차       매출      순익  직원수
2017   3  3000000  300001    4
2018   4  4000000  400001    8
--------------
      연차       매출      순익  직원수
2016   2  2000000  200001    2
2017   3  3000000  300001    4
2018   4  4000000  400001    8


In [362]:
%%writefile rawData.csv
1, 2, 3, 4, 5, 6, 7
연차,1, 2, 3, 4, 5, 6
연도,2015, 2016, 2017, 2018, 2019, 2020
매출,1000000, 2000000, 3000000, 4000000, 8000000, 16000000
순익,100001, 200001, 300001, 400001, 800001, 1600001
직원수,1, 2, 4, 8, 16, 32

Overwriting rawData.csv


![](https://pandas.pydata.org/docs/_images/02_io_readwrite.svg)

In [364]:
pd.read_csv('rawData.csv')

Unnamed: 0,1,2,3,4,5,6,7
0,연차,1,2,3,4,5,6
1,연도,2015,2016,2017,2018,2019,2020
2,매출,1000000,2000000,3000000,4000000,8000000,16000000
3,순익,100001,200001,300001,400001,800001,1600001
4,직원수,1,2,4,8,16,32


In [366]:
pd.read_csv('rawData.csv').columns

Index(['1', ' 2', ' 3', ' 4', ' 5', ' 6', ' 7'], dtype='object')

In [372]:
pd.read_csv('rawData.csv').index

RangeIndex(start=0, stop=5, step=1)

In [377]:
!pip install lxml
!pip install html5lib beautifulsoup4

Defaulting to user installation because normal site-packages is not writeable
Defaulting to user installation because normal site-packages is not writeable
Collecting html5lib
  Downloading html5lib-1.1-py2.py3-none-any.whl.metadata (16 kB)
Downloading html5lib-1.1-py2.py3-none-any.whl (112 kB)
Installing collected packages: html5lib
Successfully installed html5lib-1.1


In [379]:
df = pd.read_html('https://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%9D%B8%EA%B5%AC')
df

[   Unnamed: 0_level_0    2016           2017          2018          2019  \
    Unnamed: 0_level_1      인구   인구밀도      인구   인구밀도     인구   인구밀도     인구   
 0                   계   51218    510   51362    512  51607    514  51709   
 1                  서울    9843  16263    9766  16136   9705  16034   9662   
 2                  부산  약3,500   4477  약3,100   4447   3400   4416   3300   
 3                  대구    2461   2786    2458   2782   2450   2773   2432   
 4                  인천    2907   2736    2924   2750   2939   2764   2944   
 5                  광주    1502   2997    1495   2984   1493   2980   1494   
 6                  대전    1536   2848    1528   2832   1518   2813   1509   
 7                  울산    1166   1099    1159   1092   1154   1088   1147   
 8                  세종     234    504     266    571    304    653    331   
 9                  경기   12600   1237   12786   1255  13031   1279  13238   
 10                 강원    1521     90    1521     90   1521     90   1517   

In [381]:
df[4]

Unnamed: 0,연도 (년),추계인구(명),출생자수(명),사망자수(명),자연증가수(명),조출생률 (1000명당),조사망률 (1000명당),자연증가율 (1000명당),합계출산율
0,1925,12997611,558897,359042,199855,43.0,27.6,15.4,6.59
1,1926,13052741,511667,337948,173719,39.2,25.9,13.3,
2,1927,13037169,534524,353818,180706,41.0,27.1,13.9,
3,1928,13105131,566142,357701,208441,43.2,27.3,15.9,
4,1929,13124279,566969,414366,152603,43.2,31.6,11.6,
5,1930,13880469,587144,322611,264533,42.3,23.2,19.1,6.41
6,1931,13895052,589428,346800,242628,42.4,25.0,17.4,
7,1932,14117191,600545,384287,216258,42.5,27.2,15.3,
8,1933,14229277,607021,336232,270789,42.7,23.6,19.1,
9,1934,14449155,618135,356515,261620,42.8,24.7,18.1,


In [382]:
df[0]

Unnamed: 0_level_0,Unnamed: 0_level_0,2016,2016,2017,2017,2018,2018,2019,2019,2020,2020
Unnamed: 0_level_1,Unnamed: 0_level_1.1,인구,인구밀도,인구,인구밀도,인구,인구밀도,인구,인구밀도,인구,인구밀도
0,계,51218,510,51362,512,51607,514,51709,515,51781,516
1,서울,9843,16263,9766,16136,9705,16034,9662,15964,9602,15865
2,부산,"약3,500",4477,"약3,100",4447,3400,4416,3300,4380,3344,4342
3,대구,2461,2786,2458,2782,2450,2773,2432,2753,2419,2738
4,인천,2907,2736,2924,2750,2939,2764,2944,2769,2951,2770
5,광주,1502,2997,1495,2984,1493,2980,1494,2980,1488,2969
6,대전,1536,2848,1528,2832,1518,2813,1509,2796,1500,2780
7,울산,1166,1099,1159,1092,1154,1088,1147,1080,1140,1073
8,세종,234,504,266,571,304,653,331,712,349,750
9,경기,12600,1237,12786,1255,13031,1279,13238,1299,13405,1315


In [384]:
df[1]

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,2011,2012,2013,2014,2015,2016,2017,2018,2019
0,기대수명,계,80.62,80.87,81.36,81.8,82.06,82.4,82.70,82.7,83.30
1,기대수명,남자,77.26,77.57,78.12,78.58,78.96,79.3,79.70,79.7,80.30
2,기대수명,여자,83.97,84.17,84.60,85.02,85.17,85.4,85.70,85.7,86.30
3,유병기간제외 기대수명(건강수명),유병기간제외 기대수명(건강수명),(자료 없음),65.7,-,65.2,-,64.9,-,64.4,-


In [389]:
print(df[4]['출생자수(명)'])
print(df[4]['출생자수(명)'].sum())

0     558897
1     511667
2     534524
3     566142
4     566969
5     587144
6     589428
7     600545
8     607021
9     618135
10    646158
11    639355
12    636839
13    569299
14    585482
15    527964
16    553690
17    533768
18    513846
19    533215
Name: 출생자수(명), dtype: int64
11480088


In [391]:
df[4].to_csv('대한민국출생인구통계.csv')

## 4 DataFrame에 데이터 활용

### 4.1 데이터 사전 분석

- info() : DataFrame을 구성하는 행과 열에 대한 정보를 나타내 주는 함수
- head(n) : DataFrame의 처음부터 n줄의 행을 출력
- tail(n) : DataFrame의 마지막 n줄의 행을 출력
- describe() : Series, DataFrame의 각 열에 대한 요약 통계
- dtypes : 데이터 자료형 확인

### 4.2 DataFrame에 데이터 조작

- np.nan : NaN으로 값을 채움
- drop : 컬럼 삭제
    - inplace = True : drop후 원본에 반영
- pd.to_numeric() : 문자형을 숫자형으로 변환

In [392]:
rawData = {
    '연차':[1, 2, 3, 4, 5, 6],
    '연도':[2015, 2016, 2017, 2018, 2019, 2020],
    '매출':[1000000, 2000000, 3000000, 4000000, 8000000, 16000000],
    '순익':[100001, 200001, 300001, 400001, 800001, 1600001],
    '직원수':[1, 2, 4, 8, 16, 32]
}

df = pd.DataFrame(rawData)

In [394]:
df

Unnamed: 0,연차,연도,매출,순익,직원수
0,1,2015,1000000,100001,1
1,2,2016,2000000,200001,2
2,3,2017,3000000,300001,4
3,4,2018,4000000,400001,8
4,5,2019,8000000,800001,16
5,6,2020,16000000,1600001,32


In [396]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   연차      6 non-null      int64
 1   연도      6 non-null      int64
 2   매출      6 non-null      int64
 3   순익      6 non-null      int64
 4   직원수     6 non-null      int64
dtypes: int64(5)
memory usage: 368.0 bytes


In [398]:
df.head(4)  # data 잘 들어왔는지 확인할 때, 많이 사용

Unnamed: 0,연차,연도,매출,순익,직원수
0,1,2015,1000000,100001,1
1,2,2016,2000000,200001,2
2,3,2017,3000000,300001,4
3,4,2018,4000000,400001,8


In [399]:
df.tail(3)

Unnamed: 0,연차,연도,매출,순익,직원수
3,4,2018,4000000,400001,8
4,5,2019,8000000,800001,16
5,6,2020,16000000,1600001,32


In [401]:
df.describe() # 열에 대한 요약 통계

Unnamed: 0,연차,연도,매출,순익,직원수
count,6.0,6.0,6.0,6.0,6.0
mean,3.5,2017.5,5666667.0,566667.7,10.5
std,1.870829,1.870829,5609516.0,560951.6,11.861703
min,1.0,2015.0,1000000.0,100001.0,1.0
25%,2.25,2016.25,2250000.0,225001.0,2.5
50%,3.5,2017.5,3500000.0,350001.0,6.0
75%,4.75,2018.75,7000000.0,700001.0,14.0
max,6.0,2020.0,16000000.0,1600001.0,32.0


In [403]:
df.dtypes

연차     int64
연도     int64
매출     int64
순익     int64
직원수    int64
dtype: object

In [405]:
df

Unnamed: 0,연차,연도,매출,순익,직원수
0,1,2015,1000000,100001,1
1,2,2016,2000000,200001,2
2,3,2017,3000000,300001,4
3,4,2018,4000000,400001,8
4,5,2019,8000000,800001,16
5,6,2020,16000000,1600001,32


In [408]:
df['매출']
df.매출

0     1000000
1     2000000
2     3000000
3     4000000
4     8000000
5    16000000
Name: 매출, dtype: int64

In [424]:
df['순이익률'] = 1000
df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률
0,1,2015,1000000,100001,1,1000
1,2,2016,2000000,200001,2,1000
2,3,2017,3000000,300001,4,1000
3,4,2018,4000000,400001,8,1000
4,5,2019,8000000,800001,16,1000
5,6,2020,16000000,1600001,32,1000


In [420]:
df['순이익률'] = (df['순익'] / df['매출']) * 100
df

Unnamed: 0,연차,연도,매출,순익,직원수,순이익률
0,1,2015,1000000,100001,1,10.0001
1,2,2016,2000000,200001,2,10.00005
2,3,2017,3000000,300001,4,10.000033
3,4,2018,4000000,400001,8,10.000025
4,5,2019,8000000,800001,16,10.000013
5,6,2020,16000000,1600001,32,10.000006


In [421]:
# drop은 사라진 것을 보여주는 것일 뿐, 원본에 영향을 주지는 않음.
print(df.drop("순이익률", axis="columns"))
print(df)

   연차    연도        매출       순익  직원수
0   1  2015   1000000   100001    1
1   2  2016   2000000   200001    2
2   3  2017   3000000   300001    4
3   4  2018   4000000   400001    8
4   5  2019   8000000   800001   16
5   6  2020  16000000  1600001   32
   연차    연도        매출       순익  직원수       순이익률
0   1  2015   1000000   100001    1  10.000100
1   2  2016   2000000   200001    2  10.000050
2   3  2017   3000000   300001    4  10.000033
3   4  2018   4000000   400001    8  10.000025
4   5  2019   8000000   800001   16  10.000013
5   6  2020  16000000  1600001   32  10.000006


In [425]:
# inplace=True를 해주면, 원본을 바꾸는 것임!
print(df.drop("순이익률", axis="columns", inplace=True))
df

None


Unnamed: 0,연차,연도,매출,순익,직원수
0,1,2015,1000000,100001,1
1,2,2016,2000000,200001,2
2,3,2017,3000000,300001,4
3,4,2018,4000000,400001,8
4,5,2019,8000000,800001,16
5,6,2020,16000000,1600001,32


In [429]:
df['test'] = np.nan
df['test1'] = None
df

Unnamed: 0,연차,연도,매출,순익,직원수,test,test1
0,1,2015,1000000,100001,1,,
1,2,2016,2000000,200001,2,,
2,3,2017,3000000,300001,4,,
3,4,2018,4000000,400001,8,,
4,5,2019,8000000,800001,16,,
5,6,2020,16000000,1600001,32,,


In [444]:
df[ ['test', 'test1'] ] = 100
df

Unnamed: 0,연차,연도,매출,순익,직원수,test,test1
0,1,2015,1000000,100001,1,100,100
1,2,2016,2000000,200001,2,100,100
2,3,2017,3000000,300001,4,100,100
3,4,2018,4000000,400001,8,100,100
4,5,2019,8000000,800001,16,100,100
5,6,2020,16000000,1600001,32,100,100


In [445]:
del df['test']   # 원본 영향 有
df

Unnamed: 0,연차,연도,매출,순익,직원수,test1
0,1,2015,1000000,100001,1,100
1,2,2016,2000000,200001,2,100
2,3,2017,3000000,300001,4,100
3,4,2018,4000000,400001,8,100
4,5,2019,8000000,800001,16,100
5,6,2020,16000000,1600001,32,100


In [446]:
# del df['test1']  
# 차라리 axis에 영향을 주는 걸 명시적으로 적는 것도.. col=1, row=0
print(df.drop("test1", axis="columns", inplace=True))
df

None


Unnamed: 0,연차,연도,매출,순익,직원수
0,1,2015,1000000,100001,1
1,2,2016,2000000,200001,2
2,3,2017,3000000,300001,4
3,4,2018,4000000,400001,8
4,5,2019,8000000,800001,16
5,6,2020,16000000,1600001,32


In [450]:
# append가 사라진 관계로 해당 부분은 기술하지 않습니다.
# df2 = pd.DataFrame(
#     np.array([ [7,
#                 2021,
#                 16000000,
#                 1600001,
#                 60] ]),
#     columns=['연차',
#              '연도',
#              '매출',
#              '순익',
#              '직원수']).append(df, ignore_index=True)

In [453]:
data = pd.Series([1, '2', '3', 'sbell', True, 10, 1])
data

# 이건 불가. -> 따라서 Series는 모두 같은 type이어야함
# data.astype('int16')  

0        1
1        2
2        3
3    sbell
4     True
5       10
6        1
dtype: object

In [457]:
# 위의 error 무시하는 코드 (사용 권장 X)
pd.to_numeric(pd.Series([1, '2', '3', 'sbell', True, 10, 1]), errors='ignore')

  pd.to_numeric(pd.Series([1, '2', '3', 'sbell', True, 10, 1]), errors='ignore')


0        1
1        2
2        3
3    sbell
4     True
5       10
6        1
dtype: object

In [463]:
# 다음 방식으로 처리 가능!
a = pd.to_numeric(pd.Series([1, '2', '3', 'sbell', True, 10, 1]), errors='coerce')
a = a.dropna()  # 이 함수도 기억해!
a

0     1.0
1     2.0
2     3.0
4     1.0
5    10.0
6     1.0
dtype: float64

### 4.3 MultiIndex

- Index를 설정할 때 리스트의 리스트 형태로 넣어주면 다중 인덱스가 설정이 된다.

In [465]:
import numpy as np

print(np.random.rand(4, 2)) # 0부터 1사이, 균일 분포, Matrix 생성
print(np.random.randint(10)) # 0부터 9사이, 숫자 1개 생성
print(np.random.randint(10, 20, size=10))
print(np.random.randint(10, 20, size=(3, 5)))
print(np.random.randn(4, 2)) # 가우시안 표준 정규분포, Matrix 생성
print(np.unique([1, 1, 1, 2, 2, 3])) # 중복된 값 제거
print(np.random.choice(10, 5, replace=False))  # 5개만 선택, replace는 중복허락함

[[0.04571913 0.00506438]
 [0.61859017 0.37410626]
 [0.18804726 0.7789116 ]
 [0.89385356 0.69688937]]
4
[16 14 11 12 12 19 17 18 18 11]
[[11 14 17 16 11]
 [17 13 13 13 11]
 [15 14 13 17 11]]
[[-0.08893989 -0.10849003]
 [ 0.23358879  0.61011967]
 [ 0.05531043 -0.29399018]
 [ 0.19578233  0.1950682 ]]
[1 2 3]
[8 2 1 7 3]


In [466]:
import pandas as pd

df = pd.DataFrame(np.random.randint(50, 100, size=(4, 3)),
            index=[['1학년', '1학년', '2학년', '2학년'], ['1반', '2반', '1반', '2반']],
            columns=['국', '영', '수'])

df

Unnamed: 0,Unnamed: 1,국,영,수
1학년,1반,80,95,68
1학년,2반,91,86,64
2학년,1반,64,87,99
2학년,2반,80,75,70


In [468]:
df = pd.DataFrame(np.random.randint(50, 100, size=(4, 3)))

df

Unnamed: 0,0,1,2
0,90,96,98
1,84,53,96
2,98,53,85
3,51,51,79


In [470]:
list(df.index)

[0, 1, 2, 3]

In [471]:
df.index = ['1반', '2반', '3반', '4반']
df

Unnamed: 0,0,1,2
1반,90,96,98
2반,84,53,96
3반,98,53,85
4반,51,51,79


In [472]:
df.columns

RangeIndex(start=0, stop=3, step=1)

In [473]:
df.columns = ['국', '영', '수']
df 

Unnamed: 0,국,영,수
1반,90,96,98
2반,84,53,96
3반,98,53,85
4반,51,51,79


In [474]:
df.index = [['1학년', '1학년', '2학년', '2학년'], ['1반', '2반', '1반', '2반']]
df

Unnamed: 0,Unnamed: 1,국,영,수
1학년,1반,90,96,98
1학년,2반,84,53,96
2학년,1반,98,53,85
2학년,2반,51,51,79


In [475]:
df.columns = [['언어', '언어', '수리'],['국', '영', '수']]

df

Unnamed: 0_level_0,Unnamed: 1_level_0,언어,언어,수리
Unnamed: 0_level_1,Unnamed: 1_level_1,국,영,수
1학년,1반,90,96,98
1학년,2반,84,53,96
2학년,1반,98,53,85
2학년,2반,51,51,79


In [476]:
df['언어']

Unnamed: 0,Unnamed: 1,국,영
1학년,1반,90,96
1학년,2반,84,53
2학년,1반,98,53
2학년,2반,51,51


In [478]:
df['언어']['국']

1학년  1반    90
     2반    84
2학년  1반    98
     2반    51
Name: 국, dtype: int64

In [479]:
df.T

Unnamed: 0_level_0,Unnamed: 1_level_0,1학년,1학년,2학년,2학년
Unnamed: 0_level_1,Unnamed: 1_level_1,1반,2반,1반,2반
언어,국,90,84,98,51
언어,영,96,53,53,51
수리,수,98,96,85,79
