# pandas

## 1 pandas란?

- Python에서 사용하는 데이터를 분석하는 라이브러리
- 행과 열을 쉽게 처리할 수 있는 함수를 제공하는 도구
    
    ※ 각 열은 단일 데이터 형식만 저장
    
- numpy보다 유연하게 수치연산 가능
- numpy는 데이터 누락을 허락하지 않지만, pandas는 데이터 누락을 허락

In [3]:
import pandas as pd
import numpy as np

pd.__version__, np.__version__

('2.2.2', '2.0.1')

## 2 Series

- 인덱스와 values로 이루어진 1차원 배열
- 모든 유형의 데이터를 보유할 수 있음
- 인덱스를 지정해 줄 수 있음
- 명시적 인덱스와 암묵적 인덱스를 가짐

### 2.1 Series 형태

- RangeIndex :  인덱스 자동 생성 

* DataFrame에서 각각의 컬럼은 Series입니다.
![](https://pandas.pydata.org/docs/_images/01_table_dataframe.svg)

![](https://pandas.pydata.org/docs/_images/01_table_series.svg)

In [6]:
data = [10, 20, 30, 40, 50, 60]
data = pd.Series(data)
data # 제일 첫번째 열은 index (자동 생성!)

0    10
1    20
2    30
3    40
4    50
5    60
dtype: int64

In [11]:
print(data[0])
print(data[1])
print(data[2])
print(data[3:6])
# print(data[-1])  # 이건 err
print(data[::-1])

10
20
30
3    40
4    50
5    60
dtype: int64
5    60
4    50
3    40
2    30
1    20
0    10
dtype: int64


In [14]:
print(type(data))
print(type(data.values)) # numpy는 pandas로 이어진다!

<class 'pandas.core.series.Series'>
<class 'numpy.ndarray'>


In [16]:
data.index  # RangeIndex는 자동으로 index가 지정되었다 라는 걸 의미함.

RangeIndex(start=0, stop=6, step=1)

In [24]:
# 우리가 index를 지정해주고 싶다면, 같이 넣어주면 된다.
# 우리가 설정해주더라도, 숫자 인덱스는 자동으로 있음!
data = [10, 20, 30, 40, 50, 60]
idx = ['a', 'b', 'c', 'd', 'e', 'f']

sample = pd.Series(data,idx)
print(sample)

a    10
b    20
c    30
d    40
e    50
f    60
dtype: int64


In [31]:
print(sample['a'])

# print(sample[0]) # warning! (이후 잘못 불러올 수 있다.)

# 위치 기반 찾아오고 싶으면, iloc붙여줘야함.
print(sample.iloc[0])

10
10


In [32]:
# 잘 안 쓰지만, 이런 방법도 있다. (index관련)
print(sample.a)  # 비추!

10


### 2.2 Series의 산술 연산

In [34]:
pd.Series([10,20,30,40,50,60])

0    10
1    20
2    30
3    40
4    50
5    60
dtype: int64

In [35]:
data = pd.Series([10,20,30,40,50,60])

In [37]:
data + 100
data - 100
data * 10
data / 10
data // 10
data % 10
data + data

0     20
1     40
2     60
3     80
4    100
5    120
dtype: int64

In [39]:
data1 = pd.Series([10, 20, 30])
data2 = pd.Series(['a','b','c'])

# data1 + data2 # error

In [40]:
data1 = pd.Series([10, 20, 30])
data2 = pd.Series(['10','20','30'])

data1 + data2.astype('int64') # error

0    20
1    40
2    60
dtype: int64

### 2.3 Series indexing , slicing, boolean indexing

In [4]:
data = [10, 20, 30, 40, 50, 60]
idx = ['a', 'b', 'c', 'd', 'e', 'f']

sample = pd.Series(data,idx)
print(sample)

a    10
b    20
c    30
d    40
e    50
f    60
dtype: int64


In [12]:
print(sample['a'])
print(sample.iloc[0])
print(sample['a':'d':2])


10
10
a    10
c    30
dtype: int64


In [13]:
data = [10, 20, 30, 40, 50, 60]
idx = ['a', 'b', 'c', 'd', 'e', 'f']

sample = pd.Series(data,idx)
print(sample)

a    10
b    20
c    30
d    40
e    50
f    60
dtype: int64


In [22]:
sample[[True,True,False,False,False,False]]

a    10
b    20
dtype: int64

In [24]:
print([i for i in sample])

[10, 20, 30, 40, 50, 60]


In [26]:
# iterate 불가 -> error
# for index, values in sample:
#     print(index, value)

In [36]:
for i, j in zip(sample.index, sample.values):
    print(i,j)

a 10
b 20
c 30
d 40
e 50
f 60


In [39]:
d = {
    '학원' : 10,
    '연구원' : 20,
    '출판사' : 30,
    '미디어사' : 40,
    '위니브' : 50
}


In [44]:
data = pd.Series(d)

print(data['학원' : '출판사'])  # 출판사까지 출력함!
print(data[0:3])

학원     10
연구원    20
출판사    30
dtype: int64
학원     10
연구원    20
출판사    30
dtype: int64


In [46]:
data

학원      10
연구원     20
출판사     30
미디어사    40
위니브     50
dtype: int64

In [48]:
data[2:]

출판사     30
미디어사    40
위니브     50
dtype: int64

In [51]:
data[:-2]

학원     10
연구원    20
출판사    30
dtype: int64

In [54]:
data[0:3]

학원     10
연구원    20
출판사    30
dtype: int64

In [56]:
data[-4::2]

연구원     20
미디어사    40
dtype: int64

In [61]:
d = {
    '2015년':100,
    '2016년':200,
    '2017년':300,
    '2018년':400,
    '2019년':1100,
    '2020년':3000,
    '2021년':6000,
    '2022년':9000,
}

pd.Series(d, index=['2016년', '2020년'])

2016년     200
2020년    3000
dtype: int64

### 2.4 Series에 key, value, index

- index
    - Series, DataFrame의 레코드를 식별
    - 집합 연산이 가능
- loc :  인덱스를 기반으로 행 데이터를 읽음 (행 번호를 loc하면 warning)
- iloc :  행 번호를 기반으로 행 데이터를 읽음
- items() : key와 value를 튜플로 묶어서 리턴
- 팬시 인덱싱(fancy indexing) : 스칼라 대신 인덱스 배열을 사용한 인덱싱

In [65]:
data = [10, 20, 30, 40, 50, 60]
index = ['a', 'b', 'c', 'd', 'e', 'f']
s = pd.Series(data, index)
s

a    10
b    20
c    30
d    40
e    50
f    60
dtype: int64

In [76]:
print('a' in s) 
print(40 in s)  # index만 감지함.

True
False


In [69]:
# keys - items 관계! (java/c계열은 key-value 관계)
s.keys()

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

In [71]:
# s.values()  # err

In [77]:
list(s.items())

[('a', 10), ('b', 20), ('c', 30), ('d', 40), ('e', 50), ('f', 60)]

In [82]:
# s.loc('a') # err
print(s.loc['a'])  # index 입력하지 않아, 숫자가 자동으로 들어간 경우, 숫자 사용ㅅ
print(s.loc['a':'d'])

10
a    10
b    20
c    30
d    40
dtype: int64


In [87]:
s.iloc[0]  # loc, iloc는 index/key로 item을 보는 거니까, []사용
s.iloc[0:3]

a    10
b    20
c    30
dtype: int64

In [111]:
data = [10, 20, 30, 40, 50, 60]
index = [1,3,5,7,9,11]
s = pd.Series(data, index)
s

1     10
3     20
5     30
7     40
9     50
11    60
dtype: int64

In [112]:
# 난 index 3:5를 뽑고 싶은데,,,
# 뭔가 의미가 중의적이야,,
s[3:5]  

7    40
9    50
dtype: int64

In [114]:
# 명시적으로 알 수 있도록, loc, iloc 사용해.
print(s, "\n")

# location으로 빼오기
print(s[3:5])
print(s.iloc[3:5])  # iloc : base index locate (자동 index)

# index로 빼오기
print(s.loc[3:5])  # loc: 설정해준 index로 불러기 (명시적인 index)

# print(s.iloc[3:5])   # 위치 기반
# s.loc[3:5]    # index기반

1     10
3     20
5     30
7     40
9     50
11    60
dtype: int64 

7    40
9    50
dtype: int64
7    40
9    50
dtype: int64
3    20
5    30
dtype: int64


In [124]:
# 팬시 인덱싱
data = [10, 20, 30, 40, 50]
index = ['a', 'b', 'c', 'd', 'e']

# s = pd.Series(index, data)
s = pd.Series(data, index)  # data를 index로 엮을 거다. 라는 순서!
s

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [122]:
s[['a', 'd']]

a    10
d    40
dtype: int64

### 2.5 결측값(NaN, None) 처리

1. NaN
    - 자료형이 Float
    - 배열에서 연산할 경우 오류가 발생하지 않지만  결과값이 NaN이 됨
        - numpy : nan
        - pandas : 연산가능
2. None 
    - 자료형이 None
    - 배열 연산을 할 경우 오류가 발생
        - numpy : error
        - pandas : 연산가능

3.  처리방법 

    - isnull() : 결측값 확인 (결측 이면  True , 결측이 아니면  False )
    - notnull() : 결측값 확인 (결측 이면  False , 결측이 아니면  True )
    - dropna() : 결측값을 삭제
        - axis=0 : 행 삭제 / axis=1 : 열 삭제
        - inplace = True : drop후 원본에 반영
    - fillna(Num) : 결측을 Num 으로 채워 넣음

### 2.6 multiIndex

* 다중 인덱스입니다.

### 2.7 연산 함수와 집계 함수

- 연산 함수
    - add : 더하기 연산 함수
    - sub : 빼기 연산 함수
    - mul : 곱하기 연산 함수
    - floordiv : 나누었을 때 몫을 구하는 함수
    - div : 나누기 연산 함수
    - mod : 나머지 구하는 연산 함수
    - pow : 거듭제곱 연산 함수

- 집계 함수
    - count : 데이터 개수 구하는 함수
    - min : 최소값 구하는 함수
    - max  : 최대값 구하는 함수
    - mean : 평균 구하는 함수
    - median : 중앙값 구하는 함수
    - std : 표준편차 구하는 함수
    - var : 분산 구하는 함수
    - mad : 절대 표준편차 구하는 함수
    - describe : 기초 통계를 한 번에 볼 수 있는 함수

### 2.8 데이터 결합

- concat : 데이터 프레임이나 시리즈의 결합
    - axis=0 or 1 : 아래로 데이터 연결 / 옆으로 데이터 연결
    - verify_integrity=True일 때, 인덱스의 중복이 존재하면 error 출력
    - ignore_index : 기존의 인덱스를 무시하고 차례대로 인덱스 출력
    - join='inner' : 결합하는 데이터들의 공통 부분만 출력
    - join='outer' : 결합하는 데이터들의 모든 값 출력
- append : 마지막 행에 데이터를 추가

※ concatenate : 배열 결합

## 3 DataFrame

- 다차원 배열(Series의 특성을 가지고 있는 2차원 배열)
- 가장 기본적인 데이터 구조

### 3.1 DataFrame의 형태

```
연차  연도      매출    순익   직원수
1     2015   1000000  100001        1
2     2016   2000000  200001        2
3     2017   3000000  300001        4
4     2018   4000000  400001        8
5     2019   8000000  800001       16
6     2020  16000000 1600001       32
```

In [None]:
rawData = {
    '연차':[1, 2, 3, 4, 5, 6],
    '연도':[2015, 2016, 2017, 2018, 2019, 2020],
    '매출':[1000000, 2000000, 3000000, 4000000, 8000000, 16000000],
    '순익':[100001, 200001, 300001, 400001, 800001, 1600001],
    '직원수':[1, 2, 4, 8, 16, 32]
}

In [None]:
pd.DataFrame(rawData)

Unnamed: 0,연차,연도,매출,순익,직원수
0,1,2015,1000000,100001,1
1,2,2016,2000000,200001,2
2,3,2017,3000000,300001,4
3,4,2018,4000000,400001,8
4,5,2019,8000000,800001,16
5,6,2020,16000000,1600001,32


In [None]:
%%writefile rawData.csv
1, 2, 3, 4, 5, 6, 7
연차,1, 2, 3, 4, 5, 6
연도,2015, 2016, 2017, 2018, 2019, 2020
매출,1000000, 2000000, 3000000, 4000000, 8000000, 16000000
순익,100001, 200001, 300001, 400001, 800001, 1600001
직원수,1, 2, 4, 8, 16, 32

Writing rawData.csv


![](https://pandas.pydata.org/docs/_images/02_io_readwrite.svg)

In [None]:
pd.read_csv('rawData.csv')

Unnamed: 0,1,2,3,4,5,6,7
0,연차,1,2,3,4,5,6
1,연도,2015,2016,2017,2018,2019,2020
2,매출,1000000,2000000,3000000,4000000,8000000,16000000
3,순익,100001,200001,300001,400001,800001,1600001
4,직원수,1,2,4,8,16,32


In [None]:
df = pd.read_html('https://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%9D%B8%EA%B5%AC')

## 4 DataFrame에 데이터 활용

### 4.1 데이터 사전 분석

- info() : DataFrame을 구성하는 행과 열에 대한 정보를 나타내 주는 함수
- head(n) : DataFrame의 처음부터 n줄의 행을 출력
- tail(n) : DataFrame의 마지막 n줄의 행을 출력
- describe() : Series, DataFrame의 각 열에 대한 요약 통계
- dtypes : 데이터 자료형 확인

### 4.2 DataFrame에 데이터 조작

- np.nan : NaN으로 값을 채움
- drop : 컬럼 삭제
    - inplace = True : drop후 원본에 반영
- pd.to_numeric() : 문자형을 숫자형으로 변환

In [None]:
rawData = {
    '연차':[1, 2, 3, 4, 5, 6],
    '연도':[2015, 2016, 2017, 2018, 2019, 2020],
    '매출':[1000000, 2000000, 3000000, 4000000, 8000000, 16000000],
    '순익':[100001, 200001, 300001, 400001, 800001, 1600001],
    '직원수':[1, 2, 4, 8, 16, 32]
}

df = pd.DataFrame(rawData)

In [None]:
df

Unnamed: 0,연차,연도,매출,순익,직원수
0,1,2015,1000000,100001,1
1,2,2016,2000000,200001,2
2,3,2017,3000000,300001,4
3,4,2018,4000000,400001,8
4,5,2019,8000000,800001,16
5,6,2020,16000000,1600001,32


### 4.3 MultiIndex

- Index를 설정할 때 리스트의 리스트 형태로 넣어주면 다중 인덱스가 설정이 된다.