# 1. Pandas

- 데이터 프레임(엑셀과 비슷)과 시리즈라는 자료형
- 데이터 분석을 위한 다양한 기능을 제공하는 라이브러리
- R의 데이터 프레임에 영향
- 내부적으로 numpy를 사용하므로 함께 import

[pandas homepage] : http://pandas.pydata.org<br>
[pandas 기능 요약] : https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

### 1.1 Pandas 자료형

|판다스|파이썬|
|:----:|:----:|
|object|string|
|int 64|int|
|float 64 |float|
|datetime 64| |

### 1.2 Series

- numpy의 1차원 array이 비슷

In [1]:
import pandas as pd
import numpy as np

###### 1.2.1 Series 생성

In [2]:
x = [1, 2, 3, 4, 5]
x = pd.Series(x)
print(x)

0    1
1    2
2    3
3    4
4    5
dtype: int64


###### 1.2.2 넘파이 리스트도 사용가능

In [3]:
x = np.array([1, 2, 3, 4, 5])
x = pd.Series(x)
x

0    1
1    2
2    3
3    4
4    5
dtype: int32

In [4]:
x[0]

1

In [5]:
x[1:3]

1    2
2    3
dtype: int32

In [6]:
x[::-1]

4    5
3    4
2    3
1    2
0    1
dtype: int32

In [7]:
x[x>3]

3    4
4    5
dtype: int32

In [8]:
x

0    1
1    2
2    3
3    4
4    5
dtype: int32

In [9]:
x+1

0    2
1    3
2    4
3    5
4    6
dtype: int32

In [10]:
x*10

0    10
1    20
2    30
3    40
4    50
dtype: int32

In [11]:
x+x

0     2
1     4
2     6
3     8
4    10
dtype: int32

### 1.3 Series Index

- 기본적으로 index와 value로 값이 구분되어 있다.

In [12]:
s = [1, 2, 3, 4, 5]
s = pd.Series(s)

###### 1.3.1 인덱스, 값

In [13]:
print(s.index)
print(s.values)

RangeIndex(start=0, stop=5, step=1)
[1 2 3 4 5]


###### 1.3.2 인덱스명을  변경할 수 있다.

In [14]:
s = [1, 2, 3, 4, 5]
s = pd.Series(s, index=['a','b','c','d','e'])

###### 1.3.3 명시적 인덱스 접근, 묵시적 인덱스 접근

In [15]:
print(s['a'])
print(s[0])

1
1


###### 1.3.4 한번에 여러값 접근(팬시색인), 또 다른 접근방법 

In [16]:
print(s[['a','e']])
print(s.a)

a    1
e    5
dtype: int64
1


### 1.4 딕셔너리 to Series

- 딕셔너리를 사용하여 Series를 만들면 key 값을 index로 사용한다.

In [17]:
x={"수학":90, "영어": 80, "과학":95, "미술":80}
x1=pd.Series(x)
x1

수학    90
영어    80
과학    95
미술    80
dtype: int64

###### 1.4.1 슬라이싱 기능

In [18]:
x['수학']

90

In [19]:
x["영어":]

TypeError: unhashable type: 'slice'

###### 1.4.2 인덱스값을 지정하여 일부값만 Series로 생성

In [20]:
x2=pd.Series(x, index=["수학", "영어", "과학"])
x2

수학    90
영어    80
과학    95
dtype: int64

### 1.5 Multi Index

- 인덱스를 여러개 가질 수 있다.

In [21]:
student1 = {"수학":90, "영어":80, "과학": 95, "미술":80}
student2 = {"수학":70, "영어":90, "과학": 100, "미술":70}

# index_1 = ['홍길동', '홍길동','홍길동','홍길동','홍길동', '이몽룡', '이몽룡', '이몽룡', '이몽룡', '이몽룡']
index_1 = ['홍길동' for i in range(4)]+['이몽룡' for i in range(4)]
print("index_1 \n", index_1)

# index_2= = ['수학','영어', '과학', '미술', ...]
index_2 = [sub for sub in student1]+[sub for sub in student2]
print("index_2 \n", index_2)

values = list(student1.values()) + list(student2.values())
print(values)

students = pd.Series(values, index=[index_1, index_2])
print(students)

index_1 
 ['홍길동', '홍길동', '홍길동', '홍길동', '이몽룡', '이몽룡', '이몽룡', '이몽룡']
index_2 
 ['수학', '영어', '과학', '미술', '수학', '영어', '과학', '미술']
[90, 80, 95, 80, 70, 90, 100, 70]
홍길동  수학     90
     영어     80
     과학     95
     미술     80
이몽룡  수학     70
     영어     90
     과학    100
     미술     70
dtype: int64


### 1.6 결측값 처리방법 (NaN, None)

- 비어있는 값들에 대한 처리

In [22]:
x=[1, None, 2, None, 3, 4, None]
x = pd.Series(x)
x

0    1.0
1    NaN
2    2.0
3    NaN
4    3.0
5    4.0
6    NaN
dtype: float64

###### 1.6.1 결측값을 무시하고 계산

In [23]:
print(x.sum())
print(x.max())
print(x.min())

10.0
4.0
1.0


###### 1.6.2 결측값 개수

In [24]:
print(x.isnull().sum())
print(x.notnull().sum())

3
4


###### 1.6.3 결측값 제거

In [25]:
x.dropna()

0    1.0
2    2.0
4    3.0
5    4.0
dtype: float64

###### 1.6.4 결측값을 다른 값으로 채우기

In [26]:
x.fillna(0)

0    1.0
1    0.0
2    2.0
3    0.0
4    3.0
5    4.0
6    0.0
dtype: float64

### 1.7 concat

- 데이터 연결, numpy concatenate 기능

In [27]:
x=pd.Series([1, 2, 3])
y=pd.Series([4, 5, 6])
z=pd.Series([7, 8, 9])
print(x)
print(y)
print(z)

pd.concat([x, y, z])

0    1
1    2
2    3
dtype: int64
0    4
1    5
2    6
dtype: int64
0    7
1    8
2    9
dtype: int64


0    1
1    2
2    3
0    4
1    5
2    6
0    7
1    8
2    9
dtype: int64

###### 1.7.1 같은 인덱스 번호가 있을 경우 오류

In [28]:
pd.concat([x, y, z], verify_integrity=True)

ValueError: Indexes have overlapping values: Int64Index([0, 1, 2], dtype='int64')

###### 1.7.2 합치면서 인덱스 번호를 다시 정리

In [29]:
pd.concat([x, y, z], ignore_index=True)

0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
8    9
dtype: int64

###### 1.7.3 축 변경

In [30]:
pd.concat([x, y, z], ignore_index=True, axis=1)

Unnamed: 0,0,1,2
0,1,4,7
1,2,5,8
2,3,6,9


###### 1.7.4 개수가 맞지 않을 경우 교집합과 합집합

In [31]:
x = pd.Series([1, 2, 3, 4])
y = pd.Series([5, 6, 7])
z = pd.Series([8, 9, 10])

print(x)
print(y)
print(z)

0    1
1    2
2    3
3    4
dtype: int64
0    5
1    6
2    7
dtype: int64
0     8
1     9
2    10
dtype: int64


In [32]:
pd.concat([x, y, z], ignore_index=True, axis=1, join='inner')

Unnamed: 0,0,1,2
0,1,5,8
1,2,6,9
2,3,7,10


In [33]:
pd.concat([x, y, z], ignore_index=True, axis=1, join='outer')

Unnamed: 0,0,1,2
0,1,5.0,8.0
1,2,6.0,9.0
2,3,7.0,10.0
3,4,,


### 1.8 연산과 집계함수

In [34]:
x = pd.Series([1, 2, 3, 4, 5])
y = pd.Series([6, 7, 8, 9, 0])

###### 1.8.1 더하기, 빼기, 곱하기, 나누기, 제곱

In [35]:
print(x.add(10))
print(x.add(y))

0    11
1    12
2    13
3    14
4    15
dtype: int64
0     7
1     9
2    11
3    13
4     5
dtype: int64


In [36]:
print(x.sub(y))

0   -5
1   -5
2   -5
3   -5
4    5
dtype: int64


In [37]:
print(x.mul(y))

0     6
1    14
2    24
3    36
4     0
dtype: int64


In [38]:
print(x.floordiv(2))
print(x.div(2))
print(x.mod(2))

0    0
1    1
2    1
3    2
4    2
dtype: int64
0    0.5
1    1.0
2    1.5
3    2.0
4    2.5
dtype: float64
0    1
1    0
2    1
3    0
4    1
dtype: int64


In [39]:
print(x.pow(2))

0     1
1     4
2     9
3    16
4    25
dtype: int64


###### 1.8.2 기초 통계

In [40]:
print(x.count())
print(x.min())
print(x.max())
print(x.mean())
print(x.median()) # 중앙값
print(x.sum())
print(x.std()) # 표준편차
print(x.var()) # 분산
print(x.mad()) # 절대표준편차
print(x.describe()) # 기초 통계 모두
print(x.head(2)) # 앞의 일부 데이터 확인
print(x.tail(2)) # 뒤의 일부 데이터 확인

5
1
5
3.0
3.0
15
1.5811388300841898
2.5
1.2
count    5.000000
mean     3.000000
std      1.581139
min      1.000000
25%      2.000000
50%      3.000000
75%      4.000000
max      5.000000
dtype: float64
0    1
1    2
dtype: int64
3    4
4    5
dtype: int64


### 실습 1

- 아래 코드를 실행하고 Series Y 에서<br>
1. 결측값의 개수를 구하고 <br>
2. 결측값을 제거한 Series를 만들고 <br>
3. 결측값에 y의 평균값을 넣은 Series를 만들어주세요. <br>

x = [np.nan, 1, 2, 3, 4, 5] <br>
y = pd.Series([x[np.random.randint(0, 6)] for i in range(20)])

In [41]:
x = [np.nan, 1, 2, 3, 4, 5]
y = pd.Series([x[np.random.randint(0,6)]for i in range(20)])
print(y)

0     4.0
1     1.0
2     2.0
3     2.0
4     1.0
5     5.0
6     1.0
7     5.0
8     2.0
9     1.0
10    2.0
11    1.0
12    3.0
13    5.0
14    5.0
15    2.0
16    NaN
17    NaN
18    NaN
19    NaN
dtype: float64


In [42]:
print("결측값", y.isnull().sum())

결측값 4


In [43]:
z=y.dropna()
print(z)

0     4.0
1     1.0
2     2.0
3     2.0
4     1.0
5     5.0
6     1.0
7     5.0
8     2.0
9     1.0
10    2.0
11    1.0
12    3.0
13    5.0
14    5.0
15    2.0
dtype: float64


In [44]:
a = z.sum()
b = a/len(z)
print(b)
print(z.mean())


2.625
2.625


### 1.9 Data Frame
- 2차원 테이블 데이터 구조, 엑셀(스프레드시트) 와 비슷

In [45]:
sales_data = {
 '연도':[2015, 2016, 2017, 2018, 2019, 2020],
 '판매량':[103, 70, 130, 160, 190, 230],
 '매출':[500000, 300000, 400000, 550000, 700000, 680000],
 '순이익':[370000, 190000, 300000, 480000, 600000, 590000]
}

In [46]:
df = pd.DataFrame(sales_data)
df

Unnamed: 0,연도,판매량,매출,순이익
0,2015,103,500000,370000
1,2016,70,300000,190000
2,2017,130,400000,300000
3,2018,160,550000,480000
4,2019,190,700000,600000
5,2020,230,680000,590000


In [47]:
df.head()

Unnamed: 0,연도,판매량,매출,순이익
0,2015,103,500000,370000
1,2016,70,300000,190000
2,2017,130,400000,300000
3,2018,160,550000,480000
4,2019,190,700000,600000


In [48]:
df.describe()

Unnamed: 0,연도,판매량,매출,순이익
count,6.0,6.0,6.0,6.0
mean,2017.5,147.166667,521666.666667,421666.666667
std,1.870829,58.413754,156258.333111,164123.936909
min,2015.0,70.0,300000.0,190000.0
25%,2016.25,109.75,425000.0,317500.0
50%,2017.5,145.0,525000.0,425000.0
75%,2018.75,182.5,647500.0,562500.0
max,2020.0,230.0,700000.0,600000.0


In [49]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   연도      6 non-null      int64
 1   판매량     6 non-null      int64
 2   매출      6 non-null      int64
 3   순이익     6 non-null      int64
dtypes: int64(4)
memory usage: 320.0 bytes


### 1.10 DataFrame 생성
- Series로 부터 생성

In [50]:
a = pd.Series([103, 500000, 370000], ['판매량', '매출', '순이익'])
b = pd.Series([70, 300000, 190000], ['판매량', '매출', '순이익'])
c = pd.Series([130, 400000, 190000], ['판매량', '매출', '순이익'])

df2 = pd.DataFrame([a, b, c], index=[2015, 2016, 2017])

In [51]:
df2

Unnamed: 0,판매량,매출,순이익
2015,103,500000,370000
2016,70,300000,190000
2017,130,400000,190000


###### 1.10.1 열 선택

In [52]:
df2["판매량"] # 하나의 열 (series)

2015    103
2016     70
2017    130
Name: 판매량, dtype: int64

In [53]:
df2[['판매량', '매출']] # 복수의 열 (dataframe)

Unnamed: 0,판매량,매출
2015,103,500000
2016,70,300000
2017,130,400000


###### 1.10.2 행 선택

In [54]:
df2[2:3]

Unnamed: 0,판매량,매출,순이익
2017,130,400000,190000


In [55]:
df2.iloc[1] # 하나의 행

판매량        70
매출     300000
순이익    190000
Name: 2016, dtype: int64

In [56]:
df2.iloc[1:3] # 여러개 행

Unnamed: 0,판매량,매출,순이익
2016,70,300000,190000
2017,130,400000,190000


In [57]:
df2.loc[2015] # 하나의 행

판매량       103
매출     500000
순이익    370000
Name: 2015, dtype: int64

In [58]:
df2.loc[[2015, 2017]]

Unnamed: 0,판매량,매출,순이익
2015,103,500000,370000
2017,130,400000,190000


###### 1.10.3 행과 열 동시 선택

In [59]:
df2.loc[[2015, 2017],['판매량', '매출']]

Unnamed: 0,판매량,매출
2015,103,500000
2017,130,400000


###### 1.10.4 columns - 원하는 칼럼, index - 인덱스 칼럼

In [60]:
pd.DataFrame(sales_data, columns=['판매량','매출','순이익'], index=df["연도"])

Unnamed: 0_level_0,판매량,매출,순이익
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2015,103,500000,370000
2016,70,300000,190000
2017,130,400000,300000
2018,160,550000,480000
2019,190,700000,600000
2020,230,680000,590000


### 1.11 CSV 파일읽기, 쓰기

- 콤마로 데이터가 분리되어 있는 텍스트 파일<br>
(CSV : Comma Separated Values)

In [61]:
%%writefile sales_data.csv
연도,판매량,매출,순익
2015,103,500000,370000
2016,70,300000,190000
2017,130,400000,300000
2018,60,550000,480000
2019,190,700000,600000
2020,230,680000,590000

Overwriting sales_data.csv


###### 1.11.1 파일 읽기

In [62]:
sales_data = pd.read_csv('sales_data.csv', index_col="연도", header=0, sep=',')
sales_data

Unnamed: 0_level_0,판매량,매출,순익
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2015,103,500000,370000
2016,70,300000,190000
2017,130,400000,300000
2018,60,550000,480000
2019,190,700000,600000
2020,230,680000,590000


###### 1.11.2 파일 쓰기

In [63]:
sales_data.to_csv('sales_data_save.csv', encoding='utf-8')