# **pandas**


---


## **파이썬에서 사용하는 데이터분석 라이브러리**
 + 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있게 되며 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리한 도구
 + NumPy를 기반으로 구축되었으며 과학 컴퓨팅 환경 내에서 다른 많은 타사 라이브러리와 잘 통합되도록 설계 
 + 많은 기능을 가진 데이터 구조
   - 다양한 방식으로 색인된 데이터를 다룰 수 있는 기능
   - 시계열 데이터와 비시계열 데이터를 함께 다룰 수 있는 통합 자료 구조
   - 누락된 데이터를 유연하게 처리할 수 있는 기능
   - SQL 같은 일반 데이터베이스처럼 데이터를 합치고 관계연산을 수행하는 기능

### **pandas 자료 구조**
* **Series**
 + 1차원 자료구조
 + index로 value를 구분하는 1차원 자료구조

* **DataFrame**
 + 2차원 자료구조
 + DataFrame는 행과 열이 있는 테이블 데이터



---




### **pandas 라이브러리 추가**

In [1]:
import pandas as pd


# **pandas Series**

### **리스트(list)를 시리즈(Series) 변경**

#### pd.Series()

In [2]:
lt = [4.1, 5.5, 9.0, 15.0, 19.0 ,21.3]

#리스트를 시리즈로 변경하기

slt = pd.Series(lt)

print(slt)
print(type(slt))

0     4.1
1     5.5
2     9.0
3    15.0
4    19.0
5    21.3
dtype: float64
<class 'pandas.core.series.Series'>


In [3]:
#시리즈의 3번째 요소가져오기

print(slt[2])

9.0


#### 리스트를 변경한 series index, values

In [4]:
#시리즈 인덱스, 키, 값 출력

print('index :', slt.index)
print('index :', slt.keys())
print('value :', slt.values) 

index : RangeIndex(start=0, stop=6, step=1)
index : RangeIndex(start=0, stop=6, step=1)
value : [ 4.1  5.5  9.  15.  19.  21.3]


### **딕션너리(dictionary)를 시리즈(Series)로 변경**

#### pd.Series()

In [5]:
#dataframe -> series

dt = {'1월':4.1, '2월':5.5, '3월':9.0, '4월':15.0, '5월':19.0 ,'6월':21.3}

sdt = pd.Series(dt)
 
print(sdt)

1월     4.1
2월     5.5
3월     9.0
4월    15.0
5월    19.0
6월    21.3
dtype: float64


#### 딕션너리를 변경한 series index, **values**

In [6]:
print('index :', sdt.index)
print('index :', sdt.keys())
print('value :', sdt.values)

index : Index(['1월', '2월', '3월', '4월', '5월', '6월'], dtype='object')
index : Index(['1월', '2월', '3월', '4월', '5월', '6월'], dtype='object')
value : [ 4.1  5.5  9.  15.  19.  21.3]


In [7]:
#3월의 값 가져오기

sdt['3월']

9.0

### **시리즈(Series) 인덱스(index) 변경하기**

In [8]:
ltk = ['1월', '2월', '3월', '4월', '5월', '6월']
lt = [4.1, 5.5, 9.0, 15.0, 19.0 ,21.3]

#### 생성시 변경하기

In [9]:
#시리즈 생성시 인덱스값 설정하기

slt = pd.Series(lt, index=ltk)
print(slt)

1월     4.1
2월     5.5
3월     9.0
4월    15.0
5월    19.0
6월    21.3
dtype: float64


#### 생성후 변경하기


In [11]:
#시리즈 생성시 인덱스없이 생성

slt = pd.Series(lt)

print(slt)

0     4.1
1     5.5
2     9.0
3    15.0
4    19.0
5    21.3
dtype: float64


In [12]:
slt.index

RangeIndex(start=0, stop=6, step=1)

In [13]:
#시리즈 인덱스 변경

slt.index = ltk

print(slt)

1월     4.1
2월     5.5
3월     9.0
4월    15.0
5월    19.0
6월    21.3
dtype: float64


### **시리즈(Series) 인덱싱(indexing)**
* 인덱스를 가지고 시리즈에서 특정 항목 추출



In [14]:
ltk = ['1월', '2월', '3월', '4월', '5월', '6월']
lt = [4.1, 5.5, 9.0, 15.0, 19.0 ,21.3]
slt = pd.Series(lt)
slt2 = pd.Series(lt, index=ltk)
print(slt)
print(slt2)

0     4.1
1     5.5
2     9.0
3    15.0
4    19.0
5    21.3
dtype: float64
1월     4.1
2월     5.5
3월     9.0
4월    15.0
5월    19.0
6월    21.3
dtype: float64


In [16]:
# slt 시리즈에서 인덱스가 2인 항목 값 가져오기

slt[2]

9.0

In [17]:
# slt2 시리즈에서 3월의 값가져오기

slt2['3월']

9.0

### **시리즈(Series) 슬라이싱(Slicing)**
* 시리즈 일부를 추출하여 시리즈로 반환
* 콜론(;), 쉼표(,) 사용
* 조건 사용

#### 콜론(:), 쉼표(,) 사용

In [18]:
#인덱스가 1에서 2인 자료 추출

sub1 = slt[1:3]

print(sub1)

1    5.5
2    9.0
dtype: float64


In [19]:
# 인덱스가 1월에서 3월인 자료 추출

sub2 = slt2['1월':'3월']

print(sub2)

1월    4.1
2월    5.5
3월    9.0
dtype: float64


In [20]:
#인덱스가 1,3,5인 자료 추출

sub1_1 = slt[[1, 3, 5]]

print(sub1_1)

1     5.5
3    15.0
5    21.3
dtype: float64


In [21]:
#인덱스가 2월,4월, 6월인 자료 추출

sub2_1 = slt2[['2월', '4월', '6월']]

print(sub2_1)

2월     5.5
4월    15.0
6월    21.3
dtype: float64


#### 조건 사용

In [22]:
print(slt)

0     4.1
1     5.5
2     9.0
3    15.0
4    19.0
5    21.3
dtype: float64


In [23]:
slt > 10

0    False
1    False
2    False
3     True
4     True
5     True
dtype: bool

In [27]:
#값이 10보다 큰 자료 추출1

slt[slt > 10]

3    15.0
4    19.0
5    21.3
dtype: float64

In [28]:
#값이 10보다 큰 자료 추출2 (위의 코드와 같이 생략해도 상관 x)

slt[slt.values > 10]

3    15.0
4    19.0
5    21.3
dtype: float64

In [29]:
#인덱스가 3보다 크거나 같은 자료 추출

slt[slt.index >= 3]

3    15.0
4    19.0
5    21.3
dtype: float64

### **시리즈(Series) 연산**
* 시리즈(Series) 길이가 같고 인덱스가 같은 것끼리 연산
 + 더하기(+) : 각 값 더하기 
 + 곱하기(*) : 각 값 곱하기

In [30]:
print(slt)
print(slt2)

0     4.1
1     5.5
2     9.0
3    15.0
4    19.0
5    21.3
dtype: float64
1월     4.1
2월     5.5
3월     9.0
4월    15.0
5월    19.0
6월    21.3
dtype: float64


In [31]:
#인덱스가 다른 경우
print(slt + slt2)

0    NaN
1    NaN
2    NaN
3    NaN
4    NaN
5    NaN
1월   NaN
2월   NaN
3월   NaN
4월   NaN
5월   NaN
6월   NaN
dtype: float64


In [32]:
slt.index = slt2.index
print(slt)
print(slt2)

1월     4.1
2월     5.5
3월     9.0
4월    15.0
5월    19.0
6월    21.3
dtype: float64
1월     4.1
2월     5.5
3월     9.0
4월    15.0
5월    19.0
6월    21.3
dtype: float64


In [33]:
#인덱스가 같은 경우
print(slt + slt2)
print(slt * slt2)

1월     8.2
2월    11.0
3월    18.0
4월    30.0
5월    38.0
6월    42.6
dtype: float64
1월     16.81
2월     30.25
3월     81.00
4월    225.00
5월    361.00
6월    453.69
dtype: float64


### **시리즈(Series) 기본 조회와 기초 통계 메소드**
* head(n) : 상위 n개 조회, n생략 시 5개 조회
+ tail(n) : 하위 n개 조회, n생략 시 5개 조회
+ describe() : 요약 통계량 계산
+ mean() : 평균
+ max() : 최대
+ min() : 최소
+ std()  : 표준편차

In [34]:
print(slt)

1월     4.1
2월     5.5
3월     9.0
4월    15.0
5월    19.0
6월    21.3
dtype: float64


In [35]:
#상위 5개 자료 추출

slt.head()

1월     4.1
2월     5.5
3월     9.0
4월    15.0
5월    19.0
dtype: float64

In [36]:
#하위 5개 자료 추출

slt.tail()

2월     5.5
3월     9.0
4월    15.0
5월    19.0
6월    21.3
dtype: float64

In [37]:
#시리즈 통계 요약

slt.describe()

count     6.000000
mean     12.316667
std       7.177024
min       4.100000
25%       6.375000
50%      12.000000
75%      18.000000
max      21.300000
dtype: float64

In [38]:
#시리즈 값 평균

slt.mean()

12.316666666666668

### **자주 사용되는 메소드**
+ equals() : 시리즈와 시리즈가 같은지 비교, 키와 값이 모두 같아야 함
+ replace() : 특정값을 가진 요소 값을 변경
+ isin() : 시리즈에 포함된 값이 있는지 확인
+ drop_duplicates() : 중복값이 없는 시리즈 반환
+ append() : 2개이상의 시리즈 연결
+ sort_index(ascending=True) : 인덱스로 정렬
+ sort_values(ascending=False) : 값으로 정렬
+ to_frame() : 시리즈를 데이터프레임으로 변경

In [39]:
dt = {'1월':4.1, '2월':5.5, '3월':9.0, '4월':15.0, '5월':19.0 ,'6월':21.3}
sdt1 = pd.Series(dt)  
sdt2 = pd.Series(dt.values()) 

In [49]:
print('[시리즈1]')
print(sdt1)
print('[시리즈2]')
print(sdt2) 

[시리즈1]
1월     4.1
2월    15.5
3월     9.0
5월    19.0
6월    21.3
dtype: float64
[시리즈2]
0     4.1
1     5.5
2     9.0
3    15.0
4    19.0
5    21.3
dtype: float64


In [41]:
print('비교 :', sdt1.equals(sdt2))

비교 : False


In [42]:
print('변경 :')

#5.5 값을 15로 변경

sdt1 = sdt1.replace(5.5, 15)
print(sdt1)

변경 :
1월     4.1
2월    15.0
3월     9.0
4월    15.0
5월    19.0
6월    21.3
dtype: float64


In [43]:
sdt1 = sdt1.replace(15, 15.5)
print(sdt1)

1월     4.1
2월    15.5
3월     9.0
4월    15.5
5월    19.0
6월    21.3
dtype: float64


In [46]:
print('포함:')

# 값을 15.5, 9.0을 가지는 자료 추출
# isin()메소드는 인수가 리스트

print(sdt1[sdt1.isin([15.5, 9.0])])

포함:
2월    15.5
3월     9.0
4월    15.5
dtype: float64


In [48]:
print('중복제거:')
print(sdt1.drop_duplicates()) 
print('중복제거반영확인:')
#중복제거하여 시리즈에 반영

sdt1 = sdt1.drop_duplicates()

print(sdt1)

중복제거:
1월     4.1
2월    15.5
3월     9.0
5월    19.0
6월    21.3
dtype: float64
중복제거반영확인:
1월     4.1
2월    15.5
3월     9.0
5월    19.0
6월    21.3
dtype: float64


In [50]:
#시리즈 연결하기

print('연결:')

print(sdt1.append(sdt2))

연결:
1월     4.1
2월    15.5
3월     9.0
5월    19.0
6월    21.3
0      4.1
1      5.5
2      9.0
3     15.0
4     19.0
5     21.3
dtype: float64


In [53]:
# 시리즈 값으로 정렬하기

print('정렬(값):')

print(sdt1.sort_values())

# 시리즈 인덱스로 역순으로 정렬하기

print('정렬(인덱스):')

print(sdt1.sort_index(ascending=True))

정렬(값):
1월     4.1
3월     9.0
2월    15.5
5월    19.0
6월    21.3
dtype: float64
정렬(인덱스):
1월     4.1
2월    15.5
3월     9.0
5월    19.0
6월    21.3
dtype: float64


In [56]:
print('데이터프레임변환:')

#시리즈 데이터 프레임으로 변환하기

sdt1 = sdt1.to_frame()
sdt1

데이터프레임변환:


Unnamed: 0,0
1월,4.1
2월,15.5
3월,9.0
5월,19.0
6월,21.3


In [57]:
type(sdt1)

pandas.core.frame.DataFrame



---
## (해결문제)
다음 인문대학의 추가 합격 후보 순위를 나타내는 딕션너리이다. 이 딕션너리를 판다스 시리즈로 변환하여 다음을 해결하시오.
1. 딕션너리 시리즈로 변환
2. 학과를 입력 받아서 해당학과의 후보순위, 단 입력종료 메시지를 추가하여 종료가 입력되지 않으면 계속 입력
   * 결과예시)
   ``` 
    학과입력 =>
일어학과
해당 학과는 존재하지 않습니다.
종료하시겠습니까?(종료:y)n
학과입력 =>
일어일문학과
일어일문학과 추가 합격 순위 : 후보 8
종료하시겠습니까?(종료:y)y
  ```
3. 후보순위가 3번 이하인 학과와 후보순위가 20번 이상인 학과 조회
   * 조건식을 이용하는 방법
   * 메소드를 이용하는 방법 
4. 평균 추가 합격 순위
   * 출력예) 평균 추가 합격 순위 : 7위
5. 학과 명칭대로 정렬하여 시리즈에 반영
 

In [58]:
dt = {'국어국문학과':7,	'중어중문학과':4,	'일어일문학과':8,	'영어영문학과':30,	'불어불문학과':5,	'독어독문학과':4,	'노어노문학과':5,	'한문학과':6,	'언어정보학과':3,	'사학과':7,	'철학과':5,	'고고학과':9}

In [62]:
dt = pd.Series(dt)
dt

국어국문학과     7
중어중문학과     4
일어일문학과     8
영어영문학과    30
불어불문학과     5
독어독문학과     4
노어노문학과     5
한문학과       6
언어정보학과     3
사학과        7
철학과        5
고고학과       9
dtype: int64

In [81]:
# 학과 후보순위

while (1) :
  print('학과입력 =>')
  x = input()
  if (x in dt.index):
    print(f'{x} 추가 합격 순위 : 후보', dt[x])
  else :
    print('해당 학과는 존재하지 않습니다.')
  y = input('종료하시겠습니까?(종료:y)')
  if (y == 'y' or y == 'Y') :
    break
  else :
    continue

학과입력 =>
국문학과
해당 학과는 존재하지 않습니다.
종료하시겠습니까?(종료:y)n
학과입력 =>
국어국문학과
국어국문학과 추가 합격 순위 : 후보 7
종료하시겠습니까?(종료:y)영어영문학과
학과입력 =>
영어영문학과
영어영문학과 추가 합격 순위 : 후보 30
종료하시겠습니까?(종료:y)Y


In [124]:
# 후보순위가 3번 이하인 학과와 후보순위가 20번 이상인 학과 조회 - 조건식 이용

dt[(dt <= 3)|(dt >= 20)]

영어영문학과    30
언어정보학과     3
dtype: int64

In [145]:
# 후보순위가 3번 이하인 학과와 후보순위가 20번 이상인 학과 조회 - 메소드 이용

dt[(dt.le(3))|(dt.ge(20))]

영어영문학과    30
언어정보학과     3
dtype: int64

In [125]:
# 후보순위가 3번 이하인 학과 - 조건식 이용

dt[dt <= 3]

언어정보학과    3
dtype: int64

In [146]:
# 후보순위가 3번 이하인 학과 - 메소드 이용

dt[dt.le(3)]

언어정보학과    3
dtype: int64

In [147]:
# 후보순위가 20번 이상인 학과 - 조건식 이용

dt[dt >= 20]

영어영문학과    30
dtype: int64

In [148]:
# 후보순위가 20번 이상인 학과 - 메소드 이용

dt[dt.ge(20)]

영어영문학과    30
dtype: int64

In [130]:
dt[(dt >= 20)|(dt <= 3)].sort_values()

언어정보학과     3
영어영문학과    30
dtype: int64

In [135]:
#평균 추가 합격 순위

print(f'평균 추가 합격 순위 {int(dt.mean())}위')

평균 추가 합격 순위 7위


In [152]:
# 값을 기준으로 정렬하여 시리즈에 반영

dt = dt.sort_values()

print(dt)

언어정보학과     3
중어중문학과     4
독어독문학과     4
불어불문학과     5
노어노문학과     5
철학과        5
한문학과       6
국어국문학과     7
사학과        7
일어일문학과     8
고고학과       9
영어영문학과    30
dtype: int64


In [154]:
# 학과 명칭대로 정렬하여 시리즈에 반영

dt = dt.sort_index()

print(dt)

고고학과       9
국어국문학과     7
노어노문학과     5
독어독문학과     4
불어불문학과     5
사학과        7
언어정보학과     3
영어영문학과    30
일어일문학과     8
중어중문학과     4
철학과        5
한문학과       6
dtype: int64
