# **pandas**


---


## **파이썬에서 사용하는 데이터분석 라이브러리**
 + 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있게 되며 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리한 도구
 + NumPy를 기반으로 구축되었으며 과학 컴퓨팅 환경 내에서 다른 많은 타사 라이브러리와 잘 통합되도록 설계 
 + 많은 기능을 가진 데이터 구조
   - 다양한 방식으로 색인된 데이터를 다룰 수 있는 기능
   - 시계열 데이터와 비시계열 데이터를 함께 다룰 수 있는 통합 자료 구조
   - 누락된 데이터를 유연하게 처리할 수 있는 기능
   - SQL 같은 일반 데이터베이스처럼 데이터를 합치고 관계연산을 수행하는 기능

### **pandas 자료 구조**
* **Series**
 + 1차원 자료구조
 + index로 value를 구분하는 1차원 자료구조

* **DataFrame**
 + 2차원 자료구조
 + DataFrame는 행과 열이 있는 테이블 데이터



---




### **pandas 라이브러리 추가**

In [None]:
import pandas as pd


# **pandas Series**

### **리스트(list)를 시리즈(Series) 변경**

#### pd.Series()

In [1]:
lt = [4.1, 5.5, 9.0, 15.0, 19.0 ,21.3]
 

#### 리스트를 변경한 series index, values

In [None]:
print('index :', slt.index)
print('index :', slt.keys())
print('value :', slt.values)

### **딕션너리(dictionary)를 시리즈(Series)로 변경**

#### pd.Series()

In [2]:
#딕션너리 -> series
dt = {'1월':4.1, '2월':5.5, '3월':9.0, '4월':15.0, '5월':19.0 ,'6월':21.3}
 

#### 딕션너리를 변경한 series index, **values**

In [None]:
print('index :', sdt.index)
print('index :', sdt.keys())
print('value :', sdt.values)

### **시리즈(Series) 인덱스(index) 변경하기**

In [None]:
ltk = ['1월', '2월', '3월', '4월', '5월', '6월']
lt = [4.1, 5.5, 9.0, 15.0, 19.0 ,21.3]

#### 생성시 변경하기

In [None]:
slt = pd.Series(lt, index=ltk)
print(slt)

#### 생성후 변경하기


In [None]:
slt = pd.Series(lt)
print(slt)

slt.index = ltk
print(slt)

### **시리즈(Series) 인덱싱(indexing)**
* 인덱스를 가지고 시리즈에서 특정 항목 추출



In [None]:
ltk = ['1월', '2월', '3월', '4월', '5월', '6월']
lt = [4.1, 5.5, 9.0, 15.0, 19.0 ,21.3]
slt = pd.Series(lt)
slt2 = pd.Series(lt, index=ltk)
print(slt)
print(slt2)

In [None]:
slt[2]

In [None]:
slt2['3월']

### **시리즈(Series) 슬라이싱(Slicing)**
* 시리즈 일부를 추출하여 시리즈로 반환
* 콜론(;), 쉼표(,) 사용
* 조건 사용

#### 콜론(;), 쉼표(,) 사용

In [None]:
sub1 = slt[1: 3]
print(sub1)

In [None]:
sub2 = slt2['2월':'3월']
print(sub2)

In [None]:
sub1_1 = slt[[1,3,5]]
print(sub1_1)

In [None]:
sub2_1 = slt2[['2월','4월','6월']]
print(sub2_1)

#### 조건 사용

In [None]:
print(slt)

In [None]:
slt > 10

In [None]:
slt[slt > 10]

In [None]:
slt[slt.values > 10]

In [None]:
slt[slt.index >= 3]

### **시리즈(Series) 연산**
* 시리즈(Series) 길이가 같고 인덱스가 같은 것끼리 연산
 + 더하기(+) : 각 값 더하기 
 + 곱하기(*) : 각 값 곱하기

In [None]:
print(slt)
print(slt2)

In [None]:
#인덱스가 다른 경우
print(slt + slt2)

In [None]:
slt.index = slt2.index
print(slt)
print(slt2)

In [None]:
#인덱스가 같은 경우
print(slt + slt2)
print(slt * slt2)

### **시리즈(Series) 기본 조회와 기초 통계 메소드**
* head(n) : 상위 n개 조회, n생략 시 5개 조회
+ tail(n) : 하위 n개 조회, n생략 시 5개 조회
+ describe() : 요약 통계량 계산
+ mean() : 평균
+ max() : 최대
+ min() : 최소
+ std()  : 표준편차

In [None]:
print(slt)

In [None]:
slt.head(2)

In [None]:
slt.tail(2)

In [None]:
slt.describe()

In [None]:
slt.mean()

### **자주 사용되는 메소드**
+ equals() : 시리즈와 시리즈가 같은지 비교, 키와 값이 모두 같아야 함
+ replace() : 특정값을 가진 요소 값을 변경
+ isin() : 시리즈에 포함된 값이 있는지 확인
+ drop_duplicates() : 중복값이 없는 시리즈 반환
+ append() : 2개이상의 시리즈 연결
+ sort_index(ascending=True) : 인덱스로 정렬
+ sort_values(ascending=False) : 값으로 정렬
+ to_frame() : 시리즈를 데이터프레임으로 변경

In [None]:
dt = {'1월':4.1, '2월':5.5, '3월':9.0, '4월':15.0, '5월':19.0 ,'6월':21.3}
sdt1 = pd.Series(dt)  
sdt2 = pd.Series(dt.values()) 

In [None]:
print('[시리즈1]')
print(sdt1)
print('[시리즈2]')
print(sdt2) 

In [None]:
print('비교 :', sdt1.equals(sdt2))

In [None]:
print('변경 :')
sdt1 = sdt1.replace(5.5, 15)
print(sdt1)

In [None]:
print('포함:')
print(sdt1[sdt1.isin([15, 19])])

In [None]:
print('중복제거:')
print(sdt1.drop_duplicates()) 
print('중복제거반영확인:')
print(sdt1)

In [None]:
print('연결:')
print(sdt1.append(sdt2))


In [None]:
print('정렬(값):')
print(sdt1.sort_values())
print('정렬(인덱스):')
print(sdt1.sort_index(ascending=False))

In [None]:
print('데이터프레임변환:')
print(sdt1.to_frame())



---
## (해결문제)
다음 인문대학의 추가 합격 후보 순위를 나타내는 딕션너리이다. 이 딕션너리를 판다스 시리즈로 변환하여 다음을 해결하시오.
1. 딕션너리 시리즈로 변환
2. 학과를 입력 받아서 해당학과의 후보순위, 단 입력종료 메시지를 추가하여 종료가 입력되지 않으면 계속 입력
   * 결과예시)
   ```{.no-highlight}
    학과입력 =>
일어학과
해당 학과는 존재하지 않습니다.
종료하시겠습니까?(종료:y)n
학과입력 =>
일어일문학과
일어일문학과 추가 합격 순위 : 후보 8
종료하시겠습니까?(종료:y)y
  ```
3. 후보순위가 3번 이하인 학과와 후보순위가 20번 이상인 학과 조회
  * 조건식을 이용하는 방법
  * 메소드를 이용하는 방법 
4. 평균 추가 합격 순위
   * 출력예) 평균 추가 합격 순위 : 7위
5. 학과 명칭대로 정렬하여 시리즈에 반영
 

In [None]:
dt = {'국어국문학과':7,	'중어중문학과':4,	'일어일문학과':8,	'영어영문학과':30,	'불어불문학과':5,	'독어독문학과':4,	'노어노문학과':5,	'한문학과':6,	'언어정보학과':3,	'사학과':7,	'철학과':5,	'고고학과':9}