# Pandas 1주차

## 1. Pandas 소개

### 1-1. pandas
 -	pandas는 구조화된 데이터를 빠르고 다양하게 가공할 수 있는 함수를 제공하는 파이썬 라이브러리로, 데이터 분석에 매우 유용하게 쓰인다.
 - 행과 열을 가진 데이터 객체를 만들 수 있게 해준다.
 - 고성능 시계열 처리 기능과 금융 데이터에 맞는 도구를 제공한다.
 - pandas 라이브러리 불러오기


In [2]:
import pandas as pd

### 1-2. pandas 자료구조 소개
 (1) series
  - 1차원 배열구조. value와 index의 형태를 지닌다.
  - series 객체 생성하기

#### pandas.Series(data=None, index=None,,,,)
- data: series로 생성할 데이터 
- index: 인덱스 지정. 지정하지 않을 경우 기본적으로 숫자를 할당한다.

In [8]:
from pandas import Series
ex= Series([3,9,12,-5,7])
print(ex)

0     3
1     9
2    12
3    -5
4     7
dtype: int64


 - value와 index 출력

In [10]:
ex.values

array([ 3,  9, 12, -5,  7], dtype=int64)

In [12]:
ex.index

RangeIndex(start=0, stop=5, step=1)

 - index를 지정하여 series 객체 생성

In [14]:
ex2=Series([3,9,12,-5,7], index=['a','b','c','d','e'])
print(ex2)

a     3
b     9
c    12
d    -5
e     7
dtype: int64


In [15]:
ex2.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

 - 파이썬의 사전형 객체로부터 series 객체 생성

In [11]:
dic = {'korean':95, 'math':98, 'english':89}
ex3=Series(dic)
print(ex3)

korean     95
math       98
english    89
dtype: int64


 (2) Dataframe
  - 2차원 형식의 자료구조. Row와 Column으로 이루어져있다.
  - 데이터프레임 생성: 파이썬의 사전을 이용

#### pandas.DataFrame(data=None, index=None, columns=None,,,,)
- data: 데이터프레임으로 생성할 사전형, 데이터프레임 등의 배열
- index: 데이터프레임에 지정할 인덱스. 기본적으로 숫자를 지정함
- columns: 데이터프레임에 사용할 column 지정. 원하는 순서 지정가능

In [12]:
from pandas import DataFrame
data={'이름':['예진','유희','소연'],
     '국어':[84,95,92],
     '수학':[96,91,89],
     '영어':[90,86,93]}
subject=DataFrame(data, columns=['이름','수학','영어','국어'], index=['1번','2번','3번'])
subject

Unnamed: 0,이름,수학,영어,국어
1번,예진,96,90,84
2번,유희,91,86,95
3번,소연,89,93,92


- column, row 선택

In [20]:
##열선택
subject['이름']

1번    예진
2번    유희
3번    소연
Name: 이름, dtype: object

In [17]:
subject.이름

1번    예진
2번    유희
3번    소연
Name: 이름, dtype: object

In [18]:
##행선택
subject['1번':'2번']  #인덱스 슬라이싱 이용

Unnamed: 0,이름,수학,영어,국어
1번,예진,96,90,84
2번,유희,91,86,95


In [19]:
subject.loc['3번']

이름    소연
수학    89
영어    93
국어    92
Name: 3번, dtype: object

- 열 추가

In [25]:
subject['사회']=[84,89,92]
subject

Unnamed: 0,이름,수학,영어,국어,사회
1번,예진,96,90,84,84
2번,유희,91,86,95,89
3번,소연,89,93,92,92


 - 행 추가

In [27]:
subject.loc['4번']=['진수',94,82,91,90]
subject

Unnamed: 0,이름,수학,영어,국어,사회
1번,예진,96,90,84,84
2번,유희,91,86,95,89
3번,소연,89,93,92,92
4번,진수,94,82,91,90



## 2.데이터 입출력

### (1) csv 파일 불러오기
#### pandas.read_csv('파일경로/파일명', sep=',', header='infer', usecols=None, encoding=None, ,,,,)
 - sep : 파일내에서 사용하는 구분자 표시
 - header: 인식하기 시작할 행 지정
 - usecols : 원하는 일부 column만 인식
 - econding : 인코딩 지정
 
#### pandas.Dataframe.head() 
 - 위에서  n번째 행까지만 출력. default=5

In [29]:
subject=pd.read_csv("C:\\Users\dcng\Documents\subject.csv", encoding='utf-8')
subject.head()

Unnamed: 0,이름,수학,영어,국어,결과
0,예진,96,90,84,90.0
1,유희,91,86,95,90.67
2,소연,89,93,92,91.3
3,진수,94,82,91,89.0


### (2) excel 파일 불러오기

#### pandas.read_excel('파일경로/파일명', header=0, usecols=None,...)

In [38]:
assignment=pd.read_excel("assignment.xls", encoding='utf-8')
assignment.head()

Unnamed: 0,구분,3월4일,3월5일,3월6일,3월7일,3월8일,3월11일,3월12일,결석수
0,예진,출석,출석,출석,출석,출석,결석,출석,1
1,유희,출석,출석,결석,출석,출석,출석,출석,1
2,소연,출석,출석,출석,출석,출석,출석,출석,0
3,진수,출석,결석,출석,출석,출석,출석,결석,2


In [45]:
#usecols 옵션을 사용하여 원하는 column만 불러오기
assignment=pd.read_excel('assignment.xls',
                       usecols=[0,8], encoding='utf-8')
assignment.head()

Unnamed: 0,구분,결석수
0,예진,1
1,유희,1
2,소연,0
3,진수,2



## 3. 이름 변경하기

#### pandas.DataFrame.rename(mapper=None, index=None, columns=None, inplace=False,,,)
 - mapper, index, columns : 새로운 column 이름 지정
 - inplace: 새로운 열이름을 출력만 할 것인지 진짜 데이터프레임에 적용할 것인지 결정. default: False

In [47]:
#subject의 '결과' 열 이름 바꾸기
subject.rename(columns={subject.columns[4]:'평균'}, inplace=True)
subject.head()

Unnamed: 0,이름,수학,영어,국어,평균
0,예진,96,90,84,90.0
1,유희,91,86,95,90.67
2,소연,89,93,92,91.3
3,진수,94,82,91,89.0


In [49]:
#assignment의 열 이름 바꾸기
assignment.rename(columns={"구분":"이름"}, inplace=True)
assignment.head()

Unnamed: 0,이름,결석수
0,예진,1
1,유희,1
2,소연,0
3,진수,2


## 4. 데이터 정렬

#### Pandas.DataFrame.sort_values(by, ascending=True, inplace=False,,,)
-	by: 정렬의 기준이 될 열 설정
-	ascending: 오름차순(낮은 숫자에서 높은 숫자로) 또는 내림차순(높은 숫자에서 낮은 숫자로) 지정. default: 오름차순
-	inplace: 데이터프레임에 적용할 것인지 또는 출력만 할 것인지 결정. default: false


In [50]:
#subject 데이터를 평균이 높은 순서로 정렬하기
subject.sort_values(by='평균', ascending=False)

Unnamed: 0,이름,수학,영어,국어,평균
2,소연,89,93,92,91.3
1,유희,91,86,95,90.67
0,예진,96,90,84,90.0
3,진수,94,82,91,89.0


In [52]:
subject.sort_values(by='평균', ascending=False).reset_index(drop=True)

Unnamed: 0,이름,수학,영어,국어,평균
0,소연,89,93,92,91.3
1,유희,91,86,95,90.67
2,예진,96,90,84,90.0
3,진수,94,82,91,89.0


#### pandas.DataFrame.reset_index(level=None, drop=False, inplace=False,,,,)
- levels: 선택된 레벨의 인덱스만 삭제. Default로 모든 인덱스를 지움.
- drop: 지운 인덱스를 하나의 열로 추가할지 말지 결정. drop=false일 경우 index라는 열이름으로 새로운 열이 생김
- inplace: 데이터프레임에 적용할 것인지 또는 출력만 할 것인지 결정.
