# 판다스
### 데이터를 수집하고 정리하는데 최적화된 도구
### 오픈소스로 무료라는 장점을 가지고 파이썬을 기반으로함.
### 데이터를 다루는 업무의 대부분을 판다스로 기본적으로 처리함 
### 공식홈페이지에서 더 다양한 사용법을 익힐 수 있다.
### 판다스(패키지) 자료구조
### 시리즈와 데이터프레임
### 데이터의 속성은 매우 다양함(숫자, 문자, 시간,날짜,범주 등)다양한 형식의 데이터를 동일한 형식으로 통합해야 함
### 시리즈는 1차원 배열
### 데이터프레임은 2차원 배열(행과열) 

# 시리즈 
### 데이터가 순차적으로 나열된 1차원 배열 
### 인덱스(key)와 데이터의 값(value)가 일대일 대응으로 이루어진 데이터 : 딕셔너리와 비슷
### index와 key 동시홀용 가능하다는 것이 딕셔너리와의 차이점

In [1]:
import pandas as pd

In [6]:
#딕셔너리 자료구조를 판다스의 시리즈로 변환
dict_data = {'a':1, 'b':2, 'c': 3}
series = pd.Series(dict_data) #Series 첫글자는 대문자로 해야한다.

In [7]:
print(type(series))

<class 'pandas.core.series.Series'>


In [8]:
print(series) #key와 value가 같이 출력된다. 

a    1
b    2
c    3
dtype: int64


# 인덱스 구조
### 시리즈에서 인덱스를 잘 활용하면 값의 탐색, 정렬, 선택, 결합을 쉽게 할 수 있음
### 정수형 인덱스가 기본으로 사용되며, 직접 이름을 지정할 수도 있음


In [10]:
#리스트 자료형을 시리즈로 변환 
list_data = ['2021-04-26', '철수', '남', 100, True]
series = pd.Series(list_data)
print(series)
print('\n')
print(series.index)#index를 추출, 시작 , 끝 단계 
print('\n')
print(series.values)

0    2021-04-26
1            철수
2             남
3           100
4          True
dtype: object


RangeIndex(start=0, stop=5, step=1)


['2021-04-26' '철수' '남' 100 True]


### 시리즈 원소 선택

In [12]:
list_data = ['2021-04-26', '철수', '남', 100, True]
index_name = ['날짜', '이름', '성별', '점수', '전학여부'] #key값들을 갯수에 맞게 리스트로 선언한다음에 
series = pd.Series(list_data, index = index_name) #리스트로 시리즈를 만든경우 key값을 부여하는 방법
print(series)

날짜      2021-04-26
이름              철수
성별               남
점수             100
전학여부          True
dtype: object


In [13]:
print(series[0], series['이름']) #index 또는 key 값으로 호출이 가능함 

2021-04-26 철수


In [15]:
print(series[[0,2]]) #두개이상을 ,로 부를때는 반드시 [[]] 구조를 해야한다! 

날짜    2021-04-26
성별             남
dtype: object


In [16]:
print(series[['날짜', '전학여부']])

날짜      2021-04-26
전학여부          True
dtype: object


In [17]:
print(series[2:5]) #슬라이싱으로 2개이상을 부를 때는 [] 구조면 됨

성별         남
점수       100
전학여부    True
dtype: object


In [18]:
print(series['성별':'전학여부']) #슬라이싱으로 key를 활용해도 좋다

성별         남
점수       100
전학여부    True
dtype: object


## 데이터 프레임
### 2차원 배열로 행과 열로 이루어짐 
### 시리즈가 한개의 column(열)이 되고 여러개의 시리즈를 붙이면 행과열로 이루어진 2차원 데이터 

In [20]:
#딕셔너리를 이용해서 데이터프레임을 만드는 방법
#key 그에 대응 하는 값은 리스트로 만들어 딕셔너리를 선언한다. 
#key가 열이된다.

dic_data = {
    'col1' : [0,1,2],
    'col2' : [3,4,5],
    'col3' : [6,7,8],
    'col4' : [9,10,11]
}
df = pd.DataFrame(dic_data) # 케멀케이스
print(type(df))
print(df)

<class 'pandas.core.frame.DataFrame'>
   col1  col2  col3  col4
0     0     3     6     9
1     1     4     7    10
2     2     5     8    11


In [21]:
#리스트를 이용해서 데이터프레임을 만드는 방법
df = pd.DataFrame(
[['남',30,'경기고'], ['여', 25, '서울고']],
index = ['기범', '혜리'],
columns = ['gender', 'age', 'school']) #딕셔너리로 만드는 것과 비교
print(df)

   gender  age school
기범      남   30    경기고
혜리      여   25    서울고


In [22]:
print(df.index)

Index(['기범', '혜리'], dtype='object')


In [23]:
print(df.values)

[['남' 30 '경기고']
 ['여' 25 '서울고']]


### 행, 열 이름 설정 

In [24]:
print(df)

   gender  age school
기범      남   30    경기고
혜리      여   25    서울고


In [25]:
#리스트를 활용하여 행, 열 이름을 재설정하는 방법
df.index  = ['이름1','이름2']
df.columns = ['성별', '연령', '학교']
print(df)

    성별  연령   학교
이름1  남  30  경기고
이름2  여  25  서울고


In [26]:
#딕셔너리를 활용하여 행,열 이름을 재설정하는 방법
df.rename(columns = {'gender' : '성별', 'age' : '연령', 'school': '학교'}) #데이터프레임이름.rename(columns = {기존: 새로운})
df.rename(index = {'기범': '이름1', '혜리': '이름2'})
print(df)

    성별  연령   학교
이름1  남  30  경기고
이름2  여  25  서울고


## 데이터 프레임에서 특정 행 선택 방법

### loc메소드 : location 인덱스 이름으로 탐색
### iloc메소드 : index location 정수형 인덱스로 탐색

In [27]:
#딕셔너리를 이용해서 데이터 프레임 만들기
exam_data = {
    '국어' : [100,80,30],
    '수학' : [90,80,50],
    '영어' : [100,40,90],
    '음악' : [80,100,40]
}
df = pd.DataFrame(exam_data, index = ['기범', '혜리','동엽'])

print(df)

#리스트를 이용해서 데이터 프레임 만들기
df = pd.DataFrame(
    [[100,90,100,80],
    [80,80,40,100],
    [30,50,90,40]],
    index = ['기범','혜리','동엽'],
    columns = ['국어','수학','영어','음악'])

print(df)

     국어  수학   영어   음악
기범  100  90  100   80
혜리   80  80   40  100
동엽   30  50   90   40
     국어  수학   영어   음악
기범  100  90  100   80
혜리   80  80   40  100
동엽   30  50   90   40


In [28]:
location = df.loc[['기범','혜리']] #행선택방법, 시리즈 처럼 2개 이상의 행 , 로 선택할 때는 [[]]구조!

In [29]:
print(location)

     국어  수학   영어   음악
기범  100  90  100   80
혜리   80  80   40  100


In [30]:
ilocation = df.iloc[[1,2]] #시리즈는 시리즈[] 이런식으로 key와 value 둘다 똑같이 사용했지만 데이터 프레임은 다르다.!
print(ilocation) 

    국어  수학  영어   음악
혜리  80  80  40  100
동엽  30  50  90   40


### ilocation 고급활용
#### iloc을 활용하여 범위를 지정하고, 슬라이싱 간격을 조정할 수 있음
#### 슬라이싱 간격에 -1을 입력하면 역순으로 정렬됨


In [31]:
#리스트를 이용해서 데이터 프레임 만들기
df = pd.DataFrame(
    [[100,90,100,80],
    [80,80,40,100],
    [30,50,90,40],
    [80,100,40,50]],
    index = ['기범','혜리','동엽','나래'],
    columns = ['국어','수학','영어','음악'])

print(df)

     국어   수학   영어   음악
기범  100   90  100   80
혜리   80   80   40  100
동엽   30   50   90   40
나래   80  100   40   50


In [32]:
df1 = df.iloc[0:3:2] # 시작 끝 간격 , 콜론을 활용해서 2개이상은 []구조임! 
print(df1)

     국어  수학   영어  음악
기범  100  90  100  80
동엽   30  50   90  40


In [34]:
df2 = df.iloc[::-1] # 기존것의 행의 역순
print(df2)

     국어   수학   영어   음악
나래   80  100   40   50
동엽   30   50   90   40
혜리   80   80   40  100
기범  100   90  100   80
