# Pandas
* import pandas as pd 이용 
* 데이터 분석을 위해서 기본적으로 필요한 틀
[참고자료](https://wikidocs.net/book/7188)
---


In [1]:
# import
import pandas as pd
# numpy
import numpy as np # 뒤에 random과 같은 모듈 사용을 위해서 선언.

## Series
* 1차원 데이터 구조
* numpy의 배열구조 사용
* index 지정 가능

In [7]:
# 기본
# List 이용
ser1 = pd.Series([4,5,3,-6]) # index 지정X 
ser1

0    4
1    5
2    3
3   -6
dtype: int64

In [8]:
# 타입 확인
type(ser1) # 시리즈의 시리즈로 나옴.

pandas.core.series.Series

In [10]:
# index 지정
ser2 = pd.Series([4,5,3, -6], index=['a','b','c','d'])
ser2

a    4
b    5
c    3
d   -6
dtype: int64

In [11]:
# data 확인(index 넣어주기)
ser2['b']

5

### Dict 이용
* key == index
* value == value

In [12]:
# dic 이용
dic = {'a':3, 'b':4, 'c':5}
ser_dic = pd.Series(dic)
ser_dic

a    3
b    4
c    5
dtype: int64

In [13]:
# 같은 방법으로 value 꺼내기
ser_dic['a']

3

### Series 활용
* index
* slicing
* boolean indexing
* random 활용

In [14]:
# 선언
ser2 = pd.Series([4,5,3, -6], index=['a','b','c','d'])
ser2

a    4
b    5
c    3
d   -6
dtype: int64

In [15]:
# index
ser2['b']

5

In [18]:
# slicing Method1
ser2[1:4] # key를 기준으로 슬라이싱

b    5
c    3
d   -6
dtype: int64

In [20]:
# slicing Method2
ser2['b':'d'] # index를 기준으로 slicing 가능

b    5
c    3
d   -6
dtype: int64

In [21]:
# boolean indexing - 관계연산자
ser2[ser2 > 3]  # value가 3보다 큰 것 출력

a    4
b    5
dtype: int64

In [22]:
# random 이용
ser3 = pd.Series(np.random.randint(1,10,10))
# ranint(a,b,c) - a에서 b-1까지 랜덤으로 10가지의 수 뽑기
ser3

0    9
1    4
2    5
3    4
4    9
5    4
6    6
7    6
8    7
9    3
dtype: int32

## DataFrame
* Pandas의 2차원 데이터 구조(하나의 행 혹은 열을 읽으면 Series data 형
* Dictionary 데이터 사용해서 생성
* 2차원 배열 형태의 데이터를 사용
* 2차원 데이터 파일을 읽어옴
* 가로가 행, 세로가 열

In [25]:
# Dictionary 선언
dic_df = {
    'name' : ['hojin', 'yejin', 'sanghuyeon', 'sunghyeon'],
    'age' : [20, 25, 28, 19],
    'grade' : ['S', 'A', 'B', 'C']
}
dic_df

{'name': ['hojin', 'yejin', 'sanghuyeon', 'sunghyeon'],
 'age': [20, 25, 28, 19],
 'grade': ['S', 'A', 'B', 'C']}

In [24]:
# DataFrame 선언 및 확인
df = pd.DataFrame(dic_df)
df

Unnamed: 0,name,age,grade
0,hojin,20,S
1,yejin,25,A
2,sanghuyeon,28,B
3,sunghyeon,19,C


In [27]:
# type 확인
type(df) # 프래임의 데이터프레임

pandas.core.frame.DataFrame

In [29]:
# data 꺼내보기
df['name'] # name에 들어간 데이터 꺼내기

0         hojin
1         yejin
2    sanghuyeon
3     sunghyeon
Name: name, dtype: object

In [31]:
# data type 확인
type(df['name']) # 데이터프레임 한줄에 대한 자료형은 시리즈다.

pandas.core.series.Series

In [33]:
# 위와 다른 방법으로 data 꺼내보기
df.name

0         hojin
1         yejin
2    sanghuyeon
3     sunghyeon
Name: name, dtype: object

In [35]:
# data type 확인
type(df.name) # 위와 동일

pandas.core.series.Series

In [36]:
# index, colums 이름 정하기
df.index.name = 'No'
df.columns.name = 'Info'
df

Info,name,age,grade
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,hojin,20,S
1,yejin,25,A
2,sanghuyeon,28,B
3,sunghyeon,19,C


In [37]:
# 여러 개의 colums 확인
df[['name', 'age']]

Info,name,age
No,Unnamed: 1_level_1,Unnamed: 2_level_1
0,hojin,20
1,yejin,25
2,sanghuyeon,28
3,sunghyeon,19


In [38]:
# data 확인
df.shape 

(4, 3)

## DataFrame 활용
* Columns
* index
* data 추가 및 제거
* info
* mean, sum, min, max, std, median
* 대부분의 pandas 기능들은 원본에 영향 X
* inplace = True를 사용해서 원본에 영향 O

In [39]:
# Columns - 속성 확인 
df.columns

Index(['name', 'age', 'grade'], dtype='object', name='Info')

In [40]:
# index - data 확인
df.index

RangeIndex(start=0, stop=4, step=1, name='No')

In [41]:
# 새로운 colums(열) 추가
df['point'] = pd.Series([1.7, 2.3, 1.5, 3.5]) # 직접 추가
df['etc'] = 0 # 일괄 추가
df

Info,name,age,grade,point,etc
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,hojin,20,S,1.7,0
1,yejin,25,A,2.3,0
2,sanghuyeon,28,B,1.5,0
3,sunghyeon,19,C,3.5,0


In [42]:
# 제거
del df['point']
del df['etc']
# del 함수는 기존 데이터들이 있어야지만 실행된다.
# (두 번 이상 실행하면 오류 발생)       

In [43]:
# 지워진것 확인
df

Info,name,age,grade
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,hojin,20,S
1,yejin,25,A
2,sanghuyeon,28,B
3,sunghyeon,19,C


In [44]:
# info - 대략적인 정보 얻기
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    4 non-null      object
 1   age     4 non-null      int64 
 2   grade   4 non-null      object
dtypes: int64(1), object(2)
memory usage: 224.0+ bytes


In [45]:
# describe
df.describe() # 숫자 데이터로 이루어진 컬럼의 통계정보 
# data의 개수, 평균, std, 최소, 최대 등

Info,age
count,4.0
mean,23.0
std,4.242641
min,19.0
25%,19.75
50%,22.5
75%,25.75
max,28.0


In [47]:
# head
# 데이터 프레임 상단의 데이터만 조회
df.head(2)  # 최상단 2개의 데이터 조회

Info,name,age,grade
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,hojin,20,S
1,yejin,25,A


In [48]:
# tail
# 데이터프레임 최하단 N개 행을 조회
df.tail(3) # 최하단 3개의 데이터 조회

Info,name,age,grade
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,yejin,25,A
2,sanghuyeon,28,B
3,sunghyeon,19,C


In [49]:
# Transpose
df.T # 데이터프레임의 행과 열을 뒤집어준다.

No,0,1,2,3
Info,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
name,hojin,yejin,sanghuyeon,sunghyeon
age,20,25,28,19
grade,S,A,B,C


In [50]:
# sort_values - 기본 오름차순
# 데이터프레임을 특정 컬럼을 기준으로 정렬한다.
# df.sort_values('기준컬럼이름', ascending=오름차순여부)
df.sort_values(by='age')

Info,name,age,grade
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3,sunghyeon,19,C
0,hojin,20,S
1,yejin,25,A
2,sanghuyeon,28,B


In [51]:
# 확인 - 원본에 반영 X 
df

Info,name,age,grade
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,hojin,20,S
1,yejin,25,A
2,sanghuyeon,28,B
3,sunghyeon,19,C


In [52]:
# 원본에 반영 O
df.sort_values(by='age',inplace=True) # inplace를 이용해서 원본에 반영
df

Info,name,age,grade
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3,sunghyeon,19,C
0,hojin,20,S
1,yejin,25,A
2,sanghuyeon,28,B


In [55]:
# 원본에 반영 O, 내림차순
df.sort_values(by='age',
                ascending=False, # ascending = False를 이용해서 내림차순으로 함
               inplace=True)
df

Info,name,age,grade
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2,sanghuyeon,28,B
1,yejin,25,A
0,hojin,20,S
3,sunghyeon,19,C


In [54]:
# index(low) 기준으로 정렬 sort_index()
print(df.sort_index())
print(df.sort_index(ascending=False))      # ascendong = False  내림차순 정렬 

Info        name  age grade
No                         
0          hojin   20     S
1          yejin   25     A
2     sanghuyeon   28     B
3      sunghyeon   19     C
Info        name  age grade
No                         
3      sunghyeon   19     C
2     sanghuyeon   28     B
1          yejin   25     A
0          hojin   20     S


In [56]:
# 컬럼명 기준으로 정렬
df.sort_index(axis=1) # axis를 통해서 Columns의 이름 순서대로함.

Info,age,grade,name
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2,28,B,sanghuyeon
1,25,A,yejin
0,20,S,hojin
3,19,C,sunghyeon


In [58]:
# 밑에 사용을 위한 선언
dic_df2 = {
    'name' : ['hojin', 'yejin', 'sanghuyeon', 'sunghyeon'],
    'age' : [20, 25, 28, None], # 숫자랑 문자랑 섞이면 뒤에서 계산을 못함. int + str 불가능. Dtype에 object면 계산이 안되는 것.
    'grade' : ['S', 'A', 'B', 'C']
}
dic_df2

{'name': ['hojin', 'yejin', 'sanghuyeon', 'sunghyeon'],
 'age': [20, 25, 28, None],
 'grade': ['S', 'A', 'B', 'C']}

In [59]:
df2 = pd.DataFrame(dic_df2)
df2

Unnamed: 0,name,age,grade
0,hojin,20.0,S
1,yejin,25.0,A
2,sanghuyeon,28.0,B
3,sunghyeon,,C


In [60]:
# 빈 데이터 확인 - 차후에 학습시 비어 있는 데이터가 있으면 안됨.
df2.isnull()

Unnamed: 0,name,age,grade
0,False,False,False
1,False,False,False
2,False,False,False
3,False,True,False


In [61]:
# df 데이터 다시 확인
df

Info,name,age,grade
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2,sanghuyeon,28,B
1,yejin,25,A
0,hojin,20,S
3,sunghyeon,19,C


In [62]:
# mean() - 숫자형 데이터의 평균 구하기, 
# 나머지 데이터를 사용시 오류
df['age'].mean() 

23.0

In [63]:
# median() - 해당 열의 중앙 값 출력 
# 홀수(1,3,7) -> 3, 짝수(2, 3, 5 ,9) -> (3+5)/2 = 4
df['age'].median()

22.5

In [64]:
# sum() - 해당 데이터들의 합을 구함.
df['age'].sum()

92

In [65]:
# std() - 해당 데이터들의 표준편차를 구함.
df['age'].std()

4.242640687119285

In [66]:
# max() - 해당 데이터들 중 최대값을 구함.
df['age'].max()

28

In [67]:
# min() - 해당 데이터들 중 최소값을 구함.
df['age'].min()

19