### Pandas (판다스) 란 무엇인가?

- 데이터 분석을 위한 핵심라이브러리로써 고유한 자료구조인 Series 와 DataFrame 을 활용하여 빅데이터 분석에 큰 강점을 가진다.

- Series, DataFrame 는 numpy의 1차원, 2차원 array와 유사하다.

- 간단한 차이점이라고 하면, array에 index가 있는 형태라고 볼 수 있다.

In [2]:
import os
import pandas as pd

In [3]:
# 폴더 이름 맨 앞에 . 이 있는 파일은 숨김파일이다.

os.listdir('./drive/MyDrive/colaboratory')


['data', 'DF_1.ipynb']

In [4]:
# 데이터 폴더 src 변수 할당
base_src =  './drive/MyDrive/colaboratory/data'

# friend.csv 파일 src 변수 할당
friend_src = base_src + '/friend.csv'

In [5]:
# pandas 의 read_csv -> 데이터 불러오기
# read_csv 가 안 읽어지는 이유? utf-8 로 저장되지 않아서
# 뒤에 engine = 'python' 을 추가

df =  pd.read_csv(friend_src, encoding = 'utf-8')

In [6]:
# head() 데이터 부분 읽기, head() -> 5개만 읽기
# default 값이 5이다.
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [7]:
new_frined_src =  base_src + '/new_frined.csv'

In [8]:
# index = False 는 중요하다. -> 인덱스가 자동으로 추가되기 때문이다.
# 불필요한 index 생성을 방지하기 위함이다.
# 조회, 정렬를 위해서 인덱스를 사용한다.

df.to_csv(new_frined_src, index = False, encoding = 'utf-8')


In [9]:
# Series 실습

import numpy as np

# index 가 없는 행렬이 생성
# 연산 행렬을 하기 좋은 라이브러리
np.array([1, 2, 3])

array([1, 2, 3])

In [10]:
# 연산이 array 보다 느리다.

pd.Series([1, 2, 3])

0    1
1    2
2    3
dtype: int64

In [11]:
# 데이터프레임(집합) -> 시리즈(단일) -> 데이터프레임
series = df['name']
series

0     John
1    Jenny
2     Nate
3    Julia
4    Brian
5    Chris
Name: name, dtype: object

In [12]:
# pd.Series 함수를 통해서 만드는 것도 가능하다

series = pd.Series([1, 2, 3, 4])
series

0    1
1    2
2    3
3    4
dtype: int64

In [13]:
# pd.Series 의 옵션들을 확인
# index -> 할당값의 지정 이름, 중복이 가능 ['a', 'a', 'b', 'c']
# dtype -> 대표적: int, float, string, boolean 등

series = pd.Series([1, 2, 3, 4], index = ['a', 'a', 'b', 'c'], dtype =float)
series

a    1.0
a    2.0
b    3.0
c    4.0
dtype: float64

In [14]:
series = pd.Series([10, 2, 5, 4], index = ['a', 'a', 'b', 'c'], dtype =float)

# 작업 후  변수 할당이 필요하다. default 값이 오름차순이다. False 를 사용하면 내림차순 정렬이 가능하다.
# descending 은 없다.
series.sort_values(ascending = True)

a     2.0
c     4.0
b     5.0
a    10.0
dtype: float64

In [15]:
series

a    10.0
a     2.0
b     5.0
c     4.0
dtype: float64

In [16]:
# DataFrame 실습

# 헝가리안 표기법 = 이후 표기에서 헷갈리거나 의미가 명확하지 않으면 전달의 오류가 있을 수 있기 때문에
# 명확하게 표기해주는 것이 좋다.

df = pd.DataFrame({'a': [2, 3], 'b': [5, 10]})
df

Unnamed: 0,a,b
0,2,5
1,3,10


In [17]:
# 이런식으로 df 를 만드는 경우가 많기 때문에 알아두는 것이 좋다.
# df = pd.DataFrame()
# raw data -> 가공처리(for) -> df = pd.concat([df, df_new], axis = 0)

In [18]:
df = pd.DataFrame([[2, 5, 100], [3, 10, 5], [10, 20, 11]]
                  , columns = ['a', 'b', 'c'], index = ['가', '나', '다'], dtype=float)
df

Unnamed: 0,a,b,c
가,2.0,5.0,100.0
나,3.0,10.0,5.0
다,10.0,20.0,11.0


In [23]:
# DataFrame 행, 열 선택 및 필터링
df = pd.read_csv(friend_src, encoding = 'utf-8')
df.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


In [25]:
# index 2번에 해당하는 row 가져오기
df.iloc[4]

name      Brian
age          45
job     manager
Name: 4, dtype: object

In [26]:
df.iloc[[2]] # select * from friend where pk = 2, 숫자로 검색

Unnamed: 0,name,age,job
2,Nate,30,teacher


In [27]:
df.iloc[[4]] # DataFrame 형태로 가져오기, 리스트로 변환해서 index를 검색한다고 보면된다.

Unnamed: 0,name,age,job
4,Brian,45,manager


In [28]:
df['job']

0      student
1    developer
2      teacher
3      dentist
4      manager
5       intern
Name: job, dtype: object

In [30]:
df.loc[:,'job'] # DataFrame index 검색 문자형으로 검색, 여기서  , 은 전체를 의미한다고 보면 된다.

0      student
1    developer
2      teacher
3      dentist
4      manager
5       intern
Name: job, dtype: object

In [32]:
# 이 두 가지의 차이를 잘 알아야 한다.
df.iloc[1, 2]
df.loc[1, 'job']

'developer'

In [33]:
df.iloc[2:4] # column 검색 x

Unnamed: 0,name,age,job
2,Nate,30,teacher
3,Julia,40,dentist


In [34]:
df.iloc[:,:2]

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


In [None]:
# object => string
# 문자 > 실수 > 정수 의 우선 순위를 가진다.

In [None]:
# DataFrame 행, 열 삭제
# 머신러닝 => 차원의 저주, prune, 대체값... 등등 -> 변수가 많아짐
# 전처리 과정에서 None 값을 대체에는 삭제, 대체... 등의 여러가지 방법이 존재
# 시각화 과정을 거쳐서 결정을 할 수 있다.

In [38]:
df = pd.DataFrame(np.arange(12).reshape(3, 4),
                  columns=['A', 'B', 'C', 'D'])

In [36]:
# 0 은 row 방향, 1 은 column 방향 inplace 는 변수 할당 없이 원본데이터에 바로 저장하는 파라미터이다.
df.drop(['B', 'C'], axis=1, inplace = True)

Unnamed: 0,A,D
0,0,3
1,4,7
2,8,11


In [39]:
df.drop([0, 1]) # axis 의 default 값은 0 이다.

Unnamed: 0,A,B,C,D
2,8,9,10,11


In [41]:
# DataFrame 수정하기
df.loc[1, 'C'] = '육'

In [45]:
# 열, 행 index 를 기준으로 검색한다.
df.iloc[1, 2] = 6

In [46]:
df

Unnamed: 0,A,B,C,D
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
