Pandas 개념

     - 방대한 양의 정형 데이터 처리에 유용한 머신 러닝 라이브러리
     - 숫자만 사용하는 numpy 와 달리 문자, 숫자 등 다양한 자료형을 갖는 데이터들을 한번에 연산 가능
     - pandas 에서는 데이터 배열을 series 또는 dataframe 이라 부름
     - series 는 numpy 의 벡터와 같은 1차원 형태이고, dataframe 은 numpy 의 행렬과 같은 2차원 형태

Pandas 특징

     - series 와 dataframe 형태의 데이터를 제어
     - 인덱스를 정수이외 실수, 문자 등 다양한 데이터 유형으로 설정할 수 있음

Series

    - 1차원 배열
    - numpy 의 열 벡터 형태(딕셔너리와 비슷한 구조)
    - index 로 데이터 저장

In [4]:
# pandas 객체.series([데이터 0, ..., 데이터 n],[index 0, ..., index list n])
# series 생성
import pandas as pd
# list 전달하여 series 생성
# ()안의 []는 python 의 list 이고, 인덱스 list 생략하면 0부터 시작하는 정수형으로 생성

obj = pd.Series([60,70,12],['A','B','C'])
obj

A    60
B    70
C    12
dtype: int64

In [6]:
# pandas 객체.series([dictionary])

obj = pd.Series({'a' : 60, 'b' : '70', 'c' : 80})
obj

a    60
b    70
c    80
dtype: object

In [8]:
# series 와 series 간의 연산에서는 index 가 일치하는 것끼리 연산을 하며
# index 가 일치하지 않을 때는 결과로 'NaN'을 출력한다

obj1 = pd.Series([6, 7, 9],['A','B','C'])
obj2 = pd.Series([4, 5, 8],['D','A','B'])
obj1 + obj2

A    11.0
B    15.0
C     NaN
D     NaN
dtype: float64

Dataframe

    - 2차원 배열
    - numpy 의 행렬 형태
    - index 와 column 으로 데이터 저장

* pandas 객체.DataFrame(2차원배열, index=index배열, columns=column배열)   # 배열 이용

* pandas 객체.DataFrame([series list], [index 0, ..., index list n])   # series 이용

* pandas 객체.DataFrame(딕셔너리, [index 0, ..., index list n])   # 딕셔너리 이용

In [10]:
# create dataframe (series 이용)

a = pd.Series([60, 3.8, 4.5, 'Q'], index=['age','weight','height','nickname']) 
b = pd.Series([70, 7.5, 5.6, 'W'], index=['age','weight','height','nickname']) 
c = pd.Series([12, 6.4, 5.2, 'E'], index=['age','weight','height','nickname']) 
obj = pd.DataFrame([a, b, c], index=['grandpa','grandma','grandson'])
obj

Unnamed: 0,age,weight,height,nickname
grandpa,60,3.8,4.5,Q
grandma,70,7.5,5.6,W
grandson,12,6.4,5.2,E


In [11]:
# create dataframe (딕셔너리 이용)
# 딕셔너리로 데이터프레임을 생성하려면 딕셔너리 키가 속성명(컬럼명)이 되고 리스트의 요소가 열이 됨

dic = {'age':[60, 70, 12], 'weight':[3.8, 7.5, 6.4], 'height':[4.5, 5.6, 5.2]
     , 'nickname':['Q','W','E']}
obj = pd.DataFrame(dic, ['grandpa','grandma','grandson'])
obj

Unnamed: 0,age,weight,height,nickname
grandpa,60,3.8,4.5,Q
grandma,70,7.5,5.6,W
grandson,12,6.4,5.2,E


In [12]:
# index(행) 또는 column(열) 접근 또는 series 처럼 특정 데이터에 접근

dic = {'age':[60, 70, 12], 'weight':[3.8, 7.5, 6.4], 'height':[4.5, 5.6, 5.2]
     , 'nickname':['Q','W','E']}
obj = pd.DataFrame(dic, ['grandpa','grandma','grandson'])
# 한 개의 column 을 series 로 출력
obj['nickname']

grandpa     Q
grandma     W
grandson    E
Name: nickname, dtype: object

In [None]:
# 한 개의 column 을 추출하면 series 로 출력되지만 여러 개 column 을 추출하면 KeyError 발생
# 이유는 데이터프레임이 []안에 값을 column 으로 인식하기 때문

dic = {'age':[60, 70, 12], 'weight':[3.8, 7.5, 6.4], 'height':[4.5, 5.6, 5.2]
     , 'nickname':['Q','W','E']}
obj = pd.DataFrame(dic, ['grandpa','grandma','grandson'])
obj['age','nickname']

In [14]:
# 여러 개 가져올 때 [] list 형

dic = {'age':[60, 70, 12], 'weight':[3.8, 7.5, 6.4], 'height':[4.5, 5.6, 5.2]
     , 'nickname':['Q','W','E']}
obj = pd.DataFrame(dic, ['grandpa','grandma','grandson'])
obj[['age','nickname']]

Unnamed: 0,age,nickname
grandpa,60,Q
grandma,70,W
grandson,12,E


In [17]:
# []는 column 을 선택할 때 사용
# 행 선택 loc[] 또는 iloc[] 사용
#   - loc[]  : index 명으로 접근
#   - iloc[] : 0 부터 시작하는 정수형 index 로 행 접근(설정된 index 와 상관없음)

dic = {'age':[60, 70, 12, 45, 42]
     , 'weight':[3.8, 7.5, 6.4, 8.1, 4.6]
     , 'height':[4.5, 5.6, 5.2, 6.7, 6.1]
     , 'nickname':['Q','W','E','R','T']}
obj = pd.DataFrame(dic, index=['grandpa','grandma','grandson','papa','mama'])
obj
obj.loc['grandma']

age          70
weight      7.5
height      5.6
nickname      W
Name: grandma, dtype: object

In [19]:
dic = {'age':[60, 70, 12, 45, 42]
     , 'weight':[3.8, 7.5, 6.4, 8.1, 4.6]
     , 'height':[4.5, 5.6, 5.2, 6.7, 6.1]
     , 'nickname':['Q','W','E','R','T']}
obj = pd.DataFrame(dic, index=['grandpa','grandma','grandson','papa','mama'])
obj
obj.loc[['grandma','mama']]

Unnamed: 0,age,weight,height,nickname
grandma,70,7.5,5.6,W
mama,42,4.6,6.1,T


In [20]:
dic = {'age':[60, 70, 12, 45, 42]
     , 'weight':[3.8, 7.5, 6.4, 8.1, 4.6]
     , 'height':[4.5, 5.6, 5.2, 6.7, 6.1]
     , 'nickname':['Q','W','E','R','T']}
obj = pd.DataFrame(dic, index=['grandpa','grandma','grandson','papa','mama'])
obj
obj.iloc[[1,2],[1,2]]

Unnamed: 0,weight,height
grandma,7.5,5.6
grandson,6.4,5.2


In [22]:
# 열 추가
# dataframe, dataframe 객체['새로운 컬럼명'] = 추가할 데이터 값 또는 리스트

dic = {'age':[60, 70, 12, 45, 42]
     , 'weight':[3.8, 7.5, 6.4, 8.1, 4.6]
     , 'height':[4.5, 5.6, 5.2, 6.7, 6.1]
     , 'nickname':['Q','W','E','R','T']}
obj = pd.DataFrame(dic, index=['grandpa','grandma','grandson','papa','mama'])
obj['sex'] = ['M','F','M','M','F']
obj

Unnamed: 0,age,weight,height,nickname,sex
grandpa,60,3.8,4.5,Q,M
grandma,70,7.5,5.6,W,F
grandson,12,6.4,5.2,E,M
papa,45,8.1,6.7,R,M
mama,42,4.6,6.1,T,F


In [29]:
# 열 추가
# insert() 함수
# dataframe, dataframe 객체.insert(컬럼 추가 위치, 컬럼명, 추가할 데이터 값 또는 리스트)

dic = {'age':[60, 70, 12, 45, 42]
     , 'weight':[3.8, 7.5, 6.4, 8.1, 4.6]
     , 'height':[4.5, 5.6, 5.2, 6.7, 6.1]
     , 'nickname':['Q','W','E','R','T']}
obj = pd.DataFrame(dic, index=['grandpa','grandma','grandson','papa','mama'])
obj.insert(1, 'sex', ['M','F','M','M','F'])
obj

Unnamed: 0,age,sex,weight,height,nickname
grandpa,60,M,3.8,4.5,Q
grandma,70,F,7.5,5.6,W
grandson,12,M,6.4,5.2,E
papa,45,M,8.1,6.7,R
mama,42,F,4.6,6.1,T


In [30]:
# 행 추가 loc[]
# dataframe, dataframe 객체.loc['추가할 index 명'] = 추가할 데이터 값 또는 리스트

dic = {'age':[60, 70, 12, 45, 42]
     , 'weight':[3.8, 7.5, 6.4, 8.1, 4.6]
     , 'height':[4.5, 5.6, 5.2, 6.7, 6.1]
     , 'nickname':['Q','W','E','R','T']}
obj = pd.DataFrame(dic, index=['grandpa','grandma','grandson','papa','mama'])
obj.loc['uncle'] = [33, 8.2, 6.9, 'Y']
obj

Unnamed: 0,age,weight,height,nickname
grandpa,60,3.8,4.5,Q
grandma,70,7.5,5.6,W
grandson,12,6.4,5.2,E
papa,45,8.1,6.7,R
mama,42,4.6,6.1,T
uncle,33,8.2,6.9,Y


Pandas - dataframe 다루기

    - dataframe 객체.loc['index 명', 'column 명'] = 새로운 값

    - dataframe 객체.iloc['index 정수형 번호', 'column 정수형 번호'] = 새로운 값

    - dataframe 객체.set_index('column 명', 'inplace=True/False)

        - 기본적으로 index 를 변경한 결과는 원본의 복사본을 이용하여 출력하므로 원본 데이터는 변경되지 않음
        - 원본 데이터를 삭제하려면 inplace=True 설정함


In [31]:
# cloumn 값 수정

dic = {'age':[60, 70, 12, 45, 42]
     , 'weight':[3.8, 7.5, 6.4, 8.1, 4.6]
     , 'height':[4.5, 5.6, 5.2, 6.7, 6.1]
     , 'nickname':['Q','W','E','R','T']}
obj = pd.DataFrame(dic, index=['grandpa','grandma','grandson','papa','mama'])
obj.loc['grandma', 'age'] = 69      # obj.iloc[[1,0]] = 69
obj.loc[['grandson','papa'],['weight','height']] = [[6.3, 5.3],[7.9, 6.6]]
obj

Unnamed: 0,age,weight,height,nickname
grandpa,60,3.8,4.5,Q
grandma,69,7.5,5.6,W
grandson,12,6.3,5.3,E
papa,45,7.9,6.6,R
mama,42,4.6,6.1,T


In [38]:
# index 명 변경
# dataframe 객체.rename(index={'현재 index 명':'새로운 index 명' , ...}, inplace=True/False)

dic = {'age':[60, 70, 12, 45, 42]
     , 'weight':[3.8, 7.5, 6.4, 8.1, 4.6]
     , 'height':[4.5, 5.6, 5.2, 6.7, 6.1]
     , 'nickname':['Q','W','E','R','T']}
obj = pd.DataFrame(dic, index=['grandpa','grandma','grandson','papa','mama'])
obj.rename(index={'grandpa':'GP'}, inplace=True)
obj

Unnamed: 0,age,weight,height,nickname
GP,60,3.8,4.5,Q
grandma,70,7.5,5.6,W
grandson,12,6.4,5.2,E
papa,45,8.1,6.7,R
mama,42,4.6,6.1,T


In [40]:
# column 명 변경
# dataframe.rename(columns={'현재 column 명':'새로운 column 명'}, inplace=True/False)

dic = {'age':[60, 70, 12, 45, 42]
     , 'weight':[3.8, 7.5, 6.4, 8.1, 4.6]
     , 'height':[4.5, 5.6, 5.2, 6.7, 6.1]
     , 'nickname':['Q','W','E','R','T']}
obj = pd.DataFrame(dic, index=['grandpa','grandma','grandson','papa','mama'])
obj.rename(columns={'age':'A', 'weight':'W', 'height':'H', 'nickname':'N'}, inplace=True)
obj

Unnamed: 0,A,W,H,N
grandpa,60,3.8,4.5,Q
grandma,70,7.5,5.6,W
grandson,12,6.4,5.2,E
papa,45,8.1,6.7,R
mama,42,4.6,6.1,T


Pandas - 데이터프레임 다루기

    - axis = 0 
        -> 인덱스(행)
    
    - axis = 1
        -> 컬럼(열)

In [69]:
# 삭제
# dataframe.drop(['삭제할 index 명' / list], axis=0, inplace=True/False)
# 기본적 연산 결과는 원본의 복사본을 사용하여 출력
# 따라서 원본을 삭제할 때는 inplace=True 로 한다

dic = {'age':[60, 70, 12, 45, 42]
     , 'weight':[3.8, 7.5, 6.4, 8.1, 4.6]
     , 'height':[4.5, 5.6, 5.2, 6.7, 6.1]
     , 'nickname':['Q','W','E','R','T']}
obj = pd.DataFrame(dic, index=['grandpa','grandma','grandson','papa','mama'])
obj.drop('mama', axis=0, inplace=True)
obj.drop('nickname', axis=1, inplace=True)
obj

Unnamed: 0,age,weight,height
grandpa,60,3.8,4.5
grandma,70,7.5,5.6
grandson,12,6.4,5.2
papa,45,8.1,6.7


In [65]:
# index 와 column 바꾸기

dic = {'age':[60, 70, 12, 45, 42]
     , 'weight':[3.8, 7.5, 6.4, 8.1, 4.6]
     , 'height':[4.5, 5.6, 5.2, 6.7, 6.1]
     , 'nickname':['Q','W','E','R','T']}
obj = pd.DataFrame(dic, index=['grandpa','grandma','grandson','papa','mama'])
obj = obj.transpose()
obj

Unnamed: 0,grandpa,grandma,grandson,papa,mama
age,60,70,12,45,42
weight,3.8,7.5,6.4,8.1,4.6
height,4.5,5.6,5.2,6.7,6.1
nickname,Q,W,E,R,T


In [4]:
# 원하는 조건 값 추출

import pandas as pd
tbl = pd.DataFrame({
    "weight": [ 80.0, 70.4, 65.5, 45.9, 51.2, 72.5 ],
    "height": [ 170,  180,  155,  143,  154,  160  ],
    "gender": [ "f",  "m",  "m",  "f",  "f",  "m"  ]
})
# --- height가 160 이상인 것
print(tbl[tbl.height >= 160])
# --- gender가 m 인 것
print(tbl[tbl.gender == "m"])

   weight  height gender
0    80.0     170      f
1    70.4     180      m
5    72.5     160      m
   weight  height gender
1    70.4     180      m
2    65.5     155      m
5    72.5     160      m


In [5]:
# 정렬하기

tbl = pd.DataFrame({
    "weight": [ 80.0, 70.4, 65.5, 45.9, 51.2, 72.5 ],
    "height": [ 170,  180,  155,  143,  154,  160  ],
    "gender": [ "f",  "m",  "m",  "f",  "f",  "m"  ]
})
print("----키로 정렬----")
print(tbl.sort_values(by="height"))
print("----몸무게로 정렬----")
print(tbl.sort_values(by="weight", ascending=True))
print(tbl.sort_values(by="weight", ascending=False))

----키로 정렬----
   weight  height gender
3    45.9     143      f
4    51.2     154      f
2    65.5     155      m
5    72.5     160      m
0    80.0     170      f
1    70.4     180      m
----몸무게로 정렬----
   weight  height gender
3    45.9     143      f
4    51.2     154      f
2    65.5     155      m
1    70.4     180      m
5    72.5     160      m
0    80.0     170      f
   weight  height gender
0    80.0     170      f
5    72.5     160      m
1    70.4     180      m
2    65.5     155      m
4    51.2     154      f
3    45.9     143      f
