### Pandas
- pandas는 for문을 사용하지 않고 데이터를 처리한다거나 배열 기반의 함수를 제공하는 등 Numpy의 배열 기반 계산 스타일을 많이 차용하였음.
- pandas와 Numpy의 가장 큰 차이점은 pandas는 표 형식의 데이터나 다양한 형태의 데이터를 다루는데 초점을 맞추어 설계했다는 것.
- (DataFrame)2차원 ndarray, (배열, 리스트, 튜플)의 사전 Numpy의 구조화 배열 등이 데이터 프레임의 데이터가 될 수 있다.
- 일반 파이썬 집합과는 달리 pandas의 인덱스는 중복되는 값을 허용한다.


In [2]:
# 1. Series
# 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조
import pandas as pd
import numpy as np

# index 직접 설정 가능
obj = pd.Series([4,7,-5,3], index=['d','b','c','a'])
print('#', obj[obj>0], '\n')

# 딕셔너리를 series로 가능
obj2 = {'ohio':350, 'Korea':750, 'India':None}
obj2 = pd.Series(obj2)
print(obj2, '\n')

# 누락된데이터 있는지 찾을때 사용.
print('# isnull()\n', pd.isnull(obj2),'\n')
print('# notnull()\n', pd.notnull(obj2),'\n')

# series + series( 없는 부분은 자동 none으로 처리)
obj3 = {'Fuck':450, 'Korea':600, 'China':None}
obj3 = pd.Series(obj3)
print('# obj2+obj3\n', obj2 + obj3, '\n')

# series 이름, index 이름
obj3.name = 'Country'
obj3.index.name = 'money'
print(obj3)


# d    4
b    7
a    3
dtype: int64 

ohio     350.0
Korea    750.0
India      NaN
dtype: float64 

# isnull()
 ohio     False
Korea    False
India     True
dtype: bool 

# notnull()
 ohio      True
Korea     True
India    False
dtype: bool 

# obj2+obj3
 China       NaN
Fuck        NaN
India       NaN
Korea    1350.0
ohio        NaN
dtype: float64 

money
Fuck     450.0
Korea    600.0
China      NaN
Name: Country, dtype: float64


In [3]:
# 2. Dataframe
# 같은 길이의 리스트에 담긴 사전을 이용하거나 Numpy 배열을 이용 하는 것
# Series와 마찬가지로 사전에 없는 값을 넘기면 결측치로 저장된다.

data1 = {'state':['Ohio','Ohio','Ohio','Korea','Nev','Ada','Hihello','Chii'],
        'year':[2010, 2010, 2013, 2014, 2015, 2016, 2017, 2018],
        'pop':[1.5, 3.2, 5.7, 6.2, 7.3, 8.1, 9.1, 10.3]}
df1 = pd.DataFrame(data1)
print(df1,'\n')

# 접근방법
# (1). 사전형식의 표기법 / (2) 속성 형식으로 
print(df1['state'],'\n')
print(df1.year,'\n')

# 열에 값을 대입
df1['pop']=np.arange(8.)
print(df1, '\n')
df1['pop'][1]=0.0

# 행 갯수
print("len(df): {0}".format(len(df1)))
print("len(df.axes[0]): {0}".format(len(df1.axes[0])))
print("df.shape[0]: {0}".format(df1.shape[0]))

     state  year   pop
0     Ohio  2010   1.5
1     Ohio  2010   3.2
2     Ohio  2013   5.7
3    Korea  2014   6.2
4      Nev  2015   7.3
5      Ada  2016   8.1
6  Hihello  2017   9.1
7     Chii  2018  10.3 

0       Ohio
1       Ohio
2       Ohio
3      Korea
4        Nev
5        Ada
6    Hihello
7       Chii
Name: state, dtype: object 

0    2010
1    2010
2    2013
3    2014
4    2015
5    2016
6    2017
7    2018
Name: year, dtype: int64 

     state  year  pop
0     Ohio  2010  0.0
1     Ohio  2010  1.0
2     Ohio  2013  2.0
3    Korea  2014  3.0
4      Nev  2015  4.0
5      Ada  2016  5.0
6  Hihello  2017  6.0
7     Chii  2018  7.0 

len(df): 8
len(df.axes[0]): 8
df.shape[0]: 8


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


In [3]:
# 데이터 프레임의 색인을 통해 얻은 컬럼은 내부데이터에대한 View이며 복사가 이루어지지 않는다.
# 실제 복사본이 필요할 때는 Series의 Copy를 이용 할 것
# 데이터 프레임이 서로 다른 dtype을 가지고 있다면 모든 컬럼을 수용하기 위해 그 칼럼의 배열이 dtype이 된다.


# 3.data frame 삽입 및 삭제

# 행에 값 접근 (행의 인덱스로 접근하는 것임 !!)
print(df1.loc[3], '\n')

# Series에 dataframe 추가시 크기가 동일해야 한다.존재하지 않는 색인에 대하여는 null
# 추가1 (열 추가)
add_series = pd.Series(['p','a','p','e','r','h','o','u'], index=range(0,8))
df1['movie']=add_series

print(df1, '\n')

# 추가 2 (행 추가)
df1.loc['8'] = ['Jap', 2020, 10.0, 'g']
df1.iloc[4] = ['Africa',2021, 12.3, 'h'] # 행 추가보단 교체 느낌 (기존께 해당것으로 바뀜)
print(df1, '\n')

state    Korea
year      2014
pop          3
Name: 3, dtype: object 

     state  year  pop movie
0     Ohio  2010  0.0     p
1     Ohio  2010  0.0     a
2     Ohio  2013  2.0     p
3    Korea  2014  3.0     e
4      Nev  2015  4.0     r
5      Ada  2016  5.0     h
6  Hihello  2017  6.0     o
7     Chii  2018  7.0     u 

     state  year   pop movie
0     Ohio  2010   0.0     p
1     Ohio  2010   0.0     a
2     Ohio  2013   2.0     p
3    Korea  2014   3.0     e
4   Africa  2021  12.3     h
5      Ada  2016   5.0     h
6  Hihello  2017   6.0     o
7     Chii  2018   7.0     u
8      Jap  2020  10.0     g 



In [4]:
# 삭제1 (열 삭제 열 이름으로 삭제함)
df2 = df1.copy()
del df2['movie']
print(df2, '\n')

# 삭제2 (행 삭제 인덱스 번호로 삭제함)
df2.drop([5], inplace=True) # 시 원본에서 삭제함
print(df2, '\n')

# 삭제3 (열 조건에 따라 행 삭제)
drop_num = df2[df2['year']==2013].index
df2 = df2.drop(drop_num)
print(df2, '\n')

# 삭제4 (중복 데이터 삭제) -> 중복 데이터 1개 빼고 다 삭제됨.
dupil_num = df2.duplicated().sum() # 중복되어 있는 행의 갯수
df2 = df2.drop_duplicates() # 중복 데이터 확인 후 삭제
print(dupil_num, '개\n', df2, '\n')

# 삭제 5 (drop 은 기본적으로 행 삭제 / axis=1이나 columns 지정시 열 삭제가 됨)
df2 = df2.drop([0,4])
print(df2)

     state  year   pop
0     Ohio  2010   0.0
1     Ohio  2010   0.0
2     Ohio  2013   2.0
3    Korea  2014   3.0
4   Africa  2021  12.3
5      Ada  2016   5.0
6  Hihello  2017   6.0
7     Chii  2018   7.0
8      Jap  2020  10.0 

     state  year   pop
0     Ohio  2010   0.0
1     Ohio  2010   0.0
2     Ohio  2013   2.0
3    Korea  2014   3.0
4   Africa  2021  12.3
6  Hihello  2017   6.0
7     Chii  2018   7.0
8      Jap  2020  10.0 

     state  year   pop
0     Ohio  2010   0.0
1     Ohio  2010   0.0
3    Korea  2014   3.0
4   Africa  2021  12.3
6  Hihello  2017   6.0
7     Chii  2018   7.0
8      Jap  2020  10.0 

1 개
      state  year   pop
0     Ohio  2010   0.0
3    Korea  2014   3.0
4   Africa  2021  12.3
6  Hihello  2017   6.0
7     Chii  2018   7.0
8      Jap  2020  10.0 

     state  year   pop
3    Korea  2014   3.0
6  Hihello  2017   6.0
7     Chii  2018   7.0
8      Jap  2020  10.0


In [5]:
# 4. 재색인
# 색인을 바꿔주는 대신 없는 색인은 NaN으로 처리
series1 = pd.Series([4.5, 7.2, 8.1, -5.3, -2.6], index=['c','d','e','f','g'])
series1 = series1.reindex(['a','b','c','d','e'])
print(series1, '\n')

# 시계열 같은 데이터에서 값을 보간하거나 채워 넣어야 할 경우 method = ffill 이용 가능
# ffill은 직전 값을 채워넣고, bfill은 다음 값을 채워 넣는다.
series2 = pd.Series(['blue','purple','yel'], index=[0,2,4])
print(series2, '\n')
series2.reindex(range(6), method='ffill') # 이전 값들로 채워진다
print(series2, '\n')

# 컬럼, 색인 둘다 변경 가능
df3 = pd.DataFrame(np.arange(9).reshape((3,3)), 
                   index=['a','c','b'], 
                   columns=['ohio','texas','seoul'])
df3 = df3.reindex(['a','c','d','e'])
print(df3, '\n')

df3 = df3.reindex(columns=['us','seoul','texas'])
print(df3, '\n')

# 비어 있는 데이터 체우기
df3 = df3.replace(np.nan, 0.0)
print(df3,'\n')

# 특정 값 바꾸기
df3 = df3.replace([1.0, 2.0], [1.5,2.5])
print(df3,'\n')

# 특정 열만 바꾸기
df3 = df3.replace({'us':0},{'us':4.7})
print(df3,'\n')

a    NaN
b    NaN
c    4.5
d    7.2
e    8.1
dtype: float64 

0      blue
2    purple
4       yel
dtype: object 

0      blue
2    purple
4       yel
dtype: object 

   ohio  texas  seoul
a   0.0    1.0    2.0
c   3.0    4.0    5.0
d   NaN    NaN    NaN
e   NaN    NaN    NaN 

   us  seoul  texas
a NaN    2.0    1.0
c NaN    5.0    4.0
d NaN    NaN    NaN
e NaN    NaN    NaN 

    us  seoul  texas
a  0.0    2.0    1.0
c  0.0    5.0    4.0
d  0.0    0.0    0.0
e  0.0    0.0    0.0 

    us  seoul  texas
a  0.0    2.5    1.5
c  0.0    5.0    4.0
d  0.0    0.0    0.0
e  0.0    0.0    0.0 

    us  seoul  texas
a  4.7    2.5    1.5
c  4.7    5.0    4.0
d  4.7    0.0    0.0
e  4.7    0.0    0.0 



In [6]:
# pandas 는 isnull() == isna() 사실상 같은 역할을 함 pandas는 numpy위에 올려지고 nan 값 알아서 채워주니까
# numpy 에서는 isna 와 isnull 이 따로 존재.

#  결측값 체크
df4 = df3.replace(0.0, np.nan)
print(df4.isna(), '\n')
df4.fillna(77)
print(df4, '\n')

# 결측치 항 삭제
df4 = df4.dropna()
print(df4, '\n')

      us  seoul  texas
a  False  False  False
c  False  False  False
d  False   True   True
e  False   True   True 

    us  seoul  texas
a  4.7    2.5    1.5
c  4.7    5.0    4.0
d  4.7    NaN    NaN
e  4.7    NaN    NaN 

    us  seoul  texas
a  4.7    2.5    1.5
c  4.7    5.0    4.0 



In [7]:
# 슬라이싱
# 
# Series 슬라이싱
series2 = pd.Series(np.arange(4.), index=['a','b','c','d'])
print(series2[1:3],'\n')

# 라벨 이름으로 슬라이싱 하면 끝에점도 포함하
print(series2['b':'c'],'\n')

# 데이터프레임 슬라이싱
df5 = pd.DataFrame(np.arange(16).reshape((4,4)), 
                   index=['a','b','c','d'],
                   columns = ['one','two','three','four'])
print(df5,'\n')

# 색인시 중복값이 있으면 series 형태로 반환 / 없으면 원소 형태로 반환
# loc 는 인덱스 단위로 읽기 (index - a,b,c,d) / iloc 는 행 단위로 읽기 (0, 1, 2, 3, 4)
# 색인1 (열)
print(df5[:2],'\n')

# 색인2 (열2)
print(df5[df5['three']>5],'\n')

# 색인3 (행 중 조건)
print(df5.loc['c', ['two','three']], '\n')

# 색인4 (한 좌표  at함수 / iat함수)
print("df5.at['b','three'] : ", df5.at['b','three']) # label 이름으로 찾음
print("df5.iat[1,1] : ", df5.iat[1,1]) # label 번호로 찾음

b    1.0
c    2.0
dtype: float64 

b    1.0
c    2.0
dtype: float64 

   one  two  three  four
a    0    1      2     3
b    4    5      6     7
c    8    9     10    11
d   12   13     14    15 

   one  two  three  four
a    0    1      2     3
b    4    5      6     7 

   one  two  three  four
b    4    5      6     7
c    8    9     10    11
d   12   13     14    15 

two       9
three    10
Name: c, dtype: int32 

df5.at['b','three'] :  6
df5.iat[1,1] :  5


In [12]:
# loc (three 열)
print(df5.loc[:,'three'], '\n')

# loc 
print(df5.loc[df5['three'] > 9, :], '\n')

# loc 2
df6 = pd.DataFrame([['c','d','c','e'],['f','f','g','h'], ['c','e','c','f']], 
                   columns=["첫","둘","셋","넷"], 
                   index=["1행","2행","3행"])
print(df6,'\n')
print(df6.loc[df6['셋']=='c', :], '\n')
print(df6.loc[:, ['넷']], '\n')
print(df6.loc['1행','넷'], '\n')

# 행 읽는 방법 2가지 (슬라이싱 or loc, iloc)
print(df6[0:1])
print(df6.loc['2행'],'\n')

a     2
b     6
c    10
d    14
Name: three, dtype: int32 

   one  two  three  four
c    8    9     10    11
d   12   13     14    15 

    첫  둘  셋  넷
1행  c  d  c  e
2행  f  f  g  h
3행  c  e  c  f 

    첫  둘  셋  넷
1행  c  d  c  e
3행  c  e  c  f 

    넷
1행  e
2행  h
3행  f 

e 

    첫  둘  셋  넷
1행  c  d  c  e
첫    f
둘    f
셋    g
넷    h
Name: 2행, dtype: object 



In [13]:
# 산술연산
df7 = pd.DataFrame(np.arange(9.).reshape((3,3)), columns = list('bde'), index=['Ohio','Texas','Coloradp'])
df8 = pd.DataFrame(np.arange(12.).reshape((4,3)), columns = list('bde'), index=['Utah','Ohio','Texas','Coloradp'])

print('df7\n', df7,'\n')
print('df8\n', df8,'\n')
print('단순 더하기\n', df7 + df8, '\n')
df9 = df7.add(df8, fill_value=0)
print('add함수1\n', df9, '\n')

# 각 열별로 빼기
df10 = df9.sub([3.0, 2.0, 1.5, 1.0], axis='index')
print('sub함수1\n', df10, '\n')

df11 = df9.sub([5.0, 3.0, 2.5], axis='columns')
print('sub함수2\n', df11, '\n')

df7
             b    d    e
Ohio      0.0  1.0  2.0
Texas     3.0  4.0  5.0
Coloradp  6.0  7.0  8.0 

df8
             b     d     e
Utah      0.0   1.0   2.0
Ohio      3.0   4.0   5.0
Texas     6.0   7.0   8.0
Coloradp  9.0  10.0  11.0 

단순 더하기
              b     d     e
Coloradp  15.0  17.0  19.0
Ohio       3.0   5.0   7.0
Texas      9.0  11.0  13.0
Utah       NaN   NaN   NaN 

add함수1
              b     d     e
Coloradp  15.0  17.0  19.0
Ohio       3.0   5.0   7.0
Texas      9.0  11.0  13.0
Utah       0.0   1.0   2.0 

sub함수1
              b     d     e
Coloradp  12.0  14.0  16.0
Ohio       1.0   3.0   5.0
Texas      7.5   9.5  11.5
Utah      -1.0   0.0   1.0 

sub함수2
              b     d     e
Coloradp  10.0  14.0  16.5
Ohio      -2.0   2.0   4.5
Texas      4.0   8.0  10.5
Utah      -5.0  -2.0  -0.5 



In [14]:
# 함수 적용하기 (apply - series 단, applymap - 각각 원소 단)
df12 = df7.copy()
print('df12\n',df12, '\n')

f = lambda x:x.max() - x.min()

# 행방향 ㅜ 아래쪽
df13 = df12.apply(f,axis='columns')
print('apply_columns\n', df13, '\n')

# 로우 -> 
df14 = df12.apply(f,axis='rows')
print('apply_rows\n', df14, '\n')

# applymap - 원소 단
f2 = lambda x: '%.3f' % x
df15 = df12.applymap(f2)
print('applymap\n', df15,'\n')

df12
             b    d    e
Ohio      0.0  1.0  2.0
Texas     3.0  4.0  5.0
Coloradp  6.0  7.0  8.0 

apply_columns
 Ohio        2.0
Texas       2.0
Coloradp    2.0
dtype: float64 

apply_rows
 b    6.0
d    6.0
e    6.0
dtype: float64 

applymap
               b      d      e
Ohio      0.000  1.000  2.000
Texas     3.000  4.000  5.000
Coloradp  6.000  7.000  8.000 



In [15]:
# 정렬과 순위
df16 = pd.DataFrame(np.arange(8).reshape((2,4)),
                    index = ['three','one'],
                    columns=['d','a','b','c'])

print('index 기준 정렬\n', df16.sort_index(),'\n') # index 기준 정렬
print('columns 기준 정렬\n', df16.sort_index(axis=1),'\n') # columns 기준 정렬

# Series 값에 따라 정렬
obj = pd.Series([4, np.nan, 7, -3, 2, 5])
print('sort_values()\n', obj.sort_values(),'\n')

# dataframe 값에 따라 정렬
df17 = pd.DataFrame({'b':[4,7,-3,2], 'c':[0,1,0,1]})
print('data frame sort_values\n', df17.sort_values(by='b'), '\n')

# 순위 (랭크)
print('rank()\n', obj.rank(),'\n')
print('rank()-reverse\n', obj.rank(ascending=False), '\n')

index 기준 정렬
        d  a  b  c
one    4  5  6  7
three  0  1  2  3 

columns 기준 정렬
        a  b  c  d
three  1  2  3  0
one    5  6  7  4 

sort_values()
 3   -3.0
4    2.0
0    4.0
5    5.0
2    7.0
1    NaN
dtype: float64 

data frame sort_values
    b  c
2 -3  0
3  2  1
0  4  0
1  7  1 

rank()
 0    3.0
1    NaN
2    5.0
3    1.0
4    2.0
5    4.0
dtype: float64 

rank()-reverse
 0    3.0
1    NaN
2    1.0
3    5.0
4    4.0
5    2.0
dtype: float64 



In [16]:
# 기술통계 계산과 요약
# axis 0은 row 고 1은 columns 이다 
# skipna (누락된 값을 제외할 것인지 정하는 옵션 - 기본값은 True)
df18 = df8.copy()
print('df18\n',df18,'\n')
print('df-sum-rows\n', df18.sum(axis='rows'), '\n') 
print('df-sum-columns \n', df18.sum(axis='columns'), '\n')

# idxmin, idxmax -> 최솟값 혹은 최댓값을 가지고 있는 색인값 반환
# argmin, argmax -> 최솟값 혹은 최댓값 위치 인덱스 반환
print('idxmax\n', df18.idxmax(), '\n')
print('idxmin\n', df18.idxmin(), '\n')

# describe() 통계 결과 뽑기
df18.describe()

# 상관관계와 공분산
# corr() / cov()

df18
             b     d     e
Utah      0.0   1.0   2.0
Ohio      3.0   4.0   5.0
Texas     6.0   7.0   8.0
Coloradp  9.0  10.0  11.0 

df-sum-rows
 b    18.0
d    22.0
e    26.0
dtype: float64 

df-sum-columns 
 Utah         3.0
Ohio        12.0
Texas       21.0
Coloradp    30.0
dtype: float64 

idxmax
 b    Coloradp
d    Coloradp
e    Coloradp
dtype: object 

idxmin
 b    Utah
d    Utah
e    Utah
dtype: object 



Unnamed: 0,b,d,e
count,4.0,4.0,4.0
mean,4.5,5.5,6.5
std,3.872983,3.872983,3.872983
min,0.0,1.0,2.0
25%,2.25,3.25,4.25
50%,4.5,5.5,6.5
75%,6.75,7.75,8.75
max,9.0,10.0,11.0


In [21]:
# 유일 값 세기
obj5 = pd.Series(['c','a','b','a','a','d','b','c','b','c','c','d'])
print('고윳값 : ', obj5.unique(), '\n')

# value_counts
print('항목별 갯수\n', pd.value_counts(obj5.values), '\n')

# isin
print('isin\n', obj5.isin(['a','b','d']),'\n')

고윳값 :  ['c' 'a' 'b' 'd'] 

항목별 갯수
 c    4
b    3
a    3
d    2
dtype: int64 

isin
 0     False
1      True
2      True
3      True
4      True
5      True
6      True
7     False
8      True
9     False
10    False
11     True
dtype: bool 

