## Series

In [16]:
import pandas as pd
import numpy as np

# Series
s = pd.Series( [1, 2, 3, 4, 5, 6, 7, 8, 9] )
print(type(s))
print(s.index)
print(s.dtype)
print(s)

<class 'pandas.core.series.Series'>
RangeIndex(start=0, stop=9, step=1)
int64
0    1
1    2
2    3
3    4
4    5
5    6
6    7
7    8
8    9
dtype: int64


In [28]:
# column 지정

# 1
s = pd.Series( [1, 2, 3, 4, 5, 6, 7, 8, 9] )
s.index = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'T']
print(s)

# 2
s = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9], ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'T'])
print(s)

A    1
B    2
C    3
D    4
E    5
F    6
G    7
H    8
T    9
dtype: int64
A    1
B    2
C    3
D    4
E    5
F    6
G    7
H    8
T    9
dtype: int64


In [46]:
print(s.index)           # index만 출력
print(s.values)          # values만 출력

# print(s[0])              # error : 위에서 지정한 index로 출력해라.
print(s['A'])
print(s.A)

print(s[0:5])              # 슬라이싱
print(s['A':'D'])          

Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'T'], dtype='object')
[1 2 3 4 5 6 7 8 9]
1
1
A    1
B    2
C    3
D    4
E    5
dtype: int64
A    1
B    2
C    3
D    4
dtype: int64


### Dictionary (Map, JSON) -> Series

In [73]:
d = {'A':10, 'D':20, 'F':30, 'H':40}
print(type(d))

# 반복
for key, value in d.items() :         # items 함수를 통해 tuple로 받아온다?
    print(key, ":", value)

# print( d.A )                         # error : Dictionary는 Series와 다르게 .A로 출력불가
print( d['A'] )

# print( d[0:3] )                      # error : dictionary는 슬라이싱 불가
# print(d['A':'F'])

s = pd.Series(d)
print(s.index)
print(s.values)
print(s['A'])
print(s.A)

print( s[0:3] )                      
print( s['A':'F'] )


<class 'dict'>
A : 10
D : 20
F : 30
H : 40
10
Index(['A', 'D', 'F', 'H'], dtype='object')
[10 20 30 40]
10
10
A    10
D    20
F    30
dtype: int64
A    10
D    20
F    30
dtype: int64


## DataFrame

키 하나에 데이터 여러 개?

### Dictionary -> DataFrame
* Dictionary(key) -> column

In [96]:
d = {
    'name' : [ 'kim', 'lee', 'park', 'jung' ],
    'age' : [ 25, 30, 35, 20 ],
    'tel' : [ '1111-2222', '2222-1111', '3333-1111', '2222-3333']
}
print(type(d))

df = pd.DataFrame(d)
print(df)
print(df.index)
print(df.columns)            # columns만 출력
print(df.values)             # 값만 출력 -> 2차원 numpy열?로 꺼내준다.

df.index.name = 'Num'        # index에 이름 지정
df.columns.name = 'User'     # column에 이름 지정
print(df)
print(df.index)
print(df.columns)


<class 'dict'>
   name  age        tel
0   kim   25  1111-2222
1   lee   30  2222-1111
2  park   35  3333-1111
3  jung   20  2222-3333
RangeIndex(start=0, stop=4, step=1)
Index(['name', 'age', 'tel'], dtype='object')
[['kim' 25 '1111-2222']
 ['lee' 30 '2222-1111']
 ['park' 35 '3333-1111']
 ['jung' 20 '2222-3333']]
User  name  age        tel
Num                       
0      kim   25  1111-2222
1      lee   30  2222-1111
2     park   35  3333-1111
3     jung   20  2222-3333
RangeIndex(start=0, stop=4, step=1, name='Num')
Index(['name', 'age', 'tel'], dtype='object', name='User')


### Numpy -> DataFrame

In [133]:
n = np.array(
    [['kim', 20, '1111-2222'],
     ['lee', 30, '2222-1111'],
     ['park', 35, '3333-2222'],
     ['jung', 25, '3333-1111']]
)
print(type(n))


# 1
df = pd.DataFrame(n)

df.index = ['A', 'B', 'C', 'D']
df.columns = ['name', 'age', 'tel']

print(df)
print(df.index)
print(df.columns)

# 2
df = pd.DataFrame(n, columns = ['name', 'age', 'tel'], index = ['A', 'B', 'C', 'D'])
print(df)

# Data 확인 시
print(df.describe())


<class 'numpy.ndarray'>
   name age        tel
A   kim  20  1111-2222
B   lee  30  2222-1111
C  park  35  3333-2222
D  jung  25  3333-1111
Index(['A', 'B', 'C', 'D'], dtype='object')
Index(['name', 'age', 'tel'], dtype='object')
   name age        tel
A   kim  20  1111-2222
B   lee  30  2222-1111
C  park  35  3333-2222
D  jung  25  3333-1111
       name age        tel
count     4   4          4
unique    4   4          4
top     kim  20  1111-2222
freq      1   1          1


In [161]:
print(df['name'])
print(df[['name', 'tel']])
# print(df['name'][2])                 # Error : 지정한 column명 사용해야 함.
print(df['name']['C'])
print(df['name'].C)
print(df['name']['B':'D'])

# 2차원이 아닌 name, age 따로 출력하는 방법
print(df.name, df.age)
print(df.name.C)

A     kim
B     lee
C    park
D    jung
Name: name, dtype: object
   name        tel
A   kim  1111-2222
B   lee  2222-1111
C  park  3333-2222
D  jung  3333-1111
park
park
B     lee
C    park
D    jung
Name: name, dtype: object
A     kim
B     lee
C    park
D    jung
Name: name, dtype: object A    20
B    30
C    35
D    25
Name: age, dtype: object
park


In [178]:
print(df[:][:])
print(df[:2][:1])
print(df[['name', 'tel']])
# print(df[[0, 2]])          # error : column명이 있을 경우 숫자 사용 불가.
# print(df[0][0])            # error : column명이 있을 경우 숫자 사용 불가.

   name age        tel
A   kim  20  1111-2222
B   lee  30  2222-1111
C  park  35  3333-2222
D  jung  25  3333-1111
  name age        tel
A  kim  20  1111-2222
   name        tel
A   kim  1111-2222
B   lee  2222-1111
C  park  3333-2222
D  jung  3333-1111


In [200]:
df['address'] = ['서울', '수원', '인천', '안산']
# df['age']['A'] = 30
df['adult'] = df['age'].astype(np.int64) > 30

del(df['adult'])

print(df)

   name age        tel address
A   kim  30  1111-2222      서울
B   lee  30  2222-1111      수원
C  park  35  3333-2222      인천
D  jung  25  3333-1111      안산


## Series 정렬

In [215]:
s = pd.Series([10, 40, 50, 20, 70, 60], index=['a', 'd', 'f', 'g', 'b', 'c'])

s = s.sort_index()                      # ascending(오름차순-기본값)
s = s.sort_index(ascending = False)     # descendint(내림차순)
s = s.sort_values()
s = s.sort_values(ascending = False)

print(s)

b    70
c    60
f    50
d    40
g    20
a    10
dtype: int64


## DataFrame 정렬

In [244]:
df = pd.DataFrame( [[4, 5, 1, 2],
                    [300, 400, 200, 100],
                    [20, 10, 40, 30]], index = ['c', 'a', 'b'], columns = ['D', 'C', 'A', 'B']
                 )

print(df)
df = df.sort_index()            # index
df = df.sort_index(axis = 0)
df = df.sort_index(axis = 1)    # 열끼리 = column 정렬

df = df.sort_values(by = 'A', ascending = False) # 행끼리
df = df.sort_values(by = ['A', 'B'])

df = df.sort_values(by = 'b', axis = 1)   # 열끼리
print(df)

     D    C    A    B
c    4    5    1    2
a  300  400  200  100
b   20   10   40   30
     C    D    B    A
c    5    4    2    1
b   10   20   30   40
a  400  300  100  200


## 슬라이싱
* .iloc : 정수 index
* .loc  : 라벨 index
* .ix   : deprecated

In [269]:
# List
m = [ [1, 2, 3], [4, 5, 6], [7, 8, 9] ]

#     0  1  2
#  0  1  2  3
#  1  4  5  6
#  2  7  8  9

print(m)
print(m[2][2])
print(m[:][:])
print(m[:2][:2])
# print(m[:2, :2])    # error



# Numpy
n = np.array(m)
print(n)
print(n[2][2])
print(n[:][:])
print(n[:2][:2])
print(n[:2, :2])

# Pandas
df = pd.DataFrame(n)
print(df)
print(df[2][2])
print(df[:][:])
print(df[:2][:2])
# print(df[:2, :2])       # error

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]
9
[[1, 2, 3], [4, 5, 6], [7, 8, 9]]
[[1, 2, 3], [4, 5, 6]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
9
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2 3]
 [4 5 6]]
[[1 2]
 [4 5]]
   0  1  2
0  1  2  3
1  4  5  6
2  7  8  9
9
   0  1  2
0  1  2  3
1  4  5  6
2  7  8  9
   0  1  2
0  1  2  3
1  4  5  6


### .iloc : 정수 index

In [316]:
df = pd.DataFrame( np.arange(1, 21).reshape(5, 4), columns = ['A', 'B', 'C', 'D'] )
print(df)

# print( df[2][2] )            # Error
print(df['C'][2])
print(df[['A', 'D']])
# print(df['A' : 'C'])           # Error
# print(df[['A' : 'C']])         # Error

# print(df.iloc[2][2])            # Error
print(df.iloc[2, 2])
# print(df.iloc[2, 'C'])           # Error : iloc는 숫지만 사용 가능.
print(df.iloc[:2, :2])
print(df.iloc[:3:2, :3:2])       # print(df.iloc[행, 열]) -> iloc[처음:끝:증감, 처음:끝,증감]
print(df.iloc[:2, :-1])          # 끝 = '-1' -> 끝 하나 빼라
print(df.iloc[::-1, ::-1])       # 간격= '-1' -> 거꾸로


    A   B   C   D
0   1   2   3   4
1   5   6   7   8
2   9  10  11  12
3  13  14  15  16
4  17  18  19  20
11
    A   D
0   1   4
1   5   8
2   9  12
3  13  16
4  17  20
11
   A  B
0  1  2
1  5  6
   A   C
0  1   3
2  9  11
   A  B  C
0  1  2  3
1  5  6  7
    D   C   B   A
4  20  19  18  17
3  16  15  14  13
2  12  11  10   9
1   8   7   6   5
0   4   3   2   1


### .loc  : 라벨 index

In [336]:
print(df)
# print(df.loc[2, 2])              # Error
print(df.loc[2, 'C'])              # loc에서는 column명이 있을 경우 이름을 써야 한다.
# print(df.loc[:2, :2])              # Error
print(df.loc[:2, :'C'])
print(df[:2])
print(df.loc[1:3, 'B':'D'])
print(df.loc[:, ['B', 'D']])
print(df[['B', 'D']])

    A   B   C   D
0   1   2   3   4
1   5   6   7   8
2   9  10  11  12
3  13  14  15  16
4  17  18  19  20
11
   A   B   C
0  1   2   3
1  5   6   7
2  9  10  11
   A  B  C  D
0  1  2  3  4
1  5  6  7  8
    B   C   D
1   6   7   8
2  10  11  12
3  14  15  16
    B   D
0   2   4
1   6   8
2  10  12
3  14  16
4  18  20
    B   D
0   2   4
1   6   8
2  10  12
3  14  16
4  18  20


In [383]:
df = pd.DataFrame( np.arange(1, 21).reshape(5, 4), columns = ['A', 'B', 'C', 'D'] )

df['E'] = [31, 32, 33, 34, 35]            # column 열 추가 (행 개수 맞아야 하는 점 유의)
# df[5][:] = [90, 91, 92, 93, 94]         # Error
# df.iloc[:, 5] = [40, 41, 42, 43, 44]    # Error : index(5)만 지정하고 column명은 지정하지 않아서 오류 발생.
# df.iloc[5, :] = [90, 91, 92, 93, 94]    # Error : iloc는 추가 불가.
df.loc[5] = [90, 91, 92, 93, 94]          # loc : 행, 열 모두 추가 가능
df.loc[:, 'F'] = [40, 41, 42, 43, 44, 45]

df.loc[0, 'A'] = 99                       # 본래 있던 자리에 명령어 실행 시 수정 반영됨.
df.loc[1, 'A':'C'] = [100, 101, 102]
df.loc[4, ['A', 'C', 'E']] = [200, 201, 202]

del(df['E'])
# del(df.loc[:, 'F'])                      # Error

# df.drop('F')                             # Error : (기본값 axis=0 행)'F'는 열을 지우는 거라서?
df = df.drop('F', axis = 1)
# df.drop(5, axis = 1)                     # Error
df = df.drop(5)

print(df)

     A    B    C   D
0   99    2    3   4
1  100  101  102   8
2    9   10   11  12
3   13   14   15  16
4  200   18  201  20


### Boolean Indexing

In [25]:
import pandas as pd  # pandas 라이브러리 임포트

df = pd.DataFrame(
    [['kim', 20, '1111-2222'],
     ['lee', 30, '2222-1111'],
     ['park', 35, '3333-2222'],
     ['jung', 25, '3333-1111'],
     ['hong', 40, '1111-2222']], columns = ['name', 'age', 'tel']
)

print(df)

print(df.loc[3, 'name'])
print(df.loc[ df['age'] > 30, ['name', 'age'] ])
print(df.loc[ df['name'] == 'kim', :])
print(df.loc[ (df['age'] > 20) & (df['age'] < 40), 'name':'tel'])
print(df.loc[ [True, True, False, False, False], "name"])


   name  age        tel
0   kim   20  1111-2222
1   lee   30  2222-1111
2  park   35  3333-2222
3  jung   25  3333-1111
4  hong   40  1111-2222
jung
   name  age
2  park   35
4  hong   40
  name  age        tel
0  kim   20  1111-2222
   name  age        tel
1   lee   30  2222-1111
2  park   35  3333-2222
3  jung   25  3333-1111
0    kim
1    lee
Name: name, dtype: object


### 결측값 대체

In [43]:
import numpy as np  # numpy 라이브러리 임포트

# 'address' 열 추가
df['address'] = ['서울', np.nan, np.nan, '수원', np.nan]

print(df.loc[ df['address'] == np.nan, 'address'])
print(df.loc[ df['address'] == None, 'address'])
print(df.loc[ df['address'].isnull(), 'address'])        # 반드시 isnull로 검색해야 가져올 수 있다.

df.loc[df['address'].isnull(), 'address'] = '서울'
df.loc[::2, 'address'] = ''     # (아무것도 없는)데이터가 있는 것
df.loc[df['address'] == '', 'address'] = '서울'


# 데이터프레임 출력
print(df)

Series([], Name: address, dtype: object)
Series([], Name: address, dtype: object)
1    NaN
2    NaN
4    NaN
Name: address, dtype: object
   name  age        tel address
0   kim   20  1111-2222      서울
1   lee   30  2222-1111      서울
2  park   35  3333-2222      서울
3  jung   25  3333-1111      수원
4  hong   40  1111-2222      서울


## 결측값 제거

In [66]:
df = pd.DataFrame(
    [['kim', 20, '1111-2222', '서울'],
     ['lee', 30, '2222-1111', np,nan],
     ['park', 35, '3333-2222', '수원'],
     ['jung', 25, '3333-1111', np,nan],
     ['hong', 40, '1111-2222', np,nan]], columns = ['name', 'age', 'tel', 'address']
)


df.loc[::2, 'tel'] = np.nan
df.loc[5, :] = [np.nan, np.nan, np.nan, np.nan]

# df.dropna(how = 'all', inplace = True)
# df.dropna(how = 'any', inplace = True)

df['income'] = [300, np.nan, 400, 500, np.nan, 300]
# df['address'].fillna('서울', inplace = True)
df.fillna({'address':'서울'}, inplace = True)
df.fillna({'income' : np.mean(dr[income])}, inplace = True)

# df.drop(5)
# df.drop(5, inplace = True)
df.drop([4, 5], inplace = True)
df.drop(['address', 'income'], axis = 1, inplace = True)


print(df)


# print(df.T)
print(df.transpose())    #전치행렬

NameError: name 'nan' is not defined

##  Pandas 함수

In [108]:
df = pd.DataFrame(
    [['kim', 90, 80, 70],
     ['lee', 45, np.nan, 55],
     ['park', 76, 77, 83],
     ['hong', np.nan, np.nan, 77],
     ['Kang', 35, 58, 52],
     ['jang', np.nan, np.nan, np.nan]], columns = ['name', 'kor', 'eng', 'mat']
)

print(df)

print(df.count())               # 비어있는 값, 결측값 확인할 때 많이 사용.
print(df.count(axis = 1))

print(df.min())
print(df.loc[:, 'kor':'mat'].min(axis = 1))      # min : NaN 빼고 계산함.
print(df.max())

print(df.loc[:, 'kor':'mat'].mean())             # 평균 - 다 더하고 나눠서 평균을 내는데, 문자가 있을 경우 오류 발생 유의
print(df.loc[:, 'kor':'mat'].mean(axis = 1))

print(df.sum())                                  # error : 합계
print(df.loc[:, 'kor':'mat'].sum(axis = 1))

# print(df.median())                               # error : 문자는 연산 불가해 오류.
print(df.loc[:, 'kor':'mat'].median())   # 홀수면 가운데 수, 짝수면 가운데 숫자 2가지를 더한 후 2로 나눈 값.

# 누적값 추정
print(df.loc[:, 'kor':'mat'].cumsum())               # 덧셈 누적
print(df.loc[:, 'kor':'mat'].cumprod())                # 곱셈 누적

print(df.idxmax())               # max의 index값
print(df.idxmin())

# print(df.mad())
print(df.loc[:, 'kor':'mat'].var())    # 분산
print(df.loc[:, 'kor':'mat'].std())    # 표준편차

df['tot'] = df.loc[:, 'kor':'mat'].sum(axis = 1)       # 열 추가
df['avg'] = df.loc[:, 'kor':'mat'].mean(axis = 1)      # 평균

# 상관관계 확인
print(df['kor'].corr(df['eng']))
    # 1 : 양의 상관관계   = 높다
    # 0 : 상관관계가 낮다 = 없다
    # -1 : 음의 상관관계  = 낮다

print(df)

   name   kor   eng   mat
0   kim  90.0  80.0  70.0
1   lee  45.0   NaN  55.0
2  park  76.0  77.0  83.0
3  hong   NaN   NaN  77.0
4  Kang  35.0  58.0  52.0
5  jang   NaN   NaN   NaN
name    6
kor     4
eng     3
mat     5
dtype: int64
0    4
1    3
2    4
3    2
4    4
5    1
dtype: int64
name    Kang
kor     35.0
eng     58.0
mat     52.0
dtype: object
0    70.0
1    45.0
2    76.0
3    77.0
4    35.0
5     NaN
dtype: float64
name    park
kor     90.0
eng     80.0
mat     83.0
dtype: object
kor    61.500000
eng    71.666667
mat    67.400000
dtype: float64
0    80.000000
1    50.000000
2    78.666667
3    77.000000
4    48.333333
5          NaN
dtype: float64
name    kimleeparkhongKangjang
kor                      246.0
eng                      215.0
mat                      337.0
dtype: object
0    240.0
1    100.0
2    236.0
3     77.0
4    145.0
5      0.0
dtype: float64
kor    60.5
eng    77.0
mat    70.0
dtype: float64
     kor    eng    mat
0   90.0   80.0   70.0
1  135.0    NaN 