# pandas : 파이썬 리스트, 딕셔너리, 넘파이 배열을 데이터 프레임으로 변환 가능.
#### 판다스로 csv, tsv 파일이나 엑셀 파일 등을 열 수 있다.
#### url을 통해 웹 사이트의 csv 또는 json과 같은 원격 파일 또는 데이터베이스를 열 수 있다.

### 데이터 보기 및 검사
- mean() : 모든 열의 평균을 계산
- corr() : 데이터 프레임의 열 사이의 상관 관계를 계산
- count() : 각 데이터 프레임 열에서 null이 아닌 값의 개수를 계산

### 필터, 정렬 및 그룹화
- sort_values() : 데이터를 정렬
- 조건을 사용하여 열을 필터링 가능.
- groupby() : 기준에 따라 몇 개의 그룹으로 데이터를 분할

### 데이터 정제
- 데이터의 누락 값을 확인할 수 있다.
- 특정한 값을 다른 값으로 대체할 수 있다.


### Pandas
- python에서 빅데이터 분석을 다루기 위한 라이브러리
- SEries, dataframe 과 같은 모듈 제공


### SEries
- 동일한 데이터 타입의 1차원 데이터를 다루는데 효과적인 자료 구조

### dataframe
- 2차원 데이터를 다루는데 효과적인 자료 구조
- R의 dataframe을 모방
- 엑셀과 같이 숫자, 문자 등 다양한 데이터를 하나의 테이블에 담을 수 있는 자료구조

#### Series(data = mydata, index = myindex)
- 인덱스를 지정하지않으면 0부터 인덱스 시작
- index와 values를 통해 원하는 값에 접근 가능
- 브로드 캐스트 기능 - 인덱스가 달라도 연산 가능

In [5]:
import numpy as np
import pandas as pd

se = pd.Series([1,2,np.nan,4]) # np.nan = 없는거임 None
print(se) # dtype = float
print(se.isna())
print(se[0], se[1])
se = pd.Series([1,2,np.nan,4], index=['a','b','c','d'])  # 인덱스를 a,b,c,d로 설정
print(se)


0    1.0
1    2.0
2    NaN
3    4.0
dtype: float64
0    False
1    False
2     True
3    False
dtype: bool
1.0 2.0
a    1.0
b    2.0
c    NaN
d    4.0
dtype: float64


In [8]:
income = {'1월' : 9500, '2월' : 6200, '3월':6050, '4월': 7000}
income_se = pd.Series(income) # 월을 인덱스로 하는 매출 시리즈
print('동윤이네 상점의 수익')
print(income_se)

for month in income_se.keys():
    print(month)

동윤이네 상점의 수익
1월    9500
2월    6200
3월    6050
4월    7000
dtype: int64
1월
2월
3월
4월


In [12]:
mine = pd.Series([10,20,30], index=['korean', 'english', 'math'])
friend = pd.Series([70,50,50],index=['korean', 'english', 'math'])

merge = mine + friend
print(merge)

mine_2 = pd.Series([10,20,30], index=['naver', 'sk', 'kt'])
friend_2 = pd.Series([10,30,20],index=['kt', 'naver', 'sk'])

merge_2 = mine_2 + friend_2
print(merge_2)

korean     80
english    70
math       80
dtype: int64
kt       40
naver    40
sk       40
dtype: int64


### 데이터프레임
#### DataFrame

- 2차원 형태의 표(행/열) 구조를 가지는 자료 구조
- 행과 열에 대한 인덱스를 가지고 순서대로 배열된다.
- 열 1개가 하나의 Series구조이다.
- (axis = 0(기본값) : 행(row)로 분리한다는 의미, axis = 1 : 열(column)으로 분리한다는 의미) 

- 라벨 : 자료는 열로 구성되고 각 열은 이름을 가질 수 있다.
- 인덱스 : 다른 포맷(숫자, 문자열, 시간 정보 등등)으로 된 인덱스가 존재한다.
- 자료 : 여러가지 형태와 유형(리스트, 튜플, 사전 객체 등등) 으로 주어질 수 있다.

판다스에서 object는 string을 의미

In [15]:
nparray1 = np.array([[1,2,3],[4,5,6]])
print(pd.DataFrame(nparray1))

dictionary1 = {'a' : ['1','3'], 'b' : ['1','2'], 'c':['2','4']}
print(pd.DataFrame(dictionary1))

   0  1  2
0  1  2  3
1  4  5  6
   a  b  c
0  1  1  2
1  3  2  4


In [None]:
daeshin = {'open': [11650,11100,11200,11100,11000], 
           'high': [12100,11800,11200,11100,11150],
           'low': [11600,11050,10900,10950,10900],
           'close': [11900,11600,11000,11100,11050]}

daeshin_day = pd.DataFrame(daeshin)
print(daeshin_day)

date = ['16.02.29', '16.02.26', '16.02.25','16.02.24','16.02.23']
daeshin_day = pd.DataFrame(daeshin, columns=['open','high','low','close'], index=date)
print(daeshin_day)
print(daeshin_day.columns)
print(daeshin_day.index)

close = daeshin_day['close']
print(close)
# print(daeshin_day['16.02.24']) # keyError
print(daeshin_day.loc['16.02.24']) # loc메서드를 사용하면 인덱스를 사용할 수 있음

    open   high    low  close
0  11650  12100  11600  11900
1  11100  11800  11050  11600
2  11200  11200  10900  11000
3  11100  11100  10950  11100
4  11000  11150  10900  11050
           open   high    low  close
16.02.29  11650  12100  11600  11900
16.02.26  11100  11800  11050  11600
16.02.25  11200  11200  10900  11000
16.02.24  11100  11100  10950  11100
16.02.23  11000  11150  10900  11050
Index(['open', 'high', 'low', 'close'], dtype='object')
Index(['16.02.29', '16.02.26', '16.02.25', '16.02.24', '16.02.23'], dtype='object')
16.02.29    11900
16.02.26    11600
16.02.25    11000
16.02.24    11100
16.02.23    11050
Name: close, dtype: int64
open     11100
high     11100
low      10950
close    11100
Name: 16.02.24, dtype: int64


In [None]:
dataframe1 = pd.DataFrame(data=[4,5,6,7], index=range(0,4), columns=['A'])
display(pd.DataFrame(dataframe1))

df = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]), columns=[10,11,12])
display(df)
print(len(df))

df.columns = ['A','B','C'] # 칼럼명 변경
display(df)

print(df['A']) # 컬럼 선택
print(df[['A','B']]) # 다중 컬럼 선택
print(df['B'][0:2]) # B 컬럼 중 0~1 index 선택
print(df.iloc[0]) # index 0 선택
print(df.iloc[0:2]) # index 0~1 선택
print(df.iloc[0:2]["B"]) # B 컬럼 중 index 0~1 선택
# 기존에 있는 행 데이터를 불러올 때 loc나 iloc 다 사용 가능함
# loc : 명칭기반 인덱싱을 함
# iloc : 위치기반 인덱싱을 함
# 차이 [0:2] iloc 0~1을 선택함 , loc : 0~2를 선택함

Unnamed: 0,A
0,4
1,5
2,6
3,7


Unnamed: 0,10,11,12
0,1,2,3
1,4,5,6
2,7,8,9
3,10,11,12


4


Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9
3,10,11,12


0     1
1     4
2     7
3    10
Name: A, dtype: int32
    A   B
0   1   2
1   4   5
2   7   8
3  10  11
0    2
1    5
Name: B, dtype: int32
A    1
B    2
C    3
Name: 0, dtype: int32
   A  B  C
0  1  2  3
1  4  5  6
0    2
1    5
Name: B, dtype: int32


In [None]:
# 데이터 추가

df = pd.DataFrame(np.array([[1,2,3], [4,5,6], [7,8,9]]))
display(df)

# 행 추가
# iloc를 사용하면 에러, 새로운 행을 추가할 때는 iloc사용을 안함.
df.loc[3] = [10,11,12] # 이게 제일 쉬운 방법 같음...
# df.iloc[4] = [13,14,15] # indexError
display(df)

# ignore_index = False의 경우 index는 0으로 셋팅
# df = df.append([[10,11,12]], ignore_index=True) # append()는 최신버전에서 더 이상 권장하지않음. 
df = pd.concat([df,pd.DataFrame([[10,11,12]])], ignore_index=True)
display(df)

df.columns = ['A','B','C']
print(df)

df['D'] = ['d','d','d','d','d']
print(df)

df[4] = [4]*5 # 컬럼명으로 추가
display(df)

df[7] = [7]*5 # 컬럼명으로 추가
display(df)

df = df.drop(7, axis=1) # 컬럼 삭제
display(df)

df = df.drop([4,"D"], axis=1) # 다중컬럼 삭제
display(df)

df = df.drop(4, axis=0) # 행 삭제
display(df)

df = df.drop([2,3], axis=0) # 다중 행 삭제
display(df)


Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9
3,10,11,12


Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9
3,10,11,12
4,10,11,12


    A   B   C
0   1   2   3
1   4   5   6
2   7   8   9
3  10  11  12
4  10  11  12
    A   B   C  D
0   1   2   3  d
1   4   5   6  d
2   7   8   9  d
3  10  11  12  d
4  10  11  12  d


Unnamed: 0,A,B,C,D,4
0,1,2,3,d,4
1,4,5,6,d,4
2,7,8,9,d,4
3,10,11,12,d,4
4,10,11,12,d,4


Unnamed: 0,A,B,C,D,4,7
0,1,2,3,d,4,7
1,4,5,6,d,4,7
2,7,8,9,d,4,7
3,10,11,12,d,4,7
4,10,11,12,d,4,7


Unnamed: 0,A,B,C,D,4
0,1,2,3,d,4
1,4,5,6,d,4
2,7,8,9,d,4
3,10,11,12,d,4
4,10,11,12,d,4


Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9
3,10,11,12
4,10,11,12


Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9
3,10,11,12


Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6


In [None]:
# 데이터 변경

df.loc[0][0] = 100 # label 기준(불일치시 index기준) 변경
# df.loc[0,0] = 100 # 이렇게 하면 추가가 됨
# df = df.drop(0, axis=1)
display(df)

df.loc[0]['B'] = 100
display(df)

df.iloc[1][1] = 100 # index 기준(불일치시 label기준) 변경
display(df)

df.iloc[1]['C'] = 100
display(df)

df.iloc[0][0:2] = [1,2] # 다중 데이터 변경
display(df)

df['C'] = [3,6] # 컬럼의 데이터 변경
display(df)


You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df.loc[0][0] = 100 # label 기준(불일치시 index기준) 변경
  df.loc[0][0] = 100 # label 기준(불일치시 index기준) 변경


Unnamed: 0,A,B,C
0,100,2,3
1,4,100,100


You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df.loc[0]['B'] = 100


Unnamed: 0,A,B,C
0,100,100,3
1,4,100,100


You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df.iloc[1][1] = 100 # index 기준(불일치시 label기준) 변경
  df.iloc[1][1] = 100 # index 기준(불일치시 label기준) 변경


Unnamed: 0,A,B,C
0,100,100,3
1,4,100,100


You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df.iloc[1]['C'] = 100


Unnamed: 0,A,B,C
0,100,100,3
1,4,100,100


You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df.iloc[0][0:2] = [1,2] # 다중 데이터 변경


Unnamed: 0,A,B,C
0,1,2,3
1,4,100,100


Unnamed: 0,A,B,C
0,1,2,3
1,4,100,6


#### 데이터 정렬

In [79]:
df = pd.DataFrame({"cluster" : [1,1,2,1,2,3], "org" : ['a','a','h','c','d','w'], "time" : [8,6,34,23,74,6]})
display(df)

df = df.sort_values(['time'], ascending=[False]) # time 기준으로 역순으로 정렬
display(df)

df = df.reset_index(drop=True) # index 정리
display(df)

Unnamed: 0,cluster,org,time
0,1,a,8
1,1,a,6
2,2,h,34
3,1,c,23
4,2,d,74
5,3,w,6


Unnamed: 0,cluster,org,time
4,2,d,74
2,2,h,34
3,1,c,23
0,1,a,8
1,1,a,6
5,3,w,6


Unnamed: 0,cluster,org,time
0,2,d,74
1,2,h,34
2,1,c,23
3,1,a,8
4,1,a,6
5,3,w,6


#### 함수

In [86]:
df = pd.DataFrame({"cluster" : [1,1,2,1,2,3], "org" : ['a','a','h','c','d','w'], "time" : [8,6,34,23,74,6]})
display(df)

print(df.describe()) # 기초 통계량

print(df.head(2)) # 데이터 head 부분 (n)개만 보여줌

print(df.tail(2)) # 데이터 tail 부분만 보여줌

print(df.T) # transpose (행과 열을 바꿈)

print(df.time) # time 컬럼 데이터

print(df[df.time<10]) # time이 10 미만인 데이터

Unnamed: 0,cluster,org,time
0,1,a,8
1,1,a,6
2,2,h,34
3,1,c,23
4,2,d,74
5,3,w,6


        cluster       time
count  6.000000   6.000000
mean   1.666667  25.166667
std    0.816497  26.445542
min    1.000000   6.000000
25%    1.000000   6.500000
50%    1.500000  15.500000
75%    2.000000  31.250000
max    3.000000  74.000000
   cluster org  time
0        1   a     8
1        1   a     6
   cluster org  time
4        2   d    74
5        3   w     6
         0  1   2   3   4  5
cluster  1  1   2   1   2  3
org      a  a   h   c   d  w
time     8  6  34  23  74  6
0     8
1     6
2    34
3    23
4    74
5     6
Name: time, dtype: int64
   cluster org  time
0        1   a     8
1        1   a     6
5        3   w     6
