# 판다스!
## 넘파이를 기반으로 구조화된 데이터프레임을 제공함
* 처리속도가 빠른 장점
* 숫자에 최적화된 넘파이와 대비되게 판다스는 문자열도 처리가 가능
* 테이블 구조 데이터를 조작하기때문에 컬럼와 로우를 조작함
* 판다스의 어원은 panel data 로써 판다 랑은 상관없다 조금 아쉽다...

## Series
* 데이터를 저장하는 인덱싱된 1차원 배열
* Series(data = 데이터, index = 인덱스)

In [2]:
import numpy as np
import pandas as pd

se = pd.Series([1, 2, np.nan, 4])  # np.nan 은 None 과 같은 결측값
se

0    1.0
1    2.0
2    NaN
3    4.0
dtype: float64

### isna()
* 결손값 or 결측값 을 탐지하고 수정하는 함수
* 결측값이 있을때 True 없을때 False 를 반환

In [None]:
import numpy as np
import pandas as pd

se = pd.Series([1, 2, np.nan, 4])
se.isna()

0    False
1    False
2     True
3    False
dtype: bool

### 시리즈의 인덱싱
* 기존의 리스트 인덱싱과 동일한 문법을 사용함

In [11]:
se[0], se[1]

(1.0, 2.0)

* 시리즈를 선언할때 index를 명명할수있음

In [None]:
se = pd.Series([1, 2, np.nan, 4], index=["a", "b", "c", "d"])
se["a"], se["b"]

(1.0, 2.0)

### 딕셔너리 타입의 시리즈
* key 가 인덱스, value 가 값이 됨

In [19]:
income = {"1월": 9500, "2월": 6200, "3월": 6050, "4월": 7000}
income_se = pd.Series(income)
income_se["1월"]

9500

### 시리즈의 인덱스와 밸류를 통해 원하는 값에 접근
* .index 를 호출해 인덱스를 반복가능 객체로 가져옴
* .values 를 호출해 값을 반복가능 객체로 가져옴

In [21]:
income = {"1월": 9500, "2월": 6200, "3월": 6050, "4월": 7000}
income_se = pd.Series(income)
income_se["1월"]
for month in income_se.index:
    print(month)
for value in income_se.values:
    print(value)

1월
2월
3월
4월
9500
6200
6050
7000


### 시리즈의 브로드캐스트 기능
* 인덱스가 서로 달라도 연산됨
* 크기나 인덱스명이 달라도 연산은 가능함 이경우는 결측값이 됨

In [25]:
mine = pd.Series([10, 20, 30], index=["korean", "english", "math"])
friend = pd.Series([70, 50, 50], index=["korean", "english", "math"])

merge = mine + friend
merge

korean     80
english    70
math       80
dtype: int64

* 인덱스가 다른경우
* 인덱스가 서로 다른경우는 결측값 이지만 순서가 다르다면 서로 찾아서 연산을 이룸

In [30]:
mine = pd.Series([10, 20, 30], index=["naver", "sk", "kt"])
friend = pd.Series([70, 50, 50], index=["kt", "naver", "sk"])

merge = mine + friend
merge

kt       100
naver     60
sk        70
dtype: int64

## 데이터프레임
* 시리즈는 1차원 구조이므로 2차원 구조를 사용하려면 데이터프레임을 사용해야함
* 시리즈와 마찬가지로 index 를 지정하지않으면 컬럼이 자동으로 부여되고 딕셔너리는 key 가 컬럼명 value 는 값이된다
* array는 행단위로 들어가고 딕녀서리는 열단위로 입력됨

In [33]:
nparray1 = np.array([[1, 2, 3], [4, 5, 6]])
display(pd.DataFrame(nparray1))

dictionary1 = {"a": ["1", "3"], "b": ["1", "2"], "c": ["2", "4"]}

display(pd.DataFrame(dictionary1))

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


Unnamed: 0,a,b,c
0,1,1,2
1,3,2,4


In [None]:
daeshin = {
    "open": [11650, 11100, 11200, 11100, 11000],
    "high": [12100, 11800, 11200, 11100, 11150],
    "low": [11600, 11050, 10900, 10950, 10900],
    "close": [11900, 11600, 11000, 11100, 11050],
}

daeshin_day = pd.DataFrame(daeshin)
daeshin_day

Unnamed: 0,open,high,low,close
0,11650,12100,11600,11900
1,11100,11800,11050,11600
2,11200,11200,10900,11000
3,11100,11100,10950,11100
4,11000,11150,10900,11050


In [9]:
date = ["16.02.29", "16.02.26", "16.02.25", "16.02.24", "16.02.23"]

daeshin_day = pd.DataFrame(
    daeshin, columns=["open", "high", "low", "close"], index=date
)
daeshin_day

Unnamed: 0,open,high,low,close
16.02.29,11650,12100,11600,11900
16.02.26,11100,11800,11050,11600
16.02.25,11200,11200,10900,11000
16.02.24,11100,11100,10950,11100
16.02.23,11000,11150,10900,11050


### 데이터프레임 에서 컬럼 및 인덱스 가져오기
* 컬럼을 주고 열 전체 가져오기

In [None]:
daeshin_day.columns
daeshin_day.index

close = daeshin_day["close"]
close

16.02.29    11900
16.02.26    11600
16.02.25    11000
16.02.24    11100
16.02.23    11050
Name: close, dtype: int64

### 인덱스 를 키워드로 하고싶을때
* [] 안에는 컬럼을 기재 할수있으므로 인덱스를 키워드로 하고싶을때는 ioc 함수를 이용함

In [15]:
day_data = daeshin_day.loc["16.02.24"]
day_data

open     11100
high     11100
low      10950
close    11100
Name: 16.02.24, dtype: int64

### 데이터 프레임 만들기 예제

In [16]:
dataframe1 = pd.DataFrame(data=[4, 5, 6, 7], index=range(0, 4), columns=["A"])
dataframe1

Unnamed: 0,A
0,4
1,5
2,6
3,7


In [22]:
df = pd.DataFrame(
    np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]), columns=[10, 11, 12]
)
df.columns = ["A", "B", "C"]
print(df)
len(df)  # 행의 갯수 반환함

    A   B   C
0   1   2   3
1   4   5   6
2   7   8   9
3  10  11  12


4

### 데이터프레임의 인덱싱과 슬라이싱
* 시리즈와 마찬가지로 컬럼을 기준으로 하고
* 인덱스를 키워드로 하고싶을시 iloc를 사용함
* 키워드가 숫자형일시 슬라이싱도 가능함

In [43]:
print(df["A"][:1])
print(df.iloc[2][:2])
print(df.iloc[0:2][:2])

0    1
Name: A, dtype: int32
A    7
B    8
Name: 2, dtype: int32
   A  B  C
0  1  2  3
1  4  5  6


### 데이터 추가(행)
* loc() 함수를 통해 해당 인덱스에 데이터를 추가하는것이 가능함
* iloc() 는 불가함!!
* 다른 방법으로는 concat() 로 마지막행에 추가

In [122]:
df = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]))
df.loc[3] = [10, 11, 12]
new_row = pd.DataFrame([[13, 14, 15]])
df = pd.concat([df, new_row], ignore_index=True)
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9
3,10,11,12
4,13,14,15


### 데이터 추가(열)

In [123]:
# df.columns = ["A", "B", "C"]
df["D"] = [5, 6, 7, 8, 9]
df[4] = [4] * 5
display(df)

df[7] = [7] * 5
display(df)

Unnamed: 0,0,1,2,D,4
0,1,2,3,5,4
1,4,5,6,6,4
2,7,8,9,7,4
3,10,11,12,8,4
4,13,14,15,9,4


Unnamed: 0,0,1,2,D,4,7
0,1,2,3,5,4,7
1,4,5,6,6,4,7
2,7,8,9,7,4,7
3,10,11,12,8,4,7
4,13,14,15,9,4,7


### 데이터 삭제
* drop(대상)
* drop 의 기본대상은 행이며 옵션으로 axis = 를 활용함

In [124]:
# df = df.drop(7, axis="columns")  # axis = 기준을 정하는것임 기본은 행임
df = df.drop([1, 2], axis="index")  # 다중행, 열 삭제도 가능함
df

Unnamed: 0,0,1,2,D,4,7
0,1,2,3,5,4,7
3,10,11,12,8,4,7
4,13,14,15,9,4,7


### 데이터 변경

In [161]:
df.loc[0, "D"] = 10
df

Unnamed: 0,0,1,2,D,4,7
0,100,2,3,10,4,7
3,10,11,12,1,4,7
4,13,14,15,9,4,7


### 데이터 정렬
* sort_values() 로 기준을 부여하여 정렬
* 정렬로 인해 뒤집힌 인덱스는 reset_index() 로 처리함

In [172]:
df = pd.DataFrame(
    {
        "cluster": [1, 1, 2, 1, 2, 3],
        "org": ["a", "a", "h", "c", "d", "w"],
        "time": [8, 6, 34, 23, 74, 6],
    }
)
display(df)

df = df.sort_values(["time"], ascending=[False])  # time 을 기준으로 내림차순 정렬
display(df)

df = df.reset_index(drop=True)  # 정렬로 인해 순서가 바뀐 인덱스 정리
display(df)

Unnamed: 0,cluster,org,time
0,1,a,8
1,1,a,6
2,2,h,34
3,1,c,23
4,2,d,74
5,3,w,6


Unnamed: 0,cluster,org,time
4,2,d,74
2,2,h,34
3,1,c,23
0,1,a,8
1,1,a,6
5,3,w,6


Unnamed: 0,cluster,org,time
0,2,d,74
1,2,h,34
2,1,c,23
3,1,a,8
4,1,a,6
5,3,w,6


### 함수

#### discribe()
* 숫자인 컬럼만 통계를 작성함, 문자 인 경우는 자동으로 제외됨

In [179]:
df = pd.DataFrame(
    {
        "cluster": [1, 1, 2, 1, 2, 3],
        "org": ["a", "a", "h", "c", "d", "w"],
        "time": [8, 6, 34, 23, 74, 6],
    }
)

df.describe()
# 나머지 함수도 정리해라

Unnamed: 0,cluster,time
count,6.0,6.0
mean,1.666667,25.166667
std,0.816497,26.445542
min,1.0,6.0
25%,1.0,6.5
50%,1.5,15.5
75%,2.0,31.25
max,3.0,74.0
