## 1.자료구조 생성

### 1-01 Series 생성
- Pandas에서 Series를 만들기 위해 Series 함수 사용




In [None]:
import pandas as pd
s = pd.Series([1, 2, 3])
s

0    1
1    2
2    3
dtype: int64

In [None]:
s = pd.Series([1, 2, 3],
              index=['A', 'B', 'C'])
s

A    1
B    2
C    3
dtype: int64

In [None]:
s['A']

1

### 1-02 DataFrame 생성
- Pandas에서 DataFrame을 만들기 위해 DataFrame 함수 사용
- DataFrame 생성 시 index 매개 변수를 이용하여 행 인덱스 지정 가능
- columns 매개 변수를 이용하여 열 인덱스(컬럼명) 지정 가능

In [None]:
# index, columns를 지정하지 않은 경우 0, 1, 2 .. 와 같이 자동으로 index가 지정됨
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
import pandas as pd
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]],
                  index=['A', 'B', 'C'], columns=['X1', 'X2', 'X3'])
df

Unnamed: 0,X1,X2,X3
A,1,2,3
B,4,5,6
C,7,8,9


## 2.Pandas Attribute
- Series와 DataFrame의 속성을 통해 데이터를 편리하게 조회 할 수 있음
- ndim : 데이터의 차원
- shape : 각 차원의 크기 (tuple)
- values : 해당 Object의 값
- index : 해당 Object의 행 인덱스 반환
- columns : 해당 Object의 열 인덱스 반환
   - DataFrame에서 만 사용가능
- T : 해당 Object를 전치 시킨 결과 반환

In [None]:
# DataFrame 객체 생성
df = pd.DataFrame({'A':[1,2,3], 'B':[2,3,4]})
df

Unnamed: 0,A,B
0,1,2
1,2,3
2,3,4


In [None]:
# DataFrame df의 차원 확인
df.ndim

2

In [None]:
# DataFrame df의 shape 확인
df.shape

(3, 2)

In [None]:
# DataFrame df의 values 확인
df.values

array([[1, 2],
       [2, 3],
       [3, 4]])

In [None]:
# DataFrame df의 index 확인
df.index

RangeIndex(start=0, stop=3, step=1)

In [None]:
# DataFrame df의 columns 확인
df.columns

Index(['A', 'B'], dtype='object')

## 3.Pandas Selection - Indexer
- 기본 indexing, slicing보다 indexer 사용을 권장함
- indexer는 loc, iloc, at, iat이 있음
    - loc, at 인덱서 : 이름 기반 인덱싱
    - iloc, iat 인덱서 : 위치 기반 인덱싱
    - at, iat 인덱서 : 한 개의 값만 반환
- dataframe.인덱서[행 인덱스, 열 인덱스] 와 같이 사용    

### 3-01 loc 인덱서
- loc 인덱서의 행 또는 열 인덱스
    - 위치(정수)가 아닌 이름(문자열)
    - 이름(문자열)의 리스트나 슬라이싱
    - boolean 리스트, 1차원 배열, 시리즈 (DataFrame은 불가)
- loc 인덱서 사용 방법
    - dataframe.loc[행 인덱스, 열 인덱스]
    - 예) df.loc[:, 'A':'C']    

In [None]:
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]],
                  index=['A', 'B', 'C'], columns=['X1', 'X2', 'X3'])
df

Unnamed: 0,X1,X2,X3
A,1,2,3
B,4,5,6
C,7,8,9


In [None]:
# DataFrame df에서 'A' 행, 모든 열에 대해 추출 -> Series 반환

df.loc['A', :]
df.loc['A']

X1    1
X2    2
X3    3
Name: A, dtype: int64

In [None]:
# loc을 사용하여 DataFrame df에서 모든 행, 'X1' 열에 대해 추출 -> Series 반환
df.loc[:, 'X1']

A    1
B    4
C    7
Name: X1, dtype: int64

In [None]:
# loc을 사용하여 DataFrame df에서 ['A', 'C']행, ['X1', 'X2']열에 대해 추출
df.loc[['A', 'C'],['X1', 'X2']]

Unnamed: 0,X1,X2
A,1,2
C,7,8


In [None]:
df

Unnamed: 0,X1,X2,X3
A,1,2,3
B,4,5,6
C,7,8,9


In [None]:
df.loc[[False, True, False]]

Unnamed: 0,X1,X2,X3
B,4,5,6


In [None]:
df['X1'] % 2 == 0

A    False
B     True
C    False
Name: X1, dtype: bool

In [None]:
# loc을 사용하여 DataFrame df에서 행은 'X1'열의 값이 짝수인 것, 열은 ['X1', 'X3']에 대해 추출
df.loc[df['X1'] % 2 == 0, ['X1', 'X3']]

Unnamed: 0,X1,X3
B,4,6


In [None]:
df['X1'] % 2 == 0

A    False
B     True
C    False
Name: X1, dtype: bool

## 4.통계함수
- Pandas는 배열의 주어진 요소로 부터 최소, 최대, 백분위수, 표준 편차, 분산 등을 찾
는데 유용한 통계 함수가 존재
- 통계 함수는 배열에서 요소별로 작동하며axis 옵션을 통해 연산 방향을 지정할 수 있
음
    - axis이 0으로 지정 된 경우 행과 행의 연산 결과 반환 (기본 값)
    - axis이 1로 지정 된 경우 열과 열의 연산 결과 반환
- min, max, sum, mean, median, quantile, std, var, corrcoef, argmin, argmax,
cumsum, cumprod 등

In [None]:
import pandas as pd
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]],
                  index=['A', 'B', 'C'], columns=['X1', 'X2', 'X3'])
df

Unnamed: 0,X1,X2,X3
A,1,2,3
B,4,5,6
C,7,8,9


In [None]:
# DataFrame df의 행과 행의 합(sum)결과 반환
df.sum()

X1    12
X2    15
X3    18
dtype: int64

In [None]:
# DataFrame df의 열과 열의 합(sum)결과 반환
df.sum(axis=1)

A     6
B    15
C    24
dtype: int64

In [None]:
# DataFrame df의 열별 통계 값 출력
# count, mean, std, min, 25%, 50%, 75%, max
df.describe()

Unnamed: 0,X1,X2,X3
count,3.0,3.0,3.0
mean,4.0,5.0,6.0
std,3.0,3.0,3.0
min,1.0,2.0,3.0
25%,2.5,3.5,4.5
50%,4.0,5.0,6.0
75%,5.5,6.5,7.5
max,7.0,8.0,9.0


In [None]:
#DataFrame 평균
df.mean()

X1    4.0
X2    5.0
X3    6.0
dtype: float64

#### median() 중앙값
- 데이터의 중앙값을 출력
    - 중앙값: 데이터를 오름차순으로 정렬하여 중앙에 위치한 값
- 이상치(Outlier)가 존재하는 경우, 평균보다 중앙값을 대표값으로 더 선호

In [None]:
pd.Series([1,2,3,4,5]).median()

3.0

In [None]:
pd.Series([4,5,1,2,3]).median()

3.0

In [None]:
# 짝수개의 데이터가 있는 경우, 가운데 2개 중앙 데이터의 평균값을 출력
pd.Series([1,2,3,4,5,6]).median()

3.5

In [None]:
# 평균과 중앙값은 약간의 차이 있음
s = pd.Series([1,2,3,4,5,10])
print(f'''평균: {s.mean():.5f}
중앙값: {s.median():.5f}
차이: {s.mean() - s.median():.5f} ''')

평균: 4.16667
중앙값: 3.50000
차이: 0.66667 


### sum() 합계
- NaN을 제외한 데이터 합계
    - 문자열 column은 모든 데이터가 붙어서 출력될수 있음

In [None]:
df.sum()

X1    11.0
X2    15.0
X3    18.0
dtype: float64

In [None]:
df['X1'].sum()

11.0

### var() - 분산
- 어떤 대상의 흩어진 정도나 상태로 편차 제곱의 평균값으로 계산 가능


In [None]:
# 평균
m = df['X2'].values.mean()

#분산
v = ((df['X2'].values - m)**2).sum() /\
    (df['X2'].count() - 1)

v

9.0

In [None]:
df['X2'].var()

9.0

### std() 표준편차
- 표준편차는 자료의 산포도를 나타내는 수치로 분산의 양의 제곱근으로 정의

In [None]:
np.sqrt(df['X2'].var())

3.0

In [None]:
np.sqrt(v)

3.0

In [None]:
df['X2'].std()

3.0

### min() - 최소값, max() - 최대값

In [None]:
df["X2"].min()

2

In [None]:
df["X2"].max()

8

### unique() -고유값, nuniqe() - 고유값 개수
- 고유값과 고유값의 개수를 구하고자 할때 사용

In [None]:
df['X4'] = ['man', 'man', 'woman']
df

Unnamed: 0,X1,X2,X3,X4
A,,2,3,man
B,4.0,5,6,man
C,7.0,8,9,woman


In [None]:
df['X4'].unique()

array(['man', 'woman'], dtype=object)

In [None]:
df['X4'].nunique()

2

### quantile() - 분위
- Quantile이란 주어진 데이터를 동등한 크기로 분할하는 지점
- 10%의 경우 0.1을, 80%의 경우 0.8을 대입하여 값을 계산

In [None]:
df['X2'].quantile(0.1)

2.6

In [None]:
df['X2'].quantile(0.8)

6.800000000000001

### mode() - 최빈값
- 최빈값은 가장 많이 출여한 데이터를 의미

In [None]:
df['X4'].mode()

0    man
dtype: object

### corr() - 상관관계
- corr()로 컬럼(column)별 상관 관계를 확인할수 있음
- -1에 가까울수록 반비례 관계, 1에 가까울수록 정비례 관계를 의미

In [None]:
df.corr()

Unnamed: 0,X1,X2,X3
X1,1.0,1.0,1.0
X2,1.0,1.0,1.0
X3,1.0,1.0,1.0
