## 1.자료구조 생성

### 1. Series 생성
- Pandas에서 Series를 만들기 위해 Series 함수 사용




In [None]:
import pandas as pd

s = pd.Series([1, 2, 3])
s

0    1
1    2
2    3
dtype: int64

In [None]:
s = pd.Series([1, 2, 3],
              index=['A', 'B', 'C'])
s

A    1
B    2
C    3
dtype: int64

In [None]:
s['A']

1

### 2. DataFrame 생성
- Pandas에서 DataFrame을 만들기 위해 DataFrame 함수 사용
- pd.DataFrame(배열,index= [인덱스1,인덱스2], columns=[컬럼1,컬럼2])

In [None]:
# index, columns를 지정하지 않은 경우 0, 1, 2 .. 와 같이 자동으로 index가 지정됨
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
import pandas as pd
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]],
                  index=['A', 'B', 'C'], columns=['X1', 'X2', 'X3'])
df

Unnamed: 0,X1,X2,X3
A,1,2,3
B,4,5,6
C,7,8,9


In [3]:
from google.colab import drive
drive.mount('/content/drive')

MessageError: Error: credential propagation was unsuccessful

## 2.Pandas Attribute
- Series와 DataFrame의 속성 조회
- ndim : 데이터의 차원
- shape : 각 차원의 크기 (tuple)
- values : 해당 Object의 값
- index : 해당 Object의 행 인덱스 반환
- columns : 해당 Object의 열 인덱스 반환
   - DataFrame에서 만 사용가능
- T : 해당 Object를 전치 시킨 결과 반환

In [5]:
# DataFrame 객체 생성
df = pd.DataFrame({'A':[1,2,3], 'B':[2,3,4]})
df

Unnamed: 0,A,B
0,1,2
1,2,3
2,3,4


In [7]:
df.shape


Unnamed: 0,A,B
0,1,2
1,2,3
2,3,4


## 3.Pandas Selection - Indexer
- 기본 indexing, slicing보다 indexer 사용을 권장함
- indexer는 loc, iloc, at, iat이 있음
    - loc 인덱서 : 이름 기반 인덱싱
    - iloc 인덱서 : 위치 기반 인덱싱(숫자만 써야함)
- 데이터프레임.인덱서[행 인덱스, 열 인덱스]
- dataframe.loc[행 인덱스, 열 인덱스]
- dataframe.iloc[행 인덱스, 열 인덱스]  

In [8]:
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]],
                  index=['A', 'B', 'C'], columns=['X1', 'X2', 'X3'])
df

Unnamed: 0,X1,X2,X3
A,1,2,3
B,4,5,6
C,7,8,9


In [None]:
# DataFrame df에서 'A' 행, 모든 열에 대해 추출 -> Series 반환

df.loc['A', :]
df.loc['A']

X1    1
X2    2
X3    3
Name: A, dtype: int64

In [None]:
# loc을 사용하여 DataFrame df에서 모든 행, 'X1' 열에 대해 추출 -> Series 반환
df.loc[:, 'X1']

A    1
B    4
C    7
Name: X1, dtype: int64

In [None]:
# loc을 사용하여 DataFrame df에서 ['A', 'C']행, ['X1', 'X2']열에 대해 추출
df.loc[['A', 'C'],['X1', 'X2']]

Unnamed: 0,X1,X2
A,1,2
C,7,8


In [None]:
df.loc[[False, True, False]]

Unnamed: 0,X1,X2,X3
B,4,5,6


In [None]:
df['X1'] % 2 == 0

A    False
B     True
C    False
Name: X1, dtype: bool

In [None]:
# loc을 사용하여 DataFrame df에서 행은 'X1'열의 값이 짝수인 것, 열은 ['X1', 'X3']에 대해 추출
df.loc[df['X1'] % 2 == 0, ['X1', 'X3']]

Unnamed: 0,X1,X3
B,4,6


## 4.통계함수
- Pandas는 배열의 주어진 요소로 부터 최소, 최대, 백분위수, 표준 편차, 분산 등을 찾
는데 유용한 통계 함수가 존재
- 통계 함수는 배열에서 요소별로 작동하며axis 옵션을 통해 연산 방향을 지정할 수 있
음
    - axis이 0으로 지정 된 경우 행과 행의 연산 결과 반환 (기본 값)
    - axis이 1로 지정 된 경우 열과 열의 연산 결과 반환
- min, max, sum, mean, median, quantile, std, var, corrcoef, argmin, argmax,
cumsum, cumprod 등

In [None]:
# DataFrame df의 행과 행의 합(sum)결과 반환
df.sum()

X1    12
X2    15
X3    18
dtype: int64

In [None]:
# DataFrame df의 열과 열의 합(sum)결과 반환
df.sum(axis=1)

A     6
B    15
C    24
dtype: int64

In [None]:
# DataFrame df의 열별 통계 값 출력
# count, mean, std, min, 25%, 50%, 75%, max
df.describe()

Unnamed: 0,X1,X2,X3
count,3.0,3.0,3.0
mean,4.0,5.0,6.0
std,3.0,3.0,3.0
min,1.0,2.0,3.0
25%,2.5,3.5,4.5
50%,4.0,5.0,6.0
75%,5.5,6.5,7.5
max,7.0,8.0,9.0


In [None]:
#DataFrame 평균
df.mean()

X1    4.0
X2    5.0
X3    6.0
dtype: float64

In [None]:
df.median() #중앙값

X1    4.0
X2    5.0
X3    6.0
dtype: float64