In [1]:
import pandas as pd

# 판다스 기초
![image.png](attachment:ed16be05-f154-4e7c-ade6-a64002e45e3f.png)

## 시리즈 (Series)
* 1차원 배열
* 정의 방법 : ```시리즈이름 = pandas.Series(배열)```
* 레이블 부여 : ```시리즈이름.index = [레이블배열]```
* 레이블, 값 한꺼번에 정의 : ```시리즈이름 = pandas.Series({label:value, ...})```

## 데이터프레임 (DataFrame)
* 2차원 배열
* 정의 방법 : ```데이터프레임이름 = pandas.Series(2차원 배열)```
* 레이블 부여
  * 행에 부여 : ```시리즈이름.index = [레이블배열]```
  * 열에 부여 : ```시리즈이름.columns = [레이블배열]```



## 인덱스 접근
### 값의 절대 위치에 의한 인덱싱
* 단일 : ```이름.iloc[index]```
* 여러개 : ```이름.iloc[[index배열]]```
### 값의 레이블에 의한 인덱싱
* 단일 : ```이름.loc[label]```
* 여러개 : ```이름.loc[[label배열]]```



## 슬라이싱
* iloc start~end-1 범위 : ```이름.iloc[start:end]```
* loc start~end범위 : ```이름.loc[start:end]```
* 조건문 슬라이싱 : ```이름.loc[이름 포함 조건문]```
  * .index를 붙이면 인덱스(라벨)가 추출된다.
### where()을 이용한 조건 검색
* 전체출력, 조건이 맞지 않으면 NaN : ```이름.where(조건문)```
* NaN인 행 없앰 : ```이름.where(조건문).dropna()```


  
## 조건문 함수
* ```이름.isin([value])``` : 배열에 요소가 있는지 확인.
  * 값 중 하나라도 포함되면 True반환 (OR조건)
* `~` : ~은 pandas/numpy에서 쓰는 NOT 연산자
  * Series나 numpy 배열의 각 요소를 반전시킬 때 사용



## 객체 정보 확인
### 배열 크기 (요소 개수)
```이름.size```
```len(이름)```
### 배열 형태 (차원 수)
```이름.shape```
### 배열 자료형
* 시리즈의 요소 자료형 : ```이름.dtype```
* 데이터 프레임 컬럼 자료형 : ```이름.dtypes```
* 데이터 프레임 특정 컬럼의 데이터 타입 변환 : ```이름[column] = 이름[column].astype('type')```
  * type종류 : 'category', 'int', 'float', 'object', 'datetime'
  * category 타입으로 지정하면 좋은 이유
    ![image.png](attachment:42225717-dd8e-4839-a3dc-680ceb623cfd.png)
### 데이터 프레임 정보
```이름.info()```
### 데이터 프레임 세부 정보확인
* 컬럼들의 이름 보기 : ```이름.columns```
* 데이터 앞부분 일부 보기 : ```이름.head(/*num*/)```
* 데이터 뒷부분 일부 보기 : ```이름.tail(/*num*/)```
* 고유한 값 확인 : ```이름[column].unique()```
  * ```unique()``` : 중복된 값을 제거




## 산술 연산
* 시리즈 객체를 대상으로 산술 연산은 각각의 요소 값에 대해 개별적으로 적용된다.
* 단, 대입연산자가 없으면 객체의 값이 변경되지 않는다.
### 통계 관련 메서드
* 양식 : ```이름.메서드이름()```
    ![image.png](attachment:a4b06771-4587-4ebe-b28c-5ef6625e2a0d.png)
* describe에 포함된 통곗값
    ![image.png](attachment:9bd74bf0-047d-455b-8d53-850aed189821.png)
### 데이터프레임 연산
* ```axis=0``` : 열방향 - 기본값
* ```axis=1``` : 행방향


## 값 추가
* iloc은 사용 불가능
### 레이블 인덱스가 있는 경우
```이름.loc[label] = 값```
```이름[label] = 값```
### 레이블 인덱스가 없는 경우
```이름.loc[index] = 값```
```이름[index] = 값```
### append()메서드 사용
* append() 메서드의 입력값은 판다스 시리즈 객체여야 한다.
```이름.append(Series({label:value}))```
```이름.append([value])```
```이름.append(시리즈, ignore_index=True)```



## 값 삭제
```이름.drop(label or index)```



## 객체 복사
### 얕은 복사 : 주소를 복사해 같은 값 참조
* 대입연산자
### 깊은 복사 : 값을 복제
* ```이름 = 이름2.copy()```



## 데이터 프레임 중간에 새로운 행 추가
### concat() 메서드
```이름 = pd.concat([이름.iloc[:자를부분], 추가할시리즈, 이름.iloc[자를부분:]], ignore_index = True)```

## 데이터 프레임 열 추가
### 뒤에 추가
```이름[column] = 추가할배열```
### 중간에 추가
```이름.insert(loc=index,column=column,value=추가할배열)```

## 기타 매서드
* ```이름.to_list()``` : 시리즈를 리스트로
* ```reset_index(/*drop=True*/)``` : 인덱스 초기화
  * ```drop=True``` : 초기화 이전의 레이블 인덱스 값이 컬럼으로 추가되지 않음
    예를 들어 인덱스가 ['A', 'B', 'C']인 데이터프레임에서 reset_index()를 하면, 인덱스가 0,1,2로 바뀌면서 기존 'A','B','C'가 새로운 컬럼으로 추가된다.

In [2]:
array = [1,2,3]
array2 = [4,5,6]
array3 = [7,8,9]
index = ['one', 'two', 'three']
index2 = ['하나','둘','셋']

# 시리즈 예제코드

In [3]:
series_name = pd.Series(array)

### 객체 정보 접근

In [4]:
type(series_name)

pandas.core.series.Series

In [5]:
series_name.size

3

In [6]:
series_name.shape

(3,)

In [7]:
series_name.dtype

dtype('int64')

In [8]:
series_name

0    1
1    2
2    3
dtype: int64

### 인덱스 적용, 접근

In [9]:
series_name.index = index
series_name

one      1
two      2
three    3
dtype: int64

In [10]:
series_name.iloc[2]

np.int64(3)

In [11]:
series_name.loc['two']

np.int64(2)

In [12]:
series_name.where(series_name>=2)

one      NaN
two      2.0
three    3.0
dtype: float64

In [13]:
series_name.where(series_name>=2).dropna()

two      2.0
three    3.0
dtype: float64

### 요소 추가

In [14]:
series_name.loc[3] = 4
series_name.loc['five'] = 5
series_name[5] = 6
series_name['seven'] = 7
series_name

one      1
two      2
three    3
3        4
five     5
5        6
seven    7
dtype: int64

### 연산

In [15]:
series_name + 1

one      2
two      3
three    4
3        5
five     6
5        7
seven    8
dtype: int64

In [16]:
series_name += 1
series_name

one      2
two      3
three    4
3        5
five     6
5        7
seven    8
dtype: int64

# 데이터프레임 예제코드

In [17]:
dataframe_name = pd.DataFrame([array,array2,array3])

### 객체 정보 접근

In [18]:
type(dataframe_name)

pandas.core.frame.DataFrame

In [19]:
dataframe_name.size

9

In [20]:
dataframe_name.shape

(3, 3)

In [21]:
dataframe_name.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   0       3 non-null      int64
 1   1       3 non-null      int64
 2   2       3 non-null      int64
dtypes: int64(3)
memory usage: 200.0 bytes


In [22]:
dataframe_name

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


### 인덱스 적용, 접근

In [23]:
dataframe_name.index = index
dataframe_name.columns = index2
dataframe_name

Unnamed: 0,하나,둘,셋
one,1,2,3
two,4,5,6
three,7,8,9


In [24]:
dataframe_name.iloc[1,2]

np.int64(6)

In [25]:
dataframe_name.loc['one','셋']

np.int64(3)

In [26]:
dataframe_name.where(dataframe_name>4)

Unnamed: 0,하나,둘,셋
one,,,
two,,5.0,6.0
three,7.0,8.0,9.0


In [27]:
dataframe_name.where(dataframe_name>4).dropna()

Unnamed: 0,하나,둘,셋
three,7.0,8.0,9.0
