In [None]:
# 판다스란?

데이터 분석에 특화된 파이썬 라이브러리이고, "행과 열"로 구성되어 있음

```python
import pandas as pd
```

## 데이터프레임의 구성

- **행(index)**, **열(column)**으로 구조화 되어 있음
- 행 -> 가로 / 열 -> 세로
- 데이터프레임 내에서 데이터의 위치를 나타내는 역할을 함

## Series란?

- 값(value)과 인덱스(index)로 구성된 1차원 자료구조
- 인덱스가 있는 1차원 배열(array)
- 시리즈를 구성하는 값들의 데이터타입은 모두 같아야 함
- 인덱스 레이블을 지정하지 않으면 0부터 시작

**시리즈 생성 예시**

```python
series = ['LG', '애플', '삼성', 'ASUS', '삼성']
Sr = pd.Series(series)

index = [1, 2, 3, 4, 5]
Sr = pd.Series(series, index=index)
```

## 데이터프레임

- **2차원 구조**
- 컬럼 간의 데이터타입이 달라도 무방함

**데이터프레임 생성 예시**

```python
data = {'노트북 브랜드': ['LG', '애플', '삼성'], '무게': [0.99, 1.63, 0.87]}
df = pd.DataFrame(data)

index = [1, 2, 3]
columns = ['브랜드', '노트북 무게']
df = pd.DataFrame(data, index=index, columns=columns)
```

## 데이터 확인 방법

```python
df.head(n)       # 앞에서 n개의 행 반환
df.tail(n)       # 뒤에서 n개의 행 반환
df.shape         # 행 개수와 열 개수 반환
df.dtypes        # 열들의 데이터타입 반환
df.describe()    # 수치형 열들의 기본적인 통계값 반환
df['열 이름'].unique() # 특정 열에 포함된 고유 값 반환
df.isnull()      # null 값 여부 반환
df.info()        # 데이터프레임 정보 종합 출력
df.count()       # null 제외 데이터 행 수 반환
df['열 이름'].value_counts() # 특정 열 값들의 빈도수 반환
```

## 데이터 추출

- **인덱싱**: n번째 데이터를 추출
- **슬라이싱**: 범위 데이터를 추출

```python
Data[:1]   # 0번째 데이터 반환
Data[1:3]  # 1~2번째 데이터 반환
Data[2:]   # 2번째부터 끝까지 반환
```

### 행 단위 데이터 추출

- **loc**: 행과 열의 **이름**을 통해 데이터 추출
- **iloc**: 행과 열의 **순서**(정수 인덱스)로 데이터 추출

```python
df.loc['행 이름']          # 행 단위 추출
df.loc['행 이름', '열 이름'] # 값 단위 추출
df.loc[:, '열 이름']       # 열 단위 추출

df.iloc[0, 1]              # 0번째 행, 1번째 열 데이터 추출
```

### 열 단위 데이터 추출

```python
df['열 이름']
df[['열 이름1', '열 이름2']]
df['열 이름'][0]  # 특정 행의 데이터 추출
```

## 불리언 인덱싱

- 조건에 따라 True/False 배열을 통해 데이터 필터링

```python
df[df['노트북 브랜드'] == '애플']
df[(df['노트북 브랜드'] == '애플') & (df['노트북 무게'] < 1.6)]
df.loc[df['노트북 브랜드'] == '애플', '노트북 무게']
```

## 인덱스 변경

```python
df.set_index('사용자 이름')  # 사용자 이름을 인덱스로 설정
df.reset_index()            # 인덱스 리셋
df.reindex([1, 2, 3])       # 인덱스 재배열
```

## 데이터 조작

```python
df['새로운 열 이름'] = [1, 2, 3]    # 새로운 열 추가
df.drop('열 이름', axis=1)           # 열 삭제
df.sort_index()                      # 인덱스 기준 정렬
df.sort_values('열 이름')            # 열 값 기준 정렬
df['열 이름'] = df['열 이름'].astype(float)  # 데이터타입 변경
df.replace('삼성', 'Samsung')          # 값 변경
```

## 데이터 병합

- **concat**: 데이터프레임 이어 붙이기
- **merge**: 공통 항목 기준으로 병합

```python
pd.concat([df1, df2], axis=0)  # 행 방향 병합
pd.concat([df1, df2], axis=1)  # 열 방향 병합

pd.merge(df1, df2, how='inner', on='열 이름')  # 교집합 기준 병합
pd.merge(df1, df2, how='outer', on='열 이름')  # 합집합 기준 병합
```

## 집계 함수

```python
df['열 이름'].mean()  # 평균
median()               # 중앙값
std()                  # 표준편차
sum()                  # 합계
max()                  # 최대값
min()                  # 최소값
```

## 그룹화

- **groupby** 사용

```python
df.groupby('컬럼명1')['컬럼명2'].mean()
```