# SESSION01_PANDAS🐼

## 1. 판다스란?

### 1-1. 판다스의 개념
- 데이터 분석에 특화된 파이썬 라이브러리
- 기본 틀: DataFrame (행과 열로 이루어진 테이플 형태 구조)
- 넘파이(Numpy)의 확장판 (Numpy 기능 + 구조화된 데이터 처리 기능)

### 1-2. 판다스 라이브러리 불러오기
- import pandas as pd: 판다스 불러오기
- df=pd.read_csv('파일 경로'): 데이터 불러오기

## 2. 판다스의 데이터 구조

### 2-1. Series
- Value(값)과 Index(인덱스)로 구성된 가장 간단한 1차원 자료구조
- Like 인덱스가 있는 1차원 배열(array)
- 인덱스 레이블을 따로 지정하지 않으면 0부터 시작
- 데이터프레임에서 특정 칼럼 1개만 추출 => Series
- 시리즈를 구성하는 값들은 모두 같은 데이터타입

### 2-2. DataFrame
- Index(행)와 Column(열)로 이루어진 2차원 배열 구조
- 여러 개의 Series가 모여 하나의 DataFrame 구성
- Colume 단위로는 값들의 데이터 타입이 동일해야 함
- 각 Column 간의 데이터타입은 달라도 무방함

In [1]:
import pandas as pd

data = {
    '이름': ['카리나', '윈터', '지젤', '닝닝'],
    '점수': [99, 60, 85, 93]
}

df = pd.DataFrame(data)
print(df)

    이름  점수
0  카리나  99
1   윈터  60
2   지젤  85
3   닝닝  93


## 3. 데이터 확인
**목적: DataFrame에 대한 기본적인 이해 => 데이터의 크기, 타입, 값의 분포나 경향 파악**

## 4. 데이터 추출
**목적: 실제로 분석하게 될 데이터는 양이 매우 방대하기 때문에 분석에 필요한 부분만 골라내어 가공**

### 4-1. 인덱싱(Indexing) & 슬라이싱(Slicing)
- 인덱싱(Indexing): 단일 항목을 지목 ex) df[1]
- 슬라이싱(Slicing): 범위를 지정해 여러 항목 추출 ex) df[start:end]

### 4-2. 행단위 추출: loc & iloc
- loc: 인덱스 이름(index label)을 기준으로 행을 선택할 때 
- iloc: 정수형 위치(positive position)을 사용할 때

### 4-3. 열단위 추출: 컬럼명
**열 이름으로 인덱싱 => 직관적!**
- df[열 이름]
- df[[열 이름]]
- df[[열 이름1, 열 이름2...]]
- df[열 이름][행 이름]

### 4-4. 불리언 인덱싱
- 특정 조건에 만족하는 데이터를 추출하고 싶을 때
- True 또는 False의 배열을 통해 데이터 필터링하는 연산

### 4-5. 인덱스 설정
**기본값: 0부터 시작하는 정수형 인덱스**
- df.set_index(열 이름): 기존의 열 중 하나를 인덱스로 설정
- df.reset_index() : 인덱스를 리셋하고 기존 인덱스를 열에 추가
- df.reindex(인덱스 배열) : 인덱스의 재배열에 따라 기존 행데이터도 인덱스를 따라감

## 5. 데이터 조작

### 5-1. 데이터 추가, 삭제
- df['새로운 열 이름'] = 리스트 : 특정 데이터 셋을 열로 추가
- df.drop(labels, axis) : 열 삭제

In [None]:
import pandas as pd

data = {
    '이름': ['카리나', '윈터', '지젤', '닝닝'],
    '점수': [99, 60, 85, 93]
}

df = pd.DataFrame(data)
df['촤종 점수'] = df['점수'] * 2 # 데이터 추가
print(df)
df.drop('점수', axis=1, inplace=True) #데이터 삭제
# axis = 1: 입력된 레이블을 열방향으로 탐색해 해당 열 삭제
# inplace=True 옵션을 사용했기 때문에 원본 df에 바로 적용
print(df)

    이름  점수  촤종 점수
0  카리나  99    198
1   윈터  60    120
2   지젤  85    170
3   닝닝  93    186
    이름  촤종 점수
0  카리나    198
1   윈터    120
2   지젤    170
3   닝닝    186


### 5-2. 데이터 정렬
- df.sort_index() : 인덱스를 기준으로 정렬
- df.sort_values(by="열 이름") : 특정 열의 값을 기준으로 정렬

### 5-3. 데이터 변환
- df[열 이름] = df[열 이름].astype(바꿀 자료형): 특정 칼럼 내 데이터의 자료형 변환
- df.replace(바꾸고 싶은 값, 바꿀 값): 데이터의 값 자체를 변환
- df.transpose(), df.T: 전치를 통해 데이터프레임의 행과 열을 서로 맞바꿈

### 5-4. 데이터프레임 병합
- df = pd.concat([df1,df2], axis=0): 행방향 결합
- df = pd.concat([df1,df2], axis=1): 열방향 결합
- df = pd.merge(df1, df2, how = 'inner', on = '~~'): 교집합(and) 연산
- df = pd.merge(df1, df2, how = 'outer', on = '~~'): 합집합(or) 연산
