# 1.판다스란?  
## 1-1. 판다스(Pandas)
 - 판다스는 데이터분석에 특화된 파이썬 라이브러리
 - 행과 열로 이루어진 테이블 형태의 데이터 구조인 DataFame을 기본 틀로 사용
 - 넘파이(NumPy)의 확장판으로, Numpy 기능 + 구조화된 데이터 처리 기능을 보유
 - NumPy는 다차원 배열의 수치 계산 특화, 반면 Pandas는 2차원 테이블 형식(행과 열 구조의 표)의 데이터에 대한 조작 및 분석에 특화됨


## 1-2. 판다스 라이브러리 불러오기  
*라이브러리란?  
라이브러리는 미리 만들어진 기능들이 들러 있는 도구 상자.
특정 작업을 하고 싶을 때 필요한 기능을 가진 라이브러리를 블러와 사용 가능  

### -1. 판다스 불러오기  
```python
import pandas as pd 
```
### -2. 데이터 불러오기  
```python
df=pd.read_csv('파일 경로')
```

# 2. 데이터프레임의 구성  
*데이터 프레임이란? 컴퓨터로 정보를 정리하고 저장하는 도구

## 2-1. Index와 Column  
 - 데이터프레임의 기본 구조는 행(Index)과 열(Column)으로 이루어짐  
 - 가로:행, 세로:열  
 - 행과 열은 데이터프레임 내에서 데이터의 위치  

## 2-2. Series  
 - 시리즈는 값(Value)과 인덱스(index)로 구성된 1차원 자료구조  
 - 인덱스가 있는 1차원 배열  
 - 인덱스 레이블을 따로 지정하지 않으면 0부터 시작되는 디폴트 정수형 인덱스가 자동으로 부여됨  
 - 데이터프레임에서 특정 컬럼을 1개만 추출한다면 해당 자료구조는 시리즈 객체임  
 - 시리즈를 구성하는 값들은 모두 같은 데이터타입이어야함  
 - 만약 숫자와 문자가 섞여 있으면 전체 데이터가 문자열로 처리됨  
 
 ### 시리즈 만드는 법  
  1. 원하는 값들이 포함된 리스트 생성  
  ```python
  series = ['LG', '애플', '애플', '삼성', 'ASUS', '삼성']
  ```
  2. pd.Series()함수를 사용해 시리즈 객체 생성(인덱스 지정X)  
  ```python
  sr = pd.Series(series)
  print(sr)
  ```
  3. 인덱스를 직접 지정해주고 싶으면 pd.Series() 함수의 인자에 인덱스를 추가  
  ```python
  index = [1,2,3,4,5,6]
  sr = pd.Series(series, index = index)

  print(sr)
  ```


## 2-3. DataFrame  
 - 데이터 프레임은 행과 열로 이루어진 2차원 배열 구조  
 - 여러 개의 시리즈(Series)가 모여 하나의 데이터프레임을 구성함  
 - 시리즈, 즉 컬럼 단위로는 값들의 데이터 타입이 동일해야 하지만, 컬럼 간의 데이터타입은 달라도 무방함

 ### 데이터프레임 만드는 법  
 1. 데이터와 각 카테고리 별 네이밍을 컬럼으로 하는 딕셔너리 생성  
```python
data = {
    '노트북 브랜드' : ['LG', '애플', '애플', '삼성', 'ASUS', '삼성'],
    '노트북 화면 크기(인치)' : [14.0, 14.2, 15.3, 13.3, 14.0, 15.6],
    '노트북 무게(kg)' : [0.99, 1.63, 1.51, 0.87, 1.28, 1.80],
    '사용자 이름' : ['황종빈', '김찬우', '김현서', '엄태림', '이지현', '윤해민']
}
```
 2.pd.DataFrame()함수를 사용하여 데이터프레임 구성  
```python
df = pd.DataFrame(data)
```
 3. 인덱스, 컬럼을 직접 지정하는 것도 가능(기본값은 둘다 0,1,2...)  
 ```python
 index = [1,2,3,4,5,6]
columns = ['브랜드', '화면 크기', '무게', '이름']
df = pd.DataFrame(data, index=index, columns=columns)
```

# 3. 데이터 확인  
 - 주어진 데이터프레임을 먼저 이해해야함  
 - 데이터의 크기, 타입, 값의 분포나 경향 등  
 - 일부확인 or 전체적인 특징을 요약해주는 함수 활용하여 빠르게 파악  
## 3-1. head(), tail()  
 - `df.head(n)` : 앞 n개의 행 반환  
 - `df.tail(n)` : 뒤 n개의 행 반환  
## 3-2. 데이터에 대한 정보를 확인하기  
 - `df.shpe` : (행 개수, 열 개수 반환)  
 - `df.info()` : 여러 정보들을 종합적으로 반환  
 - `df.describe()` : 수치형 열들의 기본적인 통계값 반환  
 - `df.isnull()` : 데이터에 결측치(NaN)가 있는지의 여부를 반환  
 - `df.dtypes` : 열들의 데이터타입 반환  
## 3-3. 고유값 및 개수 확인  
- `df.count()` : 결측치의 개수를 제외한 데이터의 행 수 반환  
- **`df[열 이름].value_counts()`** : 특정 열에 포함된 값들의 빈도수를 세어 반환  
- `df[열 이름].unique()` : 특정 열에 포함된 값들을 종류별로 1개씩만 반환  

# 4. 데이터 추출  
분석에 필요한 부분만 골라내어 가공하는 능력이 매우 중요  
데이터 분석가에게 가장 많이 요구되는 작업 중 하나임  

## 4-1. 인덱싱(Indexing)&슬라이싱(Slicing)  
인덱스와 컬럼을 사용해 데이터를 추출하는 것  
- 인덱싱(Indexing) : 단일 항목을 지목할 때 사용  
예 : `df[1]`  
- 슬라이싱(Slicing) : 범위를 지정해 여러 항목을 추출할 때 사용  
예 : `df[start:end]`  

## 4-2. 행단위 추출 : loc과 iloc  
 - 데이터프레임의 행 데이터를 선택하기 위해 사용  
 - 인덱스 이름(index label)을 기준으로 행을 선택할 때는 `loc`이용  
 - 정수형 위치(integer position)를 사용할 때는 `iloc`이용  

 ### loc  
 - 인덱싱&슬라이싱 모두 가능  
 - 끝 인덱스를 포함하여 반환(이름을 기준을 동작하기 때문)  
 - `df.loc[행 이름]` ⇒ 행단위 추출  
 1. 인덱싱 : `df.loc[1]`  
 2. 슬라이싱 : `df.loc[2:5]`  
 3. Fancy 인덱싱(여러 데이터 한번에 추출) : `df.loc[[2,5]]`  
 - `df.loc[행 이름, 열 이름]`⇒ 값단위 추출  
 1. 인덱싱 : `df.loc[3, '사용자 이름']`  
 2. 슬라이싱 : `df.loc[0:3, '노트북 화면 크기(인치)']`  
 3. Fancy 인덱싱 : `df.loc[[0,5], ['노트북 브랜드', '사용자 이름']]`  
 - `df.loc[:, 열 이름]`⇒ 열단위 추출  

 ### iloc  
 - 정수형 인덱스 번호가 와야함  
 - 끝 인덱스를 포함하지 않고 반환  
 - `df.iloc[행 순서, 열 순서]`  
 예시 : `df.iloc[1:4, 1:]`⇒ 인덱스 순서는 1~3번째, 컬럼 순서는 1번째부터인 데이터 추출  

 ## 4-3. 열단위 추출: 컬럼명  
 - `df[열 이름]` : 하나의 열만 인덱싱하면 시리즈를 반환  
 - `df[[열 이름]]` : 하나의 열만 반환하면서 데이터프레임 자료형을 유지  
 - `df[[열 이름1, 열 이름2...]]` : 여러 개의 열을 인덱싱하면 부분적인 데이터 프레임이 반환  
 - `df[열 이름][행 이름]` : 입력한 열에서 입력한 번째의 인덱스 반환  

 ## 4-4. 불리언 인덱싱  
 - 특정 조건에 만족하는 데이터를 추출하고 싶을 때 불리언 인덱싱 사용  
 - True 또는 False의 배열을 통해 데이터를 필터링하는 연산을 말함  
 `df[조건문]`  
 - 조건문 여러 개를 논리연산자(and, or)로 묶어 사용하는 것도 가능함  
 `df[(조건문1) 논리연산자 (조건문2)]`  
 - loc에서도 불리언 인덱싱 쓸 수 있음, 하지만 iloc은 불가능  
 `df.loc[조건문, 열 이름]`

## 4-5. 인덱스 설정  
- 인덱스는 0부터 시작하는 정수형 인덱스를 기본값으로 가지지만, 원하는 대로 변경할 수 있음  
- `df.set_index(열 이름)` : 기존의 열 중 하나를 인덱스로 설정  
- `df.reset_index()` : 인덱스를 리셋하고 기존 인덱스(디폴트 정수형)를 열에 추가  
- `df.reindex(인덱스 배열)` : 인덱스의 재배열에 따라 기존 행데이터도 인덱스를 따라감  







# 5. 데이터 조작  
## 5-1. 데이터 추가, 삭제  
- 특정 데이터 셋을 열로 추가할 수 있음  
`df['새로운 열 이름'] = 리스트` : 특정 리스트를 데이터프레임에 추가  
- 열을 삭제할 수도 있음  
`df.drop(labels, axis)`  
## 5-2. 데이터 정렬  
- 데이터를 새로운 방식으로 정렬할 수 있음  
`df.sort_index()` : 인덱스를 기준으로 정렬  
`df.sort_values(by="열 이름")` : 특정 열의 값을 기준으로 정렬  
## 5-3. 데이터 변환  
- 특정 컬럼 내 데이터의 자료형을 변환할 수 있음  
데이터의 자료형 확인 - `df.dtypes:열들의 데이터타입 반환`  
`df[열 이름] = df[열 이름].astype(바꿀 자료형)`  
- 데이터의 값 자체를 변환할 수도 있음  
`df.replace(바꾸고 싶은 값, 바꿀 값)`  
- 전치(transpose)를 통해 데이터프레임의 행과 열을 서로 맞바꿀 수 있음  
`df.transpose()`  
`df.T`  
## 5-4. 데이터프레임 병합

### concat  
- 단순히 두 데이터 프레임을 이어붙이는 방식임  
- 데이터프레임을 행 혹은 열 방향으로 이어붙일 수 있음. 보통 동일한 구조의 데이터프레임을 합칠 때 사용  
- `df = pd.concat([df1,df2], axis=0)` ⇒ 행방향 결합  
- `df = pd.concat([df1,df2], axis=1)` ⇒ 열방향 결합  

### merge  
- 공통항목을 기준으로 병합하는 방식  
- 데이터프레임 간 공통 항목(열이나 인덱스)이 있어야 합칠 수 있음  
- 따라서 형태가 달라도 겹치는 데이터를 기준으로 데이터프레임을 합칠 수 있음  
- on 인자를 통해 기준이 될 열을 지정해줄 수 있음  
- how 인자에 따라 어떤 방식으로 결합할지 결정할 수 있음(left, right, inner, outer)  
- `df = pd.merge(df1, df2, how = 'inner', on = '~~')` ⇒ 교집합(and) 연산  
- `df = pd.merge(df1, df2, how = 'outer', on = '~~')` ⇒ 합집합(or) 연산  

# 6.집계함수  
## 6-1. 집계함수란?  
- 여러 행으로부터 하나의 결괏값을 반환하는 함수  
- 각 컬럼의 평균, 표준편자, 합계 등... 연산을 통해 대표값을 구할 때 주로 사용함  
- 결측치가 있을 경우 결측치는 무시하고 계산함  

### 대표적인 집계함수  
- `df['컬럼 명'].median()` : 중앙값  
- `df['컬럼 명'].mean()` : 평균  
- `df['컬럼 명'].std()` : 표준편차  
- `df['컬럼 명'].sum()` : 합계  
- `df['컬럼 명'].max()` : 최대값  
- `df['컬럼 명'].min()` : 최소값  
- 각각의 열들에 대한 결과값을 얻고 싶다면 axis = 0(행방향 연산)  
- 각각의 행들에 대한 결과값을 얻고 싶다면 axis = 1(열방향 연산)  

## 6-2. 그룹화
- groupby 메소드는 특정 기준으로 그룹을 묶고, 연산 처리를 할 수 있게 해줌
- groupby 자체만으로는 아무 일도 일어나지 않고, 보통 집계함수와 함께 사용함
    - `df.groupby('column명1')[’column명2'].집계함수`
    column1로 그룹화를 하고, 그룹별로 column2에 대해 집계함수를 적용해 결과를 시리즈 형태로 반환
    - `df.groupby('column명1')[[’column명2']].집계함수`
    위와 똑같으나 'column명2'를대괄호로 두번 묶어서 결과를 데이터프레임 형태로 반환