# 01. Pandas
---
- pandas는 데이터 분석과 조작을 위해 설계된 파이썬 라이브러리로, <br>
    특히 구조화된 데이터(예: 테이블 형태의 데이터) 처리에 강력하다.

pandas는 잘 정리된 공식 문서를 제공한다.
[Pandas Documentation](https://pandas.pydata.org/docs/)

- **pandas의 특장점**
    - 복잡한 데이터를 간단하게 조작할 수 있는 메서드를 제공한다.
    - CSV, Excel, SQL 등 다양한 데이터 소스를 지원하여, 불러오거나 저장할 수 있다.
    - 기본적인 통계 연산부터 복잡한 데이터 집계 및 그룹화까지 강력한 분석 도구들을 제공한다.
    - matplotlib 및 seaborn과 같은 시각화 라이브러리와 쉽게 연동 가능하다.

In [None]:
%pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [None]:
# 일반적인 판다스 사용 방법
import pandas as pd

## Pandas 데이터 구조
### Pandas 데이터 구조 개요

 > 판다스의 핵심 데이터 구조는 Series와 DataFrame이다.
 > - Series: 1차원 데이터를 다루는 객체
 > - DataFrame: 2차원 데이터를 다루는 객체

### Series
- padnas의 Series는 인덱스와 데이터를 함께 저장한다.
- 데이터는 숫자, 문자열, 불리언, 또다른 데이터타입을 포함 할 수 있다.




**Series 생성 방법**
- **pd.Series()** 함수를 사용하여 생성 할 수 있다.

In [11]:
numbers = pd.Series([10,20,30,40])

- Series의 각 값은 인덱스를 이용해 선택 할 수 있다.

In [14]:
numbers[0]

np.int64(10)

- Index를 지정해서 Series를 생성 할 수 있다. 
> 시리즈 갯수에 맞게 작성해야한다.

In [15]:
numbers = pd.Series([10,20,30,40], index=['a','b','c','d'])
numbers

a    10
b    20
c    30
d    40
dtype: int64

In [16]:
numbers['a']

np.int64(10)

### DataFrame
- DataFrame은 행(row)과 열(column)로 이루어진 2차원 데이터 구조로, Series의 집합과 같은 구조이다.
- 엑셀 시트나 SQL 테이블과 유사한 구조를 가지고 있다.

**DataFrame 생성 방법**
- Data Frame은 다양한 방법으로 생성 가능하다. 
- 대표적인 방법으로는 딕셔너리 또는 리스트를 사용하는 방법이다.

In [19]:
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 40],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
}

df = pd.DataFrame(data)

df


Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,Los Angeles
2,Charlie,35,Chicago
3,David,40,Houston


- 행과 열에는 각각의 인덱스와 컬럼 라벨이 있어 데이터를 쉽게 선택 가능하다.

In [20]:
df['Name']

0      Alice
1        Bob
2    Charlie
3      David
Name: Name, dtype: object

In [21]:
df[['Name','Age']]

Unnamed: 0,Name,Age
0,Alice,25
1,Bob,30
2,Charlie,35
3,David,40


- 열을 선택하려면 loc 또는 iloc를 사용 할 수 있다.

In [22]:
df.loc[1]

Name            Bob
Age              30
City    Los Angeles
Name: 1, dtype: object

In [26]:
df.iloc[1]

Name            Bob
Age              30
City    Los Angeles
Name: 1, dtype: object

### DataFrame 객체 생성

- index를 포함하여 DataFrame을 생성 할 수 있다.

In [27]:
df = pd.DataFrame(data, index=['1번', '2번', '3번','4번'])
df

Unnamed: 0,Name,Age,City
1번,Alice,25,New York
2번,Bob,30,Los Angeles
3번,Charlie,35,Chicago
4번,David,40,Houston


- data 중에서 원하는 column 만 선택하거나, 순서 변경해서 조회 할 수 있다.

In [28]:
df = pd.DataFrame(data, columns=['Name', 'City'])
df

Unnamed: 0,Name,City
0,Alice,New York
1,Bob,Los Angeles
2,Charlie,Chicago
3,David,Houston
