# pandas와 DataFrame

## 1. 라이브러리 불러오기
- Pandas 라이브러리를 불러오고, 보통 pd로 줄여 사용합니다.

In [2]:
!pip3 install pandas

import pandas as pd
import numpy as np

Defaulting to user installation because normal site-packages is not writeable
Collecting pandas
  Downloading pandas-2.2.3-cp39-cp39-macosx_11_0_arm64.whl (11.3 MB)
[K     |████████████████████████████████| 11.3 MB 12.6 MB/s eta 0:00:01
[?25hCollecting pytz>=2020.1
  Downloading pytz-2024.2-py2.py3-none-any.whl (508 kB)
[K     |████████████████████████████████| 508 kB 11.8 MB/s eta 0:00:01
Collecting tzdata>=2022.7
  Downloading tzdata-2024.2-py2.py3-none-any.whl (346 kB)
[K     |████████████████████████████████| 346 kB 11.8 MB/s eta 0:00:01
[?25hCollecting numpy>=1.22.4
  Downloading numpy-2.0.2-cp39-cp39-macosx_14_0_arm64.whl (5.3 MB)
[K     |████████████████████████████████| 5.3 MB 15.9 MB/s eta 0:00:01
Installing collected packages: tzdata, pytz, numpy, pandas
Successfully installed numpy-2.0.2 pandas-2.2.3 pytz-2024.2 tzdata-2024.2
You should consider upgrading via the '/Library/Developer/CommandLineTools/usr/bin/python3 -m pip install --upgrade pip' command.[0m


## 2. DataFrame 만들기
- `pd.DataFrame()`을 사용해 데이터프레임을 생성합니다. 
- 딕셔너리를 넘겨줘서 `표 형식`으로 데이터를 만들 수도 있습니다.

1. 리스트를 이용해서 만들기

In [4]:
two_dimensional_list = [
    ['skirt', 10, 30000],
    ['sweater', 15, 60000],
    ['coat', 6, 95000],
    ['jeans', 11, 35000]
]

list_df = pd.DataFrame(two_dimensional_list, columns=['categoty', 'quantity', 'price'])
list_df

Unnamed: 0,categoty,quantity,price
0,skirt,10,30000
1,sweater,15,60000
2,coat,6,95000
3,jeans,11,35000


2. array를 이용해서 만들기(list와 동일)

In [6]:
two_dimensional_list = [
    ['skirt', 10, 30000],
    ['sweater', 15, 60000],
    ['coat', 6, 95000],
    ['jeans', 11, 35000]
]
two_dimensional_array = np.array(two_dimensional_list)

array_df = pd.DataFrame(two_dimensional_array, columns=['category', 'quantity', 'price'])
array_df

Unnamed: 0,category,quantity,price
0,skirt,10,30000
1,sweater,15,60000
2,coat,6,95000
3,jeans,11,35000


3. 딕셔너리를 이용해서 만들기

In [5]:
dict_list = [
    {'category': 'skirt', 'quantity': 10, 'price': 30000},
    {'category': 'sweater', 'quantity': 15, 'price': 60000},
    {'category': 'coat', 'quantity': 6, 'price': 95000},
    {'category': 'jeans', 'quantity': 11, 'price': 35000}
]

df4 = pd.DataFrame(dict_list)
df4

Unnamed: 0,category,quantity,price
0,skirt,10,30000
1,sweater,15,60000
2,coat,6,95000
3,jeans,11,35000


- 이게 더 직관적!

In [7]:
df = pd.DataFrame({
    'category': ['skirt', 'sweater', 'coat', 'jeans'],
    'quantity': [10, 15, 6, 11],									 
    'price': [30000, 60000, 95000, 35000]
})
df

Unnamed: 0,category,quantity,price
0,skirt,10,30000
1,sweater,15,60000
2,coat,6,95000
3,jeans,11,35000


## 3. Column과 Row 설명
- `Column(세로 줄)`: 각 column의 이름을 지정할 수 있습니다.
- `Row(가로 줄)`: 각각의 데이터 항목
- `Index(인덱스)`: 왼쪽에 있는 숫자(0, 1, 2, 3)는 각 row의 인덱스

## 4. 간단한 연산
- Pandas는 `numpy`를 기반으로 만들어졌기 때문에, **numpy에서 사용한 연산이랑 비슷하게** 사용할 수 있습니다.

- 특정 컬럼 선택
    - `df['quantity']`를 하면 해당 컬럼만 가져옵니다.

In [8]:
df

Unnamed: 0,category,quantity,price
0,skirt,10,30000
1,sweater,15,60000
2,coat,6,95000
3,jeans,11,35000


In [10]:
# 1차원
df['quantity']

0    10
1    15
2     6
3    11
Name: quantity, dtype: int64

In [9]:
# 2차원
df[['quantity']]

Unnamed: 0,quantity
0,10
1,15
2,6
3,11


- `pd.Series`

    - 컬럼 하나를 선택하면 Pandas DataFrame에서 Pandas Series로 변환됩니다. Series는 `1차원 데이터를 다루는 자료형`입니다.
    - 마치 numpy 1차원 array와 같다.

In [11]:
  # pandas.core.series.Series
type(df['quantity'])

pandas.core.series.Series

- 기본 통계 연산
    - 평균, 합계, 최솟값 등을 쉽게 구할 수 있습니다.

In [12]:
print(df['quantity'].mean())  # 평균값
print(df['quantity'].sum())   # 합계
print(df['quantity'].min())   # 최솟값

10.5
42
6


- `Series 간 연산 (like numpy)`

    - 두 개의 Series 간 연산도 가능합니다. 예를 들어, quantity와 price를 곱하면 각 항목의 총 판매량을 구할 수 있습니다.
    - `element-wise`하게 곱할 수 있다.

In [13]:
df['quantity'] * df['price']

0    300000
1    900000
2    570000
3    385000
dtype: int64

* 이 코드를 실행하면 각 인덱스의 값끼리 곱해진 결과가 나옵니다. 항목별 수량과 가격을 곱해 총 판매량을 계산하는 방식입니다.