# Pandas 란
- 테이블 데이터를 효율적으로 조작 및 분석할 수 있는 라이브러리입니다.
- 금융 데이터 분석, 통계 데이터 분석, 데이터 전처리 및 데이터 클린징 작업에 활용됩니다.

# Pandas 기본 사용법

### 1. Pandas 라이브러리 가져오기

- Pandas를 사용하기 위해서는 먼저 라이브러리를 import 해야 합니다.

In [None]:
import pandas as pd

### 2. 데이터 구조

- Pandas에서는 두 가지 주요 데이터 구조를 사용합니다: Series와 DataFrame.
#### 2.1. Series

- Series는 1차원 데이터 배열입니다. 인덱스를 가지고 있습니다.

In [None]:
# Series 생성
s = pd.Series([1, 3, 5, 6, 8])
print(s)

# Series 생성
s = pd.Series([1, ["Hello", "Bye"], 5, None, 6, 8])
print(s)

# Series 생성
s = pd.Series([1, 3, 5, None, "6", 8])
print(s)

#### 2.2. DataFrame

- DataFrame은 2차원 데이터 배열이며, 여러 개의 Series를 모아서 테이블 형태로 만든 것입니다.

In [None]:
# DataFrame 생성 (Series로 생성하기)
name        = pd.Series(['걸그룹_뉴진스', '민지', '하니', '다니엘', '해린', '혜인', '걸그룹_에스파', '카리나', '지젤', '윈터', '닝닝'] , name="Name")
age         = pd.Series([None, 20, 20, 19, 18, 16, None, 24, 24, 23, 22] , name="Age")
nationality = pd.Series([None, '한국', '호주', '호주', '한국', '한국', None, '한국', '일본', '한국', '중국'] , name="Nationality")

df = pd.concat([name, age, nationality], axis=1)

df

In [None]:
# DataFrame 생성 (list를 value로 가지는 dictionary data로 생성하기)
df = pd.DataFrame({
    'Name': ['걸그룹_뉴진스', '민지', '하니', '다니엘', '해린', '혜인', '걸그룹_에스파', '카리나', '지젤', '윈터', '닝닝'],
    'Age': [None, 20, 20, 19, 18, 16, None, 24, 24, 23, 22],
    'Nationality': [None, '한국', '호주', '호주', '한국', '한국', None, '한국', '일본', '한국', '중국']
})

df

- 그룹 식별용 깃발(flag) 다음에 해당 그룹에 소속된 사람들이 한줄로 서 있는 경우를 상상해주세요.

  ![Alt text for broken image link](../resources/pandas_df.jpg)

### 3. 데이터 접근하기

- DataFrame 내의 데이터에 접근하고 조작할 수 있습니다.
#### 3.1. 열(Columns) 선택

In [None]:
# 열 선택
df['Name'] # -> Series return

#### 3.2. 행(Rows) 선택

In [None]:
# 인덱스로 행 선택
df.loc[2] # -> Series return

### 4. 슬라이싱

In [None]:
# df 값 출력
df

In [None]:
# 1열 ~ 2열 Slicing
df[1:3] # -> Data Frame return

In [None]:
# 1열 ~ 6열 Slicing, 간격 2
df[1:7:2] # -> Data Frame return

### 5. 데이터 필터링

- 조건에 맞는 데이터를 추출할 수 있습니다.

In [None]:
# 조건에 맞는 행 추출
filtered_df = df[df['Age'] > 21]
print(filtered_df)

### 6. 데이터 정렬

In [None]:
# 나이를 기준으로 오름차순 정렬
sorted_df = df.sort_values(by='Age')
print(sorted_df)

### 7. Data 추가
#### 7-1. 열(column) 추가
- 단일 값으로 새로운 열 추가

In [None]:
# '성별'이라는 새로운 열 추가 (단일 값으로 브로드케스트)
df['성별'] = '여성'

df

- 특정 값 수정

In [None]:
# 그룹을 구분하는 열의 성별값을 None으로 변경

df.at[0, '성별'] = None
df.at[6, '성별'] = None

df

- 리스트나 배열로 새로운 열 추가

In [None]:
# 리스트를 사용하여 새로운 열 추가
df['성별'] = [None, '여성', '여성', '여성', '여성', '여성', None, '여성', '여성', '여성', '여성']

df

#### 7-2. 행(row) 추가 (실제로는 두개의 data frame 이어 붙이기)
- pandas에서 행추가 기능은 제공하지 않습니다. 
- 두개의 데이터프레임을 이어 붙이는 메소드 `concat`을 활용하여 행을 추가합니다.
- `ignore_index=True`를 지정하면 기존 인덱스를 무시하고 새로운 인덱스를 부여합니다.

In [None]:
# 데이터프레임 생성
new_member_df = pd.DataFrame({'Name': ['홍예슬'], 'Age': [35], 'Nationality': ['한국'], '성별': ['여성']})

- DataFrame의 끝행에 append

In [None]:
new_df = pd.concat([df, new_member_df], ignore_index=True)

new_df

- DataFrame 사이 열에 insert

In [None]:
df = pd.concat([df[:5], new_member_df, df[6:]], ignore_index=True)

df

### 8. 집계 함수

- DataFrame에서 데이터를 집계하고 요약할 수 있는 함수들이 있습니다.

In [None]:
# 평균, 최대값, 최소값 계산
print(f"Age 평균 : {df['Age'].mean()}")
print(f"Name max : {df['Name'].max()}")
print(f"Name min : {df['Nationality'].min()}") # Error 발생

In [None]:
# None 값을 NaN으로 변경
import numpy as np
df = df.replace({None: np.nan})

df

In [None]:
# NaN 값 무시
df['Nationality'].dropna().min()

### 9. 데이터 읽기와 쓰기

- Pandas는 다양한 데이터 소스에서 데이터를 읽고 쓰는 기능을 제공합니다.
#### 9.1. CSV 파일 읽기와 쓰기

In [None]:
# CSV 파일 쓰기
df.to_csv('output.csv', index=False)

In [None]:
# CSV 파일 읽기
df_data = pd.read_csv('output.csv')
print(df_data.head())  # 처음 5개 행 출력

#### 10. Cumulative Sum (누적 합)

- DataFrame에 group 식별용 열이 존재할 때 group 식별자 칼럼 추가하기

In [None]:
# group 식별 행에 True(=1) 표식을 단다
df['is_group_tag'] = df['Name'].str.contains('걸그룹_')

df

- 데이터의 누적 합을 구할 수 있습니다.

In [None]:
# 현재 행 앞에 is_group_tag 값의 누적합계(cumsum)를 구한다.
# 이 값은 group 순번과 일치한다.
df['group_number'] = df['is_group_tag'].cumsum()

df

### 11. 그룹화(Grouping)

- 데이터를 그룹화하여 통계나 집계를 수행할 수 있습니다.
#### 11.1 Group by

- DataFrame의 `groupby` method 를 사용하여 group by 조건에 따라 DataFrame을 분할
- `groupby` 가 return 하는 결과는 `DataFrameGroupBy` 객체로 iterator을 통해 개별 그룹으로 분할된 각각의 DataFrame에 접근할 수 있음

In [None]:
# 걸그룹 기준으로 grouping
dfg = df.groupby('group_number')
print(type(dfg))

for group_number, group_df in dfg:
    print(f"그룹 : {group_number}")
    print(f"그룹 평균 나이 : {group_df["Age"].mean()}")
    print(group_df)

In [None]:
# DataFrameGroupBy 객체 (NaN 는 Count에서 제외됨)
group_row_count = dfg.count()

print(type(group_row_count))
print(group_row_count)

In [None]:
# 성별이라는 이름의 Series 리턴
group_row_count = dfg["성별"].count()

# Series 이름변경
group_row_count.name = "걸그룹 인원수"

group_row_count

### 문제 #1 ~ #4
- 고객 데이터는 다음과 같습니다:

In [None]:
customers_data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [25, 30, 35, 40, 28],
    'Location': ['New York', 'Los Angeles', 'New York', 'Chicago', 'Los Angeles']
}

- 문제 #1 : 
    
    위 데이터를 이용해 Pandas DataFrame을 생성하세요.
- 문제 #2 : 

    전체 고객의 평균 나이를 계산하세요.
- 문제 #3 : 

    각 지역별로 몇 명의 고객이 있는지 계산하세요.
- 문제 #4 : 

    나이가 30세 이상인 고객만을 포함하는 새로운 DataFrame을 생성하고 출력하세요.

In [None]:
import pandas as pd

# 데이터 생성
customers_data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [25, 30, 35, 40, 28],
    'Location': ['New York', 'Los Angeles', 'New York', 'Chicago', 'Los Angeles']
}

# 문제 #1. Pandas DataFrame 생성 (참고 : 2.2. DataFrame)
df = ...

# 문제 #2. 전체 고객의 평균 나이 계산 (참고 : 8. 집계 함수)
average_age = ...

# 문제 #3. 각 지역별 고객 수 계산 (참고 : 11.1 Group by)
customer_by_location = ...
# to-do

# 문제 #4. 나이가 30세 이상인 고객의 DataFrame 생성 (참고 : 5. 데이터 필터링)
df_30_and_above = ...
# to-do

# 결과 출력
print("평균 나이:", average_age)
print("\n지역별 고객 수:")
print(customer_by_location)
print("\n나이가 30세 이상인 고객:")
print(df_30_and_above)


## Wrap up
1. **Pandas의 핵심 구성요소**:

	Pandas는 주로 Series와 DataFrame 두 가지 데이터 구조를 사용합니다. Series는 1차원 배열이고, DataFrame은 2차원 테이블 형태의 데이터를 다룹니다.
2. **데이터 조작과 분석의 기본**:

	데이터의 선택, 필터링, 추가 등 기본적인 데이터 조작과 분석 기법을 이해하고 있어야 합니다.
3. **데이터 집계와 그룹화**:

	Pandas는 데이터를 그룹화하고, 이를 기반으로 집계, 요약하는 기능을 제공합니다.
4. **다양한 데이터 소스와의 상호작용**:

	Pandas는 CSV 등 다양한 데이터 소스에서 데이터를 읽고 쓸 수 있는 기능을 제공합니다.