# Pandas 란
- 테이블 데이터를 효율적으로 조작 및 분석할 수 있는 라이브러리입니다.
- 금융 데이터 분석, 통계 데이터 분석, 데이터 전처리 및 데이터 클린징 작업에 활용됩니다.

# Pandas 기본 사용법

### 1. Pandas 라이브러리 가져오기

- Pandas를 사용하기 위해서는 먼저 라이브러리를 import 해야 합니다.

In [None]:
import pandas as pd

### 2. 데이터 구조

- Pandas에서는 두 가지 주요 데이터 구조를 사용합니다: Series와 DataFrame.
#### 2.1. Series

- Series는 1차원 데이터 배열입니다. 인덱스를 가지고 있습니다.

In [None]:
# Series 생성
s = pd.Series([1, 3, 5, 6, 8])
print(s)

# Series 생성
s = pd.Series([1, 3, 5, None, 6, 8])
print(s)

# Series 생성
s = pd.Series([1, 3, 5, None, "6", 8])
print(s)

#### 2.2. DataFrame

- DataFrame은 2차원 데이터 배열이며, 여러 개의 Series를 모아서 테이블 형태로 만든 것입니다.

In [None]:
# DataFrame 생성
df = pd.DataFrame({
    'Name': ['group1', 'Alice', 'Bob', 'Charlie', 'group2', 'Tom', 'Jane', 'Nobody'],
    'Age': [None, 35, 30, 25, None, 101, 7, 29],
    'Location': ['Nowhere', 'New York', 'Los Angeles', 'Los Angeles', 'Nowhere', 'Seoul', 'Seoul', 'Nowhere']
})
print(df)

- 그룹 식별용 깃발(flag) 다음에 해당 그룹에 소속된 사람들이 한줄로 서 있는 경우를 상상해주세요.
  ![Alt text for broken image link](../resources/pandas_df.png)

### 3. 데이터 접근하기

- DataFrame 내의 데이터에 접근하고 조작할 수 있습니다.
#### 3.1. 열(Columns) 선택

In [None]:
# 열 선택
df['Name']

#### 3.2. 행(Rows) 선택

In [None]:
# 행 선택 (인덱스로)
df.loc[2]

### 4. 데이터 필터링

- 조건에 맞는 데이터를 추출할 수 있습니다.

In [None]:
# 조건에 맞는 행 추출
filtered_df = df[df['Age'] > 25]
print(filtered_df)

### 5. 데이터 정렬

In [None]:
# 나이를 기준으로 오름차순 정렬
sorted_df = df.sort_values(by='Age')
print(sorted_df)

### 6. Data 추가
#### 6-1. 열(column) 추가
- 단일 값으로 새로운 열 추가

In [None]:
# 기존 데이터프레임 생성
abc_df = pd.DataFrame({'A': [1, 2, 3],
                   'B': [4, 5, 6]})

print(f'열 추가 이전 :\n{abc_df}')

# 'C'라는 새로운 열 추가 (단일 값)
abc_df['C'] = 10

print(f'열 추가 이후 :\n{abc_df}')


- 리스트나 배열로 새로운 열 추가

In [None]:
# 리스트를 사용하여 'D'라는 새로운 열 추가
abc_df['D'] = [7, 8, 9]
print(abc_df)

#### 6-2. 행(row) 추가
- `concat`를 사용하여 다른 데이터프레임을 이어붙여 행 추가
- `ignore_index=True`를 지정하면 기존 인덱스를 무시하고 새로운 인덱스를 부여합니다.

In [None]:
# 데이터프레임 생성
df1 = pd.DataFrame({'A': [1, 2, 3],
                   'B': [4, 5, 6]})

df2 = pd.DataFrame({'A': [20], 'B': [21], 'C': [22], 'D': [23]})

# 다른 데이터프레임을 이어붙여 새로운 행 추가
concat_df = pd.concat([df1, df2], ignore_index=True)
print(concat_df)

### 7. 결측값 다루기

- 데이터에 결측값(누락된 값)이 있는 경우 다양한 방법으로 처리할 수 있습니다.
#### 7.1. 결측값 제거

In [None]:
# 데이터프레임 생성
na_df = pd.DataFrame({
    'Name': ['group1', 'Alice', 'Bob', 'Charlie', 'group2', 'Tom', 'Jane', 'Nobody'],
    'Age': [None, 35, 30, 25, None, 101, 7, 29],
    'Location': ['Nowhere', 'New York', 'Los Angeles', 'Los Angeles', 'Nowhere', 'Seoul', 'Seoul', 'Nowhere']
})
print(na_df)

In [None]:
# 결측값이 있는 행 제거
cleaned_df = na_df.dropna()
print(cleaned_df)

### 7.2. 결측값 채우기

In [None]:
# 결측값을 평균으로 채우기
na_df['Age'] = na_df['Age'].fillna(na_df['Age'].mean())
print(na_df)


### 8. 집계 함수

- DataFrame에서 데이터를 집계하고 요약할 수 있는 함수들이 있습니다.

In [None]:
# 데이터프레임 생성
df = pd.DataFrame({
    'Name': ['group1', 'Alice', 'Bob', 'Charlie', 'group2', 'Tom', 'Jane', 'Nobody'],
    'Age': [None, 35, 30, 25, None, 101, 7, 29],
    'Location': ['Nowhere', 'New York', 'Los Angeles', 'Los Angeles', 'Nowhere', 'Seoul', 'Seoul', 'Nowhere']
})

# 평균, 최대값, 최소값 계산
print(df['Age'].mean())
print(df['Name'].max())
print(df['Location'].min())


### 9. 데이터 읽기와 쓰기

- Pandas는 다양한 데이터 소스에서 데이터를 읽고 쓰는 기능을 제공합니다.
#### 9.1. CSV 파일 읽기와 쓰기

In [None]:
# 데이터프레임 생성
df = pd.DataFrame({
    'Name': ['group1', 'Alice', 'Bob', 'Charlie', 'group2', 'Tom', 'Jane', 'Nobody'],
    'Age': [None, 35, 30, 25, None, 101, 7, 29],
    'Location': ['Nowhere', 'New York', 'Los Angeles', 'Los Angeles', 'Nowhere', 'Seoul', 'Seoul', 'Nowhere']
})

# CSV 파일 쓰기
df.to_csv('output.csv', index=False)

In [None]:
# CSV 파일 읽기
df_data = pd.read_csv('output.csv')
print(df_data.head())  # 처음 5개 행 출력

#### 9.2. html page 읽기와 쓰기

In [None]:
!pip install lxml

In [None]:
# HTML page 읽기
# HTML 페이지에서 테이블을 가져와 데이터프레임으로 변환
url = 'https://www.w3schools.com/html/html_tables.asp'
tables = pd.read_html(url)

print(tables)

In [None]:
# 원하는 테이블 선택
df_table = tables[0]

print(df_table) # 처음 5개 행 출력

In [None]:
# HTML page 쓰기
df_html = df_table.to_html()
print(df_html)

#### 9.3. database 읽기와 쓰기

In [None]:
# database 쓰기

import pandas as pd
import sqlite3

# 샘플 데이터프레임 생성
data = {
    'Name': ['Alice', 'Bob', 'Kim'],
    'Age': [28, 30, 18],
    'Location': ['New York', '나성', 'Seoul']
}
df_db = pd.DataFrame(data)

# SQLite 데이터베이스 연결
conn = sqlite3.connect('test.db')

# 데이터프레임을 SQLite 테이블로 저장
df_db.to_sql('test', conn, index=False, if_exists='replace')

# 연결 종료
conn.close()

print("Data saved to SQLite database.")

In [None]:
# database 읽기

import pandas as pd
import sqlite3

# SQLite 데이터베이스 연결
conn = sqlite3.connect('test.db')

# SQL 쿼리를 사용하여 데이터프레임으로 읽어오기
query = "SELECT * FROM TEST"
df_sqlite = pd.read_sql_query(query, conn)

print(df_sqlite.head())

# 연결 종료
conn.close()

### 10. 그룹화(Grouping)

- 데이터를 그룹화하여 통계나 집계를 수행할 수 있습니다.
#### 10.1 Group by

In [None]:
# 데이터프레임 생성
df = pd.DataFrame({
    'Name': ['group1', 'Alice', 'Bob', 'Charlie', 'group2', 'Tom', 'Jane', 'Nobody'],
    'Age': [None, 35, 30, 25, None, 101, 7, 29],
    'Location': ['Nowhere', 'New York', 'Los Angeles', 'Los Angeles', 'Nowhere', 'Seoul', 'Seoul', 'Nowhere']
})

# 지역(Location)별 평균 나이 계산
grouped_df = df.groupby('Location').mean('Age')
print(grouped_df)


#### 10.2 조건식에 의한 Group By

In [None]:
# 나이가 30 이상인 그룹과 30 미만인 그룹으로 나누기
grouped_age = df.groupby(df['Age'] >= 30)

for g in grouped_age:
    print(g)


#### 11. Cumulative Sum (누적 합)

- 데이터의 누적 합을 구할 수 있습니다.

In [None]:
# 데이터프레임 생성
df = pd.DataFrame({
    'Name': ['group1', 'Alice', 'Bob', 'Charlie', 'group2', 'Tom', 'Jane', 'Nobody'],
    'Age': [None, 35, 30, 25, None, 101, 7, 29],
    'Location': ['Nowhere', 'New York', 'Los Angeles', 'Los Angeles', 'Nowhere', 'Seoul', 'Seoul', 'Nowhere']
})

df['Cumulative Sum'] = df['Age'].cumsum()
print(df)

- DataFrame에 group 식별용 열이 존재할 때 group 식별자 칼럼 추가하기

In [None]:
# group 식별 행에 True(=1) 표식을 단다
df['is_group_tag'] = df['Name'].str.contains('group')
print(df)


In [None]:
# 현재 행 앞에 is_group_tag 값의 누적합계(cumsum)를 구한다.
# 이 값은 group 순번과 일치한다.
df['group_number'] = df['is_group_tag'].cumsum()
print(df)

### 12. Numpy 배열로 DataFrame 생성

In [None]:
import numpy as np
import pandas as pd

# NumPy 배열 생성
np_arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# NumPy 배열을 이용하여 Pandas DataFrame 생성
np_df = pd.DataFrame(np_arr, columns=['A', 'B', 'C'])

# DataFrame 출력
print("DataFrame:")
print(np_df)

# DataFrame에서 열 'B'의 평균 계산 (결측값은 무시됨)
mean_b = np_df['B'].mean()

print("\n평균값 (열 'B'):", mean_b)

mean_1 = np_df.loc[1].mean()

print("\n평균값 (행 index=1):", mean_1)


### 문제 #1 ~ #4
- 고객 데이터는 다음과 같습니다:

In [None]:
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [25, 30, 35, 40, 28],
    'Location': ['New York', 'Los Angeles', 'New York', 'Chicago', 'Los Angeles']
}

- 문제 #1 : 
    
    위 데이터를 이용해 Pandas DataFrame을 생성하세요.
- 문제 #2 : 

    전체 고객의 평균 나이를 계산하세요.
- 문제 #3 : 

    각 지역별로 몇 명의 고객이 있는지 계산하세요.
- 문제 #4 : 

    나이가 30세 이상인 고객만을 포함하는 새로운 DataFrame을 생성하고 출력하세요.

In [None]:
import pandas as pd

# 데이터 생성
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [25, 30, 35, 40, 28],
    'Location': ['New York', 'Los Angeles', 'New York', 'Chicago', 'Los Angeles']
}

# 문제 #1. Pandas DataFrame 생성
df = pd.DataFrame(data)

# 문제 #2. 전체 고객의 평균 나이 계산
average_age = None
# to-do

# 문제 #3. 각 지역별 고객 수 계산
customer_by_location = None
# to-do

# 문제 #4. 나이가 30세 이상인 고객의 DataFrame 생성
df_30_and_above = None
# to-do

# 결과 출력
print("평균 나이:", average_age)
print("\n지역별 고객 수:")
print(customer_by_location)
print("\n나이가 30세 이상인 고객:")
print(df_30_and_above)


## Wrap up
1. **Pandas의 핵심 구성요소**:

	Pandas는 주로 Series와 DataFrame 두 가지 데이터 구조를 사용합니다. Series는 1차원 배열이고, DataFrame은 2차원 테이블 형태의 데이터를 다룹니다.
2. **데이터 조작과 분석의 기본**:

	데이터의 선택, 필터링, 정렬, 추가, 결측값 처리 등 기본적인 데이터 조작과 분석 기법을 이해하고 있어야 합니다.
3. **데이터 집계와 그룹화**:

	Pandas는 데이터를 그룹화하고, 이를 기반으로 집계, 요약하는 기능을 제공합니다.
4. **다양한 데이터 소스와의 상호작용**:

	Pandas는 CSV, HTML, 데이터베이스 등 다양한 데이터 소스에서 데이터를 읽고 쓸 수 있는 기능을 제공합니다.