# Pandas
---
## Pandas 소개 및 환경 설정
* Pandas란?
  * 사용하기 쉬운 데이터 구조와 데이터 분석 도구를 고성능으로 제공
  * 행과 열로 구성된 테이블 형태의 데이터를 다루는데 특화
* Pandas를 사용하는 이유
  * 다양한 데이터 형식 지원
  * 데이터 정제 및 변환 용이
  * 강력한 데이터 선택 및 필터링
  * 데이터 분석 기능
* Pandas 설치 확인 및 설치
  * 설치 - `pip install pandas`
  * 으레 `pd`를 별칭으로 사용
    

In [None]:
import pandas as pd
print(pd.__version__)

## Series와 DataFrame
---
* Series
  * 1차원 배열과 유사한 구조로 인덱스와 값으로 구성
  * NumPy 배열로부터 생성하거나, 리스트, 딕셔너리 등으로부터 생성 가능능

In [None]:
# 리스트로부터
array = [1, 2, 3, 4, 5]
series_from_array = pd.Series(array)
print(series_from_array)


In [None]:
array = [1, 2, '삼', 4, 5]
series_from_array = pd.Series(array)
print(series_from_array)


In [None]:
# ndarray로 부터
import numpy as np
array = np.array([1, 2, '삼', 4, 5], dtype=object)
series_from_array = pd.Series(array)
print(series_from_array)

* DataFrame
  * 2차원 테이블 형태의 데이터 구조
  * 여러 개의 Series가 모여서 구성 (각 열이 하나의 Series)
  * 행 인덱스와 열 이름을 가지며
  * 다양한 방법으로 생성 가능능

In [None]:
# 딕셔너리로부터
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 28],
    'City': ['New York', 'Paris', 'London', 'Seoul']
}
series_from_dict = pd.Series(data)
print(series_from_dict)


In [None]:
dataframe_from_dict = pd.DataFrame(data)
print(dataframe_from_dict)

In [None]:
# 2차원 리스트로부터 -> 열 이름은 별도로 지정
data = [
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'Paris'],
    ['Charlie', 35, 'London'],
    ['David', 28, 'Seoul']
]
dataframe_from_list = pd.DataFrame(data, columns=['Name', 'Age', 'City'])
print(dataframe_from_list)


In [None]:
# 2차원 리스트로부터 -> 열 이름은 자동으로 지정
data = [
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'Paris'],
    ['Charlie', 35, 'London'],
    ['David', 28, 'Seoul']
]
dataframe_from_list = pd.DataFrame(data)
print(dataframe_from_list)

In [None]:
# csv 파일로 부터
df_csv = pd.read_csv('GlobalFirePower.csv')

* 데이터를 확인하는 방법
  * head(n) - 첫 n개의 행 (기본값 5)
  * tail(n) - 마지막 n개의 행 (기본값 5)
  * info() - DataFrame의 정보 요약
  * describe() - 주요 통계량
  * shape - 형태
  * columns - 열 이름
  * index - 행 인덱스 반환
  * dtypes - 각 열의 데이터 타입입

In [None]:
print(df_csv.head())

In [None]:
print(df_csv.tail())

In [None]:
df_csv.info()

In [None]:
df_csv.describe()

In [None]:
df_csv.shape

In [None]:
df_csv.columns

In [None]:
df_csv.index

In [None]:
df_csv.dtypes

* CSV 파일 읽어오기와 CSV 파일에 저장하기
  * pd.read_csv() - 읽어오기
  * pd.to_csv() - 저장하기

## 데이터의 선택과 필터링
---
* 열의 선택
  * 기본 인덱싱 - `df['열이름']` : 하나의 열을 Series 형태로 반환
  * `df[['열이름1', '열이름2', ..., '열이름n']]` : 여러 열을 DF 형태로 반환 
  * df.열이름 - 권장하지 않음

In [None]:
column_names = df_csv.columns
print(column_names[1], column_names[3], column_names[4])
print(df_csv[column_names[1]])
print(df_csv[[column_names[1], column_names[3], column_names[4]]])

* 행의 선택
  * loc[행_레이블] : 레이블 기반 인덱싱 / 슬라이싱
  * iloc[행_정수_위치] : 정수 위치 기반 인덱싱 및 슬라이싱 (0으로부터 시작하는 일반적인 인덱스)

In [None]:
df_indexed = df_csv.set_index('ISO3')       # 특정 열을 인덱스로 지정정
df_indexed

In [None]:
df_indexed.loc['SKO']

In [None]:
df_indexed.loc[['SKO', 'NKO']]

In [None]:
df_indexed.loc[['SKO', 'NKO']][['Country', 'Rank']]

In [None]:
df_indexed.iloc[11]

In [None]:
df_indexed.iloc[[11, 22]]

In [None]:
df_indexed.iloc[11:22]

In [None]:
df_indexed.loc['SKO':'NKO']

* 조건부 인덱싱
  * DF의 열에 조건을 적용 --> Series가 반환
  * 이를 DF에 인덱스로 사용하면 조건이 True인 행들만 선택 
  * & (and), | (or), ~ (not) 연산자로 여러 조건 결합 가능

In [None]:
top_12 = df_csv[df_csv['Rank'] <= 12]
print(top_12)

In [None]:
# Total Population이 1억 이상인 국가
many_human_nation = df_csv[df_csv['Total Population'] >= 100000000]
print(many_human_nation)


In [None]:
many_human_nation = df_csv[(df_csv['Manpower Available'] >= 30000000) & (df_csv['Rank'] > 10)]
print(many_human_nation)

## 데이터 처리에 활용
---
* 열 또는 행 추가
  * 열 추가 - `df['새로운_열_이름'] = ...`
  * 추가 대상은 값, 리스트, Series, 기존 열 등 가능

In [None]:
people = {
    'Name': ['Mr. White', 'Mr. Orange', 'Mr. Blonde', 'Mr. Pink'],
    'Age': [35, 40, 45, 50],
    'Actor': ['Harvey Keitel', 'Tim Roth', 'Michael Madsen', 'Steve Buscemi'],
}

people_df = pd.DataFrame(people)
people_df

In [None]:
people_df['Job'] = ['Criminal', 'Criminal', 'Criminal', 'Criminal']
people_df

In [None]:
people_df['generation'] = people_df['Age'] // 10 * 10
people_df

* 새로운 행의 추가
  * loc 또는 iloc로 직접 추가
  * pd.concat()으로 추가가

In [None]:
import numpy as np
people_df.loc[4] = ['Mr. Blue', np.nan, 'Edward Bunker', 'Criminal', np.nan]
people_df

In [None]:
more_people = pd.DataFrame({
    'Name': ['Mr. Brown', 'Joe Cabot'],
    'Age': [55, 60],
    'Actor': ['Quentin Tarantino', 'Lawrence Tierney'],
    'Job': ['Criminal', 'Boss'],
    'generation': [50, 60]
})

people_df = pd.concat([people_df, more_people], ignore_index=True)
people_df

* 결측치 확인
  * isnull() - 각 셀 별로 확인
  * isnull().sum() - 열별 결측치의 개수
  * fillna(value) - 결측치를 value로 채움
  * dropna() - 결측치가 포함된 행 또는 열을 제거거

In [None]:
people_df.isnull()

In [None]:
people_df.isnull().sum()

In [None]:
people_df.isnull().sum(axis=1)

In [None]:
dropped = people_df.dropna()
dropped


In [None]:
dropped = people_df.dropna(axis=1)
dropped


In [None]:
filled = people_df.fillna(45)
filled

In [None]:
copyed = people_df
copyed.fillna(45, inplace=True)
copyed


In [None]:
people_df


In [None]:
# people_df를 다시 만들어 온 후...
people_df


In [None]:
copyed = people_df.copy()
copyed.fillna(45, inplace=True)
copyed

In [None]:
people_df

In [None]:
people_df['Age'] = people_df['Age'] + 1
people_df

In [None]:
people_df['Age'] -= 1
people_df

In [None]:
copyed = people_df.copy()
copyed.fillna({'Age': 45}, inplace=True)
copyed

In [None]:
copyed.fillna({'generation': copyed['Age'] // 10 * 10}, inplace=True)
copyed

In [None]:
copyed = people_df.copy()
copyed.fillna({'Age': copyed['Age'].mean()}, inplace=True)
copyed


In [None]:
copyed = people_df.copy()
copyed.fillna(method='ffill', inplace=True)
copyed

In [None]:
copyed = people_df.copy()
copyed.ffill(inplace = True)
copyed

In [None]:
copyed = people_df.copy()
copyed.bfill(inplace = True)
copyed