## Pandas 학습

### 라이브러리 추가

```python
!pip install pandas
```

- Successfuly installed: 최초 설치
- Requirement already satisfied: 이미 설치되어 있는 상태

In [None]:
!pip install pandas

### Pandas 라이브러리 로딩
```python
import pandas as pd
```

In [None]:
import pandas as pd

### Pandas 기본
#### DataFrame 객체
- 파이썬 2차원 리스트(배열)와 동일
- 행(row): 각 하나의 유니크한 데이터 묶음
- 열(column): 유니크 데이터 하나하나의 특성

In [None]:
# 딕셔너리로 DataFrame 객체 생성 = 2차원 리스트와 동일하게 생성 가능
data = {'이름': ['홍길동', '김길동', '애슐리'], '나이': [25, 20, 40], '결혼 여부': [False, True, True]}
df = pd.DataFrame(data=data)
df

In [None]:
data = [['홍길동' , 25, '율도국', 'email@naver.com', False], ['김길동', 20, '부산', 'kimail@naver.com', True]
        , ['애슐리', 40, '경기', 'ashley@nate.com', True], ['홍길순', 19, '서울', 'hgs@gamil.com', False]]

data

In [None]:
df = pd.DataFrame(data=data, columns=['이름', '나이', '주소','이메일', '결혼 여부'])
df

In [None]:
#DataFrame에서 데이터 조회(열 조회) - 리스트는  for문 써야 출력 가능
df['이름']

In [None]:
#DataFrame 조회(2개 열 조회)
df[['이름', '나이']]

In [None]:
#데이터프레임 행으로 조회(결과 세로로 나옴)
df.loc[0]

In [None]:
df.loc[[0]]

In [None]:
#데이터프레임 조회(행)
df.loc[[0, 1]]

In [None]:
#데이터프레임 조회(행)
df.loc[0:1]

In [None]:
#현재 데이터프레임 확인
df

In [None]:
#새 컬럼 추가(제일 마지막 열에 추가됨)
df['전화번호'] = ['010', '011', '017', '019']

In [None]:
#추가된 데이터프레임 확인
df

In [None]:
#열 삭제, axis=0(행)-생략 가능 / axis=1(열)
df.drop('결혼 여부', axis=1)    

In [None]:
df

In [None]:
#drop(): 삭제 상태 출력만 함(저장 X), 완전 삭제 위해서는 inplace 옵션 사용
df.drop('결혼 여부', axis=1, inplace=True)  #inplace 사용 시 출력 안됨
#지운 뒤에 재실행 시 오류 뜸(∵df에 결혼 여부 없음)

In [None]:
#삭제 확인
df

In [None]:
#행 추가
df.loc[4] = ['손흥민', 32, '런던', 'shm@gamil.com', '020']

In [None]:
df

In [None]:
#행 삭제, 완전 삭제를 원하면 inplace 사용 혹은 변수에 재할당
df2 = df.drop(3)

In [None]:
df2

In [None]:
#행 삭제(inplace 사용)
df.drop(2, axis=0, inplace=True)

In [None]:
df

In [None]:
#열 이름 변경
df.rename(columns={'전화번호':'휴대폰'})    #변경 내용 출력만 함
df.rename(columns={'전화번호':'휴대폰'}, inplace=True)  #변경 후 저장(출력 안함)

In [None]:
df

- 데이터프레임은 파이썬의 2차원 리스트와 동일하나, 좀 더 사용하기 쉽도록 만든 클래스

#### 시리즈 객체

- 파이썬에서 1차원 리스트(배열)
- 시리즈들을 그룹핑한 것 == 데이터프레임
- 가장 최소 단위

In [None]:
data = [47, 20, 40, 19, 32]
srs = pd.Series(data=data)
srs

In [None]:
#데이터프레임의 한 열을 가지고 온 자료구조와 시리즈 동일
type(df['나이'])    #pandas.core.series.Series

In [None]:
type(srs)   #pandas.core.series.Series

In [None]:
srs = pd.Series(data=data, index=['성명건', '홍길동','애슐리', '홍길순', '손흥민'])
srs
#type(srs)   #pandas.core.series.Series / 인덱스만 변경했기 때문에 타입이 바뀌지는 않음

In [None]:
#조회
srs['손흥민']

In [None]:
#값 변경
srs['성명건'] = 48

In [None]:
srs

In [None]:
#데이터프레임에서 한 행을 가져와도 시리즈
df.loc[1]   #type(df.loc[1]) -> pandas.core.series.Series

#### 데이터프레임 사용하기

- csv, 엑셀파일 로드
- VS Code 플러그인(확장), GrapeCity의 Excel Viewer 설치
- 엑셀 파일 로드 시 openpyxl 라이브러리를 추가 설치
    ```python
    > !pip install openpyxl
    ```

In [None]:
#CSV 로드
df_csv = pd.read_csv('./data/sample_1.csv', encoding='utf-8', header=1, skipfooter=2, engine='python', usecols=[0, 1, 2])
df_csv

In [None]:
#openpyxl 설치
!pip install openpyxl

In [None]:
#엑셀 로드
df_xls = pd.read_excel('./data/sample_1.xlsx', header=1, skipfooter=2, usecols='A:C', sheet_name='Sheet1')
df_xls

- 엑셀, CSV는 동일한 데이터라면 CSV가 훨씬 용량이 작음

In [None]:
# 데이터프레임(DF) 정보 확인
df_csv.info()

In [None]:
#데이터 일부 조회(위에서부터, 기본 n=5)
df_csv.head(n=3)

In [None]:
#데이터 일부 조회(아래에서부터, 기본 n=5)
df_csv.tail(n=3)

In [None]:
#통계량 요약 보기
df_csv.describe()

In [None]:
df_csv[['국적코드', '입국객수']]

In [None]:
#모두 다른 데이터 할당 가능
df_csv['기준년월'] = ['2023-10', '2023-11', '2023-12', '2024-01', '2024-02', '2024-03']

In [None]:
df_csv

In [None]:
#하나의 데이터로 할당 가능
df_csv['기준년월'] = '2023-12'

In [None]:
df_csv

In [None]:
#df_csv.loc[[0, 1, 2]]
df_csv.loc[0:2]

In [None]:
#필터링
condition = df_csv['국적코드'] == 'A31'
condition

In [None]:
df_csv[condition]   #국적코드가 A31 / True인 결과만 출력됨

In [None]:
#상단의 condition 변수 만드는 부분과 사용하는 부분 합침
df_csv[df_csv['성별'] == '여성']

In [None]:
#입국객수가 20만 이상인 데이터 행만 출력
df_csv[df_csv['입국객수'] >= 200_000]

In [None]:
#여러 조건을 같이 필터링
df_csv[(df_csv['성별']=='남성') & (df_csv['입국객수'] >= 150000)]   #성별 남성, 입국객수 15만명 이상의 조건을 모두 충족하는 데이터 출력

In [None]:
#한 열에 여러값으로 필터링
df_csv[df_csv['국적코드'].isin(['A01', 'A31']) == True] #국적코드가 A01이거나 A31인 데이터 출력

In [None]:
df_csv[df_csv['국적코드'].isin(['A01', 'A31']) == False]

In [None]:
#DF에 새 컬럼 생성
df_csv['국적명'] = ['일본', '일본', '괌', '괌', '중국', '중국']
df_csv

In [None]:
#DF에 인덱스 변경
df_csv = df_csv.set_index(keys = '국적명')  #값 저장하려면 변수에 할당해야 함
df_csv

In [None]:
df_csv = df_csv.reset_index()   #값 저장하려면 변수에 할당해야 함
df_csv

In [None]:
#그룹화는 groupby() 함수만으로 사용 불가
#여러 함수를 같이 사용해야 DF로 출력됨
df_csv.groupby('국적명').count()    #국적별로 그룹화됨

In [None]:
#나머지 컬럼은 sum() 합산할 의미 없음 -> 입국객수만 나오게 함
#DF에서 Dtype이 int32, int64, float과 같은 숫자형만 통계 내는 의미 있음
df_csv.groupby('국적명').sum('입국객수')

In [None]:
#그룹화 후 통계함수 사용 시 동일하게 적용
#통계함수: median()-중앙값, min()-최소값, max()-최대값, std()-표준편차, var()-분산 등
df_csv.groupby('국적명').mean('입국객수')   #mean(): 평균

In [63]:
#정렬
df_csv.sort_values('입국객수', ascending = True)     #입국객수로 정렬 ascending=True(오름차순)
df_csv.sort_values('입국객수', ascending = False)    #ascending=False(내림차순)

Unnamed: 0,국적명,국적코드,성별,입국객수,기준년월
5,중국,A18,여성,232943,2023-12
1,일본,A01,여성,191436,2023-12
4,중국,A18,남성,158912,2023-12
0,일본,A01,남성,106320,2023-12
2,괌,A31,남성,319,2023-12
3,괌,A31,여성,42,2023-12


In [None]:
집보내줘ㅏ어널아ㅣㄻ