# Pandas

In [1]:
import pandas as pd

In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

### DataFrame 에서 컬럼의 데이터 타입 변환

In [3]:
# 데이터 타입이 다 다름
df = pd.DataFrame({'A':[1,2,3],
                   'B' : [1.0, 2.0, 3.0],
                   'C' :['1.1.2020', '2.1.2020', '3.1.2020'], # date
                   'D' : ['1 days', '2 days', '3 days'],
                   'E' : ['1', '2', '3']}) # 문자(숫자)
df

Unnamed: 0,A,B,C,D,E
0,1,1.0,1.1.2020,1 days,1
1,2,2.0,2.1.2020,2 days,2
2,3,3.0,3.1.2020,3 days,3


#### 모든 컬럼 데이터 타입 확인

In [4]:
# 1
df.dtypes

A      int64
B    float64
C     object
D     object
E     object
dtype: object

In [5]:
# 2
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       3 non-null      int64  
 1   B       3 non-null      float64
 2   C       3 non-null      object 
 3   D       3 non-null      object 
 4   E       3 non-null      object 
dtypes: float64(1), int64(1), object(3)
memory usage: 252.0+ bytes


#### 컬럼 하나만 데이터 타입 확인

In [6]:
df['A'].dtypes

dtype('int64')

#### 특정 컬럼 데이터 타입 바꾸기 : astype (메소드)

In [None]:
df['A'].astype('float')

#### 컬럼 2개 동시에 데이터 타입 바꾸기 : astype

In [7]:
df_a = df.astype({'A':float, 'B':'int64'})
df_a.dtypes

A    float64
B      int64
C     object
D     object
E     object
dtype: object

#### 컬럼 데이터 타입 : 문자형(obejct) -> 숫자로 변경 : pd.to_numeric()  (판다스의 함수)

In [8]:
df['E'].dtypes

dtype('O')

In [9]:
pd.to_numeric(df['E'])

0    1
1    2
2    3
Name: E, dtype: int64

#### 컬럼 데이터 타입 : 문자형(object) -> datetime 변경 : pd.to_datatime()

In [10]:
df['C']

0    1.1.2020
1    2.1.2020
2    3.1.2020
Name: C, dtype: object

In [15]:
pd.to_datetime(df['C'])  # inplace는 아님

0   2020-01-01
1   2020-02-01
2   2020-03-01
Name: C, dtype: datetime64[ns]

#### 컬럼 데이터 타입 : 문자형(object) -> timedelta로 변경

In [12]:
df['D']

0    1 days
1    2 days
2    3 days
Name: D, dtype: object

In [17]:
pd.to_timedelta(df['D'])

0   1 days
1   2 days
2   3 days
Name: D, dtype: timedelta64[ns]

## multiple DataFrame 합치기
- 1) pd.concat() : axis = 0 : 행단위로 append(밑으로 붙이기)
  2) pd.concat() : axis = 1 : 열단위로 append(옆으로 붙이기)
  3) append() : 행단위로 append(밑으로 붙이기) (pandas2.0 이후에는 없음!!)
  4) merge() : 열단위로 JOIN (inner or outer) : pd.concat axis=1랑 똑같음

In [25]:
D1 = [{'name': 'john', 'job':'teacher'},
      {'name':'Nate', 'job': 'student'},
      {'name':'Fred', 'job': 'developer'}]
D2 = [{'name':'Ed', 'job': 'dentist'},
      {'name':'Jack', 'job': 'farmer'},
      {'name':'Ted', 'job': 'designer'}]

df1 = pd.DataFrame(D1, columns = ['name', 'job'])
df2 = pd.DataFrame(D2, columns = ['name', 'job'])

In [26]:
df1
df2

Unnamed: 0,name,job
0,john,teacher
1,Nate,student
2,Fred,developer


Unnamed: 0,name,job
0,Ed,dentist
1,Jack,farmer
2,Ted,designer


### 1) pd.concat - axis 0 행으로 합치기
- ignore_index = True: 각각 인덱스 무시하고 다시 라벨링(재정렬)

In [22]:
result = pd.concat([df1, df2], axis=0, ignore_index=True)
result

Unnamed: 0,name,job
0,john,teacher
1,Nate,student
2,Fred,developer
3,Ed,dentist
4,Jack,farmer
5,Ted,designer


### 2) pd.concat - axis 1 열로 합치기

In [23]:
result = pd.concat([df1, df2], axis=1, ignore_index=True)
result

Unnamed: 0,0,1,2,3
0,john,teacher,Ed,dentist
1,Nate,student,Jack,farmer
2,Fred,developer,Ted,designer


### 3) append (pandas ver2.0부터 append was removed!!!)
- 행으로 합치기

In [30]:
#result = df1.append(df2, ignore_index=True)
result

Unnamed: 0,0,1,2,3
0,john,teacher,Ed,dentist
1,Nate,student,Jack,farmer
2,Fred,developer,Ted,designer


### 4) merge()
- 열로 합치기
- how 옵션 : JOIN : inner, left, right, outer

In [35]:
member_df = pd.DataFrame({
    '고객번호' : [1001, 1002, 1003, 1004, 1005],
    '이름' : ['AAA', 'BBB', 'CCC', 'DDD', 'EEE']
}, columns = ['고객번호', '이름'])

transaction_df = pd.DataFrame({
    '고객번호' : [1001, 1001, 1002, 1005, 1006],
    '금액' : [1000, 2000, 1500, 500, 700]
}, columns = ['고객번호', '금액'])

print(member_df)
print(transaction_df)

   고객번호   이름
0  1001  AAA
1  1002  BBB
2  1003  CCC
3  1004  DDD
4  1005  EEE
   고객번호    금액
0  1001  1000
1  1001  2000
2  1002  1500
3  1005   500
4  1006   700


- how = 'inner'
  - 겹치는 애들만 join

In [36]:
inner_result = pd.merge(member_df, transaction_df, how = 'inner')
print(inner_result)

   고객번호   이름    금액
0  1001  AAA  1000
1  1001  AAA  2000
2  1002  BBB  1500
3  1005  EEE   500


- how = 'left'
    - 왼쪽 데이터 기준으로 오른쪽 데이터 이어붙이기
    - 왼쪽 데이터는 있는데 오른쪽 없으면 NaN

In [37]:
left_result = pd.merge(member_df, transaction_df, how = 'left')
print(left_result)

   고객번호   이름      금액
0  1001  AAA  1000.0
1  1001  AAA  2000.0
2  1002  BBB  1500.0
3  1003  CCC     NaN
4  1004  DDD     NaN
5  1005  EEE   500.0


- how = 'right'
    - 오른쪽 기준으로 왼쪽 데이터 이어붙이기
    - 오른쪽 데이터는 있는데 왼쪾 없으면 NaN

In [38]:
right_result = pd.merge(member_df, transaction_df, how = 'right')
print(right_result)

   고객번호   이름    금액
0  1001  AAA  1000
1  1001  AAA  2000
2  1002  BBB  1500
3  1005  EEE   500
4  1006  NaN   700


## pivot table : pivot method 사용
- 원하는 형태로 데이터 뽑아서 보기
  
- column 2개를 지정함 -> 각각 행 & 열 인덱스로 해서 데이터 보여줌
- pivot method
    - 1st 인수 : 행 인덱스로 사용할 컬럼 이름
    - 2nd 인수 : 열 인덱스로 사용할 컬럼 이름
    - last 인수 : 데이터로 사용할 컬럼 이름
    - 주어진 데이터가 존재 X -> 해당 칸에 NaN 넣음

- 각 도시의 연도별 인구

In [41]:
data = {
    '도시' : ['서울', '서울', '서울', '부산', '부산', '부산', '인천', '인천'],
    '연도' : ['2015', '2010', '2005', '2015', '2010','2005', '2015', '2010'],
    '인구' : [9901521, 9361456, 9875616, 3452216, 3654213, 3412654,2486523, 2145321],
    '지역' : ['수도권', '수도권','수도권','경상권','경상권','경상권','수도권','수도권']
}
columns = ['도시', '연도', '인구' , '지역']
df = pd.DataFrame(data, columns = columns)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9901521,수도권
1,서울,2010,9361456,수도권
2,서울,2005,9875616,수도권
3,부산,2015,3452216,경상권
4,부산,2010,3654213,경상권
5,부산,2005,3412654,경상권
6,인천,2015,2486523,수도권
7,인천,2010,2145321,수도권


- 어떤 도시 어떤 시점 인구 파악 : pivot 테이블로 변경
    - 행 인덱스 : 연도
    - 열 인덱스 : 도시
    - 데이터 이름 : 인구

In [42]:
df.pivot(index='연도', columns='도시', values='인구')  # inplace 안됨

도시,부산,서울,인천
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2005,3412654.0,9875616.0,
2010,3654213.0,9361456.0,2145321.0
2015,3452216.0,9901521.0,2486523.0


- 인천의 2005 데이터가 NaN이구나~ 발견!
1) fillna로 Null값 처리

In [43]:
# Null 값 처리 : 0으로 채움
df2 = df.pivot(index='연도', columns='도시', values = '인구')
df2.fillna(0)

도시,부산,서울,인천
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2005,3412654.0,9875616.0,0.0
2010,3654213.0,9361456.0,2145321.0
2015,3452216.0,9901521.0,2486523.0


2) pd.pivot_table() 사용해서 Null값 처리
   - 처음 pivot table 만들때 Null값 동시 처리

In [44]:
# fill-value - Null값 대체
pd.pivot_table(df, index='연도', columns='도시', values='인구', aggfunc='sum', fill_value=0)

도시,부산,서울,인천
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2005,3412654,9875616,0
2010,3654213,9361456,2145321
2015,3452216,9901521,2486523


## Pandas 데이터 입출력

In [46]:
friend_list = [['john', 20, 'student'],
            ['jenny', 30, 'developer'],
            ['nate', 40, 'teacher']]

column_name = ['name', 'age', 'job']

df = pd.DataFrame.from_records(friend_list, columns=column_name)
df

Unnamed: 0,name,age,job
0,john,20,student
1,jenny,30,developer
2,nate,40,teacher


## DataFrame을 csv 파일로 저장
#### 1) DataFrame을 csv파일로 저장 : to_csv()

In [47]:
df.to_csv('friend_list.csv')

- 헤더, 인덱스가 저장되서 나중에 꼬일것 같다.
- 0, john,,,

#### 2) Header 없는 DataFrame의 csv 파일 저장

In [None]:
friend_list = [['john', 20, 'student'],
            ['jenny', 30, 'developer'],
            ['nate', 40, 'teacher']]
df = pd.DataFrame.from_records(frined_list)
df

In [49]:
df.to_csv('friend_list2.csv', header=False, index=False)
# header, index 지정 x
# 데이터만 딱 들어감

#### 3) Header 저장할 경우 : header=column이름 지정

In [50]:
df.to_csv('friend_list3.csv', header= ['name', 'age', 'job'], index = False)

### **CSV 파일 데이터 불러오기** : read_csv()

In [52]:
data_frame = pd.read_csv('friend_list.csv')
data_frame
# Unnamed: 0 에 인덱스가 컬럼으로 중복들어간다....

Unnamed: 0.1,Unnamed: 0,name,age,job
0,0,john,20,student
1,1,jenny,30,developer
2,2,nate,40,teacher


In [53]:
# header 지정을 안해줘서 첫 데이터가 header 가 되어버림
data_frame = pd.read_csv('friend_list2.csv')
data_frame.head()

Unnamed: 0,john,20,student
0,jenny,30,developer
1,nate,40,teacher


In [55]:
# 깔끔
data_frame = pd.read_csv('friend_list3.csv')
data_frame.head()

Unnamed: 0,name,age,job
0,john,20,student
1,jenny,30,developer
2,nate,40,teacher


## **excel 로 저장**
- 모듈 설치 필요

In [56]:
pip install xlrd

Collecting xlrdNote: you may need to restart the kernel to use updated packages.

  Downloading xlrd-2.0.1-py2.py3-none-any.whl.metadata (3.4 kB)
Downloading xlrd-2.0.1-py2.py3-none-any.whl (96 kB)
   ---------------------------------------- 0.0/96.5 kB ? eta -:--:--
   ---------------------------------------- 0.0/96.5 kB ? eta -:--:--
   ---- ----------------------------------- 10.2/96.5 kB ? eta -:--:--
   --------------------------------- ------ 81.9/96.5 kB 1.2 MB/s eta 0:00:01
   ---------------------------------------- 96.5/96.5 kB 918.0 kB/s eta 0:00:00
Installing collected packages: xlrd
Successfully installed xlrd-2.0.1


In [57]:
pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.2-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-1.1.0-py3-none-any.whl.metadata (1.8 kB)
Downloading openpyxl-3.1.2-py2.py3-none-any.whl (249 kB)
   ---------------------------------------- 0.0/250.0 kB ? eta -:--:--
   ---------------------------------------- 0.0/250.0 kB ? eta -:--:--
   - -------------------------------------- 10.2/250.0 kB ? eta -:--:--
   ------ -------------------------------- 41.0/250.0 kB 653.6 kB/s eta 0:00:01
   ------------------- -------------------- 122.9/250.0 kB 1.2 MB/s eta 0:00:01
   ---------------------------------------- 250.0/250.0 kB 1.9 MB/s eta 0:00:00
Downloading et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.1.0 openpyxl-3.1.2
Note: you may need to restart the kernel to use updated packages.


In [58]:
df_friend = pd.read_csv('friend_list3.csv')

In [59]:
df_friend

Unnamed: 0,name,age,job
0,john,20,student
1,jenny,30,developer
2,nate,40,teacher


In [60]:
# 엑셀로 저장
# 인덱스는 기본적으로 저장을 안함!
# sheet_name : str, default 'Sheet1'
df_friend.to_excel('friend_list.xlsx', 'sheet1', index=False)

  df_friend.to_excel('friend_list.xlsx', 'sheet1', index=False)


### **excel 읽기**

In [63]:
# 엑셀 읽기
# sheet_name : str, int, list, None, default 0
df_friend2 = pd.read_excel('friend_list.xlsx', 'sheet1')
df_friend2

Unnamed: 0,name,age,job
0,john,20,student
1,jenny,30,developer
2,nate,40,teacher


## **html 불러오기**
- web에서 table 형태 자료 불러오기(크롤링같은 기능)
- read_html

In [2]:
# pip install lxml

In [2]:
# pip install html5lib

In [1]:
import pandas as pd

In [4]:
# html에서 <table> 태그로 되어있는 테이블 불러오기
df_list = pd.read_html('https://www.fdic.gov/bank/individual/failed/banklist.html')
df_list
# 안됨....ㅋㅋㅋㅋ쿠ㅜ

ValueError: No tables found

In [None]:
len(df_list)

In [None]:
df