In [1]:
from IPython.display import display, HTML
display(HTML("""
<style>
div.container{width:99% !important;}
div.cell.code_cell.rendered{width:90%;}
div.CodeMirror {font-family:Consolas; font-size:18pt;}
div.output {font-size:19pt; font-weight:bold;}
div.input {font-family:Consolas; font-size:19pt;}
div.prompt {min-width:70px;}
div#toc-wrapper{padding-top:120px;}
span.toc-item-num{display:none;}
div.text_cell_render ul li{font-size:16pt;padding:5px;}
div.CodeMirror-lines > div {padding-left:10px;}
table.dataframe{font-size:16px;}
</style>
"""))

<b><font color="red" size="6">ch12. 데이터 프레임과 시리즈(Pandas)</font></b>
- pip install pandas

# 1절. 판다스 패키지
- 데이터 분석을 위해 반드시 알아야할 패키지. 넘파이를 기반으로 하며, 다른 많은 라이브러리와 잘 통합되도록 설계
- 1차원 구조를 갖는 시리즈, 2차원 구조를 갖는 데이터 프레임을 제공
- 판다스 장점 : 데이터 프레임 생성, 파일io, 레이블링, 부분데이터추출,
           크기변경(행이나 열삽입, 삭제), 데이터 분할, 병합, 데이터 정렬
           결측치 처리, 피벗과 언피벗등에 용이
- https://pypi.org/project/pandas/ (package index)
- https://pandas.pydata.org/docs/reference/index.html#api (API reference)

In [2]:
import pandas as pd
pd.__version__

'1.5.3'

In [3]:
data = pd.read_json('data/ch09_member1.json', encoding='cp949') # encoding기본값:utf-8
display(data)
print(type(data))

Unnamed: 0,name,age,email,address
0,홍길동,20,h@h.com,서울
1,김길동,30,k@h.com,부산
2,신길동,40,s@h.com,안양


<class 'pandas.core.frame.DataFrame'>


In [4]:
member4 = pd.read_csv('data/ch09_member4.csv')
member4.head() # 최초 상위 5행 가져오기

Unnamed: 0,name,age,email,address
0,홍길동,20,h@hong.com,서울
1,신길동,25,s@hong.com,부산
2,김길동,35,k@hong.com,인천
3,홍길동,20,h@hong.com,서울
4,신길동,25,s@hong.com,부산


In [5]:
member1 = pd.read_csv('data/ch09_member1.csv', header=None,
                     names=['name','age','email','address'])
member1

Unnamed: 0,name,age,email,address
0,홍길동,20,kildong@hong.com,서울시 관악구
1,김길동,40,kimdong@hong.com,서울시 영등포구
2,신길동,30,sindong@hong.com,서울시 동작구


In [6]:
iris = pd.read_hdf('data/ch09_iris2.hdf5', key='iris')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


# 2절. 데이터 프레임 만들기
## 2.1 딕셔너리를 이용해서 데이터프레임 만들기

In [7]:
# value가 list인 딕셔너리를 데이터프레임으로
d = {'kor': [100,90], 'mat':[95,99]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,kor,mat
0,100,95
1,90,99


In [8]:
df.to_dict() # 데이터 프레임을 딕셔너리로

{'kor': {0: 100, 1: 90}, 'mat': {0: 95, 1: 99}}

In [9]:
df.to_numpy() # 데이터프레임을 넘파이배열

array([[100,  95],
       [ 90,  99]], dtype=int64)

In [10]:
# 딕셔너리 리스트를 데이터프레임으로
d = [{'kor':100, 'mat':95}, {'kor':90, 'mat':99}]
df = pd.DataFrame(data=d)
df

Unnamed: 0,kor,mat
0,100,95
1,90,99


In [11]:
df.dtypes

kor    int64
mat    int64
dtype: object

In [12]:
df.info() # ★

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   kor     2 non-null      int64
 1   mat     2 non-null      int64
dtypes: int64(2)
memory usage: 160.0 bytes


In [16]:
df.dtypes.to_dict()

{'kor': dtype('int64'), 'mat': dtype('int64')}

In [18]:
df['kor'].dtype

dtype('int64')

In [21]:
import numpy as np
df['kor'] = df['kor'].astype(np.float64)

0    100.0
1     90.0
Name: kor, dtype: float64

In [22]:
d = [{'kor':100, 'mat':100}, {'kor':90, 'mat':99}, {'kor':83,'eng':85}]
df = pd.DataFrame(data= d)
df

Unnamed: 0,kor,mat,eng
0,100,100.0,
1,90,99.0,
2,83,,85.0


In [23]:
type(np.nan)

float

In [25]:
# 결측치는 int로 형변환 불가(결측치를 대체값으로 치환 후 변환)df['mat'].astype(np.int32)

## 2.2 리스트를 이용해서 데이터 프레임 만들기

In [26]:
kor = [100,90,95,90,65]
mat = [100,95,94,64,85]
df = pd.DataFrame({'kor': kor, 'mat':mat})
df

Unnamed: 0,kor,mat
0,100,100
1,90,95
2,95,94
3,90,64
4,65,85


In [27]:
np.c_[kor, mat]

array([[100, 100],
       [ 90,  95],
       [ 95,  94],
       [ 90,  64],
       [ 65,  85]])

In [30]:
df = pd.DataFrame(np.c_[kor, mat], columns=['국어','수학'])
df

Unnamed: 0,국어,수학
0,100,100
1,90,95
2,95,94
3,90,64
4,65,85


In [32]:
l = [[100,90],[10,20]]
df = pd.DataFrame(l, columns=['kor','mat'])
df

Unnamed: 0,kor,mat
0,100,90
1,10,20


In [36]:
%ls D:\ai\Downloads\shareData\상가정보

 D 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 2D0E-15FE

 D:\ai\Downloads\shareData\상가정보 디렉터리

2024-11-18  오후 04:19    <DIR>          .
2024-11-18  오후 04:19    <DIR>          ..
2024-10-23  오후 05:59             1,011 [필독]파일열람방법.txt
2024-10-23  오후 06:19        53,454,658 소상공인시장진흥공단_상가(상권)정보_강원_202409.csv
2024-10-23  오후 06:19       301,935,950 소상공인시장진흥공단_상가(상권)정보_경기_202409.csv
2024-10-23  오후 06:20        86,291,699 소상공인시장진흥공단_상가(상권)정보_경남_202409.csv
2024-10-23  오후 06:20        70,952,897 소상공인시장진흥공단_상가(상권)정보_경북_202409.csv
2024-10-23  오후 06:20        36,458,714 소상공인시장진흥공단_상가(상권)정보_광주_202409.csv
2024-10-23  오후 06:20        57,391,847 소상공인시장진흥공단_상가(상권)정보_대구_202409.csv
2024-10-23  오후 06:20        36,638,904 소상공인시장진흥공단_상가(상권)정보_대전_202409.csv
2024-10-23  오후 06:20        78,253,942 소상공인시장진흥공단_상가(상권)정보_부산_202409.csv
2024-10-23  오후 06:18       254,255,270 소상공인시장진흥공단_상가(상권)정보_서울_202409.csv
2024-10-23  오후 06:18         8,277,492 소상공인시장진흥공단_상가(상권)정보_세종_202409.csv
2024-10-23  오후 06:18        26,299,042 소상공인시장진흥공단

In [39]:
df = pd.read_csv(r'D:\ai\Downloads\shareData\상가정보\소상공인시장진흥공단_상가(상권)정보_세종_202409.csv', 
                encoding='utf-8', sep=',', # 기본값 생략가능
                low_memory=False, # 데이터 용량이 클 경우만 기입
                nrows=30) # 처음 30행만 가져오기
df.shape

(30, 39)

In [43]:
df.head(1) # 상위 1행만 

Unnamed: 0,상가업소번호,상호명,지점명,상권업종대분류코드,상권업종대분류명,상권업종중분류코드,상권업종중분류명,상권업종소분류코드,상권업종소분류명,표준산업분류코드,...,건물관리번호,건물명,도로명주소,구우편번호,신우편번호,동정보,층정보,호정보,경도,위도
0,MA0101202210A0084499,베트남쌀국수퍼짱,,I2,음식,I205,동남아시아,I20501,베트남식 전문,I56194,...,3611010700103610086000001,모닝시티2,세종특별자치시 세종특별자치시 한누리대로 311,339003.0,30123,,1.0,,127.25584,36.492065


In [44]:
# 판다스 디스플레이 옵션
pd.options.display.max_columns = 39 # 39열까지 display 가능
pd.options.display.max_rows = 40    # 40행까지 display 가능
df.head(1)

Unnamed: 0,상가업소번호,상호명,지점명,상권업종대분류코드,상권업종대분류명,상권업종중분류코드,상권업종중분류명,상권업종소분류코드,상권업종소분류명,표준산업분류코드,표준산업분류명,시도코드,시도명,시군구코드,시군구명,행정동코드,행정동명,법정동코드,법정동명,지번코드,대지구분코드,대지구분명,지번본번지,지번부번지,지번주소,도로명코드,도로명,건물본번지,건물부번지,건물관리번호,건물명,도로명주소,구우편번호,신우편번호,동정보,층정보,호정보,경도,위도
0,MA0101202210A0084499,베트남쌀국수퍼짱,,I2,음식,I205,동남아시아,I20501,베트남식 전문,I56194,김밥 및 기타 간이 음식점업,36,세종특별자치시,36110,세종특별자치시,36110518,나성동,3611010700,나성동,3611010700107320000,1,대지,732,,세종특별자치시 세종특별자치시 나성동 732,361102000002,세종특별자치시 세종특별자치시 한누리대로,311,,3611010700103610086000001,모닝시티2,세종특별자치시 세종특별자치시 한누리대로 311,339003.0,30123,,1.0,,127.25584,36.492065


In [45]:
df.head(1).T

Unnamed: 0,0
상가업소번호,MA0101202210A0084499
상호명,베트남쌀국수퍼짱
지점명,
상권업종대분류코드,I2
상권업종대분류명,음식
상권업종중분류코드,I205
상권업종중분류명,동남아시아
상권업종소분류코드,I20501
상권업종소분류명,베트남식 전문
표준산업분류코드,I56194


## 2.3 read_csv

In [47]:
# (1) CSV 파일 불러오기(기본값)
member = pd.read_csv('data/ch12_member.csv'
                     # , encoding='utf-8', sep=',' # 기본값
                    )
member

Unnamed: 0,Name,Age,Email,Address,Birth
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
1,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
2,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
3,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
4,홍길중,23,mid@hong.com,부산시 중구,1999-01-30
5,#홍길뜽,24,non@not.com,없는구,2000-01-01


In [48]:
member.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Name     6 non-null      object
 1   Age      6 non-null      int64 
 2   Email    6 non-null      object
 3   Address  6 non-null      object
 4   Birth    6 non-null      object
dtypes: int64(1), object(4)
memory usage: 368.0+ bytes


In [50]:
# 문자로 읽어들인 Birth를 datetime형으로
# 형변환은 astype()쓰지만 datetime형으로 변환할 때는 to_datetime()함수를 사용
member['Birth'] = pd.to_datetime(member['Birth'])
member.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   Name     6 non-null      object        
 1   Age      6 non-null      int64         
 2   Email    6 non-null      object        
 3   Address  6 non-null      object        
 4   Birth    6 non-null      datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 368.0+ bytes


In [52]:
import numpy as np
member['Age'] = member['Age'].astype(np.int16)
member.dtypes

Name               object
Age                 int16
Email              object
Address            object
Birth      datetime64[ns]
dtype: object

In [57]:
#(2) 특정행 제외하고 csv파일 읽어오기
member = pd.read_csv('data/ch12_membercp949.csv', encoding='cp949',
                    skiprows=[1,6]) # 1,6번째 행 제외하고 읽어오기(시작이 1부터)
member

Unnamed: 0,Name,Age,Email,Address,Birth
0,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
1,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
2,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
3,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [61]:
# (3) 상위몇행만 csv 파일 읽어오기
member_df = pd.read_csv('data/ch12_membersep.csv', sep='|', nrows=5) # 상위5행만 읽어오기
member_df

Unnamed: 0,Name,Age,Email,Address,Birth
0,홍길동,20,hong@hong.com,서울시 강동구,1999-01-01
1,홍길서,30,seo@hong.com,서울시 중구,1999-12-01
2,홍길남,21,nam@hong.com,서울시 강동구,1999-11-01
3,홍길북,22,buk@hong.com,서울시 관악구,1999-05-01
4,홍길중,23,mid@hong.com,부산시 중구,1999-01-30


In [65]:
# 주석제외, datetime형 필드 지정하여 읽어오기
member_df = pd.read_csv('data/ch12_membertab.csv', sep='\t',
                       comment='#', # #이 있는 행은 제외하고 읽어오기
                       parse_dates=['Birth']) # datetime형으로 읽어올 필드 지정
member_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   Name     5 non-null      object        
 1   Age      5 non-null      int64         
 2   Email    5 non-null      object        
 3   Address  5 non-null      object        
 4   Birth    5 non-null      datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 328.0+ bytes


## iris 데이터 가져오기 방법1 : sklearn(머신러닝패키지)
## iris 데이터 가져오기 방법2 : statsmodels (R데이터 가져오기)
## iris 데이터 가져오기 방법3 : seaborn(시각화 패키지)

## 2.4 sklearn.datasets 모듈 데이터(iris)를 데이터 프레임으로 변환

In [66]:
from sklearn import datasets
# import sklearn.datasets as datasets
# sklearn 패키지는 머신러닝을 공부하기 위한,  학습 데이터셋들을 제공
# sklearn 패키지에서 제공되는 데이터셋들은 딕셔너리 형식으로 제공
iris = datasets.load_iris()
iris # 딕셔너리 형태

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [68]:
print(iris.DESCR) # iris 데이터 셋에 대한 설명

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [71]:
iris.data # 독립변수
iris['data'][:3]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2]])

In [73]:
iris.feature_names # 독립변수의 열이름
iris['feature_names']

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [77]:
[col[:-4].strip().replace(' ','_') for col in iris.feature_names]

['sepal_length', 'sepal_width', 'petal_length', 'petal_width']