# chapter 3 DataFrame의 생성과 유지

In [58]:
import pandas as pd
import numpy as np
pd.set_option('max_columns', 4, 'max_rows', 10, 'max_colwidth', 12)

### 스크래치에서 DataFrame  생성

In [59]:
# DataFrame을 만드는 기초적인 방법
#-> column 별로 DataFrame 생성: {"칼럼명" : [데이터1,데이터2,... 데이터n]}

#데이터들을 리스트 형태로 만듬
fname = ['Paul', 'John', 'Richard', 'George']
lname = ['McCartney', 'Lennon', 'Starkey', 'Harrison']
birth = [1942, 1940, 1940, 1943]

In [60]:
people = {'first': fname, 'last': lname, 'birth': birth}

In [61]:
beatles = pd.DataFrame(people)
beatles

Unnamed: 0,first,last,birth
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943


### DataFrame에 인덱스 지정하기

In [62]:
# pandas 는 DataFrame 생성되면 RangeIndex 생성(0부터~)

beatles.index

RangeIndex(start=0, stop=4, step=1)

In [63]:
# 인덱스를 따로 지정해 줄 수 있음

pd.DataFrame(people, index=['a', 'b', 'c', 'd'])

Unnamed: 0,first,last,birth
a,Paul,McCartney,1942
b,John,Lennon,1940
c,Richard,Starkey,1940
d,George,Harrison,1943


### 딕셔너리 형태로 행별 DataFrame 생성

In [64]:
pd.DataFrame(
[{"first":"Paul","last":"McCartney", "birth":1942},
 {"first":"John","last":"Lennon", "birth":1940},
 {"first":"Richard","last":"Starkey", "birth":1940},
 {"first":"George","last":"Harrison", "birth":1943}])

Unnamed: 0,first,last,birth
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943


In [65]:
pd.DataFrame(
 [{"first":"Paul","last":"McCartney", "birth":1942},
 {"first":"John","last":"Lennon", "birth":1940},
 {"first":"Richard","last":"Starkey", "birth":1940},
 {"first":"George","last":"Harrison", "birth":1943}],
columns=['last', 'first', 'birth'])

Unnamed: 0,last,first,birth
0,McCartney,Paul,1942
1,Lennon,John,1940
2,Starkey,Richard,1940
3,Harrison,George,1943


In [66]:
# 굳이..?? 나라면 행별 데이터 리스트로 넣어주고 column명을 지정해줄 것 같다

# pd.DataFrame(["Paul","McCartney",1942],["John","Lennon",1940],["Richard","Starkey",1940],["George","Harrison",1943])
# ,columns=['last','first','birth'])

In [68]:
# pd.DataFrame?

### DataFrame으로 CSV파일 생성: to_csv 

In [69]:
beatles

Unnamed: 0,first,last,birth
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943


In [70]:
!!!!!!!!

from io import StringIO  # io.StringIO 클래스는 문자열을 파일 객체처럼 다룰 수 있게 해주는 클래스이다.
fout = StringIO()
beatles.to_csv(fout)  # use a filename instead of fout

In [71]:
print(fout.getvalue())

,first,last,birth
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943



### read_csv, to_csv 인덱스 설정

In [72]:
# read_csv를 사용해 csv파일을 읽으면 첫 column 'unnamed:0'이 생성됨

_ = fout.seek(0)
pd.read_csv(fout)

Unnamed: 0.1,Unnamed: 0,first,last,birth
0,0,Paul,McCartney,1942
1,1,John,Lennon,1940
2,2,Richard,Starkey,1940
3,3,George,Harrison,1943


In [73]:
# read_csv로 읽을 때, index_column 지정해 줄 수 있다

_ = fout.seek(0)
pd.read_csv(fout, index_col=0)

Unnamed: 0,first,last,birth
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943


In [74]:
# to_csv로 csv파일로 변경할 경우 인덱스 쓸지 안쓸지 선택가능

fout = StringIO()
beatles.to_csv(fout, index=False) 
print(fout.getvalue())

first,last,birth
Paul,McCartney,1942
John,Lennon,1940
Richard,Starkey,1940
George,Harrison,1943



## 대형 csv 파일 읽기(메모리 줄이기)   
* 1. read_csv의 nrows로 읽을 데이터 제한
* 2. read_csv의 dtype을 더 정확한 수치형식으로 지정
* 3. dtype의 매개변수를 사용하여 객체형식->범주형 변경
* 4. usecolos를 사용하여 필요한 column만 남기기
* 5. chunksize 사용

In [81]:
# pd.read_csv의 매개변수 nrows를 통해 읽을데이터 제한

diamonds = pd.read_csv('./data/diamonds.csv', nrows=1000)
diamonds

Unnamed: 0,carat,cut,...,y,z
0,0.23,Ideal,...,3.98,2.43
1,0.21,Premium,...,3.84,2.31
2,0.23,Good,...,4.07,2.31
3,0.29,Premium,...,4.23,2.63
4,0.31,Good,...,4.35,2.75
...,...,...,...,...,...
995,0.54,Ideal,...,5.34,3.26
996,0.72,Ideal,...,5.74,3.57
997,0.72,Good,...,5.89,3.48
998,0.74,Premium,...,5.77,3.58


In [83]:
diamonds.info()  #1000개 행이 78.2 KB 메모리 사용

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   carat    1000 non-null   float64
 1   cut      1000 non-null   object 
 2   color    1000 non-null   object 
 3   clarity  1000 non-null   object 
 4   depth    1000 non-null   float64
 5   table    1000 non-null   float64
 6   price    1000 non-null   int64  
 7   x        1000 non-null   float64
 8   y        1000 non-null   float64
 9   z        1000 non-null   float64
dtypes: float64(6), int64(1), object(3)
memory usage: 78.2+ KB


In [84]:
# read_csv의 dtype매개변수를 사용하여 더 정확한 수치형식 지정

diamonds2 = pd.read_csv('data/diamonds.csv', nrows=1000,
    dtype={'carat': np.float32, 'depth': np.float32,  # float64-> float32 로 변경
           'table': np.float32, 'x': np.float32,
           'y': np.float32, 'z': np.float32,
           'price': np.int16})

In [90]:
diamonds2.info()  # 메모리 78.2KB -> 49.0KB 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   carat    1000 non-null   float32
 1   cut      1000 non-null   object 
 2   color    1000 non-null   object 
 3   clarity  1000 non-null   object 
 4   depth    1000 non-null   float32
 5   table    1000 non-null   float32
 6   price    1000 non-null   int16  
 7   x        1000 non-null   float32
 8   y        1000 non-null   float32
 9   z        1000 non-null   float32
dtypes: float32(6), int16(1), object(3)
memory usage: 49.0+ KB


In [91]:
# 바뀌기전과 후의 데이터의 차이가 있는 지 확인

diamonds.describe()

Unnamed: 0,carat,depth,...,y,z
count,1000.0,1000.0,...,1000.0,1000.0
mean,0.68928,61.7228,...,5.59918,3.45753
std,0.195291,1.758879,...,0.611974,0.389819
min,0.2,53.0,...,3.75,2.27
25%,0.7,60.9,...,5.63,3.45
50%,0.71,61.8,...,5.76,3.55
75%,0.79,62.6,...,5.91,3.64
max,1.27,69.5,...,7.05,4.33


In [92]:
diamonds2.describe()

Unnamed: 0,carat,depth,...,y,z
count,1000.0,1000.0,...,1000.0,1000.0
mean,0.689281,61.722824,...,5.59918,3.457533
std,0.195291,1.758878,...,0.611972,0.389819
min,0.2,53.0,...,3.75,2.27
25%,0.7,60.900002,...,5.63,3.45
50%,0.71,61.799999,...,5.76,3.55
75%,0.79,62.599998,...,5.91,3.64
max,1.27,69.5,...,7.05,4.33


In [89]:
# dtype매개변수를 사용해 객체형식-> 범주형 으로 변경 
!!!# value_counts를 사용해 개수가 몇개 없다면?? 무슨 뜻

diamonds2.cut.value_counts()

Ideal        333
Premium      290
Very Good    226
Good          89
Fair          62
Name: cut, dtype: int64

In [94]:
diamonds2.color.value_counts()

E    240
F    226
G    139
D    129
H    125
I     95
J     46
Name: color, dtype: int64

In [95]:
diamonds2.clarity.value_counts()

SI1     306
VS2     218
VS1     159
SI2     154
VVS2     62
VVS1     58
I1       29
IF       14
Name: clarity, dtype: int64

In [96]:
# 'cut', 'color','clarity' column들을 object -> category 로 변경

diamonds3 = pd.read_csv('data/diamonds.csv', nrows=1000,
    dtype={'carat': np.float32, 'depth': np.float32,
           'table': np.float32, 'x': np.float32,
           'y': np.float32, 'z': np.float32,
           'price': np.int16,
           'cut': 'category', 'color': 'category',
           'clarity': 'category'})

In [98]:
diamonds3.info() # 메모리 49.0KB -> 29.4KB 로 축소됨

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   carat    1000 non-null   float32 
 1   cut      1000 non-null   category
 2   color    1000 non-null   category
 3   clarity  1000 non-null   category
 4   depth    1000 non-null   float32 
 5   table    1000 non-null   float32 
 6   price    1000 non-null   int16   
 7   x        1000 non-null   float32 
 8   y        1000 non-null   float32 
 9   z        1000 non-null   float32 
dtypes: category(3), float32(6), int16(1)
memory usage: 29.4 KB


In [101]:
# usecols매개변수를 사용하여 필요한 column만 사용

cols = ['carat', 'cut', 'color', 'clarity', 'depth', 'table', 'price']
diamonds4 = pd.read_csv('data/diamonds.csv', nrows=1000,
    dtype={'carat': np.float32, 'depth': np.float32,
           'table': np.float32, 'price': np.int16,
           'cut': 'category', 'color': 'category',
           'clarity': 'category'},
    usecols=cols)

In [103]:
diamonds4.info() # 메모리 29.4KB -> 17.7KB 축소

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   carat    1000 non-null   float32 
 1   cut      1000 non-null   category
 2   color    1000 non-null   category
 3   clarity  1000 non-null   category
 4   depth    1000 non-null   float32 
 5   table    1000 non-null   float32 
 6   price    1000 non-null   int16   
dtypes: category(3), float32(3), int16(1)
memory usage: 17.6 KB


In [141]:
!!
# 한꺼번에 전체 데이터를 메모리에 읽어 들이지 않고 일부만 처리해도 될때
# chunksize 매개변수 사용

cols = ['carat', 'cut', 'color', 'clarity', 'depth', 'table', 'price']
diamonds_iter = pd.read_csv('data/diamonds.csv', nrows=1000,
    dtype={'carat': np.float32, 'depth': np.float32,
           'table': np.float32, 'price': np.int16,
           'cut': 'category', 'color': 'category',
           'clarity': 'category'},
    usecols=cols,
    chunksize=200)

In [106]:
def process(df):
    return f'processed {df.size} items'

In [107]:
for chunk in diamonds_iter:
    process(chunk)

### Pandas에서 데이터의 dtype 결정 

In [108]:
# 열의 모든 값이 정수, 결측치 없다면 -> int64
# 열이 수치지만 정수가 아닌 경우, 결측치가 있다면 -> float64

# pandas 0.24부터 결측치 있는 정수 -> Int64

# 열이 숫자가 아니라면 object로 변환 후 문자열 취급(문자 각각을 파이썬 문자열로 저장되므로 많은 메모리차지)


### iinfo(), finfo()

In [110]:
!!
#int8 사용시 정보손실 발생
# Numpy iinfo 함수로 Numpy integer 형식의 범위를 볼 수 있음

np.iinfo(np.int8)

iinfo(min=-128, max=127, dtype=int8)

In [111]:
# 부동소수점수 형식의 정보 finfo 함수 사용

np.finfo(np.float16)

finfo(resolution=0.001, min=-6.55040e+04, max=6.55040e+04, dtype=float16)

#### memory_usage : DataFrame, Series에 사용할 바이트 지정 가능 

In [112]:
diamonds.price.memory_usage()

8128

In [113]:
diamonds.price.memory_usage(index=False)

8000

In [114]:
diamonds.cut.memory_usage()

8128

In [117]:
diamonds.cut.memory_usage(deep=True) ??

SyntaxError: invalid syntax (Temp/ipykernel_19996/3004744477.py, line 1)

In [120]:
# 이진형식 저장 이해 안됨

# diamonds4.to_feather('/tmp/d.arr')
# diamonds5 = pd.read_feather('/tmp/d.arr')

In [122]:
# diamonds4.to_parquet('/tmp/d.pqt')

### 엑셀 파일 사용

In [125]:
# beatles.to_excel('/data/beat.xls')

In [126]:
# beatles.to_excel('/tmp/beat.xlsx')

In [127]:
# beat2 = pd.read_excel('/tmp/beat.xls')
# beat2

In [None]:
# beat2 = pd.read_excel('/tmp/beat.xls', index_col=0)
# beat2

In [128]:
# beat2.dtypes

### How it works\...

### There\'s more\...

In [130]:
# xl_writer = pd.ExcelWriter('/tmp/beat.xlsx')
# beatles.to_excel(xl_writer, sheet_name='All')
# beatles[beatles.birth < 1941].to_excel(xl_writer, sheet_name='1940')
# xl_writer.save()

### ZIP 파일로 작업   
* zip파일 안에 csv 파일이 1개 있을 때 : read_csv
* zip파일 안에 csv 파일이 여러개 있을 때 : zipfile 모듈 사용

In [131]:
# csv파일이 zip파일에 들어있는 유일한 파일일때: read_csv
autos = pd.read_csv('data/vehicles.csv.zip')
autos

  exec(code_obj, self.user_global_ns, self.user_ns)


Unnamed: 0,barrels08,barrelsA08,...,phevHwy,phevComb
0,15.695714,0.0,...,0,0
1,29.964545,0.0,...,0,0
2,12.207778,0.0,...,0,0
3,29.964545,0.0,...,0,0
4,17.347895,0.0,...,0,0
...,...,...,...,...,...
39096,14.982273,0.0,...,0,0
39097,14.330870,0.0,...,0,0
39098,15.695714,0.0,...,0,0
39099,15.695714,0.0,...,0,0


In [132]:
autos.modifiedOn

0        Tue Jan ...
1        Tue Jan ...
2        Tue Jan ...
3        Tue Jan ...
4        Tue Jan ...
            ...     
39096    Tue Jan ...
39097    Tue Jan ...
39098    Tue Jan ...
39099    Tue Jan ...
39100    Tue Jan ...
Name: modifiedOn, Length: 39101, dtype: object

In [133]:
autos.modifiedOn.dtype  # 날짜데이터 'object'형식으로 되어있음

dtype('O')

In [None]:
# 파일 읽어온 후 데이터 타입 날짜 형식으로 바꾸기 : pd.to_datetime

pd.to_datetime(autos.modifiedOn)  # doctest: +SKIP

In [None]:
# 읽어올 때 날짜 형식으로 바꿔서 읽어오기: pd.read_csv('파일이름', parse_dates['칼럼명'])

autos = pd.read_csv('data/vehicles.csv.zip',
    parse_dates=['modifiedOn'])  # doctest: +SKIP
autos.modifiedOn

In [134]:
# zip 파일에 csv파일이 여러개 담겨있을 경우: zipfile 모듈 사용
import zipfile

In [135]:
# kaggle-survey-2018.zip 파일에서 여러 csv파일 중 multipleChoiceResponses.csv파일 읽기

with zipfile.ZipFile('data/kaggle-survey-2018.zip') as z:
    print('\n'.join(z.namelist()))  # csv파일이 3개(= z) 있는걸 확인
    kag = pd.read_csv(z.open('multipleChoiceResponses.csv'))  # z중 하나의 csv파일을 읽는다
    kag_questions = kag.iloc[0]  # 설문지 질문 
    survey = kag.iloc[1:]        # 응답

multipleChoiceResponses.csv
freeFormResponses.csv
SurveySchema.csv


  exec(code_obj, self.user_global_ns, self.user_ns)


In [136]:
print(survey.head(2).T)

                        1          2
Time from...          710        434
Q1                 Female       Male
Q1_OTHER_...           -1         -1
Q2                  45-49      30-34
Q3            United S...  Indonesia
...                   ...        ...
Q50_Part_5            NaN        NaN
Q50_Part_6            NaN        NaN
Q50_Part_7            NaN        NaN
Q50_Part_8            NaN        NaN
Q50_OTHER...           -1         -1

[395 rows x 2 columns]


### 데이터베이스와 작업

In [137]:
import sqlite3
con = sqlite3.connect('data/beat.db')  #데이터베이스 생성
with con:
    cur = con.cursor()  #보통 SQL 구문을 호출해서 데이터를 조작-> SQL 구문을 호출하려면 Cursor객체가 필요 
    cur.execute("""DROP TABLE Band""") 
    cur.execute("""CREATE TABLE Band(id INTEGER PRIMARY KEY,
        fname TEXT, lname TEXT, birthyear INT)""")
    cur.execute("""INSERT INTO Band VALUES(
        0, 'Paul', 'McCartney', 1942)""")
    cur.execute("""INSERT INTO Band VALUES(
        1, 'John', 'Lennon', 1940)""")
    _ = con.commit()

# DROP TABLE Band: 테이블을 없애는 SQL 구문
# CREATE TABLE: 테이블을 만든다는 SQL 구문
# INSERT INTO :해당하는 데이터를 로우로 추가
# COMMIT(): 작업한 내용을 실제로 데이터베이스에 반영

In [139]:
# 테이블을 읽으려면 SQLAlchemy와 연결 필요 : 데이터베이스를 추상화해주는 라이브러리
# 대부분의 sql데이터베이스와 소통 가능

import sqlalchemy as sa
engine = sa.create_engine(
  'sqlite:///data/beat.db', echo=True)
sa_connection = engine.connect()

In [140]:
beat = pd.read_sql('Band', sa_connection, index_col='id')
beat

2022-02-02 18:08:56,175 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("Band")
2022-02-02 18:08:56,177 INFO sqlalchemy.engine.Engine [raw sql] ()
2022-02-02 18:08:56,180 INFO sqlalchemy.engine.Engine SELECT name FROM sqlite_master WHERE type='table' ORDER BY name
2022-02-02 18:08:56,182 INFO sqlalchemy.engine.Engine [raw sql] ()
2022-02-02 18:08:56,184 INFO sqlalchemy.engine.Engine PRAGMA main.table_xinfo("Band")
2022-02-02 18:08:56,186 INFO sqlalchemy.engine.Engine [raw sql] ()
2022-02-02 18:08:56,190 INFO sqlalchemy.engine.Engine SELECT sql FROM  (SELECT * FROM sqlite_master UNION ALL   SELECT * FROM sqlite_temp_master) WHERE name = ? AND type = 'table'
2022-02-02 18:08:56,192 INFO sqlalchemy.engine.Engine [raw sql] ('Band',)
2022-02-02 18:08:56,195 INFO sqlalchemy.engine.Engine PRAGMA main.foreign_key_list("Band")
2022-02-02 18:08:56,196 INFO sqlalchemy.engine.Engine [raw sql] ()
2022-02-02 18:08:56,198 INFO sqlalchemy.engine.Engine PRAGMA temp.foreign_key_list("Band")
2022-02

Unnamed: 0_level_0,fname,lname,birthyear
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Paul,McCartney,1942
1,John,Lennon,1940


In [None]:
sql = '''SELECT fname, birthyear from Band'''
fnames = pd.read_sql(sql, con)
fnames

### How it work\'s\...

In [None]:
import json
encoded = json.dumps(people)
encoded

In [None]:
json.loads(encoded)

### How to do it\...

In [None]:
beatles = pd.read_json(encoded)
beatles

In [None]:
records = beatles.to_json(orient='records')
records

In [None]:
pd.read_json(records, orient='records')

In [None]:
split = beatles.to_json(orient='split')
split

In [None]:
pd.read_json(split, orient='split')

In [None]:
index = beatles.to_json(orient='index')
index

In [None]:
pd.read_json(index, orient='index')

In [None]:
values = beatles.to_json(orient='values')
values

In [None]:
pd.read_json(values, orient='values')

In [None]:
(pd.read_json(values, orient='values')
   .rename(columns=dict(enumerate(['first', 'last', 'birth'])))
)

In [None]:
table = beatles.to_json(orient='table')
table

In [None]:
pd.read_json(table, orient='table')

### How it works\...

### There\'s more\...

In [None]:
output = beat.to_dict()
output

In [None]:
output['version'] = '0.4.1'
json.dumps(output)

### How to do it\...

In [None]:
url ='https://en.wikipedia.org/wiki/The_Beatles_discography'
dfs = pd.read_html(url)
len(dfs)

In [None]:
dfs[0]

In [None]:
url ='https://en.wikipedia.org/wiki/The_Beatles_discography'
dfs = pd.read_html(url, match='List of studio albums', na_values='—')
len(dfs)

In [None]:
dfs[0].columns

In [None]:
url ='https://en.wikipedia.org/wiki/The_Beatles_discography'
dfs = pd.read_html(url, match='List of studio albums', na_values='—',
    header=[0,1])
len(dfs)

In [None]:
dfs[0]

In [None]:
dfs[0].columns

In [None]:
df = dfs[0]
df.columns = ['Title', 'Release', 'UK', 'AUS', 'CAN', 'FRA', 'GER',
    'NOR', 'US', 'Certifications']
df

In [None]:
res = (df
  .pipe(lambda df_: df_[~df_.Title.str.startswith('Released')])
  .iloc[:-1]
  .assign(release_date=lambda df_: pd.to_datetime(
             df_.Release.str.extract(r'Released: (.*) Label')
               [0]
               .str.replace(r'\[E\]', '')
          ),
          label=lambda df_:df_.Release.str.extract(r'Label: (.*)')
         )
   .loc[:, ['Title', 'UK', 'AUS', 'CAN', 'FRA', 'GER', 'NOR',
            'US', 'release_date', 'label']]
)
res

### How it works\...

### There is more\...

In [None]:
url = 'https://github.com/mattharrison/datasets/blob/master/data/anscombes.csv'
dfs = pd.read_html(url, attrs={'class': 'csv-data'})
len(dfs)

In [None]:
dfs[0]