In [None]:
import io
import numpy as pd 
import pandas as pd
from io import StringIO

* delimiter white space: `sep='\s+'` (e.g. ' ' or '\t')
* `index_col = False`

In [None]:
import pandas as pd
from io import StringIO
# file대신에 string을 사용하는 경우

data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"

pd.read_csv(StringIO(data))

In [None]:
pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ["COL1", "COL3"])

In [None]:
pd.read_csv(StringIO(data), skiprows=lambda x: x % 2 != 0)
# index번호는 무의미하다. col label이 0 그다름부터 1,2,3

In [None]:
# Specifying column data types
import numpy as np

data = "a,b,c,d\n1,2,3,4\n5,6,7,8\n9,10,11"

print(data)

In [None]:
df = pd.read_csv(StringIO(data), dtype=object)
df

In [None]:
df['a'][0]

In [None]:
df = pd.read_csv(StringIO(data), dtype= {'b': object, 'c': np.float64, 'd': 'Int64'})
df.dtypes

In [None]:
data = "col_1\n1\n2\n'A'\n4.22"
df = pd.read_csv(StringIO(data), converters={"col_1": str})
df

In [None]:
df["col_1"].apply(type).value_counts()

In [None]:
df2 = pd.read_csv(StringIO(data))
df2['col_1'] = pd.to_numeric(df2['col_1'], errors='coerce')
df2

In [None]:
data = """a,b,c,d,e,f,g,h,i,j
1,2.5,True,a,,,,,12-31-2019,
3,4.5,False,b,6,7.5,True,a,12-31-2019,
"""
# delimiter로 \n을 사용한다.
df = pd.read_csv(StringIO(data), dtype_backend="numpy_nullable", parse_dates=["i"])
df

In [None]:
df.dtypes

In [None]:
data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"

pd.read_csv(StringIO(data))

In [None]:
pd.read_csv(StringIO(data)).dtypes

In [None]:
pd.read_csv(StringIO(data), dtype="category").dtypes

In [None]:
# Unordered Categorical
pd.read_csv(StringIO(data), dtype={'col1': 'category'}).dtypes


In [None]:
# CategoricalDtype을 먼저 설정하면서, order를 줄 수 있다.
from pandas.api.types import CategoricalDtype
dtype = CategoricalDtype(['d', 'c', 'b', 'a'], ordered=True)
pd.read_csv(StringIO(data), dtype={'col1': dtype}).dtypes

In [None]:
dtype = CategoricalDtype(['a', 'b', 'd'])
pd.read_csv(StringIO(data), dtype={'col1': dtype}).col1
# category에 없는 요소는 missing values로 본다. 그래서 NaN

In [None]:
df = pd.read_csv(StringIO(data), dtype='category')
df.dtypes

In [None]:
df.col3

In [None]:
new_categories = pd.to_numeric(df.col3.cat.categories)
# category의 구성 요소들인 categories를 numeric으로 형변환한다.
df.col3 = df.col3.cat.rename_categories(new_categories)

df.col3

In [None]:
df.col3.cat.categories

In [None]:
# Naming and using columns
data = "a,b,c\n1,2,3\n4,5,6\n7,8,9"
print(data)

In [None]:
pd.read_csv(StringIO(data), names=['foo', 'bar', 'baz'], header=0)

In [None]:
pd.read_csv(StringIO(data), names=['foo', 'bar', 'baz'], header=None)

In [None]:
data = "skip this skip it\na,b,c\n1,2,3\n4,5,6\n7,8,9"

pd.read_csv(StringIO(data), header=1)
# header가 1로 지정되어 그 이전에 있는 애들은 없는 자식이 되었다.

In [None]:
# Duplcate names parsing.
data = "a,b,a\n0,1,2\n3,4,5"
pd.read_csv(StringIO(data))
# 중복된 column name에대한 처리

In [None]:
# Filtering columns(usecol)
data = "a,b,c,d\n1,2,3,foo\n4,5,6,bar\n7,8,9,baz"
pd.read_csv(StringIO(data))

In [None]:
pd.read_csv(StringIO(data), usecols=['b', 'd'])

In [None]:
pd.read_csv(StringIO(data), usecols=[1, 2, 3])

In [None]:
pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ['A', 'B'])
# lambda가 받는 x는 usecols가 받은 list의 요소들이 된다.   💮
# 이거이 boolean indexing이라니!!

In [None]:
pd.read_csv(StringIO(data), usecols=lambda x: x not in ['a', 'c'])

In [None]:
# Comments and Empty lines
# ignoring line comments and empty lines
data = '\na,b,c\n \n# commented line\n1, 2 , 3\n\n4, 5, 6'
print(data)

In [None]:
pd.read_csv(StringIO(data), comment='#')
# completely commented lines and completely blank lines will be ignored.

In [None]:
data = "a,b,c\n\n1,2,3\n\n\n4,5,6"
# pd.read_csv(StringIO(data), skip_blank_lines=False)
pd.read_csv(StringIO(data))


In [None]:
data = "#comment\na,b,c\nA,B,C\n1,2,3"
print(data)

In [None]:
pd.read_csv(StringIO(data), comment='#', header=1)
# header는 comment를 제외하고 row count한다.

In [None]:
data = "A,B,C\n#comment\na,b,c\n1,2,3"
pd.read_csv(StringIO(data), comment='#', skiprows=2)
# 2개의 row를 제외한다(comment포함해서)

In [None]:
data = (
    "# empty\n"
    "# second empty line\n"
    "# third emptyline\n"
    "X,Y,Z\n"
    "1,2,3\n"
    "A,B,C\n"
    "1,2.,4.\n"
    "5.,NaN,10.0\n"
)

print(data)

In [None]:
pd.read_csv(StringIO(data), comment='#', skiprows=4, header=1)

In [None]:
# Comments
print(open('temp.csv').read())

In [None]:
df = pd.read_csv('temp.csv')
df

In [None]:
df = pd.read_csv('temp.csv', comment='#')
df

In [None]:
from io import BytesIO
data = b"word,length\n" b"Tr\xc3\xa4umen,7\n" b"Gr\xc3\xbc\xc3\x9fe,5"
data = data.decode('utf8').encode('latin-1')
df = pd.read_csv(BytesIO(data), encoding='latin-1')
df

In [None]:
df['word'][1]

In [None]:
# Index columns and "trailing delimiters"
data = "a,b,c\n4,apple,bat,5.7\n8,orange,cow,10"
pd.read_csv(StringIO(data))
# column label의 수보다 data의 수가 많은 경우

In [None]:
data = "index, a,b,c\n4,apple,bat,5.7\n8,orange,cow,10"
pd.read_csv(StringIO(data), index_col=0)
# pd.read_csv(StringIO(data))

In [None]:
data = "a,b,c\n4,apple,bat,\n8,orange,cow,"
# 첫줄은 3개, 그 다음부터는 4개(끝에 붙은 , 으로 인해 제4요소가 NaN으로 추가)
print(data)

In [None]:
pd.read_csv(StringIO(data))
# 수가 모자라 뒤에서 부터 채워나갔늗데

In [None]:
pd.read_csv(StringIO(data), index_col=False)
# index를 아예 쓰지 않겠다 명시해서 앞에서 부터 채워나간다.   💢

In [None]:
data = "a,b,c\n4,apple,bat,\n8,orange,cow,"
print(data)

In [None]:
pd.read_csv(StringIO(data))

In [None]:
pd.read_csv(StringIO(data), usecols=['b', 'c'] )

In [None]:
pd.read_csv(StringIO(data), usecols=['b', 'c'], index_col=0 )

In [None]:
# Data Handling
import datetime
with open("foo.csv", mode="w") as f:
    f.write("date,A,B,C\n20090101,a,1,2\n20090102,b,3,4\n20090103,c,4,5")

In [None]:
data = "date,A,B,C\n20090101,a,1,2\n20090102,b,3,4\n20090103,c,4,5"
df = pd.read_csv('foo.csv', index_col=0, parse_dates=True)
# 'parse_dates = True' 하나로 복잡한 과정을 모두 생략한다.
df

In [None]:
df.index

In [None]:
df.columns

In [None]:
data = (
    "KORD,19990127, 19:00:00, 18:56:00, 0.8100\n"
    "KORD,19990127, 20:00:00, 19:56:00, 0.0100\n"
    "KORD,19990127, 21:00:00, 20:56:00, -0.5900\n"
    "KORD,19990127, 21:00:00, 21:18:00, -0.9900\n"
    "KORD,19990127, 22:00:00, 21:56:00, -0.5900\n"
    "KORD,19990127, 23:00:00, 22:56:00, -0.5900"
)
with open('temp.csv', mode='w') as fh:
    fh.write(data)

df = pd.read_csv('temp.csv', header=None, parse_dates=[[1, 2], [1, 3]])
df


In [None]:
df = pd.read_csv('temp.csv', header=None, parse_dates=[[1, 2], [1, 3]], keep_date_col=True)
df

In [None]:
df = pd.read_csv('temp.csv', index_col=None, parse_dates={'Nominal':[1, 2], 'Actual':[1, 3]})
df

# 이 경우, header=None을 명시하지 않아, row 0가 column명을 제공하였고 data row수도 5으로 줄어 들었다.

In [None]:
date_spec = {'Nominal':[1, 2], 'Actual':[1, 3]}
df = pd.read_csv('temp.csv', header=None, index_col=0, parse_dates=date_spec)
df

In [None]:
# Date parsing functions
content = """\
a
2000-01-01T00:00:00+05:00
2000-01-01T00:00:00+06:00"""

df = pd.read_csv(StringIO(content), parse_dates=['a'])
df.a

In [None]:
# 각기 다른 timezone을 갖는 datatime data를 불러 들일 때는 object dtype으로 불러 들이고 to_datetime() with utc = True로 불러 들인다.
df = pd.read_csv(StringIO(content))
df.a = pd.to_datetime(df.a, utc = True)
df.a

In [None]:
# Inferring datetime format
df = pd.read_csv(
    "foo.csv",
    index_col=0,
    parse_dates=True,
)
df

In [None]:
data = io.StringIO("date\n12 Jan 2000\n2000-01-13\n")
df = pd.read_csv(data)
df

In [None]:
df['date'] = pd.to_datetime(df['date'], format='mixed')
df

In [None]:
data = io.StringIO("date\n2020-01-01\n2020-01-01 03:00\n")
df = pd.read_csv(data)
df['date'] = pd.to_datetime(df['date'], format='ISO8601')
# df.date
df

In [None]:
data = "date,value,cat\n1/6/2000,5,a\n2/6/2000,10,b\n3/6/2000,15,c"
print(data)

In [None]:
with open("tmp.csv", "w") as fh:
    fh.write(data)
pd.read_csv("tmp.csv", parse_dates=[0])

In [None]:
pd.read_csv("tmp.csv", dayfirst=True, parse_dates=[0])
# 'dayfirst = True'는 읽어 들일때,  DD/MM/YYYY format, 출력은 YYY-MM-DD

In [None]:
# Writing CSVs to binary file objects     💢
import io
data = pd.DataFrame([0, 1, 2])
buffer = io.BytesIO()
data.to_csv(buffer, encoding='utf-8', compression='gzip')
buffer