<a href="https://colab.research.google.com/github/drawcodeboy/pandas_practice/blob/main/pandas_practice01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# 2) Series 만들기

# 리스트 사용
import pandas as pd

s = pd.Series([1, 3, 5, 4, 6, 8])
print(s)

0    1
1    3
2    5
3    4
4    6
5    8
dtype: int64


In [2]:
s = pd.Series([1, 3.5, 5, 4, 6.2, 8])
print(s)

0    1.0
1    3.5
2    5.0
3    4.0
4    6.2
5    8.0
dtype: float64


In [3]:
# Series()의 index 키워드를 사용해서 인덱스를 자유롭게 설정할 수 있음
s = pd.Series([1, 3.5, 5, 4, 6.2, 8], index=['a', 'b', 'c', 'd', 'e', 'f'])
print(s)

a    1.0
b    3.5
c    5.0
d    4.0
e    6.2
f    8.0
dtype: float64


In [6]:
# 3) DataFrame 만들기
# 1. NumPy 어레이 활용
import numpy as np

dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

print(dates)
print(df)

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')
                   A         B         C         D
2013-01-01  0.672244  0.372754  0.025314 -0.985070
2013-01-02 -2.688402  1.519956 -0.088110 -0.842982
2013-01-03  0.564158 -1.069698 -1.999207  0.628465
2013-01-04 -0.162148  0.351909 -0.540249 -0.205516
2013-01-05 -0.436950  0.687182 -0.369416  0.268725
2013-01-06 -0.789074  0.195075  1.321291  1.214922


>* 날짜 인덱스와 레이블이 지정된 열이 있는 Numpy 어레이를 전달함으로써 DataFrame을 만들 수 있습니다.
>* date_range() 함수를 사용해서 '20130101'를 시작으로 하는 6개의 DatetimeIndex를 만들었습니다.
>* 각 날짜마다 A, B, C, D열에 해당하는 난수 데이터의 DataFrame이 만들어졌습니다.

In [7]:
# 2. 딕셔너리로 만들기
df2 = pd.DataFrame({
    'A': 1,
    'B': pd.Timestamp('20130102'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3]*4, dtype='int32'),
    'E': pd.Categorical(['test', 'train', ' test', 'train']),
    'F': 'foo'
})

print(df2)
print(df2.dtypes)

   A          B    C  D      E    F
0  1 2013-01-02  1.0  3   test  foo
1  1 2013-01-02  1.0  3  train  foo
2  1 2013-01-02  1.0  3   test  foo
3  1 2013-01-02  1.0  3  train  foo
A             int64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object


>* Series와 같이 변환될 수 있는 객체의 딕셔너리를 전달함으로써 DataFrame을 생성할 수 있다.
>* 딕셔너리의 키가 그대로 DataFrame의 키가 됩니다.
>* 그 결과로 만들어지는 DataFrame의 열(Column)은 서로 다른 자료형(dtypes)을 갖습니다.

In [24]:
# read_csv를 활용하기 위한 to_csv 자료

df_01 = pd.DataFrame({
    '0': ['a', 'b', 'c', 'd'],
    '1': np.arange(1, 5)
})

df_01.to_csv('pandas_ex01.csv', index=False)

df_02 = pd.DataFrame({
    'string': ['a', 'b', 'c', 'd'],
    'number': np.arange(1, 5)
})

df_02.to_csv('pandas_ex02.csv', index=False)

print(df_01)
print(df_02)

   0  1
0  a  1
1  b  2
2  c  3
3  d  4
  string  number
0      a       1
1      b       2
2      c       3
3      d       4


to_csv를 통해 만들 csv 파일에서 다시 read_csv를 통해 가져올 때 index column이 생기는 경우
>* to_csv(... , index = False)를 통해 index column이 넘어가지 않도록 한다. (https://stackoverflow.com/questions/36519086/how-to-get-rid-of-unnamed-0-column-in-a-pandas-dataframe-read-in-from-csv-fil)

In [25]:
# 4) csv 활용하기

# 헤더 지정 X
df3 = pd.read_csv('pandas_ex01.csv', header=None)

print(df3)

# 헤더 지정 O
df4 = pd.read_csv('pandas_ex02.csv', header=0)

print(df4)

   0  1
0  0  1
1  a  1
2  b  2
3  c  3
4  d  4
  string  number
0      a       1
1      b       2
2      c       3
3      d       4


read_csv에서 header parameter는 데이터의 열의 이름을 어떤 행으로 쓸 지를 묻는 것이다.
>* read_csv(..., header=None)
>* header=None, 아무 행도 쓰지 않겠다. (0, 1, 2, ...)로 자동 지정
>* header=0, 0번재 행을 header로 쓰겠다.

In [31]:
# 인덱스 지정
df5 = pd.read_csv('pandas_ex02.csv', index_col=0)

print(df5)

        number
string        
a            1
b            2
c            3
d            4


read_csv에서 index_col을 이용해서 인덱스로 사용할 column을 지정할 수 있다.
>* read_csv(..., index_col = 0)
>* index_col=1, 1번 column을 index로 사용하겠다.
>* index_col을 사용하면 자동으로 header는 0으로 지정되는 거 같다.