<a href="https://colab.research.google.com/github/drawcodeboy/pandas_practice/blob/main/pandas_practice02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [62]:
import pandas as pd
import numpy as np

In [63]:
# 1. 다뤄볼 DataFrame 만들기

dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

# 2. df.head() / df.tail()

print(df.head(2))
print(df.tail(3))

                   A         B         C         D
2013-01-01 -1.578235  2.227980  0.906242 -0.342921
2013-01-02 -0.201513 -0.007717 -0.333796 -1.663184
                   A         B         C         D
2013-01-04  0.600413  0.094871 -0.761121  0.014548
2013-01-05  0.817894 -0.242829  0.272494 -0.289227
2013-01-06  0.615425 -0.005602  0.644475  0.655941


df.head() 혹은 df.tail()을 통해 위 아래에서 DataFrame의 몇 개의 행을 얻을 수 있다. 매개변수가 없을 시에 기본적으로 5로 Default 되어있다.

In [64]:
# 3. df.index, df.columns

print(df.index)
print(df.columns)

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')
Index(['A', 'B', 'C', 'D'], dtype='object')


인덱스와 열의 레이블을 출력하려면, index와 columns을 사용합니다.

In [65]:
# 4. df.to_numpy()

print(df.to_numpy())

[[-1.57823544  2.22798018  0.90624223 -0.3429208 ]
 [-0.20151346 -0.00771675 -0.333796   -1.66318383]
 [-0.15292528 -1.44838443  0.38399672  0.41735917]
 [ 0.6004126   0.09487059 -0.76112054  0.0145481 ]
 [ 0.81789449 -0.2428286   0.27249381 -0.28922727]
 [ 0.61542461 -0.00560243  0.64447543  0.65594098]]


>* to_numpy()는 데이터를 NumPy 방식으로 표현하도록 한다.
>* 하지만 DataFrame이 서로 다른 자료형을 갖고 있다면, NumPy와 pandas의 근본적인 차이로 인해 비용이 많이 드는 작업입니다.
>* NumPy 어레이는 전체 어레이에 대해 하나의 자료형(dtype)을 가지지만, pandas의 DataFrame은 열마다 하나의 자료형을 가집니다.
>* to_numpy()를 호출하면, pandas는 DataFrame의 자료형을 모두 담을 수 있는 NumPy 자료형을 찾습니다.
>* 모두 부동소수점 값을 갖는 DataFrame에 대해, to_numpy()은 빠르며 데이터를 복사할 필요가 없습니다.

In [66]:
# 공부하다가 궁금한 점
# 넘파이 배열의 복합적인 타입의 원소 구성

# 데이터 프레임 하나 만들기
df2 = pd.DataFrame({
    'A': ['a', 'b', 'c', 'd'],
    'B': [1, 2, 3, 4],
    'C': [1.2, 2.4, 3.6, 4.8]
})

# 데이터 프레임 NumPy로 변환
df2numpy = df2.to_numpy()

# 넘파이로 변환된 배열을 각 열마다 타입을 출력
for i in range(3):
    print(type(df2numpy[0, i]), end=' ')
print()

# df2numpy 자체의 data type 출력
print(df2numpy.dtype)

# 서로 다른 자료형이 넘파이 배열에 있으면 문자열로 변환된다고 한다.
# 더하면 앞뒤로 1과 1.2가 붙어서 11.2로 나타날텐데 2.2로 더하기 연산이 된다.
print(df2numpy[0, 1] + df2numpy[0, 2])

<class 'str'> <class 'int'> <class 'float'> 
object
2.2


In [67]:
# NumPy로 생성한 복합적인 자료형이 담긴 배열은 <U32라는 문자열 타입으로 지정된다.

nparray = np.array([1, 1.2, 'test'])

# 넘파이 배열을 원소마다 타입 출력
for i in range(3):
    print(type(nparray[i]), end=' ')
print()

# nparray 자체의 data type 출력
print(nparray.dtype)

# 더했을 때 문자열처럼 11.2가 나오게 된다.
print(nparray[0] + nparray[1])

<class 'numpy.str_'> <class 'numpy.str_'> <class 'numpy.str_'> 
<U32
11.2


# NumPy 배열의 복합적인 타입의 원소 구성에 대해 특이한 점

데이터프레임에서 넘파이로 변환한 넘파이 배열에 원소가 복합적인 타입으로 구성된 배열이 있다.
그리고, 넘파이로 직접 만든 복합적인 타입의 원소가 존재하는 넘파이 배열이 있다.

둘 다 공통점은 넘파이 배열이라는 것과 그것을 구성하는 원소가 타입이 단일적이지 않고, 복합적이다.
후자의 경우 배열의 원소는 '<U32'라는 문자열 원소로 바뀌어 사칙연산을 수행하지 못 하는데
전자의 경우 문자열 원소로 바뀌지 않고 연산이 가능하다.

둘의 차이점은 무엇인가
데이터프레임에서 넘파이로 변환한 넘파이 배열에 원소가 복합적인 타입으로 구성된 배열이 있다.
그리고, 넘파이로 직접 만든 복합적인 타입의 원소가 존재하는 넘파이 배열이 있다.

둘 다 공통점은 넘파이 배열이라는 것과 그것을 구성하는 원소가 타입이 단일적이지 않고, 복합적이다.
후자의 경우 배열의 원소는 '<U32'라는 문자열 원소로 바뀌어 사칙연산을 수행하지 못 하는데
전자의 경우 문자열 원소로 바뀌지 않고 연산이 가능하다.

둘의 차이점은 무엇인가

>* 각 원소의 데이터 타입이 전자는 보존되고 있고, 후자는 보존되어 있지 않고 모두 str로 통합되어있다.
>* 둘다 dtype attribute를 출력했을 때, 전자는 object라고 출력하고, 후자는 <U32라고 출력한다.

## 알아낸 점
<b>후자의 넘파이 배열을 만들 때, dtype을 object라고 주니까 원소간 연산이 가능하다.</b>

그렇다면 데이터 프레임에서 넘파이로 변환할 때 기본적으로 type을 object로 주는 걸까?
Documentation에 따르면 dtype이라는 매개변수 자체가 None으로 되어있는데 어떻게 되는 걸까
(https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_numpy.html?highlight=to_numpy#pandas.DataFrame.to_numpy)

In [68]:
# 5. df.describe()

df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.016843,0.103053,0.185382,-0.201247
std,0.890091,1.188785,0.623355,0.815976
min,-1.578235,-1.448384,-0.761121,-1.663184
25%,-0.189366,-0.184051,-0.182224,-0.329497
50%,0.223744,-0.00666,0.328245,-0.13734
75%,0.611672,0.069752,0.579356,0.316656
max,0.817894,2.22798,0.906242,0.655941


>* df.describe는 데이터에 대한 통계적 요약을 보여준다.
>* 데이터의 개수, 평균, 표준편차, 최소/최댓값, 사분위수

In [69]:
df.T

Unnamed: 0,2013-01-01,2013-01-02,2013-01-03,2013-01-04,2013-01-05,2013-01-06
A,-1.578235,-0.201513,-0.152925,0.600413,0.817894,0.615425
B,2.22798,-0.007717,-1.448384,0.094871,-0.242829,-0.005602
C,0.906242,-0.333796,0.383997,-0.761121,0.272494,0.644475
D,-0.342921,-1.663184,0.417359,0.014548,-0.289227,0.655941


>* df.T는 DataFrame의 행과 열을 transpose 시킨다.

In [70]:
df

Unnamed: 0,A,B,C,D
2013-01-01,-1.578235,2.22798,0.906242,-0.342921
2013-01-02,-0.201513,-0.007717,-0.333796,-1.663184
2013-01-03,-0.152925,-1.448384,0.383997,0.417359
2013-01-04,0.600413,0.094871,-0.761121,0.014548
2013-01-05,0.817894,-0.242829,0.272494,-0.289227
2013-01-06,0.615425,-0.005602,0.644475,0.655941


In [71]:
# 7. df.sort_index()

df.sort_index(axis=0, ascending=False)

Unnamed: 0,A,B,C,D
2013-01-06,0.615425,-0.005602,0.644475,0.655941
2013-01-05,0.817894,-0.242829,0.272494,-0.289227
2013-01-04,0.600413,0.094871,-0.761121,0.014548
2013-01-03,-0.152925,-1.448384,0.383997,0.417359
2013-01-02,-0.201513,-0.007717,-0.333796,-1.663184
2013-01-01,-1.578235,2.22798,0.906242,-0.342921


>* sort_index()는 축을 지정하여 축을 정렬 할 수있습니다.
>* axis가 0부터 1까지 존재하는데 가장 앞선 축은 행이기 때문에 0으로 지정하면 행(index)을 기준으로 정렬한다.
>* axis가 1이면 column을 축으로 두고 정렬한다.

In [72]:
# 8. df.sort_values()

df.sort_values(by='C', ascending=False)

Unnamed: 0,A,B,C,D
2013-01-01,-1.578235,2.22798,0.906242,-0.342921
2013-01-06,0.615425,-0.005602,0.644475,0.655941
2013-01-03,-0.152925,-1.448384,0.383997,0.417359
2013-01-05,0.817894,-0.242829,0.272494,-0.289227
2013-01-02,-0.201513,-0.007717,-0.333796,-1.663184
2013-01-04,0.600413,0.094871,-0.761121,0.014548


>* sort_values()는 열에 있는 값에 따라 정렬한다.
>* 당연하게도 한 열은 같은 데이터를 의미함으로 열끼리 정렬이 된다.
>* 이때 By라는 Parameter를 사용하여 기준이 될 Column을 입력한다.