# (실습) 판다스 데이터프레임


**필수 라이브러리**

In [1]:
import numpy as np
import pandas as pd

### 시리즈 객체 생성

리스트를 이용하여 시리즈를 생성할 수 있다.

In [2]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

### 데이터프레임 객체 생성

**방식 1**

2차원 어레이, 인덱스 라벨, 열 라벨을 지정하여 데이터프레임을 생성한다.

- 인덱스 라벨 지정

`pd.date_range()` 함수는 시간으로 구성된 인덱스 자료형을 생성한다.
함수 호출에 사용된 키워드 인자의 의미는 다음과 같다.

- `start="20130101`: 2013년 1월 1일부터 시작
- `periods=6`: 첫째 인자로 지정된 시간부터 6 개의 시간 데이터 샘플 생성
- `freq="S"`: 시간 데이터 샘플을 일(day) 단위로 생성

In [3]:
dates = pd.date_range(start="20130101", periods=6, freq="D")
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

- 열 라벨 지정

아래 코드는 알파벳 A, B, C, D를 이용하여 열 라베을 지정한다.

In [4]:
np.random.seed(0)

df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2013-01-01,1.764052,0.400157,0.978738,2.240893
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-03,-0.103219,0.410599,0.144044,1.454274
2013-01-04,0.761038,0.121675,0.443863,0.333674
2013-01-05,1.494079,-0.205158,0.313068,-0.854096
2013-01-06,-2.55299,0.653619,0.864436,-0.742165


**방식 2**

사전 객체를 이용한다.

- 열 라벨: 사전의 키 사용
- 인덱스 라벨: 위치 인덱스는 정수 인덱스로 자동 지정됨.

In [5]:
df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20130102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([3] * 4, dtype="int32"),
        "E": ["test", "train", "test", "train"],
        "F": "foo",
    }
)

df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


데이터프레임은 열별로 다른 자료형이 허용된다.

In [6]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E            object
F            object
dtype: object

## 데이터 살펴보기

**데이터 일부 확인**

- 처음 5행 확인

In [7]:
df.head()

Unnamed: 0,A,B,C,D
2013-01-01,1.764052,0.400157,0.978738,2.240893
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-03,-0.103219,0.410599,0.144044,1.454274
2013-01-04,0.761038,0.121675,0.443863,0.333674
2013-01-05,1.494079,-0.205158,0.313068,-0.854096


- 끝에서 5행 확인

In [8]:
df.tail()

Unnamed: 0,A,B,C,D
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-03,-0.103219,0.410599,0.144044,1.454274
2013-01-04,0.761038,0.121675,0.443863,0.333674
2013-01-05,1.494079,-0.205158,0.313068,-0.854096
2013-01-06,-2.55299,0.653619,0.864436,-0.742165


확인하고자 하는 행의 수를 지정할 수도 있다.

In [9]:
df.head(3)

Unnamed: 0,A,B,C,D
2013-01-01,1.764052,0.400157,0.978738,2.240893
2013-01-02,1.867558,-0.977278,0.950088,-0.151357
2013-01-03,-0.103219,0.410599,0.144044,1.454274


In [10]:
df.tail(3)

Unnamed: 0,A,B,C,D
2013-01-04,0.761038,0.121675,0.443863,0.333674
2013-01-05,1.494079,-0.205158,0.313068,-0.854096
2013-01-06,-2.55299,0.653619,0.864436,-0.742165


**라벨 확인**

- 인덱스 라벨 확인

In [11]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

- 열 라벨 확인

In [12]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

**넘파이 어레이로 변환**

인덱스 라벨과 열 라벨 정보가 삭제된다.

In [13]:
df.to_numpy()

array([[ 1.76405235,  0.40015721,  0.97873798,  2.2408932 ],
       [ 1.86755799, -0.97727788,  0.95008842, -0.15135721],
       [-0.10321885,  0.4105985 ,  0.14404357,  1.45427351],
       [ 0.76103773,  0.12167502,  0.44386323,  0.33367433],
       [ 1.49407907, -0.20515826,  0.3130677 , -0.85409574],
       [-2.55298982,  0.6536186 ,  0.8644362 , -0.74216502]])

열별 자료형이 통일되지 않은 경우: `object`로 통일된 자료형이 `dtype`으로 지정된다.

In [14]:
df2.to_numpy()

array([[1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'foo']],
      dtype=object)

**수치형 데이터의 분포 확인**

In [15]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.53842,0.067269,0.615706,0.380204
std,1.685238,0.590042,0.360293,1.239655
min,-2.55299,-0.977278,0.144044,-0.854096
25%,0.112845,-0.12345,0.345767,-0.594463
50%,1.127558,0.260916,0.65415,0.091159
75%,1.696559,0.407988,0.928675,1.174124
max,1.867558,0.653619,0.978738,2.240893


## 문자열 메서드 활용

시리즈와 `Index` 자료형은 `str` 속성을 이용하여 각각의 항목을 문자열로 변환하여 문자열 메서드를 적용해서
새로운 시리즈와 `Index` 자료형을 생성하는 기능을 제공한다.

**시리즈에 문자열 메서드 적용**

`str` 속성은 모든 항목을 문자열로 변환한 벡터를 가리킨다.

In [149]:
s = pd.Series(["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"])
s.str

<pandas.core.strings.accessor.StringMethods at 0x7f7158636510>

변환된 벡터에 문자열 메서드를 적용하면 새로운 시리즈가 생성된다.

In [151]:
s.str.lower()

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

**`Index` 자료형에 문자열 메서드 적용**

아래 데이터프레임을 이용한다.

In [152]:
df = pd.DataFrame(np.random.randn(3, 2), columns=[" Column A ", " Column B "], index=range(3))
df

Unnamed: 0,Column A,Column B
0,-1.21256,0.159991
1,-0.755223,0.349896
2,0.977542,-0.138585


열 라벨 인덱스에 대해 문자열 메서드를 적용해보자.

- 소문자화

In [153]:
df.columns.str.lower()

Index([' column a ', ' column b '], dtype='object')

- 양끝의 공백 제거

In [154]:
df.columns.str.lower().str.strip()

Index(['column a', 'column b'], dtype='object')

- 중간에 위치한 공백을 밑줄(underscore)로 대체

In [155]:
df.columns.str.strip().str.lower().str.replace(" ", "_")

Index(['column_a', 'column_b'], dtype='object')

열 라벨을 소문자로는 변경하지 않으면서 모든 공백을 제거해보자.

In [156]:
columns1 = df.columns.str.strip().str.replace(" ", "_")
columns1

Index(['Column_A', 'Column_B'], dtype='object')

In [157]:
df.columns=columns1
df

Unnamed: 0,Column_A,Column_B
0,-1.21256,0.159991
1,-0.755223,0.349896
2,0.977542,-0.138585
