In [1]:
import pandas as pd

Pandas 세 가지의 데이터 구조를 사용
1. 시리즈(Series)
2. 데이터프레임(DataFrame)
3. 패널(Panel)

### 1) series
시리즈 클래스는 1차원 배열의 값(values)에 각 값에 대응되는 인덱스(index)를 부여할 수 있는 구조를 갖고 있습니다.

In [17]:
sr = pd.Series([17000, 18000, 1000, 5000],index=["피자", "치킨", "콜라", "맥주"])
print(sr)
print('======')
print('sr.values is :', sr.values)
print('======')
print('sr.index is :', sr.index)

피자    17000
치킨    18000
콜라     1000
맥주     5000
dtype: int64
sr.values is : [17000 18000  1000  5000]
sr.index is : Index(['피자', '치킨', '콜라', '맥주'], dtype='object')


### 2) dataframe
* 데이터프레임은 **2차원 리스트**를 매개변수로 전달. 
* 2차원이므로 행방향 인덱스(index)와 열방향 인덱스(column)가 존재. 즉, 행과 열을 가지는 자료구조. 
* 시리즈가 인덱스(index)와 값(values)으로 구성된다면, 
* 데이터프레임은 열(columns)까지 추가되어 열(columns), 인덱스(index), 값(values)으로 구성.

In [18]:
values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
index = ['one', 'two', 'three']
columns = ['A', 'B', 'C']

df = pd.DataFrame(values, index=index, columns=columns)
print(df)
print('======')
print('df.index is :', df.index)
print('======')
print('df.values is :', df.values)
print('======')
print('df.columns is :',df.columns)

       A  B  C
one    1  2  3
two    4  5  6
three  7  8  9
df.index is : Index(['one', 'two', 'three'], dtype='object')
df.values is : [[1 2 3]
 [4 5 6]
 [7 8 9]]
df.columns is : Index(['A', 'B', 'C'], dtype='object')


### 2-1) Dataframe 생성
* 데이터프레임은 리스트(List), 시리즈(Series), 딕셔너리(dict), Numpy의 ndarrays, 또 다른 데이터프레임으로 생성할 수 있습니다. 
* 여기서는 리스트와 딕셔너리를 통해서 데이터프레임을 생성 해보겠습니다.

In [20]:
# 리스트로 생성하기
data = [
    ['1000', 'Steve', 90.72] 
    ,['1001', 'James', 78.09] 
    ,['1002', 'Doyeon', 98.43] 
    ,['1003', 'Jane', 64.19] 
    ,['1004', 'Pilwoong', 81.30]
    ,['1005', 'Tony', 99.14]
]
df = pd.DataFrame(data)
print(df)

      0         1      2
0  1000     Steve  90.72
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14


In [21]:
# 생성된 dataframe에 열을 지정
df = pd.DataFrame(data, columns=['학번', '이름', '점수'])
print(df)

     학번        이름     점수
0  1000     Steve  90.72
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14


In [22]:
# 딕셔너리(dict)를 통해 데이터프레임을 생성
data = { '학번' : ['1000', '1001', '1002', '1003', '1004', '1005'],
'이름' : [ 'Steve', 'James', 'Doyeon', 'Jane', 'Pilwoong', 'Tony'],
         '점수': [90.72, 78.09, 98.43, 64.19, 81.30, 99.14]}

df = pd.DataFrame(data)
print(df)

     학번        이름     점수
0  1000     Steve  90.72
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14


### 2-2) Dataframe 조회
아래의 명령어는 데이터프레임에서 원하는 구간만 확인하기 위한 명령어로서 유용하게 사용됩니다.

* df.head(n) - 앞 부분을 n개만 보기
* df.tail(n) - 뒷 부분을 n개만 보기
* df['열이름'] - 해당되는 열을 확인

In [23]:
print(df.head(3)) # 앞 부분(행)을 3개만 보기

     학번      이름     점수
0  1000   Steve  90.72
1  1001   James  78.09
2  1002  Doyeon  98.43


In [24]:
print(df.tail(3)) # 뒷 부분(행)을 3개만 보기

     학번        이름     점수
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14


In [25]:
print(df['학번']) # '학번'에 해당되는 열을 보기

0    1000
1    1001
2    1002
3    1003
4    1004
5    1005
Name: 학번, dtype: object


### 2-3) 외부 데이터 읽기
Pandas는 CSV, 텍스트, Excel, SQL, HTML, JSON 등 다양한 데이터 파일을 읽고 데이터 프레임을 생성할 수 있슴.

예를 들어 csv 파일을 읽을 때는 pandas.read_csv()를 통해 읽을 수 있음

In [28]:
df=pd.read_csv('../../data/nlp_01_pandas_ex.csv')
print(df)
print('======')
print('df.index is :', df.index)

     학번          이름       점수
0  1000       Steve    90.72
1  1001       James    78.09
2  1002      Doyeon    98.43
3  1003        Jane    64.19
4  1004    Pilwoong    81.30
5  1005        Tony    99.14
df.index is : RangeIndex(start=0, stop=6, step=1)
