# 판다스(Pandas)

판다스(Pandas)는 파이썬 데이터 처리를 위한 라이브러리이다.

In [1]:
import pandas as pd

Pandas는 총 세 가지의 데이터 구조를 사용한다.

1. 시리즈(Series)
2. 데이터프레임(DataFrame)
3. 패널(Panel)

### 1) 시리즈(Series)

시리즈 클래스는 1차원 배열의 값(values)에 각 값에 대응되는 인덱스(index)를 부여할 수 있는 구조를 갖고 있다.

In [2]:
sr = pd.Series([17000, 18000, 1000, 5000],
       index=["홍길동", "김길동", "이길동", "박길동"])
print(sr)

홍길동    17000
김길동    18000
이길동     1000
박길동     5000
dtype: int64


In [3]:
print(sr.values)

[17000 18000  1000  5000]


In [4]:
print(sr.index)

Index(['홍길동', '김길동', '이길동', '박길동'], dtype='object')


### 2) 데이터프레임(DataFrame)

데이터프레임은 2차원 리스트를 매개변수로 전달한다.

2차원이므로 행방향 인덱스(index)와 열방향 인덱스(column)가 존재한다.

즉, 행과 열을 가지는 자료구조이다.

시리즈가 인덱스(index)와 값(values)으로 구성된다면, 데이터프레임은 열(columns)까지 추가되어 열(columns), 인덱스(index), 값(values)으로 구성된다.

In [5]:
values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
index = ['one', 'two', 'three']
columns = ['A', 'B', 'C']

df = pd.DataFrame(values, index=index, columns=columns)
print(df)

       A  B  C
one    1  2  3
two    4  5  6
three  7  8  9


In [6]:
# 인덱스 출력
print(df.index)

Index(['one', 'two', 'three'], dtype='object')


In [7]:
# 열 출력
print(df.columns)

Index(['A', 'B', 'C'], dtype='object')


In [8]:
# 값 출력
print(df.values)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


### 3) 데이터프레임의 생성

데이터프레임은 리스트(List), 시리즈(Series), 딕셔너리(dict), Numpy의 ndarrays, 또 다른 데이터프레임으로 생성할 수 있다.

In [9]:
# 리스트로 생성하기
data = [
    ['1000', 'Steve', 90.72], 
    ['1001', 'James', 78.09], 
    ['1002', 'Doyeon', 98.43], 
    ['1003', 'Jane', 64.19], 
    ['1004', 'Pilwoong', 81.30],
    ['1005', 'Tony', 99.14],
]
df = pd.DataFrame(data)
print(df)

      0         1      2
0  1000     Steve  90.72
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14


In [10]:
df = pd.DataFrame(data, columns=['학번', '이름', '점수'])
print(df)

     학번        이름     점수
0  1000     Steve  90.72
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14


In [11]:
# 딕셔너리로 생성하기
data = { '학번' : ['1000', '1001', '1002', '1003', '1004', '1005'],
'이름' : [ 'Steve', 'James', 'Doyeon', 'Jane', 'Pilwoong', 'Tony'],
         '점수': [90.72, 78.09, 98.43, 64.19, 81.30, 99.14]}

df = pd.DataFrame(data)
print(df)

     학번        이름     점수
0  1000     Steve  90.72
1  1001     James  78.09
2  1002    Doyeon  98.43
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14


### 4) 데이터프레임 조회하기

아래의 명령어는 데이터프레임에서 원하는 구간만 확인하기 위한 명령어로서 유용하게 사용된다.

- df.head(n) - 앞 부분을 n개만 보기
- df.tail(n) - 뒷 부분을 n개만 보기
- df['열이름'] - 해당되는 열을 확인

In [12]:
# 앞 부분을 3개만 보기
print(df.head(3))

     학번      이름     점수
0  1000   Steve  90.72
1  1001   James  78.09
2  1002  Doyeon  98.43


In [13]:
# 뒷 부분을 3개만 보기
print(df.tail(3)) 

     학번        이름     점수
3  1003      Jane  64.19
4  1004  Pilwoong  81.30
5  1005      Tony  99.14


In [14]:
# '학번'에 해당되는 열을 보기
print(df['학번'])

0    1000
1    1001
2    1002
3    1003
4    1004
5    1005
Name: 학번, dtype: object


### 5) 외부 데이터 읽기

Pandas는 CSV, 텍스트, Excel, SQL, HTML, JSON 등 다양한 데이터 파일을 읽고 데이터 프레임을 생성할 수 있다.

예를 들어, csv 파일을 읽을 때는 pandas.read_csv()를 통해 읽을 수 있다.

In [15]:
df=pd.read_excel('./dataset/코로나19/원문데이터_코로나19.xlsx',sheet_name='Worksheet')

In [16]:
print(df)

         인도·유럽, 코로나19 폭증...&quot;12월 중순 최고조&quot; / YTN  \
0     폐쇄·업무정지 등 영업장 손실보상 방안 마련｜코로나19 중앙재난안전대책본부 브리핑 ...   
1                  광주 코로나19 신규 확진자 17명 발생 / KBS뉴스(News)   
2            코로나19 미국, 뉴욕 떠나는 뉴요커들 (184회_2020.09.05.방송)   
3     [LIVE] 중앙재난안전대책본부 코로나19 정례 브리핑 (2020년 9월 7일) /...   
4     &#39;코로나19&#39; 중앙재난안전대책본부 브리핑 - [끝까지 LIVE] MB...   
...                                                 ...   
8705                       정치-경제 연계 모델로 본 대만의코로나19대응 연구   
8706                       코로나바이러스-19이후 미래기술에 대한 학회의 역할   
8707    코로나바이러스감염증-19의 바이러스 (SARS-CoV-2) 특징, 전파 및 임상 양상   
8708                                          독일의코로나계약법   
8709                       한국코로나바이러스감염증-19의 사업장 대응방안 소개   

            https://www.youtube.com/watch?v=Ulqf_xbplbk  \
0           https://www.youtube.com/watch?v=wctAa6EGiAE   
1           https://www.youtube.com/watch?v=IrYGdNZgftI   
2           https://www.youtube.com/watch?v=pxcv1-XVZgk   
3           https://www.youtube.com/watch?v=K_baXRfwl9k

In [17]:
print(df.index)

RangeIndex(start=0, stop=8710, step=1)
