## 데이터 보기: 데이터 구조를 이해하는 기술
 - 판다스에서 가장 많이 사용되는 구조

### 1. 판다스 데이터
 - 1차원 자료구조인 시리즈(series)
 - 2차원 자료구조인 데이터프레임을 지원
  1. Column 하나하나 -> 시리즈(Series)
  2. Row, Column의 조합 -> 데이터프레임(시리즈, 데이터프레임 모두 칼럼명을 포함하지 않음)
 

### 2. 데이터 구조 시리즈
 - 시리즈(Series): 모든 데이터 유형을 저장할 수 있는 1차원 레이블이 지정된 배열
 - 열 레이블을 총칭하여 인덱스라고 함
 - 딕셔너리, 리스트, 튜플 등으로 만들 수 있음(인덱스와 짝지어진 데이터로 이루어져있음)

#### 2.1 시리즈 만들기(딕셔너리, 리스트, 튜플)

In [3]:
# 라이브러리 불러들이기
import pandas as pd

In [7]:
sd1 = pd.Series(['Doc','Cat','Tiger','Lion','Monkey'],
               index = ['00','11','22','33','44']) #인덱스번호는 지정안하면 0부터 자동으로 지정된다

sd1

00       Doc
11       Cat
22     Tiger
33      Lion
44    Monkey
dtype: object

In [12]:
# 딕셔너리 -> 시리즈로
dict_data = {'a' : 1, 'b' : 2, 'c' : 3}

dict_data

{'a': 1, 'b': 2, 'c': 3}

In [14]:
sd2 = pd.Series(dict_data)

sd2

a    1
b    2
c    3
dtype: int64

In [47]:
# 변수 타입 확인하기
type(sd2)

pandas.core.series.Series

In [19]:
# 리스트 -> 시리즈로
list_data = ['Dog','Cat','Tiger']
sd3 = pd.Series(list_data)

print(sd3)
type(sd2)

0      Dog
1      Cat
2    Tiger
dtype: object


pandas.core.series.Series

In [21]:
# 튜플 -> 시리즈로-
# '이순신', '1991-03-15', '남자'
# 위 데이터를 튜플로 만들어 주세요.

tup_data = ('이순신', '1991-03-15', '남자')

tup_data

('이순신', '1991-03-15', '남자')

In [22]:
type(tup_data)

tuple

In [26]:
col_name = ["이름","생년월일","성별"]
sd4 = pd.Series(tup_data,
               index = col_name) # 인덱스 지정하기

print(sd4)
type(sd4)

이름             이순신
생년월일    1991-03-15
성별              남자
dtype: object


pandas.core.series.Series

### 3. 데이터프레임 구조
 - 데이터프레임은 엑셀의 스프레드시트 형태로 행과 열 자료구조
 - 각 열에서는 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 가짐
 - 시리즈가 복수개 합쳐진 것
 - 파이썬 데이터프레임은 판다스에서 제공하는 기본구조
 - 데이터 분석시 가장 많이 보게 되는 구조
  1. 데이터 프레임을 딕셔너리와 리스트로 만드는 차이점
  2. 딕셔너리로 만들면 데이터프레임의 열(Column)을 하나씩 쌓아가는 형태
  3. 리스트로 만들면 행(Row)을 하나씩 쌓아가는 형태

#### 3.1 데이터 프레임 만들기

In [33]:
# 딕셔너리 -> 데이터프레임으로
# 동물 : 'Dog','Cat','Tiger','Lion','Monkey'
# 나이 : 7,9,2,3,1
# 위에 동물과 나이를 하나의 딕셔너리로 만들어주세요

dict_data = {'동물': ['Dog','Cat','Tiger','Lion','Monkey'], 
             '나이' : [7,9,2,3,1]}
dict_data

{'동물': ['Dog', 'Cat', 'Tiger', 'Lion', 'Monkey'], '나이': [7, 9, 2, 3, 1]}

In [39]:
# 데이터프레임으로 만들기
df1 = pd.DataFrame(dict_data)
df1

Unnamed: 0,동물,나이
0,Dog,7
1,Cat,9
2,Tiger,2
3,Lion,3
4,Monkey,1


In [38]:
type(df1)

pandas.core.frame.DataFrame

In [42]:
# 리스트 -> 데이터프레임으로
list_data = [['Dog',7],
             ['Cat',9],
             ['Tiger',2],
             ['Lion',3],
             ['Monkey',1]]

list_data # 5행 2열의 데이터구조

[['Dog', 7], ['Cat', 9], ['Tiger', 2], ['Lion', 3], ['Monkey', 1]]

In [49]:
# 데이터프레임으로 만들기
df2 = pd.DataFrame(list_data,
                  columns = ["동물","나이"]) # 컬럼명 지정하기, 변수로 만들어 넣어도 됨

print(df2) # 행과 열에 대한 인덱스는 다 부여되어있음
print(type(df2))
print(df2.dtypes) #각 열의 데이터 타입을 알고자 할때

       동물  나이
0     Dog   7
1     Cat   9
2   Tiger   2
3    Lion   3
4  Monkey   1
<class 'pandas.core.frame.DataFrame'>
동물    object
나이     int64
dtype: object


In [52]:
# 비어있는 데이터프레임 만들기
df_null = pd.DataFrame()

df_null

In [53]:
# 컬럼(변수) 만들기
df_null["동물"] = "Dog"

df_null

Unnamed: 0,동물
