In [None]:
"""판다스는 시리즈(Series)와 데이터프레임(DataFrame)이라는 구조화된 데이터 형식을 제공한다.
   서로 다른 종류의 데이터를 한곳에 담는 그릇(컨테이너)이 된다. 다만 시리즈는 1차원 배열, 데이터프레임은 2차원 배열이다."""

# 시리즈는 데이터가 순차적으로 나열된 1차원 배열의 형태를 갖는다. 인덱스는 데이터 값과 일대일 대응이 된다. 키와 값이 {키:값} 형태로 짝을 이루는 딕셔너리와 비슷한 구조.

# 그래서 딕셔너리를 시리즈로 변환하는 방법을 많이 사용한다. 판다스 내장 함수인 Series() 를 이용하고 딕셔너리를 함수의 인자로 전달

# 딕셔너리 -> 시리즈 변환: pandas.Series(딕셔너리)

# 판다스 불러오기 
import pandas as pd

#key:value 쌍으로 딕셔너리를 만들고, 변수 dict_data에 저장
dict_data = {'a': 1, 'b': 2, 'c': 3}

# 판다스 Series() 함수로 dictionary를 Series로 변환, 변수 sr에 저장
sr = pd.Series(dict_data)

# sr의 자료형 출력 
print(type(sr))
print('\n')
# 변수 sr에 저장되어 있는 시리즈 객체를 출력
print(sr)
"""데이터 값의 자료형(dtype)은 정수형(int64)이다"""

In [None]:
# 리스트를 시리즈로 변환 

import pandas as pd

# 리스트를 시리즈로 변환하여 변수 sr에 저장
list_data = ['2019-01-02', 3.14,'ABC',100,True]
sr = pd.Series(list_data)
print(sr)


In [None]:

# 인덱스 배열은 변수 idx에 저장. 데이터 값 배열은 변수 val에 저장
idx = sr.index
val = sr.values
print(idx)
print('\n')
print(val)

In [None]:
# 튜플을 시리즈로 변환(인덱스 옵션 지정)    
tup_data = ('영인', '2010-05-01', '여', True)
sr = pd.Series(tup_data, index = ['이름','생년월일','성별','학생여부'])
print(sr)   #dtype: object (object = 문자열)

In [None]:
#원소를 1개 선택

print(sr[0])  # sr의 1번째 원소를 선택(정수형 위치 인덱스)
print(sr['이름']) # '이름' 라벨을 가진 원소를 선택(인덱스 이름)


In [None]:
# 여러 개의 원소를 선택(인덱스 리스트 활용)

print(sr[[1,2]])  #인덱스를 list 형태로 입력하기 때문에 [[]] 이런 형식이 된다.
print('\n')
print(sr[['생년월일','성별']])

In [None]:
# 여러 개의 원소를 선택(인덱스 범위 지정)

print(sr[1 : 2])
print('\n')
print(sr['생년월일':'성별'])   #인덱스의 이름을 사용하면 범위의 끝도 포함된다.

In [None]:
"""데이터프레임은 2차원 배열이다. 행과 열로 만들어지는 2차원 배열 구조는 마이크로소프트 엑셀과 데이터베이스 등 컴퓨터 관련 다양한 분야에서 사용."""
# 시리즈가 모여 데이터프레임을 이룰 수 있다. 
# 데이터프레임은 여러 개의 시리즈를 모아 놓은 집합으로 이해하면 된다. 
"""보통 여러 개의 리스트를 원소로 갖는 딕셔너리를 함수의 인자로 전달하는 방식이 주로 활용된다.""" 
# 딕셔너리 -> 데이터프레임 변환 : pandas.DataFrame(딕셔너리 객체)

import pandas as pd

# 열이름을 key로 하고, 리스트를 value로 갖는 딕셔너리 정의(2차원 배열)
dict_data = {'c0':[1,2,3], 'c1':[4,5,6],'c2':[7,8,9], 'c3':[10,11,12], 'c4':[13,14,15]}

# 판다스 DataFrame() 함수로 딕셔너리를 데이터프레임으로 변환. 변수 df에 저장. 

df = pd.DataFrame(dict_data) # dict_data의 key가 열 이름이 되고, 값(value)에 해당하는 각 리스트가 데이터프레임의 열이 된다. 

#df의 자료형 출력
print(type(df))
print('\n')
# 변수 df에 저장되어 있는 데이터프레임 객체를 출력
print(df)

In [None]:
df

In [None]:
# 행 인덱스/열 이름 지정하여 데이터프레임 만들기 

df = pd.DataFrame([[15, '남', '덕영중'],[17,'여','수리중']],index = ['봉수', '봉자'], columns=['나이','성별','학교'])

# 행 인덱스, 열 이름 확인하기
print(df)
print('\n')
print(df.index)
print('\n')
print(df.columns)

In [None]:
# 행 인덱스, 열 이름 변경하기 
df.index = ['학생1','학생2']
df.columns = ['연령','남녀','소속']
print(df)
print('\n')
print(df.index)
print('\n')
print(df.columns)

In [None]:
# 행 인덱스 변경 :  DataFrame 객체.rename(index = {기존 인덱스:새 인덱스, ...})
# 열 이름 변경 : DataFrame 객체.rename(columns = {기존 이름:새 이름})

In [None]:
# 행 인덱스/열 이름 지정하여 데이터프레임 만들기
df =  pd.DataFrame([[15, '남','덕영중'], [17, '여', '수리중']],
                   index = ['준서','예은'],
                   columns = ['나이','성별','학교'])

# 데이터프레임 df 출력
print(df)
print('\n')

# 열 이름 중 '나이'를 '연령'으로, '성별'을 '남녀'로, '학교'를 '소속'으로 바꾸기
df.rename(columns={'나이':'연령', '성별':'남녀','학교':'소속'}, inplace = True)

#df의 행 인덱스 중에서, '준서'를 '학생1'로 '예은'을 '학생2'로 바꾸기
df.rename(index={'준서':'학생1', '예은': '학생2'}, inplace=True)

# df 출력 (변경 후)
print(df)

In [None]:
# 행 삭제: DataFrame 객체.drop(행 인덱스 또는 배열,axis = 0)
# 열 삭제: DataFrame 객체.drop(열 이름 또는 배열,axis = 1)


In [None]:
import pandas as pd

# DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
exam_data = {'수학':[90,80,70], '영어': [98,89,95],'음악': [85,95,100],'체육': [100,90,90]}

df = pd.DataFrame(exam_data, index =['서준','우현','인아'])
print(df)
print('\n')

# 데이터프레임 df를 복제하여 변수 df2에 저장. df2의 1개 행(row) 삭제
df2 = df[:] # 데이터프레임 df 복제
df2.drop('우현',inplace =True)
print(df2)
print('\n')

# 데이터프레인 df를 복제하여 변수 df3에 저장. df의 2개 행(row) 삭제
df3 = df[:]
df3.drop(['우현','인아'], axis = 0, inplace = True)  # axis = 0 은 행
print(df3)

In [None]:
#DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장 

exam_data = {'수학' : [90,80,70], '영어' : [98,89,95],
             '음악' : [85,95,100], '체육': [100,90,90]}

df = pd.DataFrame(exam_data, index = ['서준', '우현', '인아'])
print(df)
print('\n')

#데이터프레임 df를 복제하여 변수 df4에 저장. df4의 1개 열(column) 삭제
df4 = df[:]
df4.drop('수학', axis = 1, inplace = True)
print(df4)
print('\n')

# 데이터프레임 df를 복제하여 변수 df5에 저장. df5의 2개 열(column) 삭제 
df5 = df.copy()
df5.drop(['영어', '체육'], axis = 1, inplace =True)
print(df5)