# 07.1 판다스(Pandas) 데이터 구조 이해하기
## 데이터 구조의 이해
### 시리즈(Series)

시리즈 생성 기본 형식  
s = pd.Series(data, index=index_data)

In [None]:
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(s)

In [None]:
import pandas as pd

s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(s)

In [None]:
print(s.index)
print(s.values)
print(s.dtype)


In [None]:
# 정수 인덱스를 자동 생성했을 경우 인덱스 출력
s2 = pd.Series([1, 2, 3, 4])
print(s2.index)

In [None]:
# 시리즈의 인덱스를 활용하여 특정 위치의 값을 가져오기
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(s['c'])
print(s[['b', 'c']])


In [None]:
# 조건을 사용해 데이터 필터링
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(s[s > 2])


### 데이터프레임(DataFrame)
#### 데이터프레임 생성하기

데이터프레임 생성 기본 형식  
df = pd.DataFrame(data, index = index_data, columns = columns_data)

In [None]:
# 딕셔너리로 데이터프레임 생성하기
import pandas as pd

# 딕셔너리 생성
data_dict = {
    '이름': ['소라', '창훈', '영미'],
    '나이': [25, 30, 35],
    '거주지': ['인천', '순천', '동해']
}

# 딕셔너리를 사용하여 데이터프레임 생성
df_dict = pd.DataFrame(data_dict)

print(df_dict)


In [None]:
# 리스트로 데이터프레임 생성하기
import pandas as pd

# 리스트 생성
data_list = [
    ['소라', 25, '인천'],
    ['창훈', 30, '순천'],
    ['영미', 35, '동해']
]

# 열 이름을 별도로 지정
columns = ['이름', '나이', '거주지']

# 리스트를 사용하여 데이터프레임 생성
df_list = pd.DataFrame(data_list, columns=columns)

print(df_list)


In [None]:
# 인덱스, 열이름, 값 출력하기
print(df_list.index)
print(df_list.columns)
print(df_list.values)


In [None]:
# 데이터타입 출력하기
print(df_list.dtypes)


#### 데이터 파일을 데이터프레임으로 가져오기
##### 1) CSV 파일 읽기와 쓰기
###### CSV 파일 읽기

csv 파일 읽기 기본 형식  
  
df = pd.read_csv(filepath,  
　　　　　　　　　sep=',',  
　　　　　　　　　header='infer',  
　　　　　　　　　names=None,  
　　　　　　　　　index_col=None,  
　　　　　　　　　usecols=None,  
　　　　　　　　　dtype=None,  
　　　　　　　　　skiprows=None,  
　　　　　　　　　nrows=None,  
　　　　　　　　　encoding=None, ...)

In [None]:
import pandas as pd

# 파일 경로 지정
excel_file = 'school_records.csv'

# CSV 파일을 데이터프레임으로 불러오기
df_school_loaded = pd.read_csv(excel_file)
df_school_loaded


###### CSV 파일 쓰기

csv 파일 쓰기 기본 형식  
df.to_csv(file_name,  
　　　　　sep=',',  
　　　　　na_rep='',   
　　　　　columns=None,  
　　　　　header=True,  
　　　　　index=True,  
　　　　　encoding=None, ...)

In [None]:
# csv 파일로 저장할 데이터프레임 생성하기
import pandas as pd

data = {'연도': [2010, 2011, 2012, 2013, 2014],
    '인구(만명)': [5000, 5050, 5100, 5150, 5200],
    'GDP(억달러)': [1000, 1050, 1100, 1150, 1200]}

df_years = pd.DataFrame(data)
df_years


In [None]:
# 파일 저장하기

# 파일 경로 지정
csv_file = 'years_data.csv'

# df_years를 CSV파일로 저장
df_years.to_csv(csv_file)
print('저장된 파일 경로:', csv_file)


In [None]:
# 인코딩 옵션 추가, 인덱스 설정 옵션 제외한 경우

# 파일 경로 지정
csv_file = 'years_data_cp949.csv'

# df_years를 CSV파일로 저장
df_years.to_csv(csv_file, encoding="cp949", index=False)
print('저장된 파일 경로:', csv_file)


##### 2) Excel 파일 읽기와 쓰기
###### 엑셀 파일 읽기

엑셀 파일 읽기 기본 형식  
df = pd.read_excel(excel_file,  
　　　　　　　　　　sheet_name='Sheet1',  
　　　　　　　　　　header=None,  
　　　　　　　　　　names=None,  
　　　　　　　　　　index_col=None,  
　　　　　　　　　　usecols=None,  
　　　　　　　　　　skiprows=None,  
　　　　　　　　　　nrows=None, ...)

In [None]:
import pandas as pd

# 읽어올 엑셀 파일
excelfile = 'sales_data.xlsx'

# 데이터프레임 생성
df = pd.read_excel(excelfile)
df


###### 엑셀 파일 쓰기

엑셀 파일 쓰기 기본 형식  
df.to_excel(excel_file,  
　　　　　　index=True,  
　　　　　　header=True,  
　　　　　　sheet_name='Sheet1',  
　　　　　　startrow=0,  
　　　　　　startcol=0,...)

In [None]:
# 저장할 데이터프레임 생성하기
import pandas as pd

# 도서 목록 데이터프레임 생성
books_df = pd.DataFrame({
    '도서ID': [1, 2, 3, 4],
    '도서명': ['파이썬 프로그래밍', '데이터 분석', '머신러닝 입문', '인공지능의 이해'],
    '저자': ['김파이썬', '이데이터', '박머신', '최인공'],
    '출판년도': [2019, 2020, 2018, 2021]
})

books_df


In [None]:
# 엑셀 파일로 저장하기

# 파일 경로 지정
excel_file = '도서_데이터.xlsx'

# books_df를 엑셀 파일로 저장
books_df.to_excel(excel_file)
print('저장된 파일 경로:', excel_file)


여러 시트에 각각 데이터프레임 저장하는 기본 형식  
with pd.ExcelWriter(excel_file) as writer:  
　　df1.to_excel(writer, sheet_name='Sheet1')  
　　df2.to_excel(writer, sheet_name='Sheet2')  
　　df3.to_excel(writer, sheet_name='Sheet3')

In [None]:
# 여러개의 데이터 프레임 생성하기
# 도서 목록 데이터프레임 생성
books_df = pd.DataFrame({
    '도서ID': [1, 2, 3, 4],
    '도서명': ['파이썬 프로그래밍', '데이터 분석', '머신러닝 입문', '인공지능의 이해'],
    '저자': ['김파이썬', '이데이터', '박머신', '최인공'],
    '출판년도': [2019, 2020, 2018, 2021]
})


# 회원 목록 데이터프레임 생성
members_df = pd.DataFrame({
    '회원ID': [101, 102, 103, 104],
    '이름': ['홍길동', '김철수', '이영희', '박영수'],
    '가입일': ['2021-01-01', '2021-02-15', '2021-03-22', '2021-04-30'],
    '생년월일': ['1990-05-05', '1985-08-11', '1992-12-03', '1988-07-19']
})

# 대출 기록 데이터프레임 생성
borrow_df = pd.DataFrame({
    '대출ID': [1001, 1002, 1003, 1004],
    '회원ID': [101, 103, 102, 104],
    '도서ID': [3, 1, 2, 4],
    '대출일': ['2023-03-01', '2023-03-05', '2023-03-07', '2023-03-15'],
    '반납예정일': ['2023-03-15', '2023-03-19', '2023-03-21', '2023-03-29']
})


In [None]:
# 여러개의 시트에 분리하여 저장하기

# 파일 경로 지정
excel_file = '도서_데이터_전체.xlsx'

# books_df, members_df, borrow_df를 excel파일 각각의 시트에 저장
with pd.ExcelWriter(excel_file) as writer:
    books_df.to_excel(writer, sheet_name='도서_목록', index=False)
    members_df.to_excel(writer, sheet_name='회원_목록', index=False)
    borrow_df.to_excel(writer, sheet_name='대출_기록', index=False)

print('저장된 파일 경로:', excel_file)


In [None]:
# 하나의 워크시트에 데이터가 겹치지 않도록 각각 위치 지정하여 저장하기

# 파일 경로 지정
excel_file = '도서_데이터_onesheet.xlsx'

# books_df, members_df, borrow_df를 excel파일 각각의 시트에 저장
with pd.ExcelWriter(excel_file) as writer:
    books_df.to_excel(writer, sheet_name='도서데이터', index=False)
    members_df.to_excel(writer, sheet_name='도서데이터', startrow=0, startcol=5, index=False)
    borrow_df.to_excel(writer, sheet_name='도서데이터', startrow=6, startcol=0, index=False)

print('저장된 파일 경로:', excel_file)
