# Pandas Data
 - 시리즈(Series) : 데이터가 순차적으로 나열된 1차원 배열의 형태
 - 딕셔너리(dictionary)와 유사한 구조 : 키(key)와 값(value)
 - pd.Series (dictionary_type_data)
 - 정수형 위치 인덱스/인덱스 이름(인덱스 라벨)
 - Series.index
 - Series.values

## Series(시리즈)
 - 1차원 배열과 유사한 자료 구조로, 데이터와 인덱스(index)가 함께 저장
 - 각 데이터는 인덱스를 통해 접근
 - 인덱스는 기본적으로 0부터 시작, 사용자가 원하는 값으로 설정할 수도
 - 판다스 시리즈는 다양한 데이터 타입을 저장, 데이터 분석에서 많이 사용
 - 시리즈가 1차원 데이터 구조이기 때문에, 데이터프레임의 각 행과 열은 본질적으로 인덱스와 값의 쌍으로 시리즈가 될 수 있다.


s = pd.Series(data, index=index, dtype=dtype, name=name, copy=none)

## 주요 파라미터
 - data : 리스트, 튜플, 딕셔너리, 스칼라값 등
  - 예 : pd.Series([1,2,3,4]) 또는 pd.Series({'a':1,'b':2})
 - index : Series의 라벨 지정
  - 예 : pd.Series([1,2,3], index=['a','b','c'])
 - dtype : 데이터 타입 지정(기본값은 자동 추론)
  - 예 : pd.Series([1,2,3],dtype='float64')
 - name : Series의 이름 지정
  - 예 : pd.Series([1,2,3],name='numbers')
 - copy : 입력 데이터의 복사본 생성 여부(기본값 False)



In [1]:
# 1) 리스트에 인덱스를 부여하여 시리즈를 만드는 예시

import pandas as pd

# 리스트 생성
data_list = [10,20,30]

# 리스트에 인덱스 부여하여 시리즈 생성
series = pd.Series(data_list, index=['idx1','idx2','idx3'])

print(series)

idx1    10
idx2    20
idx3    30
dtype: int64


In [2]:
# 2) 딕셔너리 타입으로 직접 인덱스를 부여하여 시리즈를 만드는 예시
import pandas as pd

# 딕셔너리 생성
data_dict = {'idx1': 10, 'idx2' : 20, 'idx3' : 30}

# 딕셔너리를 사용하여 시리즈 생성
series = pd.Series(data_dict)
print(series)

idx1    10
idx2    20
idx3    30
dtype: int64


In [3]:
# 3) 데이터와 인덱스를 지정하여 시리즈를 만드는 예시
#  - pd.Series(tuple_or_list, index = ['name','birth','job'])

import pandas as pd
data = ['John','1990-01-01','Engineer']
index = ['name','birth','job']

series = pd.Series(data, index=index)
print(series)

name           John
birth    1990-01-01
job        Engineer
dtype: object


In [4]:
# 실습) 시리즈를 생성하는 코드를 변형 응용하여 공유해 주세요


 - DataFrame : 2차원 배열, 여러 개의 Series의 집합
 - 열벡터(1차원 데이터프레임, 시리즈)
 - pd.DataFrame(dictionary_type_list)
 - pd.DataFrame(2차원배열, index = 행 인덱스 배열, columns = 열 이름 배열)
 - DF.index = 새로운 행 인덱스 배열
 - DF.columns = 새로운 열 이름 배열

df = pd.DataFrame(data, index=index, columns=columns, dtype=dtype, copy=copy)

주요 파라미터
 - data : 딕셔너리, 리스트, Numpy 배열, Series등
 - 예) pd.DataFrame({'A':[1,2], 'B':[3,4]})

 - index: 행 라벨 지정(기본값은 RangeIndex)
 - 예) pd.DataFrame(data, index=['row1','row2'])

 - columns : 열 라벨 지정
 - 예) pd.DataFrame(data, columns=['col1','col2'])

 - dtype : 데이터 타입 지정(기본값은 자동 추론)
 - 예) pd.DataFrame(data, dtype='float64')

 - copy : 입력 데이터의 복사본 생성 여부(기본값 False)

In [7]:
import pandas as pd
data = {
    'Name' : ['Alice','Bob','Charlie','Diana','Ethan'],
    'Age' : [23,22,24,23,22],
    'Grade' : ['A','B','C','A','B'],
    'Subject' : ['Math','Science','History','Math','Science']
}

df = pd.DataFrame(data)
df.to_csv('students.csv', index=False)

In [8]:
df.to_json('students.json', orient='records',lines=True)

In [9]:
df.to_excel('students.xlsx', index=False)

# CSV 파일
 - CSV 파일 : 콤마(,)로 값을 구분하여 저장된 텍스트 파일
 - pd.read_csv('파일 경로 이름', header=None, index_col=False)
 - head에 옵션을 지정하지 않으면 0행을 열로 지정
 - 구분자가 콤마가 아닌경우, sep(delimiter)를 지정할 수 있다.

# Excel 파일
 - pd.read_excel('파일 경로 이름', header=None, index_col = False)
 - 실행환경에 따라 별도의 라이브러리가 필요할 수도


In [12]:
import pandas as pd

csv_file_path = '/content/students.csv'
df_csv = pd.read_csv(csv_file_path)

print(df_csv)

      Name  Age Grade  Subject
0    Alice   23     A     Math
1      Bob   22     B  Science
2  Charlie   24     C  History
3    Diana   23     A     Math
4    Ethan   22     B  Science


In [14]:
import pandas as pd

excel_file_path = '/content/students.xlsx'
df_excel = pd.read_excel(excel_file_path)
print(df_excel)

      Name  Age Grade  Subject
0    Alice   23     A     Math
1      Bob   22     B  Science
2  Charlie   24     C  History
3    Diana   23     A     Math
4    Ethan   22     B  Science


In [15]:
# JSON 파일
# 데이터 공유를 목적으로 개발된 특수 파일, key:value의 딕셔너리 구조
# pd.read_json('파일 경로',lines=True)
# 각 라인이 별도의 json객체인 경우 lines = True옵션을 사용

In [16]:
# 1) 시리즈를 연결하여 데이터 프레임을 만드는 예시(concat())

import pandas as pd

# 시리즈 생성
series1 = pd.Series([10,20,30], name='Series1')
series2 = pd.Series([40,50,60], name='Series2')

# 시리즈를 데이터프레임으로 변환
df_series1 = series1.to_frame()
df_series2 = series2.to_frame()

# 데이터프레임을 병함
merged_df = pd.concat([df_series1, df_series2], axis=1)

print(merged_df)

   Series1  Series2
0       10       40
1       20       50
2       30       60


In [17]:
# 2) 시리즈를 연결하여 데이터 프레임을 만드는 예시(DataFrame())
import pandas as pd

# 시리즈 생성
series1 = pd.Series([10,20,30], name='Series1')
series2 = pd.Series([40,50,60], name='Series2')

# 시리즈를 데이터프레임으로 변환
df = pd.DataFrame()

# 시리즈를 데이터프레임에 병합
df['Series1'] = series1
df['Series2'] = series2

print(df)

   Series1  Series2
0       10       40
1       20       50
2       30       60


In [21]:
# 3) 리스트 데이터로 데이터 프레임을 만드는 예시
import pandas as pd

# 리스트 데이터 생성
data = [
    ['Alice', 25, "Engineer"],
    ['Bob',30,'Teacher'],
    ['Charlie',28,'Designer']
]

# 컬럼 이름 지정
columns = ['Name','Age','Occupation']

# 데이터프레임 생성
df = pd.DataFrame(data, columns=columns)

# 생성된 데이터프레임 출력
# print(df)
df

Unnamed: 0,Name,Age,Occupation
0,Alice,25,Engineer
1,Bob,30,Teacher
2,Charlie,28,Designer


In [27]:
# 4) 엑셀파일로 데이터 프레임을 만드는 예시
import pandas as pd

# 엑셀 파일 경로 지정
excel_file_path = "students.xlsx"

# 엑셀 파일로부터 데이터프레임 생성
df_excel = pd.read_excel(excel_file_path)

# 생성된 데이터프레임 출력
# print(df_excel)
df_excel

Unnamed: 0,Name,Age,Grade,Subject
0,Alice,23,A,Math
1,Bob,22,B,Science
2,Charlie,24,C,History
3,Diana,23,A,Math
4,Ethan,22,B,Science


In [25]:
# 5) CSV 파일로 데이터 프레임을 만드는 예시
import pandas as pd

# CSV 파일 경로 지정
csv_file_path = 'students.csv'

# CSV 파일로부터 데이터프레임 생성
df_csv = pd.read_csv(csv_file_path)

# 생성된 데이터프레임 출력
# print(df_csv)
df_csv

Unnamed: 0,Name,Age,Grade,Subject
0,Alice,23,A,Math
1,Bob,22,B,Science
2,Charlie,24,C,History
3,Diana,23,A,Math
4,Ethan,22,B,Science


In [48]:
# 6) Json 파일로 데이터 프레임을 만드는 예시
import pandas as pd

# JSON 파일 경로 지정
json_file_path = "students.json"

# JSON 파일로부터 데이터프레임 생성
df_json = pd.read_json(json_file_path, orient='records', lines=True)

# 생성된 데이터프레임 출력
print(df_json)

      Name  Age Grade  Subject
0    Alice   23     A     Math
1      Bob   22     B  Science
2  Charlie   24     C  History
3    Diana   23     A     Math
4    Ethan   22     B  Science


In [32]:
# 7) 기타 조건 명령어로 데이터 프레임을 만드는 예시
# 열 선택
name_column = df['Name']

# 행 선택
row = df.loc[0]

# 조건으로 필터링
filtered_df = df[df['Age'] > 25]

# 그룹화 및 집계
grouped_df = df.groupby('Age').mean(numeric_only=True)

# 정렬
sorted_df = df.sort_values(by='Age')

filtered_df

Unnamed: 0,Name,Age,Occupation
1,Bob,30,Teacher
2,Charlie,28,Designer


In [33]:
grouped_df

25
28
30


In [34]:
sorted_df

Unnamed: 0,Name,Age,Occupation
0,Alice,25,Engineer
2,Charlie,28,Designer
1,Bob,30,Teacher


In [35]:
# 실습) 데이터프레임을 생성하는 코드를 변형 응용하여 공유해주세요

In [36]:
# 데이터프레임을 병합할 때는 pd.concat() 함수를 사용(기본이 세로(위+아래)로 연결)
import pandas as pd

# 두 개의 데이터프레임 생성
df1 = pd.DataFrame({'A': [1,2,3], 'B' : [4,5,6]})
df2 = pd.DataFrame({'A': [7,8,9], 'B' : [10,11,12]})

# 데이터 프레임 병합(세로로 결합)
combined_df = pd.concat([df1, df2], ignore_index=True)

df1

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [37]:
df2

Unnamed: 0,A,B
0,7,10
1,8,11
2,9,12


In [38]:
combined_df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6
3,7,10
4,8,11
5,9,12


In [39]:
# 데이터 프레임의 부분삭제 : drop()
import pandas as pd

# 데이터프레임 생성
data = {'A' : [1,2,3], 'B': [4,5,6]}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [40]:
# 열 삭제
df_removed_col = df.drop('B', axis=1)
df_removed_col

Unnamed: 0,A
0,1
1,2
2,3


In [41]:
# 행 삭제
df_removed_row = df.drop(1, axis=0)

df_removed_row

Unnamed: 0,A,B
0,1,4
2,3,6


In [44]:
# 데이터 프레임 일부 수정(값 또는 열 이름)
import pandas as pd

# 데이터 프레임 생성
data = {'A': [1,2,3], 'B':[4,5,6]}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [45]:
# 특정 셀 수정
df.at[0, 'A'] = 10
df

Unnamed: 0,A,B
0,10,4
1,2,5
2,3,6


In [46]:
# 열 이름 변경
df.rename(columns={'A':'X', 'B':'Y'}, inplace=True)
df

Unnamed: 0,X,Y
0,10,4
1,2,5
2,3,6


 - df.rename(index = {기존 인덱스 : 새 인덱스, ...}, inplace=True)
 - df.rename(columns = {기존 이름: 새 이름, ...}, inplace=True)
 - df.drop(행 인덱스 또는 배열, axis = 0, inplace=True)
 - df.drop(열 이름 또는 배열, axis=1, inplace=True)
 - copied_df = df.copy()

In [None]:
# 시리즈 생성
series1 = pd.Series([10,20,30], name='Series1')
series2 = pd.Series([40,50,60], name='Series2')

# 시리즈를 데이터프레임으로 변환
df = pd.concat([series1, series2], axis=1)
print(df)

# 인덱스 이름 변경
df.index = ['row1','row2','row3']

# 컬럼 이름 변경
df.columns = ['Column1','Column2']
print(df)

#