# 📍 Pandas
: 파이썬에서 사용하는 데이터 분석 라이브러리

In [1]:
import pandas as pd

pd.__version__

'2.0.3'

# 📍 Series
: 1차원 데이터(정수, 실수, 문자열 등)
### ✅ 차원
: ```Series.ndim```

In [2]:
# Series는 1차원 자료구조이므로 1 출력
s = pd.Series([1, 2, 3, 4])
s.ndim

1

### ✅ Series 객체 생성
: ```pd.Series([list], dtype)```

예) 1월부터 4월까지 평균 온도 데이터(-20, -10, 10, 20)

In [3]:
temp = pd.Series([-20, -10, 10, 20])
print(temp)

0   -20
1   -10
2    10
3    20
dtype: int64


In [4]:
# float type으로 설정
pd.Series([-20, -10, 10, 20], dtype='float')

0   -20.0
1   -10.0
2    10.0
3    20.0
dtype: float64

In [5]:
# 다양한 타입의 데이터가 섞인 경우 object로 생성
s = pd.Series([91, 2.5, 'sport'])
print(s)

0       91
1      2.5
2    sport
dtype: object


### ✅ Series 접근
: ```Series([idx])```

In [6]:
temp[0] # 1월 온도

-20

In [7]:
# 음수(negative) 색인 불가능
temp[-1]

KeyError: -1

### ✅ Series Index 지정
: ```pd.Series([list], index=[index_list])```

In [8]:
temp = pd.Series([-20, -10, 10, 20], index=['Jan', 'Feb', 'Mar', 'Apr'])
temp

Jan   -20
Feb   -10
Mar    10
Apr    20
dtype: int64

In [9]:
temp['Jan']

-20

In [10]:
# 존재하지 않는 Index 접근 시도 시 에러
temp['Jun']

KeyError: 'Jun'

In [11]:
# 기본부여된 숫자형 index로도 접근 가능
temp[0]

-20

In [12]:
# temp 'Apr'값으로 색인되는 원리, 따라서 -1 position 또한 'Apr'요소가 있기 때문에 'Apr'값으로 출력이 됨
temp[-1]

20

# 📍 DataFrame
: 행(row), 열(column)로 구성된 2차원 데이터(Series들의 모임)\
  각 열(column)은 각각의 데이터 타입(dtype)을 가짐

예) 슬램덩크 주요 인물 8명에 대한 데이터

In [13]:
data = {
    '이름' : ['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협'],
    '학교' : ['북산고', '북산고', '북산고', '북산고', '북산고', '능남고', '능남고', '능남고'],
    '키' : [197, 184, 168, 187, 188, 202, 188, 190],
    '국어' : [90, 40, 80, 40, 15, 80, 55, 100],
    '영어' : [85, 35, 75, 60, 20, 100, 65, 85],
    '수학' : [100, 50, 70, 70, 10, 95, 45, 90],
    '과학' : [95, 55, 80, 75, 35, 85, 40, 95],
    '사회' : [85, 25, 75, 80, 10, 80, 35, 95],
    'SW특기' : ['Python', 'Java', 'Javascript', '', '', 'C', 'PYTHON', 'C#']
}

In [14]:
data['이름']

['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협']

### ✅ DataFrame 객체 생성
: ```pd.DataFrame({data})```

In [15]:
df = pd.DataFrame(data)
df

Unnamed: 0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,채치수,북산고,197,90,85,100,95,85,Python
1,정대만,북산고,184,40,35,50,55,25,Java
2,송태섭,북산고,168,80,75,70,80,75,Javascript
3,서태웅,북산고,187,40,60,70,75,80,
4,강백호,북산고,188,15,20,10,35,10,
5,변덕규,능남고,202,80,100,95,85,80,C
6,황태산,능남고,188,55,65,45,40,35,PYTHON
7,윤대협,능남고,190,100,85,90,95,95,C#


In [16]:
df['이름']

0    채치수
1    정대만
2    송태섭
3    서태웅
4    강백호
5    변덕규
6    황태산
7    윤대협
Name: 이름, dtype: object

In [17]:
df[['이름', '키']]

Unnamed: 0,이름,키
0,채치수,197
1,정대만,184
2,송태섭,168
3,서태웅,187
4,강백호,188
5,변덕규,202
6,황태산,188
7,윤대협,190


### ✅ DataFrame Index 지정
: ```pd.DataFrame({data}, index=[index_list])```

In [18]:
# 인덱스갯수와 data의 행수가 같아야 한다
df = pd.DataFrame(data, index=['1번', '2번', '3번', '4번', '5번', '6번', '7번', '8번'])
df

Unnamed: 0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


### ✅ DataFrame Column 지정
: ```pd.DataFrame({data}, columns=[column_list])```

In [19]:
pd.DataFrame([[1, 2, 3],
             [4, 5, 6],
             [7, 8, 9]])

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [20]:
pd.DataFrame([[1, 2, 3],
             [4, 5, 6],
             [7, 8, 9]], columns=['가', '나', '다'])

Unnamed: 0,가,나,다
0,1,2,3
1,4,5,6
2,7,8,9


In [21]:
# 원하는 column만 선택
df = pd.DataFrame(data, columns=['이름', '학교', '키'])
df

Unnamed: 0,이름,학교,키
0,채치수,북산고,197
1,정대만,북산고,184
2,송태섭,북산고,168
3,서태웅,북산고,187
4,강백호,북산고,188
5,변덕규,능남고,202
6,황태산,능남고,188
7,윤대협,능남고,190


In [22]:
# column 순서 변경
df = pd.DataFrame(data, columns=['이름', '키', '학교'])
df

Unnamed: 0,이름,키,학교
0,채치수,197,북산고
1,정대만,184,북산고
2,송태섭,168,북산고
3,서태웅,187,북산고
4,강백호,188,북산고
5,변덕규,202,능남고
6,황태산,188,능남고
7,윤대협,190,능남고


### ✅ DataFrame 전치
: ```df.T```

In [23]:
df.T

Unnamed: 0,0,1,2,3,4,5,6,7
이름,채치수,정대만,송태섭,서태웅,강백호,변덕규,황태산,윤대협
키,197,184,168,187,188,202,188,190
학교,북산고,북산고,북산고,북산고,북산고,능남고,능남고,능남고
