## Series

In [3]:
import pandas as pd

In [2]:
obj = pd.Series([2020, 2021, 2022])  # index 자동 생성됨.
print(obj)

0    2020
1    2021
2    2022
dtype: int64


In [3]:
print(obj.values)
print(type(obj.values))
print(obj.index)
print(obj[1])

[2020 2021 2022]
<class 'numpy.ndarray'>
RangeIndex(start=0, stop=3, step=1)
2021


In [6]:
obj = pd.Series([2020, 2021, 2022], index=['a', 'b', 'c'])
print(obj)
print(obj['a'])
print(obj['b'])
print(obj['c'])

a    2020
b    2021
c    2022
dtype: int64
2020
2021
2022


In [7]:
print(obj[['a', 'b']]) # index를 여러개 선언
print(obj[0:2])  # 정수 행 index 0 ~
print(obj.shape) # (3,): 1차원 배열
print(type(obj))

a    2020
b    2021
dtype: int64
a    2020
b    2021
dtype: int64
(3,)
<class 'pandas.core.series.Series'>


In [10]:
print(obj)
print(obj * 10)

a    2020
b    2021
c    2022
dtype: int64
a    20200
b    20210
c    20220
dtype: int64


In [11]:
obj = pd.Series([year for year in range(2021, 2026)])
obj

0    2021
1    2022
2    2023
3    2024
4    2025
dtype: int64

In [13]:
bol = obj >= 2022
print(bol)
print(type(bol))

0    False
1     True
2     True
3     True
4     True
dtype: bool
<class 'pandas.core.series.Series'>


In [15]:
print(obj[bol]) # true에 해당하는 데이터만 출력

1    2022
2    2023
3    2024
4    2025
dtype: int64


In [16]:
pay = pd.Series([5000, 4000, 3000], index=['dev1', 'dev2', 'dev3'])
pay

dev1    5000
dev2    4000
dev3    3000
dtype: int64

In [18]:
pay.items()

<zip at 0x25d0990fc08>

In [19]:
for i, v in pay.items():
    print('{0}: {1:,} 원'.format(i, v*1000))

dev1: 5,000,000 원
dev2: 4,000,000 원
dev3: 3,000,000 원


In [21]:
# ERROR
# pay = pd.Series([5000, 4000, 3000], index=['dev1', 'dev2', 'dev3', 'dev4'])

In [22]:
# Series에 Dictionary 할당
pay = pd.Series({'dev1':5000, 'dev2':4000, 'dev3':3000},
                index=['dev1', 'dev2', 'dev3', 'dev4', 'dev5'])
pay

dev1    5000.0
dev2    4000.0
dev3    3000.0
dev4       NaN
dev5       NaN
dtype: float64

In [23]:
pay['dev4'] = 6000
pay['dev5'] = 7000
print('dev4: {0:,} 원'.format(int(pay['dev4'])*1000))
print('dev5: {0:,} 원'.format(int(pay['dev5'])*1000))

dev4: 6,000,000 원
dev5: 7,000,000 원


## DataFrame

In [4]:
# DBMS: 데이터 처리의 중심이 레코드(행)
# 분석: 데이터 처리의 중심이 컬럼(열)
# 학생들이 가장 어려워하는 과목은? 각각의 과목(피처)별 평균을 구해서 비교
# 변수명(피처, 특성), 컬럼명 지정
data = {'이름':['홍지수', '김성수', '최예린'],
        'python' : [80, 60, 100],
        'analysis' : [90, 80, 90],
        'ai' : [60, 70, 80]}
print(type(data))
df = pd.DataFrame(data)
print(df)
print(type(df))
print(df.shape)

<class 'dict'>
    이름  python  analysis  ai
0  홍지수      80        90  60
1  김성수      60        80  70
2  최예린     100        90  80
<class 'pandas.core.frame.DataFrame'>
(3, 4)


In [5]:
data = {'name':['가길동', '김성수', '최예린'],
        'python' : [80, 60, 100],
        'analysis' : [90, 80, 90],
        'ai' : [60, 70, 80]}
print(type(data))     # <class 'dict'>
print(len(data))      # 변수의 수
# print(data.shape)   # X
print(len(data['python']))  # 3
# columns: DataFrame을 구성할 컬럼을 지정
df = pd.DataFrame(data, 
                  columns=['name', 'python', 'analysis', 'tensorflow'],
                  index=[i+1 for i in range(len(data['python']))] )
print(df)

<class 'dict'>
4
3
  name  python  analysis tensorflow
1  가길동      80        90        NaN
2  김성수      60        80        NaN
3  최예린     100        90        NaN


In [6]:
data = [['가길동', 100, 70, 60],
        ['나길순', 80, 60, 100],
        ['다길순', 90, 80, 90]]
print(type(data))     # <class 'list'>
print(len(data))      # 행의 수 
df = pd.DataFrame(data, 
                  columns=['name', 'python', 'analysis', 'ai'],
                  index=[i+1 for i in range(len(data))] )
print(df)

<class 'list'>
3
  name  python  analysis   ai
1  가길동     100        70   60
2  나길순      80        60  100
3  다길순      90        80   90


In [7]:
#print(df.loc()) # X
print(df.loc[1, 'name']) # index, column name으로 접근

가길동


In [8]:
print(df.loc[1, ['name', 'python']])

name      가길동
python    100
Name: 1, dtype: object


In [9]:
print(df.loc[[1,2], ['name', 'python']])

  name  python
1  가길동     100
2  나길순      80


In [10]:
#print(df.loc[[1:3],['name','python']]) #X

In [12]:
import numpy as np
x=np.array([i for i in range(1,6)])
print(x[1:3])

[2 3]


In [13]:
print(df.loc[1:3,['name','python']])

  name  python
1  가길동     100
2  나길순      80
3  다길순      90


In [14]:
print(df.loc[[i for i in range(1,3)],['name','python']])

  name  python
1  가길동     100
2  나길순      80


In [15]:
#df.loc([1,2],[1,2]) #X

In [16]:
df.iloc[0,0] #dataframe 내부 index 사용

'가길동'

In [17]:
df.iloc[0,]#첫번째 행의 모든 칼럼

name        가길동
python      100
analysis     70
ai           60
Name: 1, dtype: object

In [18]:
df.iloc[0,:2]

name      가길동
python    100
Name: 1, dtype: object

In [19]:
df.iloc[0,[0,2]]#첫뻔째 행의 컬럼 index 0,2

name        가길동
analysis     70
Name: 1, dtype: object

In [20]:
df.iloc[:,:]

Unnamed: 0,name,python,analysis,ai
1,가길동,100,70,60
2,나길순,80,60,100
3,다길순,90,80,90


In [22]:
df2 = df.iloc[:, 1:]
df2

Unnamed: 0,python,analysis,ai
1,100,70,60
2,80,60,100
3,90,80,90


In [23]:
df2.sum()

python      270
analysis    210
ai          250
dtype: int64

In [24]:
df

Unnamed: 0,name,python,analysis,ai
1,가길동,100,70,60
2,나길순,80,60,100
3,다길순,90,80,90


In [25]:
df2.sum(axis=0) #열방향(우선)

python      270
analysis    210
ai          250
dtype: int64

In [26]:
df2.sum(axis=1) #행방향(우선)

1    230
2    240
3    260
dtype: int64

In [27]:
df2.mean(axis=1)

1    76.666667
2    80.000000
3    86.666667
dtype: float64

In [28]:
df['tot']=df2.sum(axis=1)
df

Unnamed: 0,name,python,analysis,ai,tot
1,가길동,100,70,60,230
2,나길순,80,60,100,240
3,다길순,90,80,90,260


In [29]:
df['avg']=df2.mean(axis=1)
df

Unnamed: 0,name,python,analysis,ai,tot,avg
1,가길동,100,70,60,230,76.666667
2,나길순,80,60,100,240,80.0
3,다길순,90,80,90,260,86.666667


In [30]:
df = df.drop('avg',axis=1)
df

Unnamed: 0,name,python,analysis,ai,tot
1,가길동,100,70,60,230
2,나길순,80,60,100,240
3,다길순,90,80,90,260


In [32]:
df['avg'] = round(df2.mean(axis=1),1)
df

Unnamed: 0,name,python,analysis,ai,tot,avg
1,가길동,100,70,60,230,76.7
2,나길순,80,60,100,240,80.0
3,다길순,90,80,90,260,86.7
