# 판다스(Pandas) 사용법
판다스는 파이썬에서 사용하는 데이터 분석 라이브러리.

 행과 열로 이루어진 데이터 객체를 만들어 다룰수 있음.
 
 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리함.

In [4]:
import pandas as pd
import numpy as np

## Pandas자료구조
기본적으로 정의되는 자료구조인 Series와 DataFrame을 사용

### 2-1.Seires

In [5]:
#Series 정의하기
obj = pd.Series([4,7,-5,3])
print(obj)#print생략가능

0    4
1    7
2   -5
3    3
dtype: int64


In [7]:
#Series의 값만 확인하기
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [8]:
#Series의 인덱스만 확인하기
obj.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
#Series의 자료형 확인하기
obj.dtypes

dtype('int64')

In [18]:
#인덱스를 바꿀 수 있다.
obj2=pd.Series([4,7,-5,3],index=['d','b','a',3])
print(obj2)
print(obj2.index)

d    4
b    7
a   -5
3    3
dtype: int64
Index(['d', 'b', 'a', 3], dtype='object')


In [21]:
#python의 dictionary 자료형을 Series Data로 만들 수 있다.
#dic의 key가 Series의 indx가 된다.
ssdata=[1,2,3,4,5,6]
obj4=pd.Series(ssdata)
print(obj4)
sdata={'kim':35000,'lee':47000,'park':52000,'jung':18000}
obj3=pd.Series(sdata)
print(obj3)

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
kim     35000
lee     47000
park    52000
jung    18000
dtype: int64


In [29]:
#index 변경
obj3.index=['A','B','C','D']
print(obj3)

A    35000
B    47000
C    52000
D    18000
Name: Salary, dtype: int64


In [30]:
obj3.name='Salary'
obj3.index.name='Names'
print(obj3)

Names
A    35000
B    47000
C    52000
D    18000
Name: Salary, dtype: int64


In [31]:
#index 변경
obj3.index=['A','B','C','D']
print(obj3)
print(obj3.index)

A    35000
B    47000
C    52000
D    18000
Name: Salary, dtype: int64
Index(['A', 'B', 'C', 'D'], dtype='object')


## 2-2.DataFrame

In [36]:
#DataFrame정의하기
#그전에 DataFrame에 들어갈 데이터를 정의해주어야 하는데.
#이는 python의 dictionary 또는 numpy의 array로 정의할 수 있다.
data={'name':['geno', 'keno', 'zano', 'uuno', 'mukno','muhano']
      ,'year':[2020, 2021, 2022, 2018, 2014, 2017]
      ,'points':[3.4, 4.3, 2.8, 3.6, 1.8, 4.0]}
df=pd.DataFrame(data)
df

Unnamed: 0,name,year,points
0,geno,2020,3.4
1,keno,2021,4.3
2,zano,2022,2.8
3,uuno,2018,3.6
4,mukno,2014,1.8
5,muhano,2017,4.0


### 행과 열의 구조를 가진 데이터가 생긴다.

In [38]:
#행 방향의 index
df.index

RangeIndex(start=0, stop=6, step=1)

In [39]:
#열 방향의 index
df.columns

Index(['name', 'year', 'points'], dtype='object')

In [40]:
#값 얻기
df.values

array([['geno', 2020, 3.4],
       ['keno', 2021, 4.3],
       ['zano', 2022, 2.8],
       ['uuno', 2018, 3.6],
       ['mukno', 2014, 1.8],
       ['muhano', 2017, 4.0]], dtype=object)

In [41]:
#각 인덱스에 대한 이름 설정하기
df.index.name="Num"
df.columns.name='info'
df

info,name,year,points
Num,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,geno,2020,3.4
1,keno,2021,4.3
2,zano,2022,2.8
3,uuno,2018,3.6
4,mukno,2014,1.8
5,muhano,2017,4.0


In [48]:
#DataFrame을 만들면서 columns와 index를 설정할수 있다.
df2=pd.DataFrame(data, columns=['year', 'name', 'points', 'penalty']
                 ,index=['one', 'two', 'three', 'four', 'five', 'six'])
df2

Unnamed: 0,year,name,points,penalty
one,2020,geno,3.4,
two,2021,keno,4.3,
three,2022,zano,2.8,
four,2018,uuno,3.6,
five,2014,mukno,1.8,
six,2017,muhano,4.0,


### DataFrame을 정의하면서 data로 들어가는 dic과 columns의 순서가 달라도 알아서 정의
하지만 data에 포함되어 있지 않은 값은 NaN으로 나타남

NaN은 추후에 어떠한 방법으로도 처리가 되지않는 데이터. 

따라서 올바른 데이터를 위해 추가적으로 값을 넣어줘야한다.

In [56]:
#describe() 함수는 DataFrame의 계산 가능한 값들에 대한 다양한 값을 보여준다.
df2.describe()

Unnamed: 0,year,points
count,6.0,6.0
mean,2018.666667,3.316667
std,2.94392,0.904249
min,2014.0,1.8
25%,2017.25,2.95
50%,2019.0,3.5
75%,2020.75,3.9
max,2022.0,4.3


### 3.DataFrame Indexing

In [61]:
data2={"names" : ["kilho","chaeho","hyeonho","gaho","junho"]
      ,"year":["1994","1993","1994","1992","1993"]
      ,"points":[1.5, 1.7, 3.6, 2.4, 2.9]}
df3=pd.DataFrame(data2, columns=["year", "names", "points", "penalty"]
                ,index=["one", "two", "three", "four", "five"])
df3

Unnamed: 0,year,names,points,penalty
one,1994,kilho,1.5,
two,1993,chaeho,1.7,
three,1994,hyeonho,3.6,
four,1992,gaho,2.4,
five,1993,junho,2.9,


#### 3-1.DataFrame에서 열을 선택하고 조작하기

In [62]:
df3["year"]

one      1994
two      1993
three    1994
four     1992
five     1993
Name: year, dtype: object

In [63]:
#동일한 의미를갖는 명령어.
df3.year

one      1994
two      1993
three    1994
four     1992
five     1993
Name: year, dtype: object

In [65]:
df3[['year',"points"]]

Unnamed: 0,year,points
one,1994,1.5
two,1993,1.7
three,1994,3.6
four,1992,2.4
five,1993,2.9


In [67]:
#특정열에 대해 위와 같이 선택하고, 우리가 원하는 값을 대입할 수 있다.
df3["penalty"]=0.5
df3

Unnamed: 0,year,names,points,penalty
one,1994,kilho,1.5,0.5
two,1993,chaeho,1.7,0.5
three,1994,hyeonho,3.6,0.5
four,1992,gaho,2.4,0.5
five,1993,junho,2.9,0.5


In [70]:
#각 자리에도 넣을 수 있다.
df3['penalty']=[0.1, 0.2, 0.3, 0.4, 0.5]#python의 list나 numpy의 array로도 가능
df3

Unnamed: 0,year,names,points,penalty
one,1994,kilho,1.5,0.1
two,1993,chaeho,1.7,0.2
three,1994,hyeonho,3.6,0.3
four,1992,gaho,2.4,0.4
five,1993,junho,2.9,0.5


In [71]:
#새로운 열을 추가하기
df3['zeros']=np.arange(5)
df3

Unnamed: 0,year,names,points,penalty,zeros
one,1994,kilho,1.5,0.1,0
two,1993,chaeho,1.7,0.2,1
three,1994,hyeonho,3.6,0.3,2
four,1992,gaho,2.4,0.4,3
five,1993,junho,2.9,0.5,4


In [74]:
#Series를 추가할 수도 있다.
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
df3['debt']=val
df3

Unnamed: 0,year,names,points,penalty,zeros,debt
one,1994,kilho,1.5,0.1,0,
two,1993,chaeho,1.7,0.2,1,-1.2
three,1994,hyeonho,3.6,0.3,2,
four,1992,gaho,2.4,0.4,3,-1.5
five,1993,junho,2.9,0.5,4,-1.7


#### 하지만 Series로 넣을 때는 val와 같이 넣으려는 data의 index에 맞춰서 데이터가 들어간다.
이점이 python의 list나 numpy의 array로 데이터를 넣을때와 가장 큰 차이점이다.

In [76]:
df3['net_points']=df3['points']-df3['penalty']
df3['hight_points']=df3['net_points']>2.0
df3

Unnamed: 0,year,names,points,penalty,zeros,debt,net_points,hight_points
one,1994,kilho,1.5,0.1,0,,1.4,False
two,1993,chaeho,1.7,0.2,1,-1.2,1.5,False
three,1994,hyeonho,3.6,0.3,2,,3.3,True
four,1992,gaho,2.4,0.4,3,-1.5,2.0,False
five,1993,junho,2.9,0.5,4,-1.7,2.4,True


In [77]:
df3.columns

Index(['year', 'names', 'points', 'penalty', 'zeros', 'debt', 'net_points',
       'hight_points'],
      dtype='object')