# Pandas
pandas란 python에서 excel, csv과 같은 table(표)형태의 2차원 데이터를 쉽게 다룰 수 있도록 다양한 기능을 제공합니다.   
SQL과 비슷한 용어들이 많이 있으므로 pandas를 공부하면 SQL을 조금 더 쉽게 이해할 수 있습니다 

In [1]:
# 먼저 pandas를 설치 후 불러옵니다!
!pip install pandas 
import pandas as pd # 관례적으로 줄여서 pd라고 사용합니다( as 는 모듈의 별명을 지정합니다!)



## Series, DataFrame
pandas에서는 Series와 DataFrame 두 종류의 형식이 있습니다  
Series는 column이 1개인 1차원 데이터 이고,  
DataFrame은 두 개 이상의 column이 있는 데이터 입니다  

## 1. Serise 생성
pd.Serise(seq_data, index): 인자로 시퀀스 데이터를 받고 Serise형으로 반환합니다(index를 입력하지 않으면 개수에 맞게 자동 생성)

In [2]:
# 넘파이 배열로 시리즈 생성
import numpy as np
seq_data=np.array([1.3,30,np.nan,np.sin(np.pi/2)])
s1=pd.Series(seq_data)
s1

0     1.3
1    30.0
2     NaN
3     1.0
dtype: float64

In [3]:
index_data=['A','B','C','D']
s1.index=index_data # Serise를 생성할 때 index 지정 또한 가능합니다
s1

A     1.3
B    30.0
C     NaN
D     1.0
dtype: float64

In [4]:
# 해당 칼럼의 데이터값을 모두 보여줍니다
s1.values

array([ 1.3, 30. ,  nan,  1. ])

In [5]:
# 딕셔너리로 시리즈 생성
score={
    '국어':90,
    '수학':89,
    '과학':100,
    '영어':75
}
pd.Series(score)

국어     90
수학     89
과학    100
영어     75
dtype: int64

## 2. Serise 연산

In [6]:
s1=pd.Series(range(1,10)) # 1~9 -9개
s2=pd.Series(np.linspace(5,50,10)) # 5,10,...,50 -10개
s1+s2 # s1의 10번째 행의 값이 없으므로 nan값에 사칙연산을 해도 nan으로 반환

0     6.0
1    12.0
2    18.0
3    24.0
4    30.0
5    36.0
6    42.0
7    48.0
8    54.0
9     NaN
dtype: float64

In [7]:
s1*s2

0      5.0
1     20.0
2     45.0
3     80.0
4    125.0
5    180.0
6    245.0
7    320.0
8    405.0
9      NaN
dtype: float64

## 3. DataFrame 생성
pd.DataFrame(seq_data, index): 인자로 시퀀스 데이터를 받고 DataFrame형으로 반환합니다(index를 입력하지 않으면 개수에 맞게 자동 생성)

In [8]:
data=np.array([[1,2,3,4,5],[10,20,30,40,50]])
index_data=['X','X*10']
pd.DataFrame(data,index_data)

Unnamed: 0,0,1,2,3,4
X,1,2,3,4,5
X*10,10,20,30,40,50


In [9]:
dict_data={
    '연도':range(2010,2022),
    '매출액(만원)':np.random.randint(100,200,12)
}
ct_data={
    '연도':range(2010,2022),
    '매출액(만원)':np.random.randint(100,200,12)
}
df=pd.DataFrame(dict_data)
df

Unnamed: 0,연도,매출액(만원)
0,2010,107
1,2011,159
2,2012,185
3,2013,151
4,2014,110
5,2015,152
6,2016,113
7,2017,138
8,2018,147
9,2019,179


## 4. 데이터프레임 메소드

In [10]:
# DataFrame.head(n),DataFrame.tail(n): 처음부터 n까지 데이터를 보여줌, 마지막부터 마지막-n까지 데이터를 보여줌 (default=5)
print(df.head(),'\n')
print(df.tail(3))

     연도  매출액(만원)
0  2010      107
1  2011      159
2  2012      185
3  2013      151
4  2014      110 

      연도  매출액(만원)
9   2019      179
10  2020      174
11  2021      129


In [11]:
# 총합, 평균, 최소, 최대
print(df['매출액(만원)'].sum()) 
print(df['매출액(만원)'].mean())
print(df['매출액(만원)'].min())
print(df['매출액(만원)'].max())

1744
145.33333333333334
107
185


In [12]:
# 표준편차, 분산, 누적합
print(df['매출액(만원)'].std())
print(df['매출액(만원)'].var())
print(df['매출액(만원)'].cumsum())

26.76270584680152
716.2424242424242
0      107
1      266
2      451
3      602
4      712
5      864
6      977
7     1115
8     1262
9     1441
10    1615
11    1744
Name: 매출액(만원), dtype: int64


In [13]:
# DataFrame.describe(): 숫자형 데이터 값의 분포, 평균, 최댓값, 최솟값을 알려줍니다. (문자형은 출력에서 제외됩니다.)
# count값는 non-null개수를 의미합니다.
df.describe()

Unnamed: 0,연도,매출액(만원)
count,12.0,12.0
mean,2015.5,145.333333
std,3.605551,26.762706
min,2010.0,107.0
25%,2012.75,125.0
50%,2015.5,149.0
75%,2018.25,162.75
max,2021.0,185.0


In [14]:
# DataFrame.info(): 데이터프레임의 총 데이터건수, 데이터 타입, Null건수를 출력합니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   연도       12 non-null     int64
 1   매출액(만원)  12 non-null     int64
dtypes: int64(2)
memory usage: 320.0 bytes


In [15]:
# DataFrame.shape: 데이터프레임의 row, column수를 출력합니다
df.shape

(12, 2)

In [16]:
# Dataframe.where(조건문)
df.where(df['연도']==2019)['매출액(만원)']

0       NaN
1       NaN
2       NaN
3       NaN
4       NaN
5       NaN
6       NaN
7       NaN
8       NaN
9     179.0
10      NaN
11      NaN
Name: 매출액(만원), dtype: float64

In [17]:
# Series.value_counts() : 지정된 컬럼의 데이터 값의 개수를 알려줍니다.
# -> value_counts()는 Series(데이터프레임의 하나의 열) 형태의 데이터에만 사용 가능합니다.
df['매출액(만원)'].value_counts()

129    1
113    1
147    1
179    1
151    1
152    1
185    1
138    1
107    1
174    1
110    1
159    1
Name: 매출액(만원), dtype: int64

## 5. 데이터프레임 슬라이싱

In [18]:
# 1. 가장 기본적인 DataFrame[]방식
print(df['연도'],'\n')

# 2. DataFrame.iloc[로우 인덱스,칼럼 인덱스]방식
print(df.iloc[6,0],'\n')

# 3. DataFrame.loc[로우 인덱스, 칼럼명]방식
print(df.loc[6,'매출액(만원)'],'\n')

# 4. 불린 인덱싱 방식
print(df[df['매출액(만원)']==df['매출액(만원)'].max()])

0     2010
1     2011
2     2012
3     2013
4     2014
5     2015
6     2016
7     2017
8     2018
9     2019
10    2020
11    2021
Name: 연도, dtype: int64 

2016 

113 

     연도  매출액(만원)
2  2012      185


## 6. 데이터프레임 조작하기
#### (1) row, column변경하기

In [19]:
df_weather=pd.DataFrame([
    {'봄':np.nan,
    '여름':39,
    '가을':25,
    '겨울':9},
    {'봄':27,
    '여름':41,
    '가을':23,
    '겨울':10},
    {'봄':22,
    '여름':42,
    '가을':20,
    '겨울':8},
    {'봄':25,
    '여름':37,
    '가을':21,
    '겨울':11}
])
df_weather

Unnamed: 0,봄,여름,가을,겨울
0,,39,25,9
1,27.0,41,23,10
2,22.0,42,20,8
3,25.0,37,21,11


In [20]:
# 전치
df_weather.transpose()
df_weather.T

Unnamed: 0,0,1,2,3
봄,,27.0,22.0,25.0
여름,39.0,41.0,42.0,37.0
가을,25.0,23.0,20.0,21.0
겨울,9.0,10.0,8.0,11.0


In [21]:
# 순서변경 DataFrame[[바꿀 순서]]
df_weather[['봄','가을','여름','겨울']] # column의 순서를 변경

Unnamed: 0,봄,가을,여름,겨울
0,,25,39,9
1,27.0,23,41,10
2,22.0,20,42,8
3,25.0,21,37,11


In [22]:
df_weather.loc[[3,0]] # row의 순서 변경 

Unnamed: 0,봄,여름,가을,겨울
3,25.0,37,21,11
0,,39,25,9


#### (2) row, column 추가하기

In [23]:
# df.append(df): 행 추가하기
data={'봄':np.nan,'여름':np.nan,'가을':23,'겨울':9}
df_weather.append(data, ignore_index=True)

Unnamed: 0,봄,여름,가을,겨울
0,,39.0,25.0,9.0
1,27.0,41.0,23.0,10.0
2,22.0,42.0,20.0,8.0
3,25.0,37.0,21.0,11.0
4,,,23.0,9.0


In [24]:
# df['칼럼명']=seq_data: 열 추가하기
df_weather['연도']=[2017,2018,2019,2020]
df_weather=df_weather[['연도','봄','여름','가을','겨울']]
df_weather

Unnamed: 0,연도,봄,여름,가을,겨울
0,2017,,39,25,9
1,2018,27.0,41,23,10
2,2019,22.0,42,20,8
3,2020,25.0,37,21,11


#### (3) 데이터프레임 합치기

In [25]:
# df.merge(df2, how='조인 방법', on='칼럼명'): 다른 데이터프레임이랑 합치기
df_precipitation=pd.DataFrame([{'연도':2017,'강수량':1230},{'연도':2019,'강수량':1524}])

# 내부조인: nan값이 생기면 결합X
df_weather.merge(df_precipitation,how='inner',on='연도')

Unnamed: 0,연도,봄,여름,가을,겨울,강수량
0,2017,,39,25,9,1230
1,2019,22.0,42,20,8,1524


In [26]:
# 외부조인: nan값이 있어도 결합
df_weather=df_weather.merge(df_precipitation,how='outer',on='연도')
df_weather

Unnamed: 0,연도,봄,여름,가을,겨울,강수량
0,2017,,39,25,9,1230.0
1,2018,27.0,41,23,10,
2,2019,22.0,42,20,8,1524.0
3,2020,25.0,37,21,11,


#### (4) 데이터프레임 전처리하기

In [27]:
# df.isnull(): 데이터에 null값이 있으면 True 없으면 False를 반환합니다
df_weather.isnull().sum()

연도     0
봄      1
여름     0
가을     0
겨울     0
강수량    2
dtype: int64

In [28]:
# df.fillna(): null값을 채워줍니다
df_weather['봄'].fillna(df_weather['봄'].mean(), inplace=True) #inplace=True는 원본데이터를 바꿔줍니다
df_weather

Unnamed: 0,연도,봄,여름,가을,겨울,강수량
0,2017,24.666667,39,25,9,1230.0
1,2018,27.0,41,23,10,
2,2019,22.0,42,20,8,1524.0
3,2020,25.0,37,21,11,


In [29]:
# df.drop('칼람명',axis=): 데이터를 삭제합니다
df_weather.drop('강수량',axis=1,inplace=True)
df_weather

Unnamed: 0,연도,봄,여름,가을,겨울
0,2017,24.666667,39,25,9
1,2018,27.0,41,23,10
2,2019,22.0,42,20,8
3,2020,25.0,37,21,11


In [30]:
# df.sort_values(by='칼럼명', ascending=True): 칼럼명 기준으로 오름차순 정렬합니다
df_weather.sort_values(by='겨울')

Unnamed: 0,연도,봄,여름,가을,겨울
2,2019,22.0,42,20,8
0,2017,24.666667,39,25,9
1,2018,27.0,41,23,10
3,2020,25.0,37,21,11


In [31]:
df_weather.sort_values(by='여름', ascending=False)

Unnamed: 0,연도,봄,여름,가을,겨울
2,2019,22.0,42,20,8
1,2018,27.0,41,23,10
0,2017,24.666667,39,25,9
3,2020,25.0,37,21,11


In [32]:
# df[column].apply(func): 특정 칼럼 기준으로 함수를 적용합니다
df_weather['temp']=df_weather['여름'].apply(lambda x: '🥵' if x>40 else '👌')
df_weather

Unnamed: 0,연도,봄,여름,가을,겨울,temp
0,2017,24.666667,39,25,9,👌
1,2018,27.0,41,23,10,🥵
2,2019,22.0,42,20,8,🥵
3,2020,25.0,37,21,11,👌


## 7. 파일 읽고 쓰기

In [33]:
# df.to_csv('파일 경로'): csv로 보내기 (excel도 가능)
df_weather.to_csv('weather.csv')

In [34]:
# pd.read_csv('파일경로'): csv파일 읽기 (excel도 가능)
pd.read_csv('weather.csv')

Unnamed: 0.1,Unnamed: 0,연도,봄,여름,가을,겨울,temp
0,0,2017,24.666667,39,25,9,👌
1,1,2018,27.0,41,23,10,🥵
2,2,2019,22.0,42,20,8,🥵
3,3,2020,25.0,37,21,11,👌
