# 2. Pandas Crash - Basic Pandas

## Pandas 는 Series data type 과 DataFrame data type 으로 구성된다.

### Series : numpy array 와 유사. 
- 차이점 - numpy 와 달리 Series 는 axis (행, 열)에 label 을 부여할 수 있다. 즉, numpy 와 같이 숫자로만 indexing 하는 것이 아니라 label 명으로 indexing 을 할 수 있다. 또한 숫자 뿐 아니라 임의의 Python object 를 모두 element 로 가질 수 있다.


### DataFrame
- Python program 안의 Excel

### Series vs DataFrame
<img src="series-and-dataframe.width-1200.png" width="600">


<img src="base_01_pandas_5_0.png" width="600">

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns

### DataFrame 의 예

In [2]:
tips = sns.load_dataset('tips')
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


### Series 생성

- list, numpy array, dictionary 를 모두 Series 로 변환할 수 있다. 
- dictionary 의 경우 key 가 label, value 가 value 로 번환된다.

In [3]:
labels = ['a', 'b', 'c', 'd']
my_list = [10, 20, 30, 40]
arr = np.array([10, 20, 30, 40])
dict = {'a': 10, 'b': 20, 'c': 30, 'd': 40}

In [4]:
series1 = pd.Series(dict)    # dictionary
series1

a    10
b    20
c    30
d    40
dtype: int64

In [5]:
series2 = pd.Series(data=my_list, index=labels)     # list
series2

a    10
b    20
c    30
d    40
dtype: int64

In [6]:
series3 = pd.Series(arr)      # numpy array
series3

0    10
1    20
2    30
3    40
dtype: int32

In [7]:
series4 = pd.Series(data=labels)    # list
series4 

0    a
1    b
2    c
3    d
dtype: object

### Series 의 indexing

In [None]:
series1['b':'c']

In [None]:
series3[1:3]

### Series  간의 연산

In [None]:
series1 + series2

### DataFrame 

DataFrame 은 여러개의 Series 를 같은 index 기준으로 모아 Table 을 만든 것이다.

In [None]:
import pandas as pd
import numpy as np

In [None]:
np.random.seed(101)
data = np.random.randn(5, 4)

In [None]:
df = pd.DataFrame(data, index=['A', 'B', 'C', 'D', 'E'], columns=['W', 'X', 'Y', 'Z'])
df

### dataframe 의 column 명

In [None]:
df.columns

### column 별 unique value 의 갯수

In [None]:
df.nunique()

In [None]:
df['W'].value_counts()

In [None]:
df.info()

In [None]:
df.describe()

### DataFrame indexing

In [None]:
df['W']

In [None]:
type(df['W'])

In [None]:
df[['W', 'Z']]

In [None]:
df.W

### new column 추가/삭제

In [None]:
df['new'] = df['W'] + df['X']
df

In [None]:
df.drop('new', axis=1)

In [None]:
df

In [None]:
df.drop('new', axis=1, inplace=True)
df

In [None]:
df.drop('D', axis=0, inplace=True)
df

In [None]:
df.shape

### Missing Data 처리

- missing data 가 있는 row 혹은 columns 을 완전히 삭제 : dropna()
- 임의의 data 로 대체 : fillna()

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.DataFrame({'A': [1, 2, np.nan],
                               'B': [5, np.nan, np.nan],
                               'C': [1, 2, 3]})

In [None]:
df

### missing value 를 포함하고 있는 모든 row 삭제 - default

In [None]:
df.dropna()

### missing value 를 포함하고 있는 모든 column 삭제

In [None]:
df.dropna(axis=1)

### missing value 대체

In [None]:
df.fillna(value=0)

In [None]:
df['A'].fillna(value=df['A'].mean())