# 1. Pandas 자료형 
- 데이터프레임의 열은 같은 연산자를 사용해도 자료형에 따라 처리 방식이 다르다.
- 더하기 연산자는 정수는 값을 더하지만 문자열은 서로 연결한다. 
- 자료형 대한 제대로 이해 필요하다.

(1) 자료형 다루기
 
1) 자료형 변환하기
 - 데이터 분석을 수월하게 하기 위해 데이터 자료형을 자주 변환된다.
 - 카테고리형이나 숫자형은 문자열로 변환해서 사용하는 경우가 많다.
 - rename 메서드를 사용하면 컬럼명을 변경할 수 있다.
 - astype 메서드를 사용하면 자료형을 변환할 수 있다.

In [1]:
import pandas as pd
import seaborn as sns

In [2]:
tips = sns.load_dataset('tips') #seaborn에서 제공해주는 데이터셋

In [3]:
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [4]:
tips = tips.rename({'sex':'gender'},axis='columns')

In [5]:
tips

Unnamed: 0,total_bill,tip,gender,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [6]:
tips.dtypes

total_bill     float64
tip            float64
gender        category
smoker        category
day           category
time          category
size             int64
dtype: object

In [10]:
tips['gender_str'] = tips['gender'].astype(str)

In [11]:
tips.dtypes

total_bill      object
tip            float64
gender        category
smoker        category
day           category
time          category
size             int64
gender_str      object
dtype: object

In [12]:
tips['total_bill'] = tips['total_bill'].astype(str)
tips.dtypes

total_bill      object
tip            float64
gender        category
smoker        category
day           category
time          category
size             int64
gender_str      object
dtype: object

In [16]:
tips['total_bill'] = tips['total_bill'].astype(float)
tips.dtypes

total_bill     float64
tip            float64
gender        category
smoker        category
day           category
time          category
size             int64
gender_str      object
dtype: object

 2) 잘못입력한 데이터 처리하기 
 - 정수가 있어야 하는 열에 문자열이 입력되어 있을때 정수형으로 변환하는 
   to_numeric 메서드 사용한다.
 - total_bill열의 1,3,5,7 행의 데이터를 'missing'으로 변경하여 tips_sub_miss에 저장한다.

In [18]:
tips_sub_miss = tips.head(10)
tips_sub_miss

Unnamed: 0,total_bill,tip,gender,smoker,day,time,size,gender_str
0,16.99,1.01,Female,No,Sun,Dinner,2,Female
1,10.34,1.66,Male,No,Sun,Dinner,3,Male
2,21.01,3.5,Male,No,Sun,Dinner,3,Male
3,23.68,3.31,Male,No,Sun,Dinner,2,Male
4,24.59,3.61,Female,No,Sun,Dinner,4,Female
5,25.29,4.71,Male,No,Sun,Dinner,4,Male
6,8.77,2.0,Male,No,Sun,Dinner,2,Male
7,26.88,3.12,Male,No,Sun,Dinner,4,Male
8,15.04,1.96,Male,No,Sun,Dinner,2,Male
9,14.78,3.23,Male,No,Sun,Dinner,2,Male


In [20]:
tips_sub_miss.loc[[1,3,5,7],'total_bill'] = 'missing'

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(loc, value, pi)


In [21]:
tips_sub_miss

Unnamed: 0,total_bill,tip,gender,smoker,day,time,size,gender_str
0,16.99,1.01,Female,No,Sun,Dinner,2,Female
1,missing,1.66,Male,No,Sun,Dinner,3,Male
2,21.01,3.5,Male,No,Sun,Dinner,3,Male
3,missing,3.31,Male,No,Sun,Dinner,2,Male
4,24.59,3.61,Female,No,Sun,Dinner,4,Female
5,missing,4.71,Male,No,Sun,Dinner,4,Male
6,8.77,2.0,Male,No,Sun,Dinner,2,Male
7,missing,3.12,Male,No,Sun,Dinner,4,Male
8,15.04,1.96,Male,No,Sun,Dinner,2,Male
9,14.78,3.23,Male,No,Sun,Dinner,2,Male


In [22]:
tips_sub_miss.dtypes

total_bill      object
tip            float64
gender        category
smoker        category
day           category
time          category
size             int64
gender_str      object
dtype: object

In [30]:
# asType 메서드로는 'missing' 문자열을 실수로 변환할 수 없어 오류가 난다.
#tips_sub_miss['total_bill'].astype(float)

'''※ errors 인자에 설정할 수 있는 값
raise :숫자로 변환할 수 없는 값이 있으면 오류발생(기본값)
coerce :숫자로 변환할 수 없는 값을 누락값(NaN)으로 지정
ignore :아무작업도 하지 않음
''' 
 
#errors 인자를 이용하는 to_numeric메서드를 사용하면 된다.
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'],errors='ignore')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  # This is added back by InteractiveShellApp.init_path()


In [31]:
tips_sub_miss['total_bill'] = pd.to_numeric(tips_sub_miss['total_bill'],errors='coerce',downcast='float')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [33]:
tips_sub_miss.dtypes

total_bill     float32
tip            float64
gender        category
smoker        category
day           category
time          category
size             int64
gender_str      object
dtype: object

In [34]:
tips['gender'] = tips['gender'].astype(str)
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   gender      244 non-null    object  
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
 7   gender_str  244 non-null    object  
dtypes: category(3), float64(2), int64(1), object(2)
memory usage: 10.8+ KB


In [36]:
'''
(2) 카테고리 자료형
- 카테고리 자료형은 유한한 범위의 값만을 가지는 특수한 자료형이다.
- 10종류의 과일 이름을 저장한 열을 문자열 자료형를 사용하는 것보다
  카테고리 자료형을 사용하는 것이 용량과 속도 면에서 더 효율적이다.
- 카테고리 자료형의 장점과 특징 
  . 용량과 속도 면에서 매우 효율적이다.
  . 주로 동일한 문자열이 반복되어 데이터를 구성하는 경우에 사용한다.
- gender 열의 데이터는 여자 또는 남자만으로 구성되어 있다. 그래서
  카테고리 자료형으로 저장되어 있다.
- gender가 문자열 자료형이라면 메모리 크기가 커진다.
'''
tips['gender'] = tips['gender'].astype('category')

In [37]:
print(tips)

     total_bill   tip  gender smoker   day    time  size gender_str
0         16.99  1.01  Female     No   Sun  Dinner     2     Female
1         10.34  1.66    Male     No   Sun  Dinner     3       Male
2         21.01  3.50    Male     No   Sun  Dinner     3       Male
3         23.68  3.31    Male     No   Sun  Dinner     2       Male
4         24.59  3.61  Female     No   Sun  Dinner     4     Female
..          ...   ...     ...    ...   ...     ...   ...        ...
239       29.03  5.92    Male     No   Sat  Dinner     3       Male
240       27.18  2.00  Female    Yes   Sat  Dinner     2     Female
241       22.67  2.00    Male    Yes   Sat  Dinner     2       Male
242       17.82  1.75    Male     No   Sat  Dinner     2       Male
243       18.78  3.00  Female     No  Thur  Dinner     2     Female

[244 rows x 8 columns]
