DataFrame은 2차원 배열 형식. 표 같은 스프레드시트 자료구조  
**여러 개의 컬럼을 가지며 서로 다른 종류의 값이 담긴다.**  
즉. DataFrame은 Series의 묶음!!

DataFrame은 다양한 방법으로 생상할 수 있다.  
가장 흔하게 사용할 수 있는 방법으로는
1. 리스트 값을 딕셔너리로 사용
2. Numpy배열을 이용
3. read_csv(), read_excel(), read_html(). 함수등을 이용!!!

# DataFrame

### 1. DataFrame 생성 - 딕셔러니 이용

In [32]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib.pyplot as plt

In [33]:
list_dic = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
            'year' :[  2000,  2001,  2002,    2000,    2001,    2002],
            'pop'  :[   1.5,   1.7,   1.6,     2.4,     2.9,     3.2]           
}

# DataFrame?
'''
state, year, pop 각각의 컬럼에 해당하는 상->하 방향의 한줄한줄이
시리즈라고 보면 된다.
DataFrame은 시리즈들의 결합체
시리즈는 ndarray로 만들어져 있다.
'''
dicDf = DataFrame(list_dic)
dicDf # heterogeneous collection : 서로 다른 시리즈 간의 집합

print(type(dicDf.state))
print(type(dicDf['state']))
print(type(dicDf.year))
print(type(dicDf['year']))

# print(type(dicDf.pop)) # pop이라는 builtIn method(내장함수)가 존재하기 때문에 원하는 결과값이 안나옴.
print(type(dicDf['pop']))

dicDf

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,1.6
3,Nevada,2000,2.4
4,Nevada,2001,2.9
5,Nevada,2002,3.2


In [34]:
data1 = {
        'name':['James','Peter','Robert','Tom'],
        'address':['NY','NY','LA','Texas'],
        'age':[33,44,55,66]    
}

df1 = DataFrame(data1)
df1

Unnamed: 0,name,address,age
0,James,NY,33
1,Peter,NY,44
2,Robert,LA,55
3,Tom,Texas,66


### 2. DataFrame 생성 - Numpy 배열 사용

In [35]:
df2 = DataFrame(np.random.randint(10,100,16).reshape(4,4))
df2

Unnamed: 0,0,1,2,3
0,67,77,50,82
1,69,11,89,93
2,68,75,74,43
3,70,57,20,73


In [36]:
df2 = DataFrame(np.random.randint(10,100,16).reshape(4,4),
                index = list('ABCD'), 
                columns = ['one','two','three','four'])
df2

Unnamed: 0,one,two,three,four
A,34,23,83,25
B,88,52,98,11
C,27,62,71,17
D,22,74,20,71


###  3. DataFrame 생성 - read_csv() 함수 사용

In [37]:
'''
1. CSV(Comma Seperated Value)
ex) a,aaa,333,444,555,666

2. 각각의 값들이 (컬럼에 해당하는 값) 어떤 데이터를 의미하는지 파악하기

3. 누락 데이터가 어디에 들어있는지 정도는 확인하고 분석 시작
'''
df3 = pd.read_csv('../data/tips.csv')
df3

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2.0
1,10.34,1.66,Male,No,Sun,Dinner,3.0
2,21.01,3.50,Male,No,Sun,Dinner,3.0
3,23.68,3.31,Male,No,Sun,Dinner,2.0
4,24.59,3.61,Female,No,Sun,Dinner,4.0
...,...,...,...,...,...,...,...
240,27.18,2.00,Female,Yes,Sat,Dinner,2.0
241,22.67,2.00,Male,Yes,Sat,Dinner,2.0
242,17.82,1.75,Male,No,Sat,Dinner,2.0
243,18.78,3.00,Female,No,Thur,Dinner,2.0


### 4. DataFrame - 구조

In [38]:
df1

Unnamed: 0,name,address,age
0,James,NY,33
1,Peter,NY,44
2,Robert,LA,55
3,Tom,Texas,66


In [39]:
print(df1.index)

RangeIndex(start=0, stop=4, step=1)


In [40]:
print(df1.columns)

Index(['name', 'address', 'age'], dtype='object')


In [41]:
print(df1.values)

[['James' 'NY' 33]
 ['Peter' 'NY' 44]
 ['Robert' 'LA' 55]
 ['Tom' 'Texas' 66]]


In [42]:
# print(df1.dtype) # 뒤에 s를 붙여야 한다. 시리즈마다 타입이 다르기 때문에
print(df1.dtypes) 

name       object
address    object
age         int64
dtype: object


In [43]:
print(df1.T) # Transpose...행과 열을 뒤바꿈***

             0      1       2      3
name     James  Peter  Robert    Tom
address     NY     NY      LA  Texas
age         33     44      55     66


In [44]:
print(df1.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   name     4 non-null      object
 1   address  4 non-null      object
 2   age      4 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 224.0+ bytes
None


### 5. DataFrame - 가장 많이 사용되는 조회함수

In [45]:
df3
df3.head()
df3.head(2)
df3.head(1)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2.0


In [46]:
df3.tail()
df3.tail(2)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
243,18.78,3.0,Female,No,Thur,Dinner,2.0
244,25.34,,,,,,


In [47]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 245 entries, 0 to 244
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   total_bill  245 non-null    float64
 1   tip         244 non-null    float64
 2   sex         244 non-null    object 
 3   smoker      244 non-null    object 
 4   day         244 non-null    object 
 5   time        244 non-null    object 
 6   size        244 non-null    float64
dtypes: float64(3), object(4)
memory usage: 13.5+ KB


In [48]:
print(df3.shape) 

(245, 7)
