# 2. 판다스로 시작하는 데이터 분석

## Series

In [126]:
import pandas as pd
import numpy as np

In [127]:
# Series : index 를 가지고 나온다  / index , data
data = pd.Series([1,2,3,4])
data

0    1
1    2
2    3
3    4
dtype: int64

In [128]:
# index 설정 가능 
data = pd.Series([1,2,3,4],index=['a','b','c','d'])
data

a    1
b    2
c    3
d    4
dtype: int64

In [129]:
# index 로 접근 가능
data['a']

1

In [130]:
# Series 의 이름 지정 가능
data = pd.Series([1,2,3,4],index=['a','b','c','d'], name='this is title')
data

a    1
b    2
c    3
d    4
Name: this is title, dtype: int64

In [131]:
# dict -> Series
population_dict = {
    'Korea' : 5180,
    'Japan' : 12719,
    'China' : 141500,
    'Usa' : 32676
}

population = pd.Series(population_dict)
population

Korea      5180
Japan     12719
China    141500
Usa       32676
dtype: int64

## DataFrame

In [132]:
gdp_dict = {
    'Korea' : 1632000,
    'Japan' : 5167000,
    'China' : 140925000,
    'Usa' : 20412000
}
gdp = pd.Series(gdp_dict)
country = pd.DataFrame({
    'population' : population, #Series
    'gdp' : gdp #Series
})
country

Unnamed: 0,population,gdp
Korea,5180,1632000
Japan,12719,5167000
China,141500,140925000
Usa,32676,20412000


In [133]:
country.index

Index(['Korea', 'Japan', 'China', 'Usa'], dtype='object')

In [134]:
country.columns

Index(['population', 'gdp'], dtype='object')

In [135]:
country['gdp']

Korea      1632000
Japan      5167000
China    140925000
Usa       20412000
Name: gdp, dtype: int64

In [136]:
type(country['gdp'])

pandas.core.series.Series

In [137]:
# 연산자 활용
gdp_per_cap = country['gdp'] / country['population']
country['gdp_per_cap'] = gdp_per_cap
country

Unnamed: 0,population,gdp,gdp_per_cap
Korea,5180,1632000,315.057915
Japan,12719,5167000,406.242629
China,141500,140925000,995.936396
Usa,32676,20412000,624.678663


In [138]:
country.to_csv('./country.csv')

In [139]:
country.to_excel('./country.xlsx')

In [140]:
pd.read_csv('./country.csv')

Unnamed: 0.1,Unnamed: 0,population,gdp,gdp_per_cap
0,Korea,5180,1632000,315.057915
1,Japan,12719,5167000,406.242629
2,China,141500,140925000,995.936396
3,Usa,32676,20412000,624.678663


In [141]:
pd.read_excel('./country.xlsx')

Unnamed: 0.1,Unnamed: 0,population,gdp,gdp_per_cap
0,Korea,5180,1632000,315.057915
1,Japan,12719,5167000,406.242629
2,China,141500,140925000,995.936396
3,Usa,32676,20412000,624.678663


In [142]:
# indexing / slicing
# 문자기반 indexing 이므로 끝값 포함
country.loc['China']

population     1.415000e+05
gdp            1.409250e+08
gdp_per_cap    9.959364e+02
Name: China, dtype: float64

In [143]:
country.loc['Korea':'China','gdp':]

Unnamed: 0,gdp,gdp_per_cap
Korea,1632000,315.057915
Japan,5167000,406.242629
China,140925000,995.936396


In [144]:
country.iloc[1:3,2:]

Unnamed: 0,gdp_per_cap
Japan,406.242629
China,995.936396


In [145]:
country.iloc[0]

population     5.180000e+03
gdp            1.632000e+06
gdp_per_cap    3.150579e+02
Name: Korea, dtype: float64

In [146]:
# insert new data in DataFrame
# list or dict 

df = pd.DataFrame(columns=['이름','나이','주소'])
print(df)
df.loc[0] = ['남학균',26,'서울']
df.loc[1,'이름'] = '성수린'
df.loc[2] = ['이가희',27,'전주']
print(df)

Empty DataFrame
Columns: [이름, 나이, 주소]
Index: []
    이름    나이   주소
0  남학균  26.0   서울
1  성수린   NaN  NaN
2  이가희  27.0   전주


In [147]:
df['전화번호'] = np.nan
print(df)

    이름    나이   주소  전화번호
0  남학균  26.0   서울   NaN
1  성수린   NaN  NaN   NaN
2  이가희  27.0   전주   NaN


In [148]:
df.iloc[:,-1] = [1111,2222,3333]
print(df)

    이름    나이   주소    전화번호
0  남학균  26.0   서울  1111.0
1  성수린   NaN  NaN  2222.0
2  이가희  27.0   전주  3333.0


In [149]:
type(df['이름']),df['이름'] #컬럼이름이 한개만 넣을때는 Series

(pandas.core.series.Series,
 0    남학균
 1    성수린
 2    이가희
 Name: 이름, dtype: object)

In [150]:
type(df[ ['이름','나이','주소']]),df[ ['이름','나이','주소']] # 컬럼이름이 리스트로 넣었을때는 DF로 나온다

(pandas.core.frame.DataFrame,
     이름    나이   주소
 0  남학균  26.0   서울
 1  성수린   NaN  NaN
 2  이가희  27.0   전주)

In [151]:
df1 = df
df1.isnull() #누락된 데이터인지 확인

Unnamed: 0,이름,나이,주소,전화번호
0,False,False,False,False
1,False,True,True,False
2,False,False,False,False


In [152]:
df1.notnull() #null 이 아닌 값

Unnamed: 0,이름,나이,주소,전화번호
0,True,True,True,True
1,True,False,False,True
2,True,True,True,True


In [153]:
df1.dropna()

Unnamed: 0,이름,나이,주소,전화번호
0,남학균,26.0,서울,1111.0
2,이가희,27.0,전주,3333.0


In [154]:
df1 = df
df['나이'] = df['나이'].fillna('XX') #빈값대체
df

Unnamed: 0,이름,나이,주소,전화번호
0,남학균,26.0,서울,1111.0
1,성수린,XX,,2222.0
2,이가희,27.0,전주,3333.0


In [155]:
A = pd.Series( [2,4,6], index=[0,1,2] )
B = pd.Series( [1,3,5], index=[1,2,3] )
# index 가 다를경우 Nan 값으로 나오고 , 같을 경우만 연산
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

In [156]:
# fill_value = 0 처리시 0과 연산이 되어 원래있던값 + 0 해서 결과가 나온다
A.add(B),A.add(B,fill_value=0)

(0    NaN
 1    5.0
 2    9.0
 3    NaN
 dtype: float64,
 0    2.0
 1    5.0
 2    9.0
 3    5.0
 dtype: float64)

In [163]:
A1 = pd.DataFrame(np.random.randint(0,10, (2,2) ), columns = list('AB'))
B1 = pd.DataFrame(np.random.randint(0,10, (3,3) ), columns = ['B','A','C'])
print(A1)
print(B1)
print(A1+B1)

   A  B
0  8  6
1  3  2
   B  A  C
0  7  4  5
1  7  9  6
2  8  4  9
      A     B   C
0  12.0  13.0 NaN
1  12.0   9.0 NaN
2   NaN   NaN NaN


In [165]:
A1.add(B1, fill_value = 0)

Unnamed: 0,A,B,C
0,12.0,13.0,5.0
1,12.0,9.0,6.0
2,4.0,8.0,9.0


In [168]:
data = {
    'A' : [i+3 for i in range(3)],
    'B' : [i**2 for i in range(3)]
}

df = pd.DataFrame(data)
print(df)
print()
print(df['A'].sum())
print()
print(df['B'].mean())
print()
print(df.sum())

   A  B
0  3  0
1  4  1
2  5  4

12

1.6666666666666667

A    12
B     5
dtype: int64


In [171]:
df = pd.DataFrame({
    'col1' : [2,43,47,43,345,74,342],
    'col2' : ['A','C','B','B',np.nan,'D','C'],
    'col3' : [0,1,9,6,4,2,4]
})
df

Unnamed: 0,col1,col2,col3
0,2,A,0
1,43,C,1
2,47,B,9
3,43,B,6
4,345,,4
5,74,D,2
6,342,C,4


In [172]:
df.sort_values('col1')

Unnamed: 0,col1,col2,col3
0,2,A,0
1,43,C,1
3,43,B,6
2,47,B,9
5,74,D,2
6,342,C,4
4,345,,4


In [173]:
df.sort_values('col1',ascending=True)

Unnamed: 0,col1,col2,col3
0,2,A,0
1,43,C,1
3,43,B,6
2,47,B,9
5,74,D,2
6,342,C,4
4,345,,4


In [175]:
df.sort_values(['col2','col1'], ascending=[True,False])

Unnamed: 0,col1,col2,col3
0,2,A,0
2,47,B,9
3,43,B,6
6,342,C,4
1,43,C,1
5,74,D,2
4,345,,4


In [None]:
## 좀더 