# Pandas 기본 개념

**데이터 분석**과 **조작**을 위한 Python 라이브러리 
**데이터프레임(DataFrame)** 을 활용하여 데이터를 효율적으로 처리
주로 **구조화된 데이터** (표 형식)을 다루며, CSV, Excel, SQL 등 다양한 데이터 소스에서 데이터를 가져와 데이터 분석 가능
---

### 1. **Pandas의 주요 데이터 구조**
#### 1.1 **Series**
- **정의**: Pandas에서 제공하는 **1차원 데이터 구조**로, **인덱스**와 **값**으로 구성된 데이터 타입
- **특징**: 
    - NumPy 배열과 유사하나, **인덱스** 레이블을 사용하여 데이터 접근에 용이
    - **정수, 문자열, 부동 소수점 숫자 등** 다양한 데이터 타입 저장 가능

#### 1.2 **DataFrame**
- **정의**: **2차원 데이터 구조**로, 행(row)과 열(column)로 구성된 표 형식의 데이터
- **특징**: 
    - 각 열은 서로 다른 데이터 타입을 가질 수 있으며, 행/열 모두 인덱스를 사용해 접근 가능
    - Excel이나 SQL 테이블과 유사한 형식의 데이터 저장 및 분석에 최적화

#### 1.3 **Index**
- **정의**: **Series**와 **DataFrame**에서 데이터의 행열을 참조하는 **레이블**
- **특징**: 
    - 기본적으로 Pandas는 0부터 시작하는 **정수 인덱스**를 자동으로 할당하나, 사용자가 직접 지정 가능
    - 인덱스를 사용해 데이터의 특적 행열에 쉽게 접근 가능
---

### 2. **Pandas의 주요 기능**
#### 2.1 **데이터 읽기/쓰기**
- Pandas는 다양한 **데이터 소스**로부터 데이터를 불러오고 저장할 수 있는 기능 제공
- CSV, Excel, SQL 등과 같은 형식에서 데이터 불러오기에 용이하며, 변환된 데이터를 다시 저장 가능

#### 2.2 **데이터 선택 및 필터링**
- Pandas는 데이터를 선택하고 필터링하는 다양한 방법을 제공
    - **인덱싱**과 슬라이싱을 통해 데이터의 특정 부분 선택 가능
    - **조건을 사용한 필터링**을 통해 원하는 조건을 만족하는 데이터 추출에 용이

#### 2.3 **데이터 정렬**
- Pandas는 데이터를 **특정 열**이나 **인덱스**를 기준으로 정렬 가능. 오름차순/내림차순 정렬 기능을 제공하여 데이터 분석에 용이

#### 2.4 **결측값(Missing Values) 처리**
- 데이터셋에는 종종 **결측값**이 존재할 수 있는데, Pandas는 이를 처리하는 다양한 방법 제공
    - 결측값을 **제거**하거나, **대체값**을 넣는 방식으로 처리 가능

#### 2.5 **데이터 변형**
- Pandas는 데이터를 변형하거나 조작하는 다양한 기능 제공
    - **열 추가/삭제**: 새로운 열을 추가하거나 불필요한 열을 제거 가능
    - **데이터 형식 변환**: 데이터 타입을 쉽게 변환 가능하며, 이를 통해 메모리 최적화가 가능하다

#### 2.6 **그룹화와 집계**
- Pandas는 데이터를 특정 기준으로 **그룹화**하고, 그룹별로 **집계 연산(sum, mean 등)**을 수행하는 기능을 제공. 이를 통해 데이터의 요약 통계 계산, 특정 패턴 분석 가능

#### 2.7 **병합과 결합**
- Pandas는 두 개 이상의 **데이터프레임** 을 **병합(merge)** 하거나 **결합(constenate)** 하는 기능 제공
- SQL의 JOIN과 유사한 방식으로 데이터 병합이 가능하며, 행 또는 열 방향으로 데이터 결합 또한 가능하다.

#### 2.8 **데이터프레임의 통계 분석**
- Pandas는 데이터의 **기본 통계값(평균, 표준편차, 최소값/최댓값 등)** 을 계산하는 기능을 제공
=> 데이터 분포 파악에 용이
---

### **3.장점**
- **사용 용이성**: 직관적인 API가 제공되어, 복잡한 데이터 조작도 쉽게 가능
- **데이터 호환성**: CSV, Excel, SQL 등 다양한 포맷의 데이터를 불러오고 저장 가능하다
- **다양한 기능**: 데이터 필터링, 변환, 결합, 집계 등 데이터 분석에 필요한 모든 기능 제공
- **빠른 데이터 처리**: Pandas 내부적으로 **NumPy**를 사용하여 **고속**의 데이터 처리 지원
---

### **4.사례**
- **탐색적 데이터 분석(EDA)**: 데이터 시각화, 통계적 분석, 데이터 이해, 패턴 파악 등에 많이 사용
- **데이터 전처리**: 머신러닝, 딥러닝 모델을 구축하기 전 데이터 정리, 변형하는 작업에 사용
- **데이터 조작 및 변환**: 대용량 데이터 처리, 통계 계산, 그룹화 및 집계, 데이터 재구성 등에 많이 활용
---

Pandas는 **데이터 분석**에 필수적인 도구로, 데이터를 쉽게 다루고 분석할 수 있는 강력한 기능 제공

## 1. Pandas와 SQL 연동 개념
##### SQLAlchemy: 
- Python에서 다양한 데이터베이스(MySQL, PostgreSQL, SQLite 등)에 연결할 수 있는 라이브러리
- Pandas는 SQLAlchhemy를 통해 데이터베이스에 연결
- SQL 쿼리를 실행하여 데이터를 가져옴
    - **pandas.read_sql_query()**: SQL 쿼리를 실행하고 그 결과를 Pandas의 DataFrame으로 불러옴
    - **pandas.to_query()**: Pandas DataFrame을 SQL 테이블로 저장

설치 
pip install 이름

import 모듈 as 이름
import 모듈1, 모듈2

모듈.변수
모듈.함수()
모듈.클래스()

from 모듈 import 변수
from 모듈 import 변수1, 변수2
from 모듈 import 함수
from 모듈 import 클래스
from 모듈 import *

from 모듈 import 함수 as 이름

모듈(module): 특정 기능을 .py 파일 단위로 작성한 것
패키지(package): 특정 기능과 관련된 여러 모듈을 묶은 것
파이썬 표준 라이브러리(library): 파이썬에 기본으로 설치된 모듈과 패키지

In [8]:
import pandas as pd
import seaborn as sns
from sqlalchemy import create_engine

# 1. Seaborn에서 타이타닉 데이터셋 불러오기
titanic  = sns.load_dataset('titanic')

# 2. SQLite 데이터베이스 연결 설정 (SQLite 사용)
engine = create_engine('sqlite:///titanic.db', echo=False)

# 3. 판다스 DataFrame을 SQL 테이블로 저장 (method = 'multi' 추가)
titanic.to_sql('titanic_table', con = engine, index = False, if_exists = 'replace', method = 'multi')

# 4. SQL 쿼리를 사용해 데이터 읽어오기
df_from_sql = pd.read_sql_query('SELECT * FROM titanic_table', con = engine)

# 5. 읽어온 데이터 확인
print(df_from_sql.head())

   survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male  deck  embark_town alive  alone  
0    man           1  None  Southampton    no      0  
1  woman           0     C    Cherbourg   yes      0  
2  woman           0  None  Southampton   yes      1  
3  woman           0     C  Southampton   yes      0  
4    man           1  None  Southampton    no      1  


## Pandas 기초 문법
- 데이터프레임 이해
- Pandas 문법을 사용하는 구조인 데이터 프레임에 대해 구체적으로 확인해 보자!
    - 행과 열로 2차원 구조
        - 행: 인덱스
        - 열: 컬럼

In [27]:
# 리스트 만들기
df = ['데이터 분석 입문밥', 'SQL 문법 기초반', '파이썬 문법 기초반', '데이터 분석 모델링반']

In [10]:
# 2차원 리스트
df_2 = [['데이터 분석 입문밥'], ['SQL 문법 기초반'], ['파이썬 문법 기초반'], ['데이터 분석 모델링반']]

In [11]:
df_2[0][0]

'데이터 분석 입문밥'

In [12]:
df_2[3][0]

'데이터 분석 모델링반'

In [13]:
df_2[0][1]

IndexError: list index out of range

## 데이터프레임 구조로 만들기

In [2]:
import pandas as pd

In [11]:
df_bda = pd.DataFrame({
    '분반': ['데이터 분석 입문밥', 'SQL 문법 기초반', '파이썬 문법 기초반', '데이터 분석 모델링반'],
    '학회원 수': [100, 200, 300, 400],
    '우수학회원 수': [50, 60, 70, 80]  
})

In [27]:
df_bda

Unnamed: 0,분반,학회원 수,우수학회원 수
0,데이터 분석 입문밥,100,50
1,SQL 문법 기초반,200,60
2,파이썬 문법 기초반,300,70
3,데이터 분석 모델링반,400,80


In [28]:
type(df)

list

In [29]:
type(df_2)

list

In [30]:
type(df_bda)

pandas.core.frame.DataFrame

왜 iloc으로 접근해야 하는가?


In [31]:
df_bda[0][0]

KeyError: 0

In [32]:
df_bda.iloc[0][0]

'데이터 분석 입문밥'

In [16]:
# 패키지를 이용해서 데이터 불러오기
import seaborn as sns

tt = sns.load_dataset('titanic')

In [34]:
tt

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [8]:
# 데이터셋을 불러와서 가지고 오자!

# mpg = pd.read_csv('mpd.csv')
# mpg = pd.read_csv('9th\Pandas\week01\mpg.csv')
# mpg = pd.read_csv('C:\Users\82102\Desktop\깃\BDA\BDA\9th\Pandas\week01\mpg.csv')
mpg = pd.read_csv('.\mpg.csv')

In [9]:
mpg

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize


##### 데이터프레임에 대한 구조를 제대로 이해하자!
- 데이터프레임은 2차원 구조 => 행/열
    - 예를 불러오려면 행과 열 기준으로 불러오면 된다.
    - 열기준: [['']]
        - [['컬럼1', '컬럼2', ,,, '컬럼N']]
    - 행기준: 

정의한 것을 매번 실행 후에나 사용가능한가???

In [12]:
df_bda

Unnamed: 0,분반,학회원 수,우수학회원 수
0,데이터 분석 입문밥,100,50
1,SQL 문법 기초반,200,60
2,파이썬 문법 기초반,300,70
3,데이터 분석 모델링반,400,80


In [13]:
df_bda[['분반', '우수학회원 수']]

Unnamed: 0,분반,우수학회원 수
0,데이터 분석 입문밥,50
1,SQL 문법 기초반,60
2,파이썬 문법 기초반,70
3,데이터 분석 모델링반,80


최근에 사용한 데이터프레임이 아닌 다른 데이터프레임 사용하고 싶으면 정의를 다시 실행해야함????? 아닐텐데...

In [17]:
tt

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [19]:
tt[['survived', 'sex', 'fare']]

Unnamed: 0,survived,sex,fare
0,0,male,7.2500
1,1,female,71.2833
2,1,female,7.9250
3,1,female,53.1000
4,0,male,8.0500
...,...,...,...
886,0,male,13.0000
887,1,female,30.0000
888,0,female,23.4500
889,1,male,30.0000


In [20]:
df_bda['분반']

0     데이터 분석 입문밥
1     SQL 문법 기초반
2     파이썬 문법 기초반
3    데이터 분석 모델링반
Name: 분반, dtype: object

In [21]:
# 시리즈 형태는 1차원
# 1차원을 불러오려면 컬럼 하나만 사용하면 된다

type(df_bda[['분반']])

pandas.core.frame.DataFrame

In [22]:
# 대괄호 1개로 감싸면 

type(df_bda['분반'])

pandas.core.series.Series

In [23]:
tt*100

TypeError: unsupported operand type(s) for *: 'Categorical' and 'int'

In [25]:
tt['fare']

0       7.2500
1      71.2833
2       7.9250
3      53.1000
4       8.0500
        ...   
886    13.0000
887    30.0000
888    23.4500
889    30.0000
890     7.7500
Name: fare, Length: 891, dtype: float64

In [24]:
tt['fare']*100

0       725.00
1      7128.33
2       792.50
3      5310.00
4       805.00
        ...   
886    1300.00
887    3000.00
888    2345.00
889    3000.00
890     775.00
Name: fare, Length: 891, dtype: float64

In [28]:
df

['데이터 분석 입문밥', 'SQL 문법 기초반', '파이썬 문법 기초반', '데이터 분석 모델링반']

In [29]:
# 반복문 리스트 접근시
for i in df:
    print(i)

데이터 분석 입문밥
SQL 문법 기초반
파이썬 문법 기초반
데이터 분석 모델링반


In [30]:
# 데이터프레임은 반복문을 어떻게 접근?

df_bda
for i in df_bda:
    print(i)

분반
학회원 수
우수학회원 수


In [31]:
for i in df_bda['학회원 수']:
    print(i)

100
200
300
400


In [33]:
for i in df_bda[['학회원 수', '분반']]:
    print(i)

학회원 수
분반


In [34]:
list(df_bda['분반'])

['데이터 분석 입문밥', 'SQL 문법 기초반', '파이썬 문법 기초반', '데이터 분석 모델링반']

##### 데이터를 간단하게 살펴볼 수 있다.

In [35]:
# 데이터프레임의 모든 정보를 한 눈에 보는 방법

tt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [38]:
# 요약통계치를 한눈에 보는 방법

tt.describe()

Unnamed: 0,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


In [39]:
# 요약통계치 전체

tt.describe(include='all')

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
count,891.0,891.0,891,714.0,891.0,891.0,891.0,889,891,891,891,203,889,891,891
unique,,,2,,,,,3,3,3,2,7,3,2,2
top,,,male,,,,,S,Third,man,True,C,Southampton,no,True
freq,,,577,,,,,644,491,537,537,59,644,549,537
mean,0.383838,2.308642,,29.699118,0.523008,0.381594,32.204208,,,,,,,,
std,0.486592,0.836071,,14.526497,1.102743,0.806057,49.693429,,,,,,,,
min,0.0,1.0,,0.42,0.0,0.0,0.0,,,,,,,,
25%,0.0,2.0,,20.125,0.0,0.0,7.9104,,,,,,,,
50%,0.0,3.0,,28.0,0.0,0.0,14.4542,,,,,,,,
75%,1.0,3.0,,38.0,1.0,0.0,31.0,,,,,,,,


In [41]:
# 행과 열

tt.shape

(891, 15)

In [42]:
# 컬럼

list(tt.columns)

['survived',
 'pclass',
 'sex',
 'age',
 'sibsp',
 'parch',
 'fare',
 'embarked',
 'class',
 'who',
 'adult_male',
 'deck',
 'embark_town',
 'alive',
 'alone']

In [43]:
tt.columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')

In [44]:
# 데이터 타입

tt.dtypes

survived          int64
pclass            int64
sex              object
age             float64
sibsp             int64
parch             int64
fare            float64
embarked         object
class          category
who              object
adult_male         bool
deck           category
embark_town      object
alive            object
alone              bool
dtype: object

In [47]:
# 요약에서 앞뒤 데이터 추출
# 데이터 개수 지정 가능

tt.head(5)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [49]:
tt.tail(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
881,0,3,male,33.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True
882,0,3,female,22.0,0,0,10.5167,S,Third,woman,False,,Southampton,no,True
883,0,2,male,28.0,0,0,10.5,S,Second,man,True,,Southampton,no,True
884,0,3,male,25.0,0,0,7.05,S,Third,man,True,,Southampton,no,True
885,0,3,female,39.0,0,5,29.125,Q,Third,woman,False,,Queenstown,no,False
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [50]:
tt

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [52]:
tt.loc[3]

survived                 1
pclass                   1
sex                 female
age                   35.0
sibsp                    1
parch                    0
fare                  53.1
embarked                 S
class                First
who                  woman
adult_male           False
deck                     C
embark_town    Southampton
alive                  yes
alone                False
Name: 3, dtype: object

In [53]:
# 데이터 조작 문법

tt.iloc[890]

survived                0
pclass                  3
sex                  male
age                  32.0
sibsp                   0
parch                   0
fare                 7.75
embarked                Q
class               Third
who                   man
adult_male           True
deck                  NaN
embark_town    Queenstown
alive                  no
alone                True
Name: 890, dtype: object

##### 행열로 접근

In [55]:
tt['fare'][890]

7.75

In [56]:
tt.loc[:30:2]

## loc[::]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
12,0,3,male,20.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
14,0,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True
16,0,3,male,2.0,4,1,29.125,Q,Third,child,False,,Queenstown,no,False
18,0,3,female,31.0,1,0,18.0,S,Third,woman,False,,Southampton,no,False


In [57]:
tt['fare'].mean()

32.204207968574636

In [58]:
for i in tt['fare']:
    if i > tt['fare'].mean():
        print(i)

71.2833
53.1
51.8625
35.5
263.0
146.5208
82.1708
52.0
41.5792
39.6875
76.7292
61.9792
35.5
46.9
80.0
83.475
46.9
73.5
56.4958
47.1
34.375
263.0
61.175
34.6542
63.3583
77.2875
52.0
247.5208
73.5
77.2875
53.1
79.2
36.75
34.375
66.6
61.3792
69.55
39.6875
55.0
56.4958
33.5
69.55
39.0
50.0
146.5208
69.55
113.275
76.2917
90.0
83.475
90.0
52.5542
79.2
86.5
512.3292
79.65
39.6875
153.4625
135.6333
77.9583
78.85
91.0792
151.55
247.5208
151.55
110.8833
108.9
56.9292
83.1583
262.375
164.8667
134.5
69.55
135.6333
57.9792
153.4625
133.65
66.6
134.5
35.5
263.0
35.0
55.0
75.25
69.3
55.4417
135.6333
82.1708
211.5
227.525
52.0
73.5
46.9
120.0
113.275
90.0
32.5
55.9
120.0
34.375
263.0
81.8583
89.1042
51.8625
38.5
52.0
46.9
91.0792
90.0
49.5042
78.2667
151.55
86.5
108.9
56.4958
59.4
34.0208
93.5
57.9792
221.7792
106.425
49.5
71.0
106.425
36.75
110.8833
39.6
227.525
79.65
51.4792
55.9
110.8833
40.125
79.65
79.2
78.2667
33.0
56.9292
42.4
41.5792
153.4625
65.0
39.0
52.5542
32.3208
77.9583
39.6875
69.3
56.49