# Возьму за пример популярный Titanic Dataset для своего обучения

### Пробую создать собственные фреймы. Применяю все операции над ними

In [68]:
import pandas as pd

dataframe = pd.DataFrame()

dataframe['Name'] = ['Jaky Jekson', 'Steaven Steavenson']
dataframe['Age'] = [38, 25]
dataframe['Driver'] = [True, False]

dataframe

Unnamed: 0,Name,Age,Driver
0,Jaky Jekson,38,True
1,Steaven Steavenson,25,False


In [29]:
new_person = pd.Series(['Molly Mone', 40, True],
                       index=['Name', 'Age', 'Driver'])
dataframe.append(new_person)

AttributeError: 'DataFrame' object has no attribute 'append'

Повторил код по мануалу пришел к ошибке. Погуглив выяснил, что метод append удален в pandas 2.0+

In [69]:
dataframe = pd.DataFrame()

dataframe['Name'] = ['Jaky Jekson', 'Steaven Steavenson']
dataframe['Age'] = [38, 25]
dataframe['Driver'] = [True, False]

new_person = pd.Series(['Molly Mone', 40, True],
                       index=['Name', 'Age', 'Driver'])

dataframe = pd.concat([dataframe, new_person.to_frame().T], ignore_index=True)
#Добавляем в дополнительную строку, поэтому нужно транспонировать добавленный участок

dataframe

Unnamed: 0,Name,Age,Driver
0,Jaky Jekson,38,True
1,Steaven Steavenson,25,False
2,Molly Mone,40,True


In [42]:
df = pd.DataFrame([[1,'Bob', 'Builder'],
                  [2,'Sally', 'Baker'],
                  [3,'Scott', 'Candle Stick Maker']],
columns=['id','name', 'occupation'])
df

Unnamed: 0,id,name,occupation
0,1,Bob,Builder
1,2,Sally,Baker
2,3,Scott,Candle Stick Maker


### Работа над популярным DataSet Titanic

In [70]:
dataframe = pd.read_csv("../data/titanic.csv")
dataframe.head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


In [71]:
print(dataframe.shape)

(1313, 6)


In [72]:
#Смотрим статистику по таблице
dataframe.describe()

Unnamed: 0,Age,Survived,SexCode
count,756.0,1313.0,1313.0
mean,30.397989,0.342727,0.351866
std,14.259049,0.474802,0.477734
min,0.17,0.0,0.0
25%,21.0,0.0,0.0
50%,28.0,0.0,0.0
75%,39.0,1.0,1.0
max,71.0,1.0,1.0


Метод describe() в библиотеке Pandas (Python) генерирует описательные статистики для данных в DataFrame. Он вычисляет различные статистические показатели, такие как количество записей, среднее значение, стандартное отклонение, минимум, максимум и перцентили для числовых столбцов. Получаемая таблица зачастую содержит избыточную или малополезную информацию, её необходимо сократить, оставив только релевантные метрики

In [73]:
dataframe.iloc[0]

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                 29.0
Sex                               female
Survived                               1
SexCode                                1
Name: 0, dtype: object

In [74]:
dataframe.iloc[1:4]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


Фреймы данных не нуждаются в числовой индексации. Можно использовать поиск с уникальным значением для каждой строки

In [85]:
dataframe = dataframe.set_index(dataframe['Name'])
dataframe.loc['Allen, Miss Elisabeth Walton']

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                 29.0
Sex                               female
Survived                               1
SexCode                                1
Name: Allen, Miss Elisabeth Walton, dtype: object

loc — если известны имя (метка) элемента, который нужно выбрать.
iloc — если известен порядковый номер (позиция) элемента в DataFrame.

In [86]:
dataframe[(dataframe['Sex'] == 'female') & (dataframe['Age'] >= 65)]

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Crosby, Mrs Edward Gifford (Catherine Elizabeth Halstead)","Crosby, Mrs Edward Gifford (Catherine Elizabet...",1st,69.0,female,1,1


In [87]:
dataframe.head(5)

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Allen, Miss Elisabeth Walton","Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
"Allison, Miss Helen Loraine","Allison, Miss Helen Loraine",1st,2.0,female,0,1
"Allison, Mr Hudson Joshua Creighton","Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
"Allison, Mrs Hudson JC (Bessie Waldo Daniels)","Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
"Allison, Master Hudson Trevor","Allison, Master Hudson Trevor",1st,0.92,male,1,0


In [88]:
dataframe ['Sex'].replace("female", "Woman").head(2)

Name
Allen, Miss Elisabeth Walton    Woman
Allison, Miss Helen Loraine     Woman
Name: Sex, dtype: object

In [95]:
dataframe.replace(1, "One").head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,One,One
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,One


In [96]:
dataframe = pd.read_csv("../data/titanic.csv")
dataframe.rename(columns={'PClass': 'Passenger Class', 'Sex': 'Gender'}).head(2)

Unnamed: 0,Name,Passenger Class,Age,Gender,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
