In [1]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_csv('..\data\StudentsPerformance.csv')

In [6]:
# Пример фильтрации через loc
df.loc[df['gender']=='female'].head(2)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88


In [8]:
# Тоже самое но без loc
df[df['gender']=='female'].head(2)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88


In [10]:
df['writing score'].mean()

68.054

In [11]:
# отбор по значению признака
# Оказывается такой вариант медленее, что вполне логично ведь среднее каждый раз
# вычисляется заново,поэтому лучше заранее вычислить и сравнивать с константой
df[df['writing score'].mean() <df['writing score'] ].head()


Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78


In [12]:
mean_score = df['writing score'].mean()
df[df['writing score']>mean_score].head(3)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93


При объединении нескольких условий нужно помнить что их нужно отделять друг от друга с помощью скобок. И самое главное использовать не (and or) 
а __& |__
Потому что в пандасе в условиях мы используем не true or false, а булевые вектора(pandas.series)  поэтому нужно использовать & |

In [16]:
query = (df['gender'] == 'male') & (df['writing score'] > mean_score)
df[query].head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
4,male,group C,some college,standard,none,76,78,75
13,male,group A,some college,standard,completed,78,72,70
16,male,group C,high school,standard,none,88,89,86
24,male,group D,bachelor's degree,free/reduced,completed,74,71,80
25,male,group A,master's degree,free/reduced,none,73,74,72


In [22]:
# 1.5.5
query = (df['lunch'] =='free/reduced')
df[query].shape

(355, 8)

In [25]:
all_row = df.shape[0]
free_row = df[query].shape[0]
round(free_row/all_row,3)

0.355

In [28]:
df['lunch'].value_counts()

standard        645
free/reduced    355
Name: lunch, dtype: int64

In [29]:
df.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [30]:
# 1.5.6
df_standard = df[df['lunch']=='standard']
df_free = df[df['lunch']=='free/reduced']

In [31]:
# Найдем дисперсию(кстати очевидно что дисперсия считается 
#только у количественных признаков)
df_standard.var()

math score       186.418089
reading score    191.285560
writing score    205.620887
dtype: float64

In [32]:
df_free.var()

math score       229.824270
reading score    221.871139
writing score    238.202881
dtype: float64

In [33]:
# среднее
df_standard.mean()

math score       70.034109
reading score    71.654264
writing score    70.823256
dtype: float64

In [34]:
df_free.mean()

math score       58.921127
reading score    64.653521
writing score    63.022535
dtype: float64

In [36]:
# Можно было использовать describe
df_standard.describe() - df_free.describe()

Unnamed: 0,math score,reading score,writing score
count,290.0,290.0,290.0
mean,11.112982,7.000742,7.800721
std,-1.506455,-1.064737,-1.094336
min,19.0,9.0,12.0
25%,12.0,7.0,9.0
50%,9.0,7.0,8.0
75%,11.0,7.0,7.0
max,0.0,0.0,0.0


In [38]:
# 1.5.8
# Редактирование названия колонок. Избавляемся от пробелов(Зачем?
# чтобы можно было обращаться к колонкам через точку, хотя надо избегать такого
# во избежании путаницы с атрибутами)
df = df.rename(columns={'math score':'math_score',
                                'reading score':'reading_score'})

In [39]:
df.head(1)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math_score,reading_score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74


In [40]:
# Но можно сделать проще.  Ведь у нас может быть тысячи колонок и 
# прописывать все утомительно.
df.columns = [x.replace(' ','_') for x in df.columns]

In [41]:
df.head(1)

Unnamed: 0,gender,race/ethnicity,parental_level_of_education,lunch,test_preparation_course,math_score,reading_score,writing_score
0,female,group B,bachelor's degree,standard,none,72,72,74


### Использование метода query
В этот метод можно передавать сразу строку запроса и тем самым избавится от дублирования. Правда нужно помнить что если мы сравниваем со строкой, то нужно эту строку обернуть в другие кавычки. Также если мы используем в query имя переменной то ее нужно экранировать знаком @

In [None]:
# Отбор по условию на наличие строки
student_stats[student_stats['parental level of education'].isin(["bachelor's degree", "master's degree"])]

In [44]:
# Отбор колонок
# Вот так колонки не удасться взять
type(df.columns)

pandas.core.indexes.base.Index

In [43]:
# Можем получить СПИСОК колонок
list(df)

['gender',
 'race/ethnicity',
 'parental_level_of_education',
 'lunch',
 'test_preparation_course',
 'math_score',
 'reading_score',
 'writing_score']

In [45]:
# отбор колонок с помощью цикла
score = [x for x in list(df) if 'score' in x]
score

['math_score', 'reading_score', 'writing_score']

In [46]:
df[score]

Unnamed: 0,math_score,reading_score,writing_score
0,72,72,74
1,69,90,88
2,90,95,93
3,47,57,44
4,76,78,75
...,...,...,...
995,88,99,95
996,62,55,55
997,59,71,65
998,68,78,77


In [48]:
# А можно это сделать с помощью метода filter
df.filter(like='score').head(2                            )

Unnamed: 0,math_score,reading_score,writing_score
0,72,72,74
1,69,90,88


При этом отбор происходит по аргументу like. Также можно фильтровать строки
для этого нужно изменить параметр axis. По умолчанию он фильтрует столбцы, axis=0 значит что нужно фильтровать по строкам.

### 1.5.11

In [49]:
df = pd.read_csv('..\data\column_hell.csv')

In [None]:
# Отбираем колонки где есть -
selected_columns = df.filter(like='-')