# The Series Data Sructure

In [1]:
import pandas as pd
import numpy as np

In [2]:
students = ['Alice', 'Jack', 'Molly']
pd.Series(students) # пандас автоматически присвоил тип object

0    Alice
1     Jack
2    Molly
dtype: object

In [3]:
numbers = [1, 2, 3]
pd.Series(numbers) # пандас автоматически присвоил тип int64, т.к. для ускорения обработки числовых массивов.

0    1
1    2
2    3
dtype: int64

In [4]:
students = ['Alice', 'Jack', None] 
pd.Series(students)

0    Alice
1     Jack
2     None
dtype: object

In [5]:
numbers = [1, 2, None]
pd.Series(numbers) # NaN is not None из соображений эффективности. Если есть NaN то данные преобразуются в float

0    1.0
1    2.0
2    NaN
dtype: float64

In [6]:
import numpy as np

In [7]:
np.nan == np.nan #nan нельзя проверить обычным способом. только через спец.функцию. 

False

In [8]:
np.isnan(np.nan) # функция для проверки наличия nan

True

In [9]:
student_scores = {'Alice': 'Physics',
                  'Jack': 'Chemystry',
                   'Molly': 'English'}
s = pd.Series(student_scores)
s

Alice      Physics
Jack     Chemystry
Molly      English
dtype: object

In [10]:
s.index #тип object может быть использован для индексов

Index(['Alice', 'Jack', 'Molly'], dtype='object')

In [11]:
students = [('Alice', 'Brown'),('Jack', 'White'),('Molly', 'Green')]
pd.Series(students) #Каждый из кортежей сохранился в объекте серии, и тип данных object

0    (Alice, Brown)
1     (Jack, White)
2    (Molly, Green)
dtype: object

In [12]:
s = pd.Series(['Physics', 'Chemistry', 'English'], index=['Alice', 'Jack', 'Molly'])
s

Alice      Physics
Jack     Chemistry
Molly      English
dtype: object

In [13]:
student_scores = {'Alice': 'Physics',
                  'Jack': 'Chemystry',
                   'Molly': 'English'}
s = pd.Series(student_scores, index=['Alice', 'Molly', 'Sam'])
s # Пандас сам подставляет новые ключи в словарь со значением NaN, если не находит их в словаре. 

Alice    Physics
Molly    English
Sam          NaN
dtype: object

# Querying a Series

In [14]:
student_classes = {'Alice': 'Physics',
                  'Jack': 'Chemystry',
                   'Molly': 'English',
                   'Sam': 'History'}
s = pd.Series(student_classes)
s

Alice      Physics
Jack     Chemystry
Molly      English
Sam        History
dtype: object

In [15]:
s.iloc[3] #iloc - атрибут для получения значения по индексу ключа

'History'

In [16]:
s.loc['Molly'] #loc - атрибут для получения значения по ключу. 

'English'

In [17]:
 #iloc и loc - операторы индексации. явл-ся атрибутами а не методами, поэтому исползуем квадратные скобки

In [18]:
s[3] #если передать индекс без iloc то Пандас выдает значение как будто бы имелось ввиду iloc. для упрощения синтаксиса

'History'

In [19]:
s['Molly'] #то же самое что с iloc работает и с loc. 

'English'

In [20]:
# лучше использовать iloc и loc, т.к. без них может быть не всегда понятно, запрашивается индес или само значение. 

In [21]:
class_code = {99: 'Physics',
              100: 'Chemistry',
              101: 'English',
              102: 'History'}
s = pd.Series(class_code)
#s[0] #в данном случае мы не сможем обойтись без iloc, т.к. в словаре нет элемента с индексом 0.
s.iloc[0]

'Physics'

In [22]:
import numpy as np
grades = pd.Series([90, 80, 70, 60])
total = np.sum(grades) # np.sum подсчитывает сумму намного быстрее чем методы встроенные в питон. 
print(total/len(grades))

75.0


In [23]:
#Демонтстрация скорости работы:
numbers = pd.Series(np.random.randint(0,1000,10000)) #10тыс. случайных чисел между 0 и 1000
numbers.head() #метод пандас для вывода первых пяти значений

0    953
1      8
2    191
3    676
4    990
dtype: int32

In [24]:
len(numbers)

10000

In [25]:
%%timeit -n 100
total = 0 
for number in numbers:
    total+=number
total/len(numbers)

1.71 ms ± 99 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [26]:
%%timeit -n 100
total = np.sum(numbers)
total/len(numbers)

116 µs ± 20.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [27]:
# выше проверили скорость работы np.sum и она выше чем у цикла for более чем в 8 раз
# в расчетах используется векторизация, которая позволяет компьютеру выполнять сразу несколько
# инструкций параллельно. параллельные вычисления особенно актуальны для архитектуры современных видеокарт. 

In [28]:
 numbers.head()

0    953
1      8
2    191
3    676
4    990
dtype: int32

In [29]:
numbers+=2
numbers.head() # с помощью пандас увеличили все элементы на 2, без перебора списка значений.
# данный метод также во много раз быстрее других встроенных в питон методов. 

0    955
1     10
2    193
3    678
4    992
dtype: int32

In [30]:
s = pd.Series([1, 2, 3])
s.loc['History'] = 102 # loc может добавлять значение в ряд.
s

0            1
1            2
2            3
History    102
dtype: int64

In [31]:
#пример с неуникальными индексами:
student_classes = pd.Series({'Alice': 'Physics',
                  'Jack': 'Chemystry',
                   'Molly': 'English',
                   'Sam': 'History'})
student_classes

Alice      Physics
Jack     Chemystry
Molly      English
Sam        History
dtype: object

In [32]:
Kelly_classes = pd.Series(['Philosophy', 'Arts', 'Math'], index=['Kelly','Kelly','Kelly'])
Kelly_classes

Kelly    Philosophy
Kelly          Arts
Kelly          Math
dtype: object

In [33]:
all_student_classes = student_classes.append(Kelly_classes) #метод append в пандас может соединить два объекта в один
all_student_classes # пандас пытается вывести лучшие типы данных для использования. append не изменяет базовые объекты ряда. 
# он создает новую серию. Для пандас характерно - вывод нового объекта вместо изменения текущего на месте. 

Alice       Physics
Jack      Chemystry
Molly       English
Sam         History
Kelly    Philosophy
Kelly          Arts
Kelly          Math
dtype: object

# DataframeDatastructure

In [34]:
import pandas as pd
record1 = pd.Series({'Name': 'Alice', 'Class': 'Physics', 'Score':85})
record2 = pd.Series({'Name': 'Jack', 'Class': 'Chemistry', 'Score':82})
record3 = pd.Series({'Name': 'Helen', 'Class': 'Biology', 'Score':90})
df =  pd.DataFrame([record1, record2, record3],
                  index=['school1','school2','school1'])
df.head()

Unnamed: 0,Name,Class,Score
school1,Alice,Physics,85
school2,Jack,Chemistry,82
school1,Helen,Biology,90


In [35]:
#переменные record# можно объединить в единый словарь и передать в DataFrame
students = [{'Name': 'Alice', 'Class': 'Physics', 'Score':85},
            {'Name': 'Jack', 'Class': 'Chemistry', 'Score':82},
            {'Name': 'Helen', 'Class': 'Biology', 'Score':90}]
df = pd.DataFrame(students, index=['school1','school2','school1'])
df

Unnamed: 0,Name,Class,Score
school1,Alice,Physics,85
school2,Jack,Chemistry,82
school1,Helen,Biology,90


In [36]:
df.loc['school2'] #получили серию по имени индекса

Name          Jack
Class    Chemistry
Score           82
Name: school2, dtype: object

In [37]:
type(df.loc['school2']) 

pandas.core.series.Series

In [38]:
df.loc['school1'] #т.к. индекс 'school1' не уникален, то df.loc выдает новый датафрейм из всех значений с данным индексом

Unnamed: 0,Name,Class,Score
school1,Alice,Physics,85
school1,Helen,Biology,90


In [39]:
type(df.loc['school1']) 

pandas.core.frame.DataFrame

In [40]:
df.loc['school1', 'Name'] #можно вывести данные по строке и столбцу. при этом выдаются все строки с одниаковым индексом 

school1    Alice
school1    Helen
Name: Name, dtype: object

In [41]:
 df.T #если мы хотим вывести столбец, то один из способов - транспонировать матрицу. 

Unnamed: 0,school1,school2,school1.1
Name,Alice,Jack,Helen
Class,Physics,Chemistry,Biology
Score,85,82,90


In [42]:
df.T.loc['Name'] #вывели столбец с именем через транспонирование

school1    Alice
school2     Jack
school1    Helen
Name: Name, dtype: object

In [43]:
df.loc['school1']['Name']

school1    Alice
school1    Helen
Name: Name, dtype: object

In [44]:
print(type(df.loc['school1']))
print(type(df.loc['school1']['Name']))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


In [45]:
# в пандас можно делать срезы столбцов (одного или нескольких сразу):
df.loc[:,['Name', 'Score']] # : - первый параметр, столбцы - второй. 

Unnamed: 0,Name,Score
school1,Alice,85
school2,Jack,82
school1,Helen,90


In [46]:
df.drop('school1') #выделение конкретной строки. при этом оригинальный df не изменился

Unnamed: 0,Name,Class,Score
school2,Jack,Chemistry,82


In [47]:
copy_df = df.copy()
copy_df.drop('Name', inplace=True, axis=1) #axis - указание оси, т.к. drop не знает что это столбец
copy_df # столбец был дропнут с удалением из оригинального датафрейма из за указания inplace=True

Unnamed: 0,Class,Score
school1,Physics,85
school2,Chemistry,82
school1,Biology,90


In [48]:
del copy_df['Class'] #удаление столбца из датафрейма
copy_df

Unnamed: 0,Score
school1,85
school2,82
school1,90


In [49]:
df['ClassRanking'] = None #добавление столбца
df

Unnamed: 0,Name,Class,Score,ClassRanking
school1,Alice,Physics,85,
school2,Jack,Chemistry,82,
school1,Helen,Biology,90,


# DataFrame Indexing and Loading

In [50]:
!cat r C:\Users\Юрий\Desktop\Занятия\Coursera\resources\week-2\datasets\Admission_Predict.csv

"cat" ­Ґ пў«пҐвбп ў­гваҐ­­Ґ© Ё«Ё ў­Ґи­Ґ©
Є®¬ ­¤®©, ЁбЇ®«­пҐ¬®© Їа®Ја ¬¬®© Ё«Ё Ї ЄҐв­л¬ д ©«®¬.


In [51]:
df = pd.read_csv(r"C:\Users\Юрий\Desktop\Занятия\Coursera\resources\week-2\datasets\Admission_Predict.csv")

In [52]:
df

Unnamed: 0,Serial No.,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
0,1,337,118,4,4.5,4.5,9.65,1,0.92
1,2,324,107,4,4.0,4.5,8.87,1,0.76
2,3,316,104,3,3.0,3.5,8.00,1,0.72
3,4,322,110,3,3.5,2.5,8.67,1,0.80
4,5,314,103,2,2.0,3.0,8.21,0,0.65
...,...,...,...,...,...,...,...,...,...
395,396,324,110,3,3.5,3.5,9.04,1,0.82
396,397,325,107,3,3.0,3.5,9.11,1,0.84
397,398,330,116,4,5.0,4.5,9.45,1,0.91
398,399,312,103,3,3.5,4.0,8.78,0,0.67


In [53]:
df = pd.read_csv(r"C:\Users\Юрий\Desktop\Занятия\Coursera\resources\week-2\datasets\Admission_Predict.csv", index_col=0)

In [54]:
df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [55]:
new_df=df.rename(columns={'GRE Score': 'GRE Score', 'TOEFL Score': 'TOEFL Score',
                        'University Rating': 'University Rating', 'SOP': 'Statement of Purpose',
                        'LOR': 'Letter of Recommendation','CGPA': 'CGPA', 'Research': 'Research',
                        'Chance of Admit':'Chance of Admit'})

In [56]:
new_df.head() #выше  изменили названия столбцов, но LOR не изменился

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,Statement of Purpose,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [57]:
new_df.columns#вывели названия столбцов

Index(['GRE Score', 'TOEFL Score', 'University Rating', 'Statement of Purpose',
       'LOR ', 'CGPA', 'Research', 'Chance of Admit '],
      dtype='object')

In [58]:
# видим что в 'LOR ' есть пробел в конце, поэтому не отображалось изменение
#можно переименовать столбцы не прописывая их все. 
new_df=new_df.rename(columns={'LOR': 'Letter of Recommendation'})

In [59]:
new_df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,Statement of Purpose,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [60]:
new_df=new_df.rename(mapper=str.strip, axis='columns') #указали что Ось-это столбцы, и сделали mapper стрип для них. 
new_df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,Statement of Purpose,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [61]:
cols = list(df.columns)
cols = [x.lower().strip() for x in cols]

In [62]:
df.columns = cols
df.head()

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,chance of admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


# Querying a DataFrame (Boolean masking)

In [63]:
df = pd.read_csv(r"C:\Users\Юрий\Desktop\Занятия\Coursera\resources\week-2\datasets\Admission_Predict.csv", index_col=0)

In [64]:
df.columns = [x.lower().strip() for x in df.columns]

In [65]:
df.head()

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,chance of admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [66]:
#сделаем булеву маску со строками, где chance of admit > 0,7 
admit_mask=df['chance of admit'] > 0.7
admit_mask

Serial No.
1       True
2       True
3       True
4       True
5      False
       ...  
396     True
397     True
398     True
399    False
400     True
Name: chance of admit, Length: 400, dtype: bool

In [67]:
df.where(admit_mask).head() #вернулись только строки удовлетворяющие условию в булевой маске.
# все неудовлетворяющие строки остались в df но прописаны со значениями NaN

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,chance of admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337.0,118.0,4.0,4.5,4.5,9.65,1.0,0.92
2,324.0,107.0,4.0,4.0,4.5,8.87,1.0,0.76
3,316.0,104.0,3.0,3.0,3.5,8.0,1.0,0.72
4,322.0,110.0,3.0,3.5,2.5,8.67,1.0,0.8
5,,,,,,,,


In [68]:
df.where(admit_mask).dropna().head() #выдача строк только удовлетворяющих условию в маске

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,chance of admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337.0,118.0,4.0,4.5,4.5,9.65,1.0,0.92
2,324.0,107.0,4.0,4.0,4.5,8.87,1.0,0.76
3,316.0,104.0,3.0,3.0,3.5,8.0,1.0,0.72
4,322.0,110.0,3.0,3.5,2.5,8.67,1.0,0.8
6,330.0,115.0,5.0,4.5,3.0,9.34,1.0,0.9


In [69]:
# в пандас есть более простой способ наложения маски. вот пример:
df[df['chance of admit'] > 0.7].head() #просто прописываем условия маски в индекс df

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,chance of admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
6,330,115,5,4.5,3.0,9.34,1,0.9


In [70]:
df['gre score'].head()#вывели один столбец. 

Serial No.
1    337
2    324
3    316
4    322
5    314
Name: gre score, dtype: int64

In [71]:
df[['gre score','toefl score']].head() #можно вывести несколько столбцов просто перечислив их. 

Unnamed: 0_level_0,gre score,toefl score
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1
1,337,118
2,324,107
3,316,104
4,322,110
5,314,103


In [72]:
df[df['gre score']>320].head() #наложили булеву маску

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,chance of admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
4,322,110,3,3.5,2.5,8.67,1,0.8
6,330,115,5,4.5,3.0,9.34,1,0.9
7,321,109,3,3.0,4.0,8.2,1,0.75


In [73]:
#в пандас нельзя подряд прописать два булевых условия как:
# df[df['chance of admit'] > 0.7] and (df['chance of admit'] < 0.9) будет ошибка.
#python не знает как сравнить два объекта series через and или or. 
# в пандас есть свои операторы для таких сравнений:
(df['chance of admit'] > 0.7) & (df['chance of admit'] < 0.9)
# обязательно нужно помещать каждое из условий в круглые скобки

Serial No.
1      False
2       True
3       True
4       True
5      False
       ...  
396     True
397     True
398    False
399    False
400    False
Name: chance of admit, Length: 400, dtype: bool

In [74]:
# также условия можно прописать через встроенные функции пандас:
df['chance of admit'].gt(0.7) & df['chance of admit'].lt(0.9)

Serial No.
1      False
2       True
3       True
4       True
5      False
       ...  
396     True
397     True
398    False
399    False
400    False
Name: chance of admit, Length: 400, dtype: bool

In [75]:
#можно сократить до:
df['chance of admit'].gt(0.7).lt(0.9)

Serial No.
1      False
2      False
3      False
4      False
5       True
       ...  
396    False
397    False
398    False
399     True
400    False
Name: chance of admit, Length: 400, dtype: bool

In [76]:
df = pd.read_csv(r"C:\Users\Юрий\Desktop\Занятия\Coursera\resources\week-2\datasets\Admission_Predict.csv", index_col=0)
df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [77]:
df['Serial Number'] =  df.index
df = df.set_index('Chance of Admit ') #создали новый столбец индекса

In [78]:
df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Serial Number
Chance of Admit,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0.92,337,118,4,4.5,4.5,9.65,1,1
0.76,324,107,4,4.0,4.5,8.87,1,2
0.72,316,104,3,3.0,3.5,8.0,1,3
0.8,322,110,3,3.5,2.5,8.67,1,4
0.65,314,103,2,2.0,3.0,8.21,0,5


In [79]:
df = df.reset_index() #функция которая убирает текущую индексацию и создает нумерованный индекс по умолчанию
df.head() #'Chance of Admit' вернулся обратно в столбцы

Unnamed: 0,Chance of Admit,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Serial Number
0,0.92,337,118,4,4.5,4.5,9.65,1,1
1,0.76,324,107,4,4.0,4.5,8.87,1,2
2,0.72,316,104,3,3.0,3.5,8.0,1,3
3,0.8,322,110,3,3.5,2.5,8.67,1,4
4,0.65,314,103,2,2.0,3.0,8.21,0,5


In [80]:
# в пандас доступна система многоуровневых индексов. 
df = pd.read_csv(r"C:\Users\Юрий\Desktop\Занятия\Coursera\resources\week-2\datasets\census.csv" )
df.head() 

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,COUNTY,STNAME,CTYNAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,...,RDOMESTICMIG2011,RDOMESTICMIG2012,RDOMESTICMIG2013,RDOMESTICMIG2014,RDOMESTICMIG2015,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014,RNETMIG2015
0,40,3,6,1,0,Alabama,Alabama,4779736,4780127,4785161,...,0.002295,-0.193196,0.381066,0.582002,-0.467369,1.030015,0.826644,1.383282,1.724718,0.712594
1,50,3,6,1,1,Alabama,Autauga County,54571,54571,54660,...,7.242091,-2.915927,-3.012349,2.265971,-2.530799,7.606016,-2.626146,-2.722002,2.59227,-2.187333
2,50,3,6,1,3,Alabama,Baldwin County,182265,182265,183193,...,14.83296,17.647293,21.845705,19.243287,17.197872,15.844176,18.559627,22.727626,20.317142,18.293499
3,50,3,6,1,5,Alabama,Barbour County,27457,27457,27341,...,-4.728132,-2.50069,-7.056824,-3.904217,-10.543299,-4.874741,-2.758113,-7.167664,-3.978583,-10.543299
4,50,3,6,1,7,Alabama,Bibb County,22915,22919,22861,...,-5.527043,-5.068871,-6.201001,-0.177537,0.177258,-5.088389,-4.363636,-5.403729,0.754533,1.107861


In [81]:
# в этом наборе данных есть два обобщенных уровня: один содержит сводные данные по всей стране
# а второй содержащий сводные данные по каждому штату. 
# можно увидеть список всех уникальных значений в опреденном столбце:
df['SUMLEV'].unique()

array([40, 50], dtype=int64)

In [82]:
# видим что в столбце SUMLEV есть только два уникальных значения - 40 и 50 
# далее исключим все строки которые являются сводками на уровне штата
df=df[df['SUMLEV'] == 50] #оставили только строки с sumlev 50
df.head()

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,COUNTY,STNAME,CTYNAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,...,RDOMESTICMIG2011,RDOMESTICMIG2012,RDOMESTICMIG2013,RDOMESTICMIG2014,RDOMESTICMIG2015,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014,RNETMIG2015
1,50,3,6,1,1,Alabama,Autauga County,54571,54571,54660,...,7.242091,-2.915927,-3.012349,2.265971,-2.530799,7.606016,-2.626146,-2.722002,2.59227,-2.187333
2,50,3,6,1,3,Alabama,Baldwin County,182265,182265,183193,...,14.83296,17.647293,21.845705,19.243287,17.197872,15.844176,18.559627,22.727626,20.317142,18.293499
3,50,3,6,1,5,Alabama,Barbour County,27457,27457,27341,...,-4.728132,-2.50069,-7.056824,-3.904217,-10.543299,-4.874741,-2.758113,-7.167664,-3.978583,-10.543299
4,50,3,6,1,7,Alabama,Bibb County,22915,22919,22861,...,-5.527043,-5.068871,-6.201001,-0.177537,0.177258,-5.088389,-4.363636,-5.403729,0.754533,1.107861
5,50,3,6,1,9,Alabama,Blount County,57322,57322,57373,...,1.807375,-1.177622,-1.748766,-2.062535,-1.36997,1.859511,-0.84858,-1.402476,-1.577232,-0.884411


In [83]:
# далее сделаем датафрейм только с определенными столбцами:
columns_to_keep = ['STNAME','CTYNAME','BIRTHS2010','BIRTHS2011','BIRTHS2012','BIRTHS2013',
                  'BIRTHS2014','BIRTHS2015', 'POPESTIMATE2010','POPESTIMATE2011','POPESTIMATE2012',
                  'POPESTIMATE2013','POPESTIMATE2014','POPESTIMATE2015']
df = df[columns_to_keep]
df.head()

Unnamed: 0,STNAME,CTYNAME,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015
1,Alabama,Autauga County,151,636,615,574,623,600,54660,55253,55175,55038,55290,55347
2,Alabama,Baldwin County,517,2187,2092,2160,2186,2240,183193,186659,190396,195126,199713,203709
3,Alabama,Barbour County,70,335,300,283,260,269,27341,27226,27159,26973,26815,26489
4,Alabama,Bibb County,44,266,245,259,247,253,22861,22733,22642,22512,22549,22583
5,Alabama,Blount County,183,744,710,646,618,603,57373,57711,57776,57734,57658,57673


In [84]:
# далее сделаем двойной индекс, сначала название штата затем название округа. 
df = df.set_index(['STNAME','CTYNAME'])
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015
STNAME,CTYNAME,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Alabama,Autauga County,151,636,615,574,623,600,54660,55253,55175,55038,55290,55347
Alabama,Baldwin County,517,2187,2092,2160,2186,2240,183193,186659,190396,195126,199713,203709
Alabama,Barbour County,70,335,300,283,260,269,27341,27226,27159,26973,26815,26489
Alabama,Bibb County,44,266,245,259,247,253,22861,22733,22642,22512,22549,22583
Alabama,Blount County,183,744,710,646,618,603,57373,57711,57776,57734,57658,57673


In [85]:
# когда вы используете мультииндекс то вы должны указывать агрументы в порядке по уровню который вы хотите запросить.
# напр. смотрим данные округа Уоштано в штате Мичиган
df.loc['Michigan','Washtenaw County']

BIRTHS2010            977
BIRTHS2011           3826
BIRTHS2012           3780
BIRTHS2013           3662
BIRTHS2014           3683
BIRTHS2015           3709
POPESTIMATE2010    345563
POPESTIMATE2011    349048
POPESTIMATE2012    351213
POPESTIMATE2013    354289
POPESTIMATE2014    357029
POPESTIMATE2015    358880
Name: (Michigan, Washtenaw County), dtype: int64

In [86]:
# если нужно сделать сравнение двух округов то мы можем передать список кортежей с индексами:
# т.к. у нас датафрейм с двумя индексами то и в кортежах должно быть по два индекса
df.loc[[('Michigan','Washtenaw County'),('Michigan','Wayne County')]]

Unnamed: 0_level_0,Unnamed: 1_level_0,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015
STNAME,CTYNAME,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Michigan,Washtenaw County,977,3826,3780,3662,3683,3709,345563,349048,351213,354289,357029,358880
Michigan,Wayne County,5918,23819,23270,23377,23607,23586,1815199,1801273,1792514,1775713,1766008,1759335


In [87]:
# Если транспонировать этот датафрейм то получим иерархческие метки столбцов. 

# Missing Values 

In [88]:
# в собранных данных очень часто присутствуют недостающие значения (по разным причинам). и обозначаются эти пропуски по разному (na, n/a, none и т.д)
# в пандас есть возможность указать, какое обозначение считать missing values.
df = pd.read_csv(r"C:\Users\Юрий\Desktop\Занятия\Coursera\resources\week-2\datasets\class_grades.csv")
df.head(10)

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,5,57.14,34.09,64.38,51.48,52.5
1,8,95.05,105.49,67.5,99.07,68.33
2,8,83.7,83.17,,63.15,48.89
3,7,,,49.38,105.93,80.56
4,8,91.32,93.64,95.0,107.41,73.89
5,7,95.0,92.58,93.12,97.78,68.06
6,8,95.05,102.99,56.25,99.07,50.0
7,7,72.85,86.85,60.0,,56.11
8,8,84.26,93.1,47.5,18.52,50.83
9,7,90.1,97.55,51.25,88.89,63.61


In [89]:
mask = df.isnull() # булева маска, проверяющая значение на =0 или не =0. определил NaN
mask.head(10)

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,True,False,False
3,False,True,True,False,False,False
4,False,False,False,False,False,False
5,False,False,False,False,False,False
6,False,False,False,False,False,False
7,False,False,False,False,True,False
8,False,False,False,False,False,False
9,False,False,False,False,False,False


In [90]:
# также мы можем убрать все строки с недостающими значениями. 
df.dropna().head(10)

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,5,57.14,34.09,64.38,51.48,52.5
1,8,95.05,105.49,67.5,99.07,68.33
4,8,91.32,93.64,95.0,107.41,73.89
5,7,95.0,92.58,93.12,97.78,68.06
6,8,95.05,102.99,56.25,99.07,50.0
8,8,84.26,93.1,47.5,18.52,50.83
9,7,90.1,97.55,51.25,88.89,63.61
10,7,80.44,90.2,75.0,91.48,39.72
12,8,97.16,103.71,72.5,93.52,63.33
13,7,91.28,83.53,81.25,99.81,92.22


In [91]:
# в пандас есть функция fillna, которая позволяет поменять все недостающие значения на определенный вариант значения. 
df.fillna(0, inplace=True) # inplace - атрибут который позволяет заменить данные на месте, прямо в df
df.head(20) 

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,5,57.14,34.09,64.38,51.48,52.5
1,8,95.05,105.49,67.5,99.07,68.33
2,8,83.7,83.17,0.0,63.15,48.89
3,7,0.0,0.0,49.38,105.93,80.56
4,8,91.32,93.64,95.0,107.41,73.89
5,7,95.0,92.58,93.12,97.78,68.06
6,8,95.05,102.99,56.25,99.07,50.0
7,7,72.85,86.85,60.0,0.0,56.11
8,8,84.26,93.1,47.5,18.52,50.83
9,7,90.1,97.55,51.25,88.89,63.61


In [92]:
# также мы можем использовать функцию na_filter для отключения фильтрации пробелов, если они важны (что бывает редко)


In [93]:
df = pd.read_csv(r"C:\Users\Юрий\Desktop\Занятия\Coursera\resources\week-2\datasets\log.csv")
df.head(20) # данный df, это логи из системы воспроизведения видео на портале онлайн обучения. 

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,
9,1469974694,cheryl,intro.html,14,,


In [94]:
# первый столбец это время (в формате unix)
# второй столбец это юзернейм
# третий веб страница которую он посещает
# позиция воспроизведения, и последние два, это пауза и громкость. 
# Мы видим, что по мере увеличения позиции воспроизведения на единицу времени метка времени увеличивается примерно на 30 секунд, за  исключением юзера Bob.
# bob остановил воспроизведение но время продолжает увеличиваться. 
# в двух последних столбцах много пропусков, т.к. нет смысла проставлять нули если ничего не менялось, поэтому автоматически проставили NaN


In [95]:
#сделаем колонку time индексом df
df = df.set_index('time')
df = df.sort_index()
df.head(20)

Unnamed: 0_level_0,user,video,playback position,paused,volume
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1469974424,cheryl,intro.html,5,False,10.0
1469974424,sue,advanced.html,23,False,10.0
1469974454,cheryl,intro.html,6,,
1469974454,sue,advanced.html,24,,
1469974484,cheryl,intro.html,7,,
1469974514,cheryl,intro.html,8,,
1469974524,sue,advanced.html,25,,
1469974544,cheryl,intro.html,9,,
1469974554,sue,advanced.html,26,,
1469974574,cheryl,intro.html,10,,


In [96]:
# видим что индекс не уникальный, т.к. два студента могли использовать сервис одновременно
# поэтому тут нужно использовать многоуровневую индексацию. 
df = df.reset_index()
df = df.set_index(['time', 'user'])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,video,playback position,paused,volume
time,user,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1469974424,cheryl,intro.html,5,False,10.0
1469974424,sue,advanced.html,23,False,10.0
1469974454,cheryl,intro.html,6,,
1469974454,sue,advanced.html,24,,
1469974484,cheryl,intro.html,7,,
1469974514,cheryl,intro.html,8,,
1469974524,sue,advanced.html,25,,
1469974544,cheryl,intro.html,9,,
1469974554,sue,advanced.html,26,,
1469974574,cheryl,intro.html,10,,


In [97]:
#заполним недостающие значения
df = df.fillna(method='ffill') # Must specify a fill 'value' or 'method'.
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,video,playback position,paused,volume
time,user,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1469974424,cheryl,intro.html,5,False,10.0
1469974424,sue,advanced.html,23,False,10.0
1469974454,cheryl,intro.html,6,False,10.0
1469974454,sue,advanced.html,24,False,10.0
1469974484,cheryl,intro.html,7,False,10.0


In [98]:
#также мы можем настроить заполнение недостающих значений функцией замены
df = pd.DataFrame({'A': [1, 1, 2, 3, 4],
                   'B': [3, 6, 3, 8, 9],
                   'C': ['a', 'b', 'c', 'd', 'e']})
df

Unnamed: 0,A,B,C
0,1,3,a
1,1,6,b
2,2,3,c
3,3,8,d
4,4,9,e


In [99]:
#  заменим 1 на 100
df.replace(1,100)

Unnamed: 0,A,B,C
0,100,3,a
1,100,6,b
2,2,3,c
3,3,8,d
4,4,9,e


In [100]:
#заменим 1 на 100 и 3 на 300
df.replace([1, 3],[100, 300])

Unnamed: 0,A,B,C
0,100,300,a
1,100,6,b
2,2,300,c
3,300,8,d
4,4,9,e


In [101]:
df = pd.read_csv(r"C:\Users\Юрий\Desktop\Занятия\Coursera\resources\week-2\datasets\log.csv")
df.head(20) # данный df, это логи из системы воспроизведения видео на портале онлайн обучения. 

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,
9,1469974694,cheryl,intro.html,14,,


In [102]:
# для замены можно использовать регулярные выражения
# используем три параметра:1 - шаблон рег.выражения, 2 - значение которое мы вставим при совпадении, 3 - параметр который говрит что regex=True
# попробуем заменить в колонке video все html страницы на "webpage"
df.replace(to_replace='.*.html$', value='webpage', regex=True)

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,webpage,5,False,10.0
1,1469974454,cheryl,webpage,6,,
2,1469974544,cheryl,webpage,9,,
3,1469974574,cheryl,webpage,10,,
4,1469977514,bob,webpage,1,,
5,1469977544,bob,webpage,1,,
6,1469977574,bob,webpage,1,,
7,1469977604,bob,webpage,1,,
8,1469974604,cheryl,webpage,11,,
9,1469974694,cheryl,webpage,14,,


In [103]:
# ЗАключение: по умолчанию недостающие данные игнорируются статистическими функциями в numpy и pandas. 
# но нужно уметь работать с форматированием этих недостающих значений. 

# Example: Manipulating DataFrame

In [104]:
df = pd.read_csv(r"C:\Users\Юрий\Desktop\Занятия\Coursera\resources\week-2\datasets\presidents.csv")
df

Unnamed: 0,#,President,Born,Age atstart of presidency,Age atend of presidency,Post-presidencytimespan,Died,Age
0,1,George Washington,"Feb 22, 1732[a]","57 years, 67 daysApr 30, 1789","65 years, 10 daysMar 4, 1797","2 years, 285 days","Dec 14, 1799","67 years, 295 days"
1,2,John Adams,"Oct 30, 1735[a]","61 years, 125 daysMar 4, 1797","65 years, 125 daysMar 4, 1801","25 years, 122 days","Jul 4, 1826","90 years, 247 days"
2,3,Thomas Jefferson,"Apr 13, 1743[a]","57 years, 325 daysMar 4, 1801","65 years, 325 daysMar 4, 1809","17 years, 122 days","Jul 4, 1826","83 years, 82 days"
3,4,James Madison,"Mar 16, 1751[a]","57 years, 353 daysMar 4, 1809","65 years, 353 daysMar 4, 1817","19 years, 116 days","Jun 28, 1836","85 years, 104 days"
4,5,James Monroe,"Apr 28, 1758","58 years, 310 daysMar 4, 1817","66 years, 310 daysMar 4, 1825","6 years, 122 days","Jul 4, 1831","73 years, 67 days"
5,6,John Quincy Adams,"Jul 11, 1767","57 years, 236 daysMar 4, 1825","61 years, 236 daysMar 4, 1829","18 years, 356 days","Feb 23, 1848","80 years, 227 days"
6,7,Andrew Jackson,"Mar 15, 1767","61 years, 354 daysMar 4, 1829","69 years, 354 daysMar 4, 1837","8 years, 96 days","Jun 8, 1845","78 years, 85 days"
7,8,Martin Van Buren,"Dec 5, 1782","54 years, 89 daysMar 4, 1837","58 years, 89 daysMar 4, 1841","21 years, 142 days","Jul 24, 1862","79 years, 231 days"
8,9,William H. Harrison,"Feb 9, 1773","68 years, 23 daysMar 4, 1841","68 years, 54 days Apr 4, 1841[b]",,"Apr 4, 1841","68 years, 54 days"
9,10,John Tyler,"Mar 29, 1790","51 years, 6 daysApr 4, 1841","54 years, 340 daysMar 4, 1845","16 years, 320 days","Jan 18, 1862","71 years, 295 days"


In [105]:
# разобьем имя и фамилию на два столбца. 
# первый способ, создать копию столбца "президент"
df['First']=df['President'] #создали копию колонки "президент"
df['First']=df['First'].replace("[ ].*","", regex=True) #с помощью regex убрали из столбца first фамилию 
df.head()

Unnamed: 0,#,President,Born,Age atstart of presidency,Age atend of presidency,Post-presidencytimespan,Died,Age,First
0,1,George Washington,"Feb 22, 1732[a]","57 years, 67 daysApr 30, 1789","65 years, 10 daysMar 4, 1797","2 years, 285 days","Dec 14, 1799","67 years, 295 days",George
1,2,John Adams,"Oct 30, 1735[a]","61 years, 125 daysMar 4, 1797","65 years, 125 daysMar 4, 1801","25 years, 122 days","Jul 4, 1826","90 years, 247 days",John
2,3,Thomas Jefferson,"Apr 13, 1743[a]","57 years, 325 daysMar 4, 1801","65 years, 325 daysMar 4, 1809","17 years, 122 days","Jul 4, 1826","83 years, 82 days",Thomas
3,4,James Madison,"Mar 16, 1751[a]","57 years, 353 daysMar 4, 1809","65 years, 353 daysMar 4, 1817","19 years, 116 days","Jun 28, 1836","85 years, 104 days",James
4,5,James Monroe,"Apr 28, 1758","58 years, 310 daysMar 4, 1817","66 years, 310 daysMar 4, 1825","6 years, 122 days","Jul 4, 1831","73 years, 67 days",James


In [106]:
# но есть более быстрый и простой способ разделения с помощью функции apply
del df['First']

In [107]:
#apply - принимает на вход произвольную функцию(которую мы написали), и применяет ее к серии, столбцу или всему df
def Splitname(row):
    row['First']=row['President'].split(" ")[0]
    row['Last']=row['President'].split(" ")[-1]
    return row
#написали функцию создающую из столбца "президент" два новых столбца с именем и фамилией

In [108]:
df=df.apply(Splitname, axis='columns')
df.head()

Unnamed: 0,#,President,Born,Age atstart of presidency,Age atend of presidency,Post-presidencytimespan,Died,Age,First,Last
0,1,George Washington,"Feb 22, 1732[a]","57 years, 67 daysApr 30, 1789","65 years, 10 daysMar 4, 1797","2 years, 285 days","Dec 14, 1799","67 years, 295 days",George,Washington
1,2,John Adams,"Oct 30, 1735[a]","61 years, 125 daysMar 4, 1797","65 years, 125 daysMar 4, 1801","25 years, 122 days","Jul 4, 1826","90 years, 247 days",John,Adams
2,3,Thomas Jefferson,"Apr 13, 1743[a]","57 years, 325 daysMar 4, 1801","65 years, 325 daysMar 4, 1809","17 years, 122 days","Jul 4, 1826","83 years, 82 days",Thomas,Jefferson
3,4,James Madison,"Mar 16, 1751[a]","57 years, 353 daysMar 4, 1809","65 years, 353 daysMar 4, 1817","19 years, 116 days","Jun 28, 1836","85 years, 104 days",James,Madison
4,5,James Monroe,"Apr 28, 1758","58 years, 310 daysMar 4, 1817","66 years, 310 daysMar 4, 1825","6 years, 122 days","Jul 4, 1831","73 years, 67 days",James,Monroe


In [109]:
del(df['First'])
del(df['Last'])

In [110]:
#рассм. функцию Extract. Она - принимает на вход regex, и требует чтобы вы сгруппировали части соотв. столбцам которые вас интересуют.
# будем сопоставлять три группы, а вернем только две - имя и фамилию. группы будут сгруппированы ()
pattern="(^[\w]*)(?:.* )([\w]*$)"
df['President'].str.extract(pattern).head()
# str.extract(pattern) - втсроили фукцию в объект series. теперь мы можем вызвать его через Series.str.Extract 


Unnamed: 0,0,1
0,George,Washington
1,John,Adams
2,Thomas,Jefferson
3,James,Madison
4,James,Monroe


In [111]:
#напишем новый паттерн, такой же но с именами столбцов. 
pattern="(?P<First>^[\w]*)(?:.* )(?P<Last>[\w]*$)"
names=df['President'].str.extract(pattern).head()
names

Unnamed: 0,First,Last
0,George,Washington
1,John,Adams
2,Thomas,Jefferson
3,James,Madison
4,James,Monroe


In [112]:
df['First']=names['First']
df['Last']=names['Last']
df

Unnamed: 0,#,President,Born,Age atstart of presidency,Age atend of presidency,Post-presidencytimespan,Died,Age,First,Last
0,1,George Washington,"Feb 22, 1732[a]","57 years, 67 daysApr 30, 1789","65 years, 10 daysMar 4, 1797","2 years, 285 days","Dec 14, 1799","67 years, 295 days",George,Washington
1,2,John Adams,"Oct 30, 1735[a]","61 years, 125 daysMar 4, 1797","65 years, 125 daysMar 4, 1801","25 years, 122 days","Jul 4, 1826","90 years, 247 days",John,Adams
2,3,Thomas Jefferson,"Apr 13, 1743[a]","57 years, 325 daysMar 4, 1801","65 years, 325 daysMar 4, 1809","17 years, 122 days","Jul 4, 1826","83 years, 82 days",Thomas,Jefferson
3,4,James Madison,"Mar 16, 1751[a]","57 years, 353 daysMar 4, 1809","65 years, 353 daysMar 4, 1817","19 years, 116 days","Jun 28, 1836","85 years, 104 days",James,Madison
4,5,James Monroe,"Apr 28, 1758","58 years, 310 daysMar 4, 1817","66 years, 310 daysMar 4, 1825","6 years, 122 days","Jul 4, 1831","73 years, 67 days",James,Monroe
5,6,John Quincy Adams,"Jul 11, 1767","57 years, 236 daysMar 4, 1825","61 years, 236 daysMar 4, 1829","18 years, 356 days","Feb 23, 1848","80 years, 227 days",,
6,7,Andrew Jackson,"Mar 15, 1767","61 years, 354 daysMar 4, 1829","69 years, 354 daysMar 4, 1837","8 years, 96 days","Jun 8, 1845","78 years, 85 days",,
7,8,Martin Van Buren,"Dec 5, 1782","54 years, 89 daysMar 4, 1837","58 years, 89 daysMar 4, 1841","21 years, 142 days","Jul 24, 1862","79 years, 231 days",,
8,9,William H. Harrison,"Feb 9, 1773","68 years, 23 daysMar 4, 1841","68 years, 54 days Apr 4, 1841[b]",,"Apr 4, 1841","68 years, 54 days",,
9,10,John Tyler,"Mar 29, 1790","51 years, 6 daysApr 4, 1841","54 years, 340 daysMar 4, 1845","16 years, 320 days","Jan 18, 1862","71 years, 295 days",,


In [113]:
# теперь чистим колонку Born
df['Born']=df['Born'].str.extract("([\w]{3} [\w]{1,2}, [\w]{4})")
df['Born'].head()

0    Feb 22, 1732
1    Oct 30, 1735
2    Apr 13, 1743
3    Mar 16, 1751
4    Apr 28, 1758
Name: Born, dtype: object

In [114]:
#в пандас есть встроенные функции формата даты и времени (это следствие того что Пандас разрабатывался для работы с финансовыми операциями)
df['Born']=pd.to_datetime (df['Born'])
df['Born'].head()

0   1732-02-22
1   1735-10-30
2   1743-04-13
3   1751-03-16
4   1758-04-28
Name: Born, dtype: datetime64[ns]

In [115]:
df

Unnamed: 0,#,President,Born,Age atstart of presidency,Age atend of presidency,Post-presidencytimespan,Died,Age,First,Last
0,1,George Washington,1732-02-22,"57 years, 67 daysApr 30, 1789","65 years, 10 daysMar 4, 1797","2 years, 285 days","Dec 14, 1799","67 years, 295 days",George,Washington
1,2,John Adams,1735-10-30,"61 years, 125 daysMar 4, 1797","65 years, 125 daysMar 4, 1801","25 years, 122 days","Jul 4, 1826","90 years, 247 days",John,Adams
2,3,Thomas Jefferson,1743-04-13,"57 years, 325 daysMar 4, 1801","65 years, 325 daysMar 4, 1809","17 years, 122 days","Jul 4, 1826","83 years, 82 days",Thomas,Jefferson
3,4,James Madison,1751-03-16,"57 years, 353 daysMar 4, 1809","65 years, 353 daysMar 4, 1817","19 years, 116 days","Jun 28, 1836","85 years, 104 days",James,Madison
4,5,James Monroe,1758-04-28,"58 years, 310 daysMar 4, 1817","66 years, 310 daysMar 4, 1825","6 years, 122 days","Jul 4, 1831","73 years, 67 days",James,Monroe
5,6,John Quincy Adams,1767-07-11,"57 years, 236 daysMar 4, 1825","61 years, 236 daysMar 4, 1829","18 years, 356 days","Feb 23, 1848","80 years, 227 days",,
6,7,Andrew Jackson,1767-03-15,"61 years, 354 daysMar 4, 1829","69 years, 354 daysMar 4, 1837","8 years, 96 days","Jun 8, 1845","78 years, 85 days",,
7,8,Martin Van Buren,1782-12-05,"54 years, 89 daysMar 4, 1837","58 years, 89 daysMar 4, 1841","21 years, 142 days","Jul 24, 1862","79 years, 231 days",,
8,9,William H. Harrison,1773-02-09,"68 years, 23 daysMar 4, 1841","68 years, 54 days Apr 4, 1841[b]",,"Apr 4, 1841","68 years, 54 days",,
9,10,John Tyler,1790-03-29,"51 years, 6 daysApr 4, 1841","54 years, 340 daysMar 4, 1845","16 years, 320 days","Jan 18, 1862","71 years, 295 days",,


In [119]:
df.unstack().unstack()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,34,35,36,37,38,39,40,41,42,43
#,1,2,3,4,5,6,7,8,9,10,...,35,36,37,38,39,40,41,42,43,44
President,George Washington,John Adams,Thomas Jefferson,James Madison,James Monroe,John Quincy Adams,Andrew Jackson,Martin Van Buren,William H. Harrison,John Tyler,...,John F. Kennedy,Lyndon B. Johnson,Richard Nixon,Gerald Ford,Jimmy Carter,Ronald Reagan,George H. W. Bush,Bill Clinton,George W. Bush,Barack Obama
Born,1732-02-22 00:00:00,1735-10-30 00:00:00,1743-04-13 00:00:00,1751-03-16 00:00:00,1758-04-28 00:00:00,1767-07-11 00:00:00,1767-03-15 00:00:00,1782-12-05 00:00:00,1773-02-09 00:00:00,1790-03-29 00:00:00,...,1917-05-29 00:00:00,1908-08-27 00:00:00,1913-01-09 00:00:00,1913-07-14 00:00:00,1924-10-01 00:00:00,1911-02-06 00:00:00,1924-06-12 00:00:00,1946-08-19 00:00:00,1946-07-06 00:00:00,1961-08-04 00:00:00
Age atstart of presidency,"57 years, 67 daysApr 30, 1789","61 years, 125 daysMar 4, 1797","57 years, 325 daysMar 4, 1801","57 years, 353 daysMar 4, 1809","58 years, 310 daysMar 4, 1817","57 years, 236 daysMar 4, 1825","61 years, 354 daysMar 4, 1829","54 years, 89 daysMar 4, 1837","68 years, 23 daysMar 4, 1841","51 years, 6 daysApr 4, 1841",...,"43 years, 236 daysJan 20, 1961","55 years, 87 daysNov 22, 1963","56 years, 11 daysJan 20, 1969","61 years, 26 daysAug 9, 1974","52 years, 111 daysJan 20, 1977","69 years, 349 daysJan 20, 1981","64 years, 222 daysJan 20, 1989","46 years, 154 daysJan 20, 1993","54 years, 198 daysJan 20, 2001","47 years, 169 daysJan 20, 2009"
Age atend of presidency,"65 years, 10 daysMar 4, 1797","65 years, 125 daysMar 4, 1801","65 years, 325 daysMar 4, 1809","65 years, 353 daysMar 4, 1817","66 years, 310 daysMar 4, 1825","61 years, 236 daysMar 4, 1829","69 years, 354 daysMar 4, 1837","58 years, 89 daysMar 4, 1841","68 years, 54 days Apr 4, 1841[b]","54 years, 340 daysMar 4, 1845",...,"46 years, 177 daysNov 22, 1963[b]","60 years, 146 daysJan 20, 1969","61 years, 212 daysAug 9, 1974[e]","63 years, 190 daysJan 20, 1977","56 years, 111 daysJan 20, 1981","77 years, 349 daysJan 20, 1989","68 years, 222 daysJan 20, 1993","54 years, 154 daysJan 20, 2001","62 years, 198 daysJan 20, 2009","55 years, 169 daysJan 20, 2017"
Post-presidencytimespan,"2 years, 285 days","25 years, 122 days","17 years, 122 days","19 years, 116 days","6 years, 122 days","18 years, 356 days","8 years, 96 days","21 years, 142 days",,"16 years, 320 days",...,,"4 years, 2 days","19 years, 256 days","29 years, 340 days","38 years, 175 days","15 years, 137 days","25 years, 314 days","18 years, 175 days","10 years, 175 days","2 years, 175 days"
Died,"Dec 14, 1799","Jul 4, 1826","Jul 4, 1826","Jun 28, 1836","Jul 4, 1831","Feb 23, 1848","Jun 8, 1845","Jul 24, 1862","Apr 4, 1841","Jan 18, 1862",...,"Nov 22, 1963","Jan 22, 1973","Apr 22, 1994","Dec 26, 2006",(living),"Jun 5, 2004","Nov 30, 2018",(living),(living),(living)
Age,"67 years, 295 days","90 years, 247 days","83 years, 82 days","85 years, 104 days","73 years, 67 days","80 years, 227 days","78 years, 85 days","79 years, 231 days","68 years, 54 days","71 years, 295 days",...,"46 years, 177 days","64 years, 148 days","81 years, 103 days","93 years, 165 days","94 years, 286 days","93 years, 120 days","94 years, 171 days","72 years, 329 days","73 years, 8 days","57 years, 344 days"
First,George,John,Thomas,James,James,,,,,,...,,,,,,,,,,
Last,Washington,Adams,Jefferson,Madison,Monroe,,,,,,...,,,,,,,,,,
