## Знакомство с Pandas
***Не оцениваются задания с удаленными/исправленными/закоменченными формулировками. Лучше всего ячейки с заданием не трогать, а создавать новые для своих экспериментов.***


### Примечание

В заданиях вам даны подсказки по выполнению. А также вам оставлен вывод работы кода авторского решения - вы можете смотреть на этот вывод и понимать, в правильном ли направлении вы движетесь при выполнении задания.

# Аналитика данных с Pandas

Загрузите таблицу с данными из ```articles.csv``` (нужно загрузить файл на колаб)


In [None]:
from google.colab import files
files.upload()

Saving articles.csv to articles.csv


In [None]:
import pandas as pd
df = pd.read_csv('articles.csv')

Посмотрите на первые 5 строк датафрейма (метод ```head```)

In [None]:
df.head()

Unnamed: 0,id,title,publication,author,date,year,month,content
0,17283,House Republicans Fret About Winning Their Hea...,New York Times,Carl Hulse,2016-12-31,2016,12,WASHINGTON — Congressional Republicans have...
1,17284,Rift Between Officers and Residents as Killing...,New York Times,Benjamin Mueller and Al Baker,2017-06-19,2017,6,"After the bullet shells get counted, the blood..."
2,17285,"Tyrus Wong, ‘Bambi’ Artist Thwarted by Racial ...",New York Times,Margalit Fox,2017-01-06,2017,1,"When Walt Disney’s “Bambi” opened in 1942, cri..."
3,17286,"Among Deaths in 2016, a Heavy Toll in Pop Musi...",New York Times,William McDonald,2017-04-10,2017,4,"Death may be the great equalizer, but it isn’t..."
4,17287,Kim Jong-un Says North Korea Is Preparing to T...,New York Times,Choe Sang-Hun,2017-01-02,2017,1,"SEOUL, South Korea — North Korea’s leader, ..."


Определите количество строк и столбцов в датафрейме (атрибут `shape`)

In [None]:
df.shape

(50000, 8)

Посмотрите, в каких столбцах есть пропуски (используйте методы ```isnull``` и ```sum```)

In [None]:
df.isnull().sum()

id                0
title             0
publication       0
author         6306
date              0
year              0
month             0
content           0
dtype: int64

Видим, что в колонке ```author``` есть пропуски.

Посчитайте, какая доля пропусков содержится в этой колонке (используйте методы ```isnull``` и ```mean```)

In [None]:
df.author.isnull().mean()

0.12612

Видим, что в колонке ```author``` 12% пропусков. Давайте удалим те строки, в которых пропущено значение в колонке ```author```

Для этого используйте функцию ```dropna```, которой в качестве аргумента можно передать параметр ```axis```, чтобы удалить строки или столбцы с пропусками.

Не забудьте, что чтобы сохранить результат удаления строк, нужно либо перезаписать датафрейм (```df = df.same_method()```), либо выставить в методе ```dropna``` параметр ```inplace=True```, который говорит о том, что операция будет производиться "на месте", то есть над самим объектом датафрейма, а не с его копией


In [None]:
df.dropna(axis=0, inplace=True)

Проверим размер датафрейма после удаления пропусков и убедимся, что в датафрейме теперь нет пропусков в данных

In [None]:
df.shape

(43694, 8)

In [None]:
df.isnull().sum()

id             0
title          0
publication    0
author         0
date           0
year           0
month          0
content        0
dtype: int64

Проделайте следующие базовые операции с датафреймами:

## Задача 1
Определите количество различных издательств в таблице и их имена (используйте для этого методы датафрейма ```unique``` или ```nunique```)


In [None]:
len(pd.unique(df['publication']))

5

In [None]:
pd.unique(df['publication'])

array(['New York Times', 'Breitbart', 'CNN', 'Business Insider',
       'Atlantic'], dtype=object)

## Задача 2
Найдите количество опубликованных статей в отрезке с ```2016-06-03``` по ```2016-12-07``` (включая эти дни)

Для этого используйте фильтрацию по условию. С датами можно обращаться просто как со строками.

*Подсказка:* найдите строки c датой публикации ```>=``` стартовой даты и получите булеву маску. Аналогично получите булеву маску для второй даты. Затем с помощью операции ```&``` над двумя булевыми масками получите новый булев массив, в котором ```True``` будет стоять только у тех строк, у которых дата публикации попадает в желаемый отрезок. А затем используйте эту булеву маску как индексы датафрейма

При желании это все можно написать одной строкой

In [None]:
len(df[(df['date'] >= '2016-06-03') & (df['date'] <= '2016-12-07')])

15079

## Задача 3
Какое издание выпустило больше всего статей в 2016 году?

In [None]:
df['publication'].value_counts().head(1).axes[0][0]


'Breitbart'

## Задача 4
Посчитайте количество статей автора *Tom Ciccotta* в каждом году

Для этого сначала отберите строки, в которых автором является *Tom Ciccotta*, а затем создайте счетчик из столбца ```year``` (для этого просто позовите метод ```value_counts()``` от столбца ```year```)

In [None]:
df[df['author'] == 'Tom Ciccotta']['year'].value_counts()


2017    132
2016    124
Name: year, dtype: int64

## Задача 5
Выпишите названия 3х первых статей автора *John Hayward* в 2016 году

*Подсказка:* после отбора статей по автору и году, не забудте отсортировать датафрейм по столбцу даты публикации.

*Подсказка:* срезы по строкам датафреймов работают так же, как срезы по спискам

In [None]:
df[(df['author'] == 'John Hayward') & (df['year'] == 2016)].sort_values(by=['date'])[0:3]['title'].values

array(['Indonesian Couple Beaten with Canes for Violating Sharia Law',
       'Islamic State Claims Credit For Gun Attack On Russian Tourists',
       'Protests Across India Against Saudi Execution of Shiite Cleric'],
      dtype=object)

## Задача 6
Какой автор на сотом месте по количеству опубликованных статей? Сколько статей он опубликовал?

*Подсказка:* для подсчета встречаемости значений используйте метод ```value_counts```. Для доступа к индексам полученного после ```value_counts``` ```pd.Series``` используйте атрибут ```index```

In [None]:
df['author'].value_counts().index[99]

'Milo'

Еще одной важной частью работы с данными является **нормализация данных**.

Это особенно актуально при работе с данными в текством формате и при работе с данными из нескольких разнородных источников. Например, один и тот же номер телефона пользователя может записан в базах данных в разных форматах:

- `+7(918)123-45-67`
- `+7(918)1234567`
- `+79181234567`
- `+8(918)123-45-67`
- `8(918)1234567`
- `89181234567`

Поэтому важно нормализовывать данные, чтобы иметь возможность объединить все данные, которые относятся к одному реальному объекту.

Именно нормализации данных при работе со строками будем учиться в следующей части домашней работы

# Работа со строками в датафрейме

Для датафреймов существуют методы работы со строковыми данными. Чтобы применить их, необходимо воспользоваться атрибутом ```str```, после чего вызвать нужные методы работы со строками. Например, вызов:

```df['content'].str.len() ```

подсчитает для каждой строчки в датафрейме количество символов в колонке content. Примеры кода по работе с текстовыми данными в pandas можно найти в гайде [working with text data](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html) документации, там же вы найдете список методов пандаса по работе с текстовыми данными.


## Задача 7

Найдите в датафрейме всех авторов, имя которых содержит ```Faith```. Выведите Series, состоящий из всех таких уникальных имен.

In [None]:
pd.Series(pd.unique(df['author'][df['author'].str.contains('Faith')]))

0     Faith Haleh Robinson
1             Faith Karimi
2     Faith Haleh Robinson
3            Faith Karimi,
4            Faith Karimi 
5           Faith Karimi, 
6             Faith Karimi
7            Faith Karimi 
dtype: object

Как можно заметить, в таблице существует множество различных написаний имени Faith Karimi. В основном эти написания различаются пунктуацией - лишние пробелы и запятые. Для правильного подсчета статистик для текстовых данных зачастую возникает необходимость в их предобработке.

**Методы строк** можно вспомнить по этой ссылке: https://pythonworld.ru/tipy-dannyx-v-python/stroki-funkcii-i-metody-strok.html

Проведите следующие преобразования для колонок ```author``` и ```content``` (**всего 2 балла**):


## Задача 8
 Приведение текста к нижнему регистру;


In [None]:
df['author'] = df.author.str.lower()
df['content'] = df.content.str.lower()
df

Unnamed: 0,id,title,publication,author,date,year,month,content
0,17283,House Republicans Fret About Winning Their Hea...,New York Times,carl hulse,2016-12-31,2016,12,washington — congressional republicans have...
1,17284,Rift Between Officers and Residents as Killing...,New York Times,benjamin mueller and al baker,2017-06-19,2017,6,"after the bullet shells get counted, the blood..."
2,17285,"Tyrus Wong, ‘Bambi’ Artist Thwarted by Racial ...",New York Times,margalit fox,2017-01-06,2017,1,"when walt disney’s “bambi” opened in 1942, cri..."
3,17286,"Among Deaths in 2016, a Heavy Toll in Pop Musi...",New York Times,william mcdonald,2017-04-10,2017,4,"death may be the great equalizer, but it isn’t..."
4,17287,Kim Jong-un Says North Korea Is Preparing to T...,New York Times,choe sang-hun,2017-01-02,2017,1,"seoul, south korea — north korea’s leader, ..."
...,...,...,...,...,...,...,...,...
49995,73465,"Rex Tillerson Says Climate Change Is Real, but …",Atlantic,robinson meyer,2017-01-11,2017,1,"as chairman and ceo of exxonmobil, rex tillers..."
49996,73466,The Biggest Intelligence Questions Raised by t...,Atlantic,amy zegart,2017-01-11,2017,1,i’ve spent nearly 20 years looking at intellig...
49997,73467,Trump Announces Plan That Does Little to Resol...,Atlantic,jeremy venook,2017-01-11,2017,1,donald trump will not be taking necessary st...
49998,73468,Dozens of For-Profit Colleges Could Soon Close,Atlantic,emily deruy,2017-01-11,2017,1,dozens of colleges could be forced to close ...


## Задача 9
Удаление всей пунктуации из текста.

*Подсказка:* для вас уже создано начальное множество символов (достаточно ли его?). Символы надо исключить с помощью метода ```replace```

In [None]:
import string
punctuation = set(string.punctuation)
print(punctuation)
print(len(punctuation))

{':', ')', '?', '\\', '%', '!', ',', '&', '=', '`', '_', '*', '+', '#', '.', '[', '}', ']', '|', '"', '/', '^', '(', '~', '{', ';', '<', '$', "'", '-', '@', '>'}
32


In [None]:
# может работать несколько секунд
df['content'] = df['content'].str.replace(r'[^\w\s]+', '')
df

Unnamed: 0,id,title,publication,author,date,year,month,content
0,17283,House Republicans Fret About Winning Their Hea...,New York Times,carl hulse,2016-12-31,2016,12,washington congressional republicans have ...
1,17284,Rift Between Officers and Residents as Killing...,New York Times,benjamin mueller and al baker,2017-06-19,2017,6,after the bullet shells get counted the blood ...
2,17285,"Tyrus Wong, ‘Bambi’ Artist Thwarted by Racial ...",New York Times,margalit fox,2017-01-06,2017,1,when walt disneys bambi opened in 1942 critics...
3,17286,"Among Deaths in 2016, a Heavy Toll in Pop Musi...",New York Times,william mcdonald,2017-04-10,2017,4,death may be the great equalizer but it isnt n...
4,17287,Kim Jong-un Says North Korea Is Preparing to T...,New York Times,choe sang-hun,2017-01-02,2017,1,seoul south korea north koreas leader kim ...
...,...,...,...,...,...,...,...,...
49995,73465,"Rex Tillerson Says Climate Change Is Real, but …",Atlantic,robinson meyer,2017-01-11,2017,1,as chairman and ceo of exxonmobil rex tillerso...
49996,73466,The Biggest Intelligence Questions Raised by t...,Atlantic,amy zegart,2017-01-11,2017,1,ive spent nearly 20 years looking at intellige...
49997,73467,Trump Announces Plan That Does Little to Resol...,Atlantic,jeremy venook,2017-01-11,2017,1,donald trump will not be taking necessary st...
49998,73468,Dozens of For-Profit Colleges Could Soon Close,Atlantic,emily deruy,2017-01-11,2017,1,dozens of colleges could be forced to close ...


In [None]:
# пример того, что должно получиться после этого шага
df.content.loc[45926]

'back in the late 90s getting a startup big enough to get onto the stock market was the thing to do  now a market crash a great recession and a possible   burst later     investors are  and the public stock market is increasingly volatile still going public is often viewed as the end goal for ambitious young tech companies  heres how and why startups wind up on the stock market     and why  back in the late 90s getting a startup big '

## Задача 10
Удаление пробелов в начале и конце строки; (воспользуйтесь готовым методом)


In [None]:
df['content'] = df.content.str.strip()

In [None]:
df.content.loc[45926]

'back in the late 90s getting a startup big enough to get onto the stock market was the thing to do  now a market crash a great recession and a possible   burst later     investors are  and the public stock market is increasingly volatile still going public is often viewed as the end goal for ambitious young tech companies  heres how and why startups wind up on the stock market     and why  back in the late 90s getting a startup big'

## Задача 11
Замена подряд идущих пробелов одним пробелом.


In [None]:
df.content = df.content.str.replace(' +', ' ')

In [None]:
df.content.loc[45926]

'back in the late 90s getting a startup big enough to get onto the stock market was the thing to do now a market crash a great recession and a possible burst later investors are and the public stock market is increasingly volatile still going public is often viewed as the end goal for ambitious young tech companies heres how and why startups wind up on the stock market and why back in the late 90s getting a startup big'

Если последовательно применить код из задач 8-11 к строке ```"   It's 6 a.m. and I'm still doing this homework :((    "```, то она преобразуется в строку  ```its 6 am and im still doing this homework```


Снова найдите в датафрейме всех авторов, имя которых содержит faith. Проверьте, что теперь различные способы написания «схлопываются» в один.

In [None]:
df.author = df.author.str.replace(r'[^\w\s]+', '')
df.author = df.author.str.strip()
df.author = df.author.str.replace(' +', ' ')

In [None]:
pd.Series(df[df.author.str.contains('faith')].author.unique())

0    faith haleh robinson
1            faith karimi
dtype: object