## Установка pandas

Установим библиотеку pandas:

In [None]:
!pip install pandas

и импортируем ее:

In [41]:
import pandas as pd

## 1. Объекты Series и DataFrame

Объект `Series` – одномерные массив, состоящий из элементов и их индексов:

In [42]:
series_example = pd.Series(['a', 48, 'd', 'hello115'])
series_example

0           a
1          48
2           d
3    hello115
dtype: object

Здесь:  
`0`, `1`, `2`, `3` – индексы.  
`a`, `48`, `d`, `hello115` – элементы.

Объект `DataFrame` – многомерный массив, как таблица в Excel.

In [43]:
df = pd.DataFrame({
     'telephone number': [123456789, 123679, 15645445, 564645546],
     'name': ['John', 'Jim', 'Kotowski', 'Lebowski'],
})

df

Unnamed: 0,telephone number,name
0,123456789,John
1,123679,Jim
2,15645445,Kotowski
3,564645546,Lebowski


Здесь:  
`telephone number`, `name` – названия столбцов с соответствующими значениями `123456789 ...`, `John ...`.

## 2. Импорт файлов и просмотр содержимого

Импортируем датасет ([оригинал](https://www.kaggle.com/dhruvildave/google-trends-dataset)) с популярными поисковыми запросами Google с 2000 по 2020 год. При импорте csv-файла все данные сохраняются в датафрейм `df`:

In [44]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')

Аналогично есть команды для импорта других файлов:  

`read_excel()` – импорт excel-файла.  
`read_sql()` – импорт базы данных SQL.  
`read_json(json_string)` – импорт json-файла.  
`read_html(url)` – создает из HTML-таблицы список объектов DataFrame.  

Выведем содержимое датафрейма на экран:

In [45]:
print(df)

      location  year         category  rank                query
0       Global  2001  Consumer Brands     1                Nokia
1       Global  2001  Consumer Brands     2                 Sony
2       Global  2001  Consumer Brands     3                  BMW
3       Global  2001  Consumer Brands     4                 Palm
4       Global  2001  Consumer Brands     5                Adobe
...        ...   ...              ...   ...                  ...
26950  Vietnam  2020           Là Gì?     1   Virus Corona là gì
26951  Vietnam  2020           Là Gì?     2  Miễn thị thực là gì
26952  Vietnam  2020           Là Gì?     3    Đầu cắt moi là gì
26953  Vietnam  2020           Là Gì?     4  Bệnh bạch hầu là gì
26954  Vietnam  2020           Là Gì?     5       Đông Lào là gì

[26955 rows x 5 columns]


Отображаются первые и последние пять строчек.

Чаще всего значения в датасетах разделяются запятой (рис.). Чтобы задать другой разделитель добавим параметр `sep=""`. По умолчанию разделитель между столбцами – запятая.
В нашем случае получаем:

In [46]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv', sep=",")
df

Unnamed: 0,location,year,category,rank,query
0,Global,2001,Consumer Brands,1,Nokia
1,Global,2001,Consumer Brands,2,Sony
2,Global,2001,Consumer Brands,3,BMW
3,Global,2001,Consumer Brands,4,Palm
4,Global,2001,Consumer Brands,5,Adobe
...,...,...,...,...,...
26950,Vietnam,2020,Là Gì?,1,Virus Corona là gì
26951,Vietnam,2020,Là Gì?,2,Miễn thị thực là gì
26952,Vietnam,2020,Là Gì?,3,Đầu cắt moi là gì
26953,Vietnam,2020,Là Gì?,4,Bệnh bạch hầu là gì


Посмотрим первые пять строчек датафрейма с помощью `df.head(5)`:

In [47]:
df.head(5)

Unnamed: 0,location,year,category,rank,query
0,Global,2001,Consumer Brands,1,Nokia
1,Global,2001,Consumer Brands,2,Sony
2,Global,2001,Consumer Brands,3,BMW
3,Global,2001,Consumer Brands,4,Palm
4,Global,2001,Consumer Brands,5,Adobe


последние 5 строчек:

In [48]:
df.tail(5)

Unnamed: 0,location,year,category,rank,query
26950,Vietnam,2020,Là Gì?,1,Virus Corona là gì
26951,Vietnam,2020,Là Gì?,2,Miễn thị thực là gì
26952,Vietnam,2020,Là Gì?,3,Đầu cắt moi là gì
26953,Vietnam,2020,Là Gì?,4,Bệnh bạch hầu là gì
26954,Vietnam,2020,Là Gì?,5,Đông Lào là gì


и пять случайных строчек:

In [49]:
df.sample(5)

Unnamed: 0,location,year,category,rank,query
8985,Indonesia,2014,Pertandingan Piala Dunia,1,Jerman Vs Argentina
13000,United States,2015,NBA Players,1,Stephen Curry
25082,India,2020,Near me,3,Crackers shop near me
3645,Hungary,2012,Recipe,1,Csirkemell Recept
22839,Netherlands,2019,Sporters,5,Neymar


Узнаем количество строчек и столбцов:

In [50]:
df.shape

(26955, 5)

Здесь:  
26955 – количество строчек.  
5 – количество столбцов.

Выведем на экран содержимое датафрейма:

In [51]:
df.info

<bound method DataFrame.info of       location  year         category  rank                query
0       Global  2001  Consumer Brands     1                Nokia
1       Global  2001  Consumer Brands     2                 Sony
2       Global  2001  Consumer Brands     3                  BMW
3       Global  2001  Consumer Brands     4                 Palm
4       Global  2001  Consumer Brands     5                Adobe
...        ...   ...              ...   ...                  ...
26950  Vietnam  2020           Là Gì?     1   Virus Corona là gì
26951  Vietnam  2020           Là Gì?     2  Miễn thị thực là gì
26952  Vietnam  2020           Là Gì?     3    Đầu cắt moi là gì
26953  Vietnam  2020           Là Gì?     4  Bệnh bạch hầu là gì
26954  Vietnam  2020           Là Gì?     5       Đông Lào là gì

[26955 rows x 5 columns]>

и использованной памяти:

In [52]:
df.info(memory_usage=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26955 entries, 0 to 26954
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   location  26955 non-null  object
 1   year      26955 non-null  int64 
 2   category  26955 non-null  object
 3   rank      26955 non-null  int64 
 4   query     26955 non-null  object
dtypes: int64(2), object(3)
memory usage: 1.0+ MB


Иногда при импорте данных числа принимают тип `объект` и при обработке данных возникает ошибка. Поэтому проверим какие типы данных находятся в каждом столбце:

In [53]:
df.dtypes

location    object
year         int64
category    object
rank         int64
query       object
dtype: object

Здесь:  
`object` – строчка.  
`int64` – целое число.  

Часто встречаемые типы данных:  
`float64` – вещественное число.  
`datetime64` – дата и время.  
`bool` – значения `True` или `False`.  


Узнаем названия всех столбцов:

In [54]:
df.columns

Index(['location', 'year', 'category', 'rank', 'query'], dtype='object')

Выведем значения только столбца `query`:

In [55]:
df['query']

0                      Nokia
1                       Sony
2                        BMW
3                       Palm
4                      Adobe
                ...         
26950     Virus Corona là gì
26951    Miễn thị thực là gì
26952      Đầu cắt moi là gì
26953    Bệnh bạch hầu là gì
26954         Đông Lào là gì
Name: query, Length: 26955, dtype: object

и значения нескольких столбцов:

In [56]:
df[['location', 'category']]

Unnamed: 0,location,category
0,Global,Consumer Brands
1,Global,Consumer Brands
2,Global,Consumer Brands
3,Global,Consumer Brands
4,Global,Consumer Brands
...,...,...
26950,Vietnam,Là Gì?
26951,Vietnam,Là Gì?
26952,Vietnam,Là Gì?
26953,Vietnam,Là Gì?


Через срез отобразим первые двадцать значений столбца `query`:

In [57]:
df['query'][0:20]

0                 Nokia
1                  Sony
2                   BMW
3                  Palm
4                 Adobe
5           Nostradamus
6       Osama bin Laden
7                Eminem
8       Michael Jackson
9          Howard Stern
10         Harry Potter
11    Lord of the Rings
12        Final Fantasy
13          Tomb Raider
14                Shrek
15             Morpheus
16              Napster
17             Gnutella
18                Kazaa
19          Audiogalaxy
Name: query, dtype: object

В нашем датасете индексы являются числами. Это не очень удобно для понимания, как работает `loc` и `iloc`, поэтому создадим небольшой датафрейм с элементами типа `str` в виде индексов:

In [58]:
df = pd.DataFrame([[1, 2], [3, 4], [5, 6]],
     index=['phone', 'telegram', 'letter'],
     columns=['max_speed', 'cost'])
df

Unnamed: 0,max_speed,cost
phone,1,2
telegram,3,4
letter,5,6


`loc` выдает строки и/или столбцы по нечисловому значению индекса:

In [59]:
df.loc['phone']

max_speed    1
cost         2
Name: phone, dtype: int64

`iloc` получает строки и/или столбцы по числовому индексу:

In [60]:
df.iloc[0]

max_speed    1
cost         2
Name: phone, dtype: int64

Вернемся к основному датафрейму:

In [61]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')

Выведем первые пять строчек с помощью `iloc`:

In [62]:
df.iloc[0:5]

Unnamed: 0,location,year,category,rank,query
0,Global,2001,Consumer Brands,1,Nokia
1,Global,2001,Consumer Brands,2,Sony
2,Global,2001,Consumer Brands,3,BMW
3,Global,2001,Consumer Brands,4,Palm
4,Global,2001,Consumer Brands,5,Adobe


Узнаем какой элемент записан в третьей строчке и пятом столбце:

In [63]:
df.iloc[2,4]

'BMW'

Выведем значения всех строчек с помощью метода `iterrows()`:

In [64]:
for index, row in df.iterrows():
    print(row)

location             Global
year                   2001
category    Consumer Brands
rank                      1
query                 Nokia
Name: 0, dtype: object
location             Global
year                   2001
category    Consumer Brands
rank                      2
query                  Sony
Name: 1, dtype: object
location             Global
year                   2001
category    Consumer Brands
rank                      3
query                   BMW
Name: 2, dtype: object
location             Global
year                   2001
category    Consumer Brands
rank                      4
query                  Palm
Name: 3, dtype: object
location             Global
year                   2001
category    Consumer Brands
rank                      5
query                 Adobe
Name: 4, dtype: object
location         Global
year               2001
category            Men
rank                  1
query       Nostradamus
Name: 5, dtype: object
location             Global
year          

Name: 174, dtype: object
location             Global
year                   2003
category    Consumer Brands
rank                      1
query               Ferrari
Name: 175, dtype: object
location             Global
year                   2003
category    Consumer Brands
rank                      2
query                  Sony
Name: 176, dtype: object
location             Global
year                   2003
category    Consumer Brands
rank                      3
query                   BMW
Name: 177, dtype: object
location             Global
year                   2003
category    Consumer Brands
rank                      4
query                Disney
Name: 178, dtype: object
location             Global
year                   2003
category    Consumer Brands
rank                      5
query               Ryanair
Name: 179, dtype: object
location                 Global
year                       2003
category    Earthquake Searches
rank                          1
query                E

Name: 346, dtype: object
location       Global
year             2004
category    Countries
rank                3
query           India
Name: 347, dtype: object
location       Global
year             2004
category    Countries
rank                4
query            Iraq
Name: 348, dtype: object
location       Global
year             2004
category    Countries
rank                5
query            Iran
Name: 349, dtype: object
location            Global
year                  2004
category    Deaths of 2004
rank                     1
query        Nicholas Berg
Name: 350, dtype: object
location               Global
year                     2004
category       Deaths of 2004
rank                        2
query       Christopher Reeve
Name: 351, dtype: object
location            Global
year                  2004
category    Deaths of 2004
rank                     3
query        Spalding Gray
Name: 352, dtype: object
location            Global
year                  2004
category    Deaths of

Name: 536, dtype: object
location       Global
year             2006
category    Who is...
rank                3
query       Who is EU
Name: 537, dtype: object
location        Global
year              2006
category     Who is...
rank                 4
query       Who is Hot
Name: 538, dtype: object
location           Global
year                 2006
category        Who is...
rank                    5
query       Who is Capote
Name: 539, dtype: object
location          United States
year                       2006
category        Movie Showtimes
rank                          1
query       Idiocracy Showtimes
Name: 540, dtype: object
location      United States
year                   2006
category    Movie Showtimes
rank                      2
query        Cars Showtimes
Name: 541, dtype: object
location      United States
year                   2006
category    Movie Showtimes
rank                      3
query       Borat Showtimes
Name: 542, dtype: object
location         United States

Name: 736, dtype: object
location              Argentina
year                       2008
category    Conflicto del Campo
rank                          3
query                  Kirchner
Name: 737, dtype: object
location              Argentina
year                       2008
category    Conflicto del Campo
rank                          4
query        Alfredo De Angelis
Name: 738, dtype: object
location              Argentina
year                       2008
category    Conflicto del Campo
rank                          5
query                     Cobos
Name: 739, dtype: object
location    Argentina
year             2008
category     Economia
rank                1
query           Dolar
Name: 740, dtype: object
location    Argentina
year             2008
category     Economia
rank                2
query             PBI
Name: 741, dtype: object
location    Argentina
year             2008
category     Economia
rank                3
query          Rentas
Name: 742, dtype: object
location    Arg

Name: 927, dtype: object
location      Colombia
year              2008
category    Los Viajes
rank                 4
query        Argentina
Name: 928, dtype: object
location      Colombia
year              2008
category    Los Viajes
rank                 5
query           Panamá
Name: 929, dtype: object
location         Colombia
year                 2008
category    Más Populares
rank                    1
query       Juegos Juegos
Name: 930, dtype: object
location         Colombia
year                 2008
category    Más Populares
rank                    2
query              Juegos
Name: 931, dtype: object
location         Colombia
year                 2008
category    Más Populares
rank                    3
query            Colombia
Name: 932, dtype: object
location         Colombia
year                 2008
category    Más Populares
rank                    4
query             YouTube
Name: 933, dtype: object
location         Colombia
year                 2008
category    Más Popular

Name: 1146, dtype: object
location                     Malaysia
year                             2008
category    Local Travel Destinations
rank                                3
query                Genting Highland
Name: 1147, dtype: object
location                     Malaysia
year                             2008
category    Local Travel Destinations
rank                                4
query                    Port Dickson
Name: 1148, dtype: object
location                     Malaysia
year                             2008
category    Local Travel Destinations
rank                                5
query                          Melaka
Name: 1149, dtype: object
location        Malaysia
year                2008
category    Most Popular
rank                   1
query            YouTube
Name: 1150, dtype: object
location        Malaysia
year                2008
category    Most Popular
rank                   2
query              Yahoo
Name: 1151, dtype: object
location        Malaysia

Name: 1367, dtype: object
location                      Spain
year                           2008
category                      Blogs
rank                              4
query       El Blog De Risto Mejide
Name: 1368, dtype: object
location                  Spain
year                       2008
category                  Blogs
rank                          5
query       El Blog De Banyeres
Name: 1369, dtype: object
location           Spain
year                2008
category       Ministers
rank                   1
query       Bibiana Aído
Name: 1370, dtype: object
location           Spain
year                2008
category       Ministers
rank                   2
query       Pedro Solbes
Name: 1371, dtype: object
location                                Spain
year                                     2008
category                            Ministers
rank                                        3
query       María Teresa Fernández de la Vega
Name: 1372, dtype: object
location                

Name: 1565, dtype: object
location                    Global
year                          2009
category    People: Fastest Rising
rank                             2
query                    Lady Gaga
Name: 1566, dtype: object
location                    Global
year                          2009
category    People: Fastest Rising
rank                             3
query              Michael Jackson
Name: 1567, dtype: object
location                    Global
year                          2009
category    People: Fastest Rising
rank                             4
query             Robert Pattinson
Name: 1568, dtype: object
location                    Global
year                          2009
category    People: Fastest Rising
rank                             5
query                    Megan Fox
Name: 1569, dtype: object
location                                         Global
year                                               2009
category    Searches Related to Economy: Fastest Rising
ra

Name: 1780, dtype: object
location           Malaysia
year                   2009
category     Fastest Rising
rank                      2
query       Michael Jackson
Name: 1781, dtype: object
location          Malaysia
year                  2009
category    Fastest Rising
rank                     3
query       Elizabeth Wong
Name: 1782, dtype: object
location           Malaysia
year                   2009
category     Fastest Rising
rank                      4
query       Utusan Malaysia
Name: 1783, dtype: object
location          Malaysia
year                  2009
category    Fastest Rising
rank                     5
query            Dragonica
Name: 1784, dtype: object
location        Mexico
year              2009
category    Emergentes
rank                 1
query          Taringa
Name: 1785, dtype: object
location        Mexico
year              2009
category    Emergentes
rank                 2
query          Youtube
Name: 1786, dtype: object
location        Mexico
year           

Name: 1998, dtype: object
location        Global
year              2010
category        Sports
rank                 5
query       Randy Moss
Name: 1999, dtype: object
location          Global
year                2010
category    Top Trending
rank                   1
query       Chatroulette
Name: 2000, dtype: object
location          Global
year                2010
category    Top Trending
rank                   2
query               iPad
Name: 2001, dtype: object
location           Global
year                 2010
category     Top Trending
rank                    3
query       Justin Bieber
Name: 2002, dtype: object
location          Global
year                2010
category    Top Trending
rank                   4
query        Nicki Minaj
Name: 2003, dtype: object
location          Global
year                2010
category    Top Trending
rank                   5
query               Friv
Name: 2004, dtype: object
location                             Germany
year                        

Name: 2224, dtype: object
location    Czechia
year           2011
category     People
rank              1
query         Adele
Name: 2225, dtype: object
location          Czechia
year                 2011
category           People
rank                    2
query       Amy Winehouse
Name: 2226, dtype: object
location       Czechia
year              2011
category        People
rank                 3
query       Steve Jobs
Name: 2227, dtype: object
location                Czechia
year                       2011
category                 People
rank                          4
query       Dominika myslivcová
Name: 2228, dtype: object
location       Czechia
year              2011
category        People
rank                 5
query       Bruno Mars
Name: 2229, dtype: object
location                Czechia
year                       2011
category    Travel Destinations
rank                          1
query                   Turecko
Name: 2230, dtype: object
location                Czechia
year  

Name: 2443, dtype: object
location                  Mexico
year                        2011
category                  Sports
rank                           5
query       Juegos panamericanos
Name: 2444, dtype: object
location                 Netherlands
year                            2011
category    Fastest Rising Searches 
rank                               1
query                         Sponet
Name: 2445, dtype: object
location                 Netherlands
year                            2011
category    Fastest Rising Searches 
rank                               2
query                   Secret Story
Name: 2446, dtype: object
location                 Netherlands
year                            2011
category    Fastest Rising Searches 
rank                               3
query                       iPhone 5
Name: 2447, dtype: object
location                 Netherlands
year                            2011
category    Fastest Rising Searches 
rank                               4
qu

Name: 2660, dtype: object
location         Sweden
year               2011
category    TV Programs
rank                  2
query         Bolibompa
Name: 2661, dtype: object
location                  Sweden
year                        2011
category             TV Programs
rank                           3
query       Melodfestivalen 2011
Name: 2662, dtype: object
location             Sweden
year                   2011
category        TV Programs
rank                      4
query       Game Of Thrones
Name: 2663, dtype: object
location         Sweden
year               2011
category    TV Programs
rank                  5
query         Idol 2011
Name: 2664, dtype: object
location                Switzerland
year                           2011
category    Fastest Rising Searches
rank                              1
query                          Dsds
Name: 2665, dtype: object
location                Switzerland
year                           2011
category    Fastest Rising Searches
rank       

location         United States
year                      2011
category    Pop Culture / Toys
rank                         2
query            Unova Pokédex
Name: 2881, dtype: object
location         United States
year                      2011
category    Pop Culture / Toys
rank                         3
query               Fluttershy
Name: 2882, dtype: object
location         United States
year                      2011
category    Pop Culture / Toys
rank                         4
query             LEGO Ninjago
Name: 2883, dtype: object
location         United States
year                      2011
category    Pop Culture / Toys
rank                         5
query             Rainbow Dash
Name: 2884, dtype: object
location             United States
year                          2011
category    Pop Culture / TV Shows
rank                             1
query               Big Brother 13
Name: 2885, dtype: object
location             United States
year                          2011
categ

KeyboardInterrupt: 

 и с помощью `iloc()`:

In [65]:
for i in range(len(df.index)):
    print(df.iloc[i])

location             Global
year                   2001
category    Consumer Brands
rank                      1
query                 Nokia
Name: 0, dtype: object
location             Global
year                   2001
category    Consumer Brands
rank                      2
query                  Sony
Name: 1, dtype: object
location             Global
year                   2001
category    Consumer Brands
rank                      3
query                   BMW
Name: 2, dtype: object
location             Global
year                   2001
category    Consumer Brands
rank                      4
query                  Palm
Name: 3, dtype: object
location             Global
year                   2001
category    Consumer Brands
rank                      5
query                 Adobe
Name: 4, dtype: object
location         Global
year               2001
category            Men
rank                  1
query       Nostradamus
Name: 5, dtype: object
location             Global
year          

Name: 176, dtype: object
location             Global
year                   2003
category    Consumer Brands
rank                      3
query                   BMW
Name: 177, dtype: object
location             Global
year                   2003
category    Consumer Brands
rank                      4
query                Disney
Name: 178, dtype: object
location             Global
year                   2003
category    Consumer Brands
rank                      5
query               Ryanair
Name: 179, dtype: object
location                 Global
year                       2003
category    Earthquake Searches
rank                          1
query                Earthquake
Name: 180, dtype: object
location                   Global
year                         2003
category      Earthquake Searches
rank                            2
query       California Earthquake
Name: 181, dtype: object
location                 Global
year                       2003
category    Earthquake Searches
rank

Name: 355, dtype: object
location           Global
year                 2004
category    Entertainment
rank                    2
query              Movies
Name: 356, dtype: object
location           Global
year                 2004
category    Entertainment
rank                    3
query           Nightclub
Name: 357, dtype: object
location           Global
year                 2004
category    Entertainment
rank                    4
query                 Pub
Name: 358, dtype: object
location           Global
year                 2004
category    Entertainment
rank                    5
query                 Zoo
Name: 359, dtype: object
location                     Global
year                           2004
category    Female Celebrity Images
rank                              1
query                Britney Spears
Name: 360, dtype: object
location                     Global
year                           2004
category    Female Celebrity Images
rank                              2
query 

Name: 537, dtype: object
location        Global
year              2006
category     Who is...
rank                 4
query       Who is Hot
Name: 538, dtype: object
location           Global
year                 2006
category        Who is...
rank                    5
query       Who is Capote
Name: 539, dtype: object
location          United States
year                       2006
category        Movie Showtimes
rank                          1
query       Idiocracy Showtimes
Name: 540, dtype: object
location      United States
year                   2006
category    Movie Showtimes
rank                      2
query        Cars Showtimes
Name: 541, dtype: object
location      United States
year                   2006
category    Movie Showtimes
rank                      3
query       Borat Showtimes
Name: 542, dtype: object
location         United States
year                      2006
category       Movie Showtimes
rank                         4
query       Superman Showtimes
Name: 543,

Name: 743, dtype: object
location    Argentina
year             2008
category     Economia
rank                5
query          Crisis
Name: 744, dtype: object
location    Argentina
year             2008
category       Fútbol
rank                1
query            Boca
Name: 745, dtype: object
location    Argentina
year             2008
category       Fútbol
rank                2
query           River
Name: 746, dtype: object
location      Argentina
year               2008
category         Fútbol
rank                  3
query       San Lorenzo
Name: 747, dtype: object
location    Argentina
year             2008
category       Fútbol
rank                4
query          Racing
Name: 748, dtype: object
location        Argentina
year                 2008
category           Fútbol
rank                    5
query       Independiente
Name: 749, dtype: object
location    Argentina
year             2008
category       Google
rank                1
query          Google
Name: 750, dtype: object


Name: 922, dtype: object
location      Colombia
year              2008
category    Escándalos
rank                 4
query          Belinda
Name: 923, dtype: object
location           Colombia
year                   2008
category         Escándalos
rank                      5
query       Vanessa Hudgens
Name: 924, dtype: object
location      Colombia
year              2008
category    Los Viajes
rank                 1
query           Bogotá
Name: 925, dtype: object
location      Colombia
year              2008
category    Los Viajes
rank                 2
query         Medellin
Name: 926, dtype: object
location      Colombia
year              2008
category    Los Viajes
rank                 3
query       San Andrés
Name: 927, dtype: object
location      Colombia
year              2008
category    Los Viajes
rank                 4
query        Argentina
Name: 928, dtype: object
location      Colombia
year              2008
category    Los Viajes
rank                 5
query           Pa

Name: 1104, dtype: object
location       Italy
year            2008
category    Concerto
rank               1
query          Vasco
Name: 1105, dtype: object
location       Italy
year            2008
category    Concerto
rank               2
query        Ligabue
Name: 1106, dtype: object
location       Italy
year            2008
category    Concerto
rank               3
query        Madonna
Name: 1107, dtype: object
location        Italy
year             2008
category     Concerto
rank                4
query       Jovanotti
Name: 1108, dtype: object
location        Italy
year             2008
category     Concerto
rank                5
query       Negramaro
Name: 1109, dtype: object
location           Italy
year                2008
category       Incentivi
rank                   1
query       Rottamazione
Name: 1110, dtype: object
location        Italy
year             2008
category    Incentivi
rank                2
query             GPL
Name: 1111, dtype: object
location        Italy


Name: 1307, dtype: object
location       Singapore
year                2008
category    Most Popular
rank                   4
query                Map
Name: 1308, dtype: object
location       Singapore
year                2008
category    Most Popular
rank                   5
query             Google
Name: 1309, dtype: object
location           Singapore
year                    2008
category              Sports
rank                       1
query       Beijing Olympics
Name: 1310, dtype: object
location                Singapore
year                         2008
category                   Sports
rank                            2
query       Table Tennis Olympics
Name: 1311, dtype: object
location         Singapore
year                  2008
category            Sports
rank                     3
query       Olympics Medal
Name: 1312, dtype: object
location    Singapore
year             2008
category       Sports
rank                4
query          Tao Li
Name: 1313, dtype: object
location

Name: 1511, dtype: object
location           Global
year                 2009
category    Entertainment
rank                    3
query              Eminem
Name: 1512, dtype: object
location              Global
year                    2009
category       Entertainment
rank                       4
query       Naruto Shippuden
Name: 1513, dtype: object
location           Global
year                 2009
category    Entertainment
rank                    5
query             Beyoncé
Name: 1514, dtype: object
location                             Global
year                                   2009
category    Events: Fastest Rising Searches
rank                                      1
query                                  VMAs
Name: 1515, dtype: object
location                                               Global
year                                                     2009
category                      Events: Fastest Rising Searches
rank                                                       

Name: 1701, dtype: object
location    Dominican Republic
year                      2009
category            Emergentes
rank                         3
query             Facebook.com
Name: 1702, dtype: object
location    Dominican Republic
year                      2009
category            Emergentes
rank                         4
query                 Facebook
Name: 1703, dtype: object
location    Dominican Republic
year                      2009
category            Emergentes
rank                         5
query               Blackberry
Name: 1704, dtype: object
location            Ecuador
year                   2009
category         Emergentes
rank                      1
query       Michael jackson
Name: 1705, dtype: object
location       Ecuador
year              2009
category    Emergentes
rank                 2
query         Facebook
Name: 1706, dtype: object
location       Ecuador
year              2009
category    Emergentes
rank                 3
query          Hi5.com
Name: 170

KeyboardInterrupt: 

Отобразим все элементы столбца `query`:

In [66]:
for index, row in df.iterrows():
    print(row['query'])

Nokia
Sony
BMW
Palm
Adobe
Nostradamus
Osama bin Laden
Eminem
Michael Jackson
Howard Stern
Harry Potter
Lord of the Rings
Final Fantasy
Tomb Raider
Shrek
Morpheus
Napster
Gnutella
Kazaa
Audiogalaxy
Beatles
U2
N Sync
Backstreet Boys
Linkin Park
Windows XP
Xbox
PlayStation 2
GameCube
Nokia 5510
CNN
BBC
New York Times
MSNBC
Washington Post
Amazon
IKEA
Toys "R" Us
Walmart
Circuit City
Anna Kournikova
Tour de France
Dale Earnhardt
Wimbledon
US Open
Loft Story
Big Brother
The Simpsons
Survivor
Gran Hermano
Counterstrike
The Sims
Operation Flashpoint
Moorhuhn 3
Wolfenstein
Britney Spears
Pamela Anderson
Jennifer Lopez
Madonna
Aaliyah
David Beckham
Anna Kournikova
Ronaldo
Kobe Bryant
Zinedine Zidane
Ferrari
Sony
Nokia
Disney
IKEA
The Simpsons
Pokémon
Snoopy
Superman
Batman
Eminem
Brad Pitt
David Beckham
Josh Hartnett
2Pac
Spiderman
Harry Potter
Star Wars
Jackass
Scooby Doo
Eminem
Shakira
Madonna
Nelly
2Pac
World Cup
Iraq
Sniper
Hurricane Lili
Hochwasser
IKEA
Home Depot
Walmart
Best Buy
Sears
MP

Mam Talent
Prison Break
Lost
Doda
Feel
Harry Potter
Rihanna
Jozin Z Bazin
Kтулху
Девид Блэйн
Mенеджер
Kто ты такой
Mедведев
Цвет глаз
Голос
Цвет волос
Имидж
Cудьбу
Pанетки
Дима Билан
Путин
Бритни Спирс
Mедведев
Фото
Игры
Kарта
MP3
Погода
Oлимпиада в пекине
Eвро 2008
Bойна грузия осетия
Kризис
Kоллайдер
Singapore Olympics
Singapore Table Tennis
Singapore Terrorist
Youth Olympics
3G iPhone
Maxwell Hawker Centre
Newton Hawker Centre
Chinatown Hawker Centre
Adam Road Hawker Centre
East Coast Park Hawker Centre
Chicken Rice
Punggol Crab Noodle
Drunk Prawn
Kaya Toast
Popiah
Lyrics
YouTube
Yahoo
Map
Google
Beijing Olympics
Table Tennis Olympics
Olympics Medal
Tao Li
Usain Bolt
Facebook
Cape Town
Games
Map
Yahoo
DJ Sbu
DJ Fresh
DJ Cleo
Kelly Khumalo
Danny K
Load Shedding
FIFA 2010 World Cup
Beijing Olympics
Barack Obama
Global Warming
Jacob Zuma
Thabo Mbeki
Trevor Manuel
Julius Malema
Kgalema Motlanthe
The Sharks
Kaizer Chiefs
The Lions
Mamelodi Sundowns
Bafana Bafana
장백지
소녀시대
최진실
원더걸스
Hilton(

Hongkong
Maldives
Kuching
Paris
Kayman Islands
Farma
Superstar 2011
iPhone 5
Pavol Demitra
Zľava Dňa
Pavol Demitra
Amy Winehouse
Bruno Mars
Louis Vuitton
Nicole Scherzinger
Whatsapp
Rugby World Cup
Royal Wedding
Facebook
Amy Winehouse
Judas
Super Bass
Adele
Man Down
Coming Home
Amy Winehouse
Adele
Gaddafi
Steve Jobs
Darren Scott
로또 복권
연금복권
나가수
임재범
갤럭시 s2
임재범
송지선
오인혜
박정현
지나
Elecciones 2011
Bankia
Atrapa Un Millón
Whatsapp
Dieta Dukan
Gadafi
Pablo Alboran
Amy Winehouse
Jennifer López
Paula Echevarría
Pannkakor
Äpplepaj
Cupcakes
Macarons
Rabarberpaj
iPhone 5
Big Brother
Minecraft
Hotmail.se
Tankafetast
Minecraft
Moviestarplanet
Battlefield 3
Wordfeud
League Of Legends
Eric Saade
Veronica Maggio
Anders Behring Breivik
Amanda Schulman
Justin Bieber
Lchf
Lchf Recept
Linas Matkasse
Recept.Nu
Matkasse
Big Brother
Bolibompa
Melodfestivalen 2011
Game Of Thrones
Idol 2011
Dsds
Sbb Fahrplan
Dsk
iPhone 5
Battlefield 3
Dsk
Amy Winehouse
Steve Jobs
Adele
Kate Middleton
Google+
Facebook
iPad 2
塑化劑
iPh

伤不起
那些年
Someone Like You
Hey Jude
Alejandra Azcárate
Roberto Gomez Bolaños
Paola Turbay
Manolo Cardona
Heath Ledger
Rodrigo Lara Bonilla
Sigifredo Lopez
Fernando Londoño
Luis Carlos Galán
Gustavo Petro
Ben 10
Blancanieves
Chespirito
Mi pequeño Pony
Monsters Inc 2
Whitney Houston
Adele
Ricardo Montaner
Paul Mccartney
Carlos Vives
Mariana Pajón
Elianis Garrido
Pablo Escobar
Whitney Houston
Adele
Claro
Lan
Kizi
Transformice
Mariana Pajón
Gangnam Style
Escápate conmigo
Fuiste tu
Solitaria
Mosa Mosa asi voce me mata
David Rath
Aneta Savarová
Ornella Štiková
Jaro Slávik
Ivanna Benešová
Whitney Houston
David Rath
Felix Baumgartner
Michael Clarke Duncan
Adele
Hotel Paradise
Farma
Diablo 3
ČT4
Hlas Česko Slovenska
Co je Tablet
Co je Andy
Co je Acta
Co je Iban
Co je Rpsn
Shaka Loveless
Nikoline Simone
Sharin Foo
Frederik Fetterlein
Joakim Ingversen
iPad 3
iPhone 4S
iPad Mini
Nexus 7
iPad 4
Hvordan Hæver Man Efterløn
Hvordan Laver Man Qr Koder
Hvordan Udtales Wordfeud
Hvordan Pifter Man
Hvordan S

Netflix
Juegos Olímpicos 2012
Tenis
Cruz Azul
Tiro
NFL
Londres
Manhattan
Madrid
Roma
Playa del Carmen
Abismo de Pasión
Por ella soy Eva
Walking Dead
Amores Verdaderos
Juegos Olímpicos
Restschuld
Open huizen dag
Scheefwonen
Funda
Prijsdaling
One Direction
Bloemen
Love
Voetbal
Hartje
Friso
Kate Middleton
Whitney Houston
Badr Hari
Estelle Gullit
Stemwijzer
EK 2012
Friso
Boer Zoekt Vrouw
Elfstedentocht
Vomar Voordeelmarkt
Jumbo
Nettorama
Lidl
Albert Heijn
Wat is nivelleren
Wat is forensentaks
Wat is sopa
Wat is instagram
Wat is buitenspel
How to screenshot
How to love
How to study
How to geocache
How to shuffle
Kim Dotcom
Tongariro
Transit Of Venus
Belarus
Marmite
Valerie Adams
Kimbra
Sarah Walker
Margaret Mahy
Mahe Drysdale
Usain Bolt
Valerie Adams
Tom Daley
Michael Phelps
Sarah Walker
Whitney Houston
Reece Mastin
Morgan Freeman
Usain Bolt
Michael Clarke Duncan
Olympics
Volvo Ocean Race
One Direction
Kizi
Whitney Houston
Gangnam Style Lyrics
Titanium Lyrics
Payphone Lyrics
Some Nights Lyr

KeyboardInterrupt: 

иначе:

In [67]:
for i in range(len(df.index)):
    print(df.iloc[i]['query'])

Nokia
Sony
BMW
Palm
Adobe
Nostradamus
Osama bin Laden
Eminem
Michael Jackson
Howard Stern
Harry Potter
Lord of the Rings
Final Fantasy
Tomb Raider
Shrek
Morpheus
Napster
Gnutella
Kazaa
Audiogalaxy
Beatles
U2
N Sync
Backstreet Boys
Linkin Park
Windows XP
Xbox
PlayStation 2
GameCube
Nokia 5510
CNN
BBC
New York Times
MSNBC
Washington Post
Amazon
IKEA
Toys "R" Us
Walmart
Circuit City
Anna Kournikova
Tour de France
Dale Earnhardt
Wimbledon
US Open
Loft Story
Big Brother
The Simpsons
Survivor
Gran Hermano
Counterstrike
The Sims
Operation Flashpoint
Moorhuhn 3
Wolfenstein
Britney Spears
Pamela Anderson
Jennifer Lopez
Madonna
Aaliyah
David Beckham
Anna Kournikova
Ronaldo
Kobe Bryant
Zinedine Zidane
Ferrari
Sony
Nokia
Disney
IKEA
The Simpsons
Pokémon
Snoopy
Superman
Batman
Eminem
Brad Pitt
David Beckham
Josh Hartnett
2Pac
Spiderman
Harry Potter
Star Wars
Jackass
Scooby Doo
Eminem
Shakira
Madonna
Nelly
2Pac
World Cup
Iraq
Sniper
Hurricane Lili
Hochwasser
IKEA
Home Depot
Walmart
Best Buy
Sears
MP

Thailand
YouTube
IRC
Iltalehti
Iltasanomat
You
Google
Nordea
Enrio
Nettiauto
Nokia
Johanna Tukiainen
Rakel Liekki
Duudsonit
Martina Aitolehti
Jussi Halla-aho
Helsinki
Tampere
Turku
Oulu
Jyväskylä
Iltalehti
Ilta-Sanomat
Yle
MTV3
City
OM
PSG
FFF
OL
Euro 2008
Sudoku
Billard
Poker
Mahjong
WOW
YouTube
Jeux
Yahoo
Pages Jaunes
Orange
Gina Lisa
Jonas Brothers
Miley Cyrus
Ostern
Em 2008
eBay
YouTube
Wetter
GMX
Google
Marketing
Harry Potter
Google
Goethe
Controlling
Fussball
Deutsche Bahn
Berlin
Olympia
Obama
Britney Spears
Heath Ledger
Obama
Bushido
Gina Lisa
陳冠希
鍾欣桐
Obama
張柏芝
趙碩之
Apple
ASUS
Nokia
Samsung
HP
奧運
吉野家
Typhoon
四川地震
AIG
YouTube
Facebook
香港討論區
Gmail
天文台
Obama
立法會選舉
Sarah Palin
黃毓民
US Election
Orkut
Gmail
Yahoo
Google
YouTube
How to Reduce Weight
How to Kiss
How to Earn Money
How to Get Pregnant
How to Learn English
Katrina Kaif
Aishwarya Rai
Salman Khan
Hrithik Roshan
Kareena Kapoor
Goa
Kerala
Kashmir
Dubai
Singapore
Orkut
Yahoo
Waptrick
Gmail
Games
Vasco
Ligabue
Madonna
Jovanotti
Ne

KeyboardInterrupt: 

Выведем строчки со значением `Consumer Brands` в столбце `Сategory`

In [68]:
df.loc[df['category'] == "Consumer Brands"]

Unnamed: 0,location,year,category,rank,query
0,Global,2001,Consumer Brands,1,Nokia
1,Global,2001,Consumer Brands,2,Sony
2,Global,2001,Consumer Brands,3,BMW
3,Global,2001,Consumer Brands,4,Palm
4,Global,2001,Consumer Brands,5,Adobe
65,Global,2002,Consumer Brands,1,Ferrari
66,Global,2002,Consumer Brands,2,Sony
67,Global,2002,Consumer Brands,3,Nokia
68,Global,2002,Consumer Brands,4,Disney
69,Global,2002,Consumer Brands,5,IKEA


## 3. Операции над строчками и столбцами

### 3.1. Объединение датафреймов

Создадим два датафрейма `df1` и `df2` и добавим столбцы из второго датафрейма в первый с помощью `concat()`. При этом индексы должны совпадать, иначе мы получим `NaN`:

In [69]:
df1 = pd.DataFrame([[1, 2], [3, 4], [5, 6]],
     index=['phone', 'telegram', 'letter'],
     columns=['max_speed', 'cost'])

df2 = pd.DataFrame([[7, 8], [9, 10], [11, 12]],
     index=['phone', 'telegram', 'letter'],
     columns=['average speed', 'min_speed'])

df1 = pd.concat([df1, df2], axis=1)
df1

Unnamed: 0,max_speed,cost,average speed,min_speed
phone,1,2,7,8
telegram,3,4,9,10
letter,5,6,11,12


Здесь:  
`df1` и `df2` – первый и второй датафрейм соответственно.

Добавим строчки датафрейма `df2` к `df1`. Названия столбцов должны совпадать, иначе получим `NaN`:

In [70]:
df1 = pd.DataFrame([[1, 2], [3, 4], [5, 6]],
     index=['phone', 'telegram', 'letter'],
     columns=['max_speed', 'cost'])

df2 = pd.DataFrame([[7, 8], [9, 10], [11, 12]],
     index=['smartphone', 'birdmail', 'email'],
     columns=['max_speed', 'cost'])

df1 = pd.concat([df1, df2], axis=0)
df1

Unnamed: 0,max_speed,cost
phone,1,2
telegram,3,4
letter,5,6
smartphone,7,8
birdmail,9,10
email,11,12


Добавим строчки методом `append()`:

In [71]:
df1 = pd.DataFrame([[1, 2], [3, 4], [5, 6]],
     index=['phone', 'telegram', 'letter'],
     columns=['max_speed', 'cost'])

df2 = pd.DataFrame([[7, 8], [9, 10], [11, 12]],
     index=['smartphone', 'birdmail', 'email'],
     columns=['max_speed', 'cost'])

df1 = df1.append(df2)
df1

Unnamed: 0,max_speed,cost
phone,1,2
telegram,3,4
letter,5,6
smartphone,7,8
birdmail,9,10
email,11,12


### 3.2. Добавление строчек и столбцов

Для добавления строчки создадим словарь `new_row` с названиям столбцов ввиде ключей:

In [72]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
new_row = {'location': 'Russia', 'year': 2021, 'category': 'Music', 'rank': 1, 'query': 'Artist Name'}
df = df.append(new_row, ignore_index=True)
df.tail(5)

Unnamed: 0,location,year,category,rank,query
26951,Vietnam,2020,Là Gì?,2,Miễn thị thực là gì
26952,Vietnam,2020,Là Gì?,3,Đầu cắt moi là gì
26953,Vietnam,2020,Là Gì?,4,Bệnh bạch hầu là gì
26954,Vietnam,2020,Là Gì?,5,Đông Lào là gì
26955,Russia,2021,Music,1,Artist Name


Чтобы добавить строчку в определенную позицию используем метод `loc`:

In [73]:
df.loc[2] = ['Russia', 2021, 'Music', 1, 'Artist Name']
df.head(5)

Unnamed: 0,location,year,category,rank,query
0,Global,2001,Consumer Brands,1,Nokia
1,Global,2001,Consumer Brands,2,Sony
2,Russia,2021,Music,1,Artist Name
3,Global,2001,Consumer Brands,4,Palm
4,Global,2001,Consumer Brands,5,Adobe


Здесь:  
`loc[2]` – вставляем строчку на место третьей строчки.

Следующая запись добавит новый столбец `new_column` справа и установит все строки на значение `new`:

In [74]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['new_column'] = 'new'
df.tail(5)

Unnamed: 0,location,year,category,rank,query,new_column
26950,Vietnam,2020,Là Gì?,1,Virus Corona là gì,new
26951,Vietnam,2020,Là Gì?,2,Miễn thị thực là gì,new
26952,Vietnam,2020,Là Gì?,3,Đầu cắt moi là gì,new
26953,Vietnam,2020,Là Gì?,4,Bệnh bạch hầu là gì,new
26954,Vietnam,2020,Là Gì?,5,Đông Lào là gì,new


Можно использовать метод `insert()`, чтобы указать, где должен быть новый столбец. У первого столбца индекс `0`:

In [75]:
df.insert(0, 'new_qwerty_column', 'qwerty')
df.head(5)

Unnamed: 0,new_qwerty_column,location,year,category,rank,query,new_column
0,qwerty,Global,2001,Consumer Brands,1,Nokia,new
1,qwerty,Global,2001,Consumer Brands,2,Sony,new
2,qwerty,Global,2001,Consumer Brands,3,BMW,new
3,qwerty,Global,2001,Consumer Brands,4,Palm,new
4,qwerty,Global,2001,Consumer Brands,5,Adobe,new


### 3.3. Удаление строчек и столбцов

Удалим последнюю строчку под номером `26954` c помощью `drop()`:

In [76]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df.tail(7)

Unnamed: 0,location,year,category,rank,query
26948,Vietnam,2020,Như Thế Nào?,4,Tuấn khỉ bị bắt như thế nào
26949,Vietnam,2020,Như Thế Nào?,5,Gấu đi như thế nào
26950,Vietnam,2020,Là Gì?,1,Virus Corona là gì
26951,Vietnam,2020,Là Gì?,2,Miễn thị thực là gì
26952,Vietnam,2020,Là Gì?,3,Đầu cắt moi là gì
26953,Vietnam,2020,Là Gì?,4,Bệnh bạch hầu là gì
26954,Vietnam,2020,Là Gì?,5,Đông Lào là gì


In [77]:
df = df.drop(26954, 0)
df.tail(7)

Unnamed: 0,location,year,category,rank,query
26947,Vietnam,2020,Như Thế Nào?,3,Bầu cử tổng thống mỹ như thế nào
26948,Vietnam,2020,Như Thế Nào?,4,Tuấn khỉ bị bắt như thế nào
26949,Vietnam,2020,Như Thế Nào?,5,Gấu đi như thế nào
26950,Vietnam,2020,Là Gì?,1,Virus Corona là gì
26951,Vietnam,2020,Là Gì?,2,Miễn thị thực là gì
26952,Vietnam,2020,Là Gì?,3,Đầu cắt moi là gì
26953,Vietnam,2020,Là Gì?,4,Bệnh bạch hầu là gì


Здесь:  
`year` – название столбца  
`0` – в датафрейме строчка имеет `ось = 0`, столбец – `1`.  

Удалим столбец `year`:

In [78]:
df = df.drop('year', 1)
df.tail(5)

Unnamed: 0,location,category,rank,query
26949,Vietnam,Như Thế Nào?,5,Gấu đi như thế nào
26950,Vietnam,Là Gì?,1,Virus Corona là gì
26951,Vietnam,Là Gì?,2,Miễn thị thực là gì
26952,Vietnam,Là Gì?,3,Đầu cắt moi là gì
26953,Vietnam,Là Gì?,4,Bệnh bạch hầu là gì


### 3.4. Переименование столбцов

Чтобы переименовать столбец используем `rename()`:

In [79]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df.tail(3)

Unnamed: 0,location,year,category,rank,query
26952,Vietnam,2020,Là Gì?,3,Đầu cắt moi là gì
26953,Vietnam,2020,Là Gì?,4,Bệnh bạch hầu là gì
26954,Vietnam,2020,Là Gì?,5,Đông Lào là gì


In [80]:
df = df.rename(columns={'location': 'new_location'})
df.tail(3)

Unnamed: 0,new_location,year,category,rank,query
26952,Vietnam,2020,Là Gì?,3,Đầu cắt moi là gì
26953,Vietnam,2020,Là Gì?,4,Bệnh bạch hầu là gì
26954,Vietnam,2020,Là Gì?,5,Đông Lào là gì


Здесь:  
`location` – текущее название столбца.  
`new_location` – новое название столбца.

### 3.5. Замена символов в строке

С помощью `replace()` заменим в столбце `year` значения c 2020 на 2021:

In [81]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df.tail(10)

Unnamed: 0,location,year,category,rank,query
26945,Vietnam,2020,Như Thế Nào?,1,Cúng giao thừa như thế nào
26946,Vietnam,2020,Như Thế Nào?,2,Vụ án Hồ Duy Hải như thế nào
26947,Vietnam,2020,Như Thế Nào?,3,Bầu cử tổng thống mỹ như thế nào
26948,Vietnam,2020,Như Thế Nào?,4,Tuấn khỉ bị bắt như thế nào
26949,Vietnam,2020,Như Thế Nào?,5,Gấu đi như thế nào
26950,Vietnam,2020,Là Gì?,1,Virus Corona là gì
26951,Vietnam,2020,Là Gì?,2,Miễn thị thực là gì
26952,Vietnam,2020,Là Gì?,3,Đầu cắt moi là gì
26953,Vietnam,2020,Là Gì?,4,Bệnh bạch hầu là gì
26954,Vietnam,2020,Là Gì?,5,Đông Lào là gì


In [82]:
df['year'] = df['year'].replace(to_replace=2020, value=2021)

# сокращенная запись без to_replace и value: 
# df['year'] = df['year'].replace(2020, 2021)

df['category'] = df['category'].replace(to_replace='Là Gì?', value='Hello, World.')
df.tail(10)

Unnamed: 0,location,year,category,rank,query
26945,Vietnam,2021,Như Thế Nào?,1,Cúng giao thừa như thế nào
26946,Vietnam,2021,Như Thế Nào?,2,Vụ án Hồ Duy Hải như thế nào
26947,Vietnam,2021,Như Thế Nào?,3,Bầu cử tổng thống mỹ như thế nào
26948,Vietnam,2021,Như Thế Nào?,4,Tuấn khỉ bị bắt như thế nào
26949,Vietnam,2021,Như Thế Nào?,5,Gấu đi như thế nào
26950,Vietnam,2021,"Hello, World.",1,Virus Corona là gì
26951,Vietnam,2021,"Hello, World.",2,Miễn thị thực là gì
26952,Vietnam,2021,"Hello, World.",3,Đầu cắt moi là gì
26953,Vietnam,2021,"Hello, World.",4,Bệnh bạch hầu là gì
26954,Vietnam,2021,"Hello, World.",5,Đông Lào là gì


Здесь:  
`replace()` – заменяет значения.

`to_replace=2020` – значение, подлежащее замене.  
`value=2021` – то, на что меняем.  

Метод `replace()` выполнит замену в результате полного совпадения значения, то есть знак вопроса `?` просто так не удалить – нужно писать регулярное выражение (regex).
Быстрее воспользоваться методом `str.replace()`, который выполняет замену подстроки без regex. Заменим знак вопроса обоими методами.

Замена с помощью метода `replace()` и регулярных выражений:

In [83]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['category'] = df['category'].replace(r'[?]', '', regex=True)
df.tail(5)

Unnamed: 0,location,year,category,rank,query
26950,Vietnam,2020,Là Gì,1,Virus Corona là gì
26951,Vietnam,2020,Là Gì,2,Miễn thị thực là gì
26952,Vietnam,2020,Là Gì,3,Đầu cắt moi là gì
26953,Vietnam,2020,Là Gì,4,Bệnh bạch hầu là gì
26954,Vietnam,2020,Là Gì,5,Đông Lào là gì


Здесь:  
`r''` – обозначение регулярного выражения.   
`[]` – поиск только символа в скобках.  
`?` – поиск знака вопроса.  

Замена, используя метод `str.replace()`:

In [84]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['category'] = df['category'].str.replace('?', '', regex=False)
df.tail(5)

Unnamed: 0,location,year,category,rank,query
26950,Vietnam,2020,Là Gì,1,Virus Corona là gì
26951,Vietnam,2020,Là Gì,2,Miễn thị thực là gì
26952,Vietnam,2020,Là Gì,3,Đầu cắt moi là gì
26953,Vietnam,2020,Là Gì,4,Bệnh bạch hầu là gì
26954,Vietnam,2020,Là Gì,5,Đông Lào là gì


Здесь:  
`regex=False` – знак вопроса `?` используется в регулярных выражениях, поэтому их нужно отключить, присвоив параметру regex значение `False`. По умолчанию `True`.

Также можно заменить значения, используя метод `mask()`:

In [85]:
df['year'] = df['year'].mask(df['year'] == 2001, 2051)
df.head(3)

Unnamed: 0,location,year,category,rank,query
0,Global,2051,Consumer Brands,1,Nokia
1,Global,2051,Consumer Brands,2,Sony
2,Global,2051,Consumer Brands,3,BMW


### 3.6. Суммирование элементов

Просуммируем элементы в столбце `year` с помощью `sum()`:

In [86]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['year'].sum()

54320885

### 3.7. Копирование датафрейма

Создадим глубокую копию (изменение в оригинале не влияют на копию и наоборот) датафрейма с помощью `copy()`:

In [87]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df2 = df.copy

Здесь:  
`df.copy` – создает независимую копию датафрейма. Если нужна зависимая копия, то параметру `deep` присвоим значение `False`: `df.copy(deep=False)`. По умолчанию `True`.

## 4. Сортировка

Сейчас массив отсортирован по году, давайте отсортируем его по стране (`location`) в прямом алфавитном порядке с помощью `sort_values()`:

In [88]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df.sort_values('location')

Unnamed: 0,location,year,category,rank,query
5261,Argentina,2013,Tecnología,2,Nokia Asha 311
16288,Argentina,2017,Cómo,4,Cómo hacer slime
16287,Argentina,2017,Cómo,3,Cómo saber si estoy afiliado a un partido
16286,Argentina,2017,Cómo,2,Cómo hacer huevos de pascua
16285,Argentina,2017,Cómo,1,Cómo saber dónde voto
...,...,...,...,...,...
21361,Zimbabwe,2018,Questions,2,How to kiss
21362,Zimbabwe,2018,Questions,3,What is love
21363,Zimbabwe,2018,Questions,4,How to write an application letter
21365,Zimbabwe,2018,Searches,1,World Cup Fixtures


и в обратном алфавитном порядке:

In [89]:
df.sort_values('location', ascending=False)

Unnamed: 0,location,year,category,rank,query
21367,Zimbabwe,2018,Searches,3,Morgan Tsvangirai
21361,Zimbabwe,2018,Questions,2,How to kiss
21363,Zimbabwe,2018,Questions,4,How to write an application letter
21364,Zimbabwe,2018,Questions,5,What is communication
21365,Zimbabwe,2018,Searches,1,World Cup Fixtures
...,...,...,...,...,...
24061,Argentina,2020,Personas,2,Kobe Bryant
24062,Argentina,2020,Personas,3,Naya Rivera
24063,Argentina,2020,Personas,4,Luis Alberto Spinetta
24064,Argentina,2020,Personas,5,Elsa Serrano


Здесь:  
`ascending=False` – сортировка в обратном алфавитном порядке. По умолчанию `True`.

Отсортируем по двум столбцам: `rank` и `category`:

In [90]:
df.sort_values(['rank', 'category'])

Unnamed: 0,location,year,category,rank,query
7280,Spain,2013,"""Cómo...""",1,Cómo pagar Whatsapp
9000,Ireland,2014,"""How To"" Searches",1,How to draw
7285,Spain,2013,"""Qué es...""",1,Qué es Airdrop
16385,Austria,2017,"""Was...?"" Fragen",1,Was ist G20?
18965,Austria,2018,"""Was...?"" Fragen",1,Was ist los in Wien?
...,...,...,...,...,...
1359,South Korea,2008,최다 검색어 TOP 10,5,Korea
1364,South Korea,2008,최다 검색어 TOP 10 (포털 제외),5,검색
26274,South Korea,2020,코로나19,5,마스크
12459,South Korea,2015,키즈,5,마다가스카의 펭귄


В этом случаем приоритет отдается столбцу `rank`, так как он записан первым.

In [91]:
df.sort_values(['rank', 'category'], ascending=[False, False])

Unnamed: 0,location,year,category,rank,query
7279,South Korea,2013,화제의 인물,5,크레용팝
12459,South Korea,2015,키즈,5,마다가스카의 펭귄
26274,South Korea,2020,코로나19,5,마스크
1364,South Korea,2008,최다 검색어 TOP 10 (포털 제외),5,검색
1359,South Korea,2008,최다 검색어 TOP 10,5,Korea
...,...,...,...,...,...
16385,Austria,2017,"""Was...?"" Fragen",1,Was ist G20?
18965,Austria,2018,"""Was...?"" Fragen",1,Was ist los in Wien?
7285,Spain,2013,"""Qué es...""",1,Qué es Airdrop
9000,Ireland,2014,"""How To"" Searches",1,How to draw


Здесь:  
`ascending=[False, False]` – сортировка в обратном порядке по обоим столбцам.

## 5. Очистка данных

### 5.1. Изменение типа данных

Чтобы изменить тип данных воспользуемся методом `astype()`:

In [92]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df.year.dtype

dtype('int64')

In [93]:
df['year'] = df['year'].astype(str)
df.year.dtype

dtype('O')

In [94]:
df['year'] = df['year'].astype(float)
df.year.dtype

dtype('float64')

In [95]:
df['year'] = df['year'].astype('int32')
df.year.dtype

dtype('int32')

In [96]:
df['year'] = df['year'].astype('int64')
df.year.dtype

dtype('int64')

In [97]:
df['year'] = pd.to_numeric(df['year'])
df.year.dtype

dtype('int64')

Здесь:  
`astype()` – меняет тип переменной на строчный `O`; на число с плавающей точкой `float`; на целые числа `int32` и `int64`.  
  
`to_numeric()` – меняет типа переменной на `int64`.

### 5.2. Удаление и замена NaN-значений

Добавим в начало датафрейма строчку с отсутствующими значениями `NaN`:

In [98]:
import numpy as np

df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')

df.loc[0] = ['Russia', np.nan, 'Music', np.nan, 'Artist Name']
df = df.append(new_row, ignore_index=True)
df.head(5)

Unnamed: 0,location,year,category,rank,query
0,Russia,,Music,,Artist Name
1,Global,2001.0,Consumer Brands,2.0,Sony
2,Global,2001.0,Consumer Brands,3.0,BMW
3,Global,2001.0,Consumer Brands,4.0,Palm
4,Global,2001.0,Consumer Brands,5.0,Adobe


Узнаем, какие элементы имеют значение `NaN` с помощью метода `isnull()`:

In [99]:
df.isnull().head(3)

Unnamed: 0,location,year,category,rank,query
0,False,True,False,True,False
1,False,False,False,False,False
2,False,False,False,False,False


и наоборот методом `notnull()`:

In [100]:
df.notnull().head(3)

Unnamed: 0,location,year,category,rank,query
0,True,False,True,False,True
1,True,True,True,True,True
2,True,True,True,True,True


Удалим строчки с отсутствующими значениями, используя `dropna()`:

In [103]:
df.dropna().head(3)

Unnamed: 0,location,year,category,rank,query
1,Global,2001.0,Consumer Brands,2.0,Sony
2,Global,2001.0,Consumer Brands,3.0,BMW
3,Global,2001.0,Consumer Brands,4.0,Palm


Удалим столбцы с отсутствующими значениями:

In [104]:
df = df.append(new_row, ignore_index=True)
df.dropna(axis=1).head(3)

Unnamed: 0,location,category,query
0,Russia,Music,Artist Name
1,Global,Consumer Brands,Sony
2,Global,Consumer Brands,BMW


Заменим `NaN` на `abcd` методом `fillna()`:

In [105]:
df = df.append(new_row, ignore_index=True)
df.fillna('abcd').head(5)

Unnamed: 0,location,year,category,rank,query
0,Russia,abcd,Music,abcd,Artist Name
1,Global,2001.0,Consumer Brands,2.0,Sony
2,Global,2001.0,Consumer Brands,3.0,BMW
3,Global,2001.0,Consumer Brands,4.0,Palm
4,Global,2001.0,Consumer Brands,5.0,Adobe


### 5.3. Удаление лишних пробелов

Добавим строчку, в которой есть дефектные элементы с лишними пробелами в конце и в начале:

In [106]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
new_row = {'location': '  Russia     ', 'year': 2021, 'category': 'Music', 'rank': 1, 'query': ' Artist Name  '}

df = df.append(new_row, ignore_index=True)
print(df.tail(2))

            location  year category  rank           query
26954        Vietnam  2020   Là Gì?     5  Đông Lào là gì
26955    Russia       2021    Music     1   Artist Name  


Применим метод `strip()`, который удаляет символы (по умолчанию – пробел) с левого и правого края строки.

In [107]:
df['location'] = df['location'].map(str.strip)
df['query'] = df['query'].map(str.strip)
print(df.tail(2))

      location  year category  rank           query
26954  Vietnam  2020   Là Gì?     5  Đông Lào là gì
26955   Russia  2021    Music     1     Artist Name


Здесь:  
`map()` – применяет к каждому элементу столбцов `location` и `query` метод `strip()`.

Напишем цикл, который проходится по всем элементам датафрейма и удаляет у строчек лишние пробелы слева и справа:

In [108]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
new_row1 = {'location': '  Russia     ', 'year': 2021, 'category': 'Music', 'rank': 1, 'query': ' Artist Name  '}
new_row2 = {'location': ' Russia       ', 'year': 2021, 'category': 'Music  ', 'rank': 1, 'query': ' Artist Name '}

df = df.append(new_row1, ignore_index=True)
df = df.append(new_row2, ignore_index=True)
print(df.tail(3))

             location  year category  rank           query
26954         Vietnam  2020   Là Gì?     5  Đông Lào là gì
26955     Russia       2021    Music     1   Artist Name  
26956   Russia         2021  Music       1    Artist Name 


In [109]:
for column in df.columns:
    if df[column].dtype == object:
        df[column] = df[column].map(str.strip)

print(df.tail(3))

      location  year category  rank           query
26954  Vietnam  2020   Là Gì?     5  Đông Lào là gì
26955   Russia  2021    Music     1     Artist Name
26956   Russia  2021    Music     1     Artist Name


Здесь:  
`new_row1` и `new_row2` – добавляемые строчки.
`if df[column].dtype == object` – проверяем, является ли переменная объектом.

Проверить тип можно также через модуль `is_string_dtype`:

In [110]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
new_row1 = {'location': '  Russia     ', 'year': 2021, 'category': 'Music', 'rank': 1, 'query': ' Artist Name  '}
new_row2 = {'location': ' Russia       ', 'year': 2021, 'category': 'Music  ', 'rank': 1, 'query': ' Artist Name '}

df = df.append(new_row1, ignore_index=True)
df = df.append(new_row2, ignore_index=True)
print(df.tail(3))

             location  year category  rank           query
26954         Vietnam  2020   Là Gì?     5  Đông Lào là gì
26955     Russia       2021    Music     1   Artist Name  
26956   Russia         2021  Music       1    Artist Name 


In [111]:
from pandas.api.types import is_string_dtype

for column in df.columns:
    if is_string_dtype(df[column].dtype):
        df[column] = df[column].map(str.strip)

print(df.tail(3))

      location  year category  rank           query
26954  Vietnam  2020   Là Gì?     5  Đông Lào là gì
26955   Russia  2021    Music     1     Artist Name
26956   Russia  2021    Music     1     Artist Name


Здесь:  
`is_string_dtype()` – проверяет, является ли элемент строкой и возвращает `True` или `False`.  
Проверить на наличие числа можно через `is_numeric_dtype()`.

### 5.4. Обработка дат

Откроем сокращенный датасет ([оригинал](https://www.kaggle.com/jsphyg/weather-dataset-rattle-package)) c данными о погоде в Австралии:

In [112]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/weatherAUS.csv')
df

Unnamed: 0,Date,Location,MinTemp,MaxTemp,Rainfall,Evaporation,Sunshine,WindGustDir,WindGustSpeed,WindDir9am,...,Humidity9am,Humidity3pm,Pressure9am,Pressure3pm,Cloud9am,Cloud3pm,Temp9am,Temp3pm,RainToday,RainTomorrow
0,2008-12-01,Albury,13.4,22.9,0.6,,,W,44,W,...,71,22,1007.7,1007.1,8.0,,16.9,21.8,No,No
1,2008-12-02,Albury,7.4,25.1,0.0,,,WNW,44,NNW,...,44,25,1010.6,1007.8,,,17.2,24.3,No,No
2,2008-12-03,Albury,12.9,25.7,0.0,,,WSW,46,W,...,38,30,1007.6,1008.7,,2.0,21.0,23.2,No,No
3,2008-12-04,Albury,9.2,28.0,0.0,,,NE,24,SE,...,45,16,1017.6,1012.8,,,18.1,26.5,No,No
4,2008-12-05,Albury,17.5,32.3,1.0,,,W,41,ENE,...,82,33,1010.8,1006.0,7.0,8.0,17.8,29.7,No,No
5,2008-12-06,Albury,14.6,29.7,0.2,,,WNW,56,W,...,55,23,1009.2,1005.4,,,20.6,28.9,No,No
6,2008-12-07,Albury,14.3,25.0,0.0,,,W,50,SW,...,49,19,1009.6,1008.2,1.0,,18.1,24.6,No,No
7,2008-12-08,Albury,7.7,26.7,0.0,,,W,35,SSE,...,48,19,1013.4,1010.1,,,16.3,25.5,No,No
8,2008-12-09,Albury,9.7,31.9,0.0,,,NNW,80,SE,...,42,9,1008.9,1003.6,,,18.3,30.2,No,Yes


Узнаем типы данных:

In [113]:
df.dtypes

Date              object
Location          object
MinTemp          float64
MaxTemp          float64
Rainfall         float64
Evaporation      float64
Sunshine         float64
WindGustDir       object
WindGustSpeed      int64
WindDir9am        object
WindDir3pm        object
WindSpeed9am       int64
WindSpeed3pm       int64
Humidity9am        int64
Humidity3pm        int64
Pressure9am      float64
Pressure3pm      float64
Cloud9am         float64
Cloud3pm         float64
Temp9am          float64
Temp3pm          float64
RainToday         object
RainTomorrow      object
dtype: object

Как видно, элементы столбца `Date` – строчки. Поменяем их тип на дату методом `to_datetime()`:

In [114]:
df['Date'] = pd.to_datetime(df['Date'])
df.dtypes

Date             datetime64[ns]
Location                 object
MinTemp                 float64
MaxTemp                 float64
Rainfall                float64
Evaporation             float64
Sunshine                float64
WindGustDir              object
WindGustSpeed             int64
WindDir9am               object
WindDir3pm               object
WindSpeed9am              int64
WindSpeed3pm              int64
Humidity9am               int64
Humidity3pm               int64
Pressure9am             float64
Pressure3pm             float64
Cloud9am                float64
Cloud3pm                float64
Temp9am                 float64
Temp3pm                 float64
RainToday                object
RainTomorrow             object
dtype: object

Добавим отдельно столбцы год, месяц, день из столбца `Date` методом `DatetimeIndex()`:

In [115]:
df['Year'] = pd.DatetimeIndex(df['Date']).year
df['Month'] = pd.DatetimeIndex(df['Date']).month
df['Day'] = pd.DatetimeIndex(df['Date']).weekday
df.head(10)

Unnamed: 0,Date,Location,MinTemp,MaxTemp,Rainfall,Evaporation,Sunshine,WindGustDir,WindGustSpeed,WindDir9am,...,Pressure3pm,Cloud9am,Cloud3pm,Temp9am,Temp3pm,RainToday,RainTomorrow,Year,Month,Day
0,2008-12-01,Albury,13.4,22.9,0.6,,,W,44,W,...,1007.1,8.0,,16.9,21.8,No,No,2008,12,0
1,2008-12-02,Albury,7.4,25.1,0.0,,,WNW,44,NNW,...,1007.8,,,17.2,24.3,No,No,2008,12,1
2,2008-12-03,Albury,12.9,25.7,0.0,,,WSW,46,W,...,1008.7,,2.0,21.0,23.2,No,No,2008,12,2
3,2008-12-04,Albury,9.2,28.0,0.0,,,NE,24,SE,...,1012.8,,,18.1,26.5,No,No,2008,12,3
4,2008-12-05,Albury,17.5,32.3,1.0,,,W,41,ENE,...,1006.0,7.0,8.0,17.8,29.7,No,No,2008,12,4
5,2008-12-06,Albury,14.6,29.7,0.2,,,WNW,56,W,...,1005.4,,,20.6,28.9,No,No,2008,12,5
6,2008-12-07,Albury,14.3,25.0,0.0,,,W,50,SW,...,1008.2,1.0,,18.1,24.6,No,No,2008,12,6
7,2008-12-08,Albury,7.7,26.7,0.0,,,W,35,SSE,...,1010.1,,,16.3,25.5,No,No,2008,12,0
8,2008-12-09,Albury,9.7,31.9,0.0,,,NNW,80,SE,...,1003.6,,,18.3,30.2,No,Yes,2008,12,1


Обратим внимание, что `DatetimeIndex.weekday` записывает не дату а индексы дней от `0` до `6`: понедельник имеет значение `0`, воскресенье – `6`.

Другой способ записи:

In [116]:
df['Year2'] = df['Date'].dt.year
df['Month2'] = df['Date'].dt.month
df['Day2'] = df['Date'].dt.day
df.head(10)

Unnamed: 0,Date,Location,MinTemp,MaxTemp,Rainfall,Evaporation,Sunshine,WindGustDir,WindGustSpeed,WindDir9am,...,Temp9am,Temp3pm,RainToday,RainTomorrow,Year,Month,Day,Year2,Month2,Day2
0,2008-12-01,Albury,13.4,22.9,0.6,,,W,44,W,...,16.9,21.8,No,No,2008,12,0,2008,12,1
1,2008-12-02,Albury,7.4,25.1,0.0,,,WNW,44,NNW,...,17.2,24.3,No,No,2008,12,1,2008,12,2
2,2008-12-03,Albury,12.9,25.7,0.0,,,WSW,46,W,...,21.0,23.2,No,No,2008,12,2,2008,12,3
3,2008-12-04,Albury,9.2,28.0,0.0,,,NE,24,SE,...,18.1,26.5,No,No,2008,12,3,2008,12,4
4,2008-12-05,Albury,17.5,32.3,1.0,,,W,41,ENE,...,17.8,29.7,No,No,2008,12,4,2008,12,5
5,2008-12-06,Albury,14.6,29.7,0.2,,,WNW,56,W,...,20.6,28.9,No,No,2008,12,5,2008,12,6
6,2008-12-07,Albury,14.3,25.0,0.0,,,W,50,SW,...,18.1,24.6,No,No,2008,12,6,2008,12,7
7,2008-12-08,Albury,7.7,26.7,0.0,,,W,35,SSE,...,16.3,25.5,No,No,2008,12,0,2008,12,8
8,2008-12-09,Albury,9.7,31.9,0.0,,,NNW,80,SE,...,18.3,30.2,No,Yes,2008,12,1,2008,12,9


## 6. Фильтрация и поиск

С помощью оператора сравнения `>=` получим все поисковые запросы c 2018 года включительно до 2020 года:

In [117]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df[df['year'] >= 2018 ]

Unnamed: 0,location,year,category,rank,query
18810,Global,2018,Searches,1,World Cup
18811,Global,2018,Searches,2,Avicii
18812,Global,2018,Searches,3,Mac Miller
18813,Global,2018,Searches,4,Stan Lee
18814,Global,2018,Searches,5,Black Panther
...,...,...,...,...,...
26950,Vietnam,2020,Là Gì?,1,Virus Corona là gì
26951,Vietnam,2020,Là Gì?,2,Miễn thị thực là gì
26952,Vietnam,2020,Là Gì?,3,Đầu cắt moi là gì
26953,Vietnam,2020,Là Gì?,4,Bệnh bạch hầu là gì


Более сложные выражения записываются с битовыми операторами. В данном случае с оператором `&` (`И`, `AND`):

In [118]:
df.loc[(df['year'] >= 2015) & (df['year'] < 2017) & (df['location'] == 'Global')]

Unnamed: 0,location,year,category,rank,query
10370,Global,2015,Searches,1,Lamar Odom
10371,Global,2015,Searches,2,Charlie Hebdo
10372,Global,2015,Searches,3,Agar.io
10373,Global,2015,Searches,4,Jurassic World
10374,Global,2015,Searches,5,Paris
...,...,...,...,...,...
13200,Global,2016,TV Shows,1,Stranger Things
13201,Global,2016,TV Shows,2,Westworld
13202,Global,2016,TV Shows,3,Luke Cage
13203,Global,2016,TV Shows,4,Game of Thrones


### 6.1. Метод startswith()


Проверим, совпадает ли начало каждого элемента строки с шаблоном `G`, используя метод `startwith()`:

In [119]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['location_startswith'] = df['location'].str.startswith('G')
df.head(3)

Unnamed: 0,location,year,category,rank,query,location_startswith
0,Global,2001,Consumer Brands,1,Nokia,True
1,Global,2001,Consumer Brands,2,Sony,True
2,Global,2001,Consumer Brands,3,BMW,True


### 6.2. Метод endswith()

Метод `endswith()` проверяет совпадает ли конец каждого элемента строки с шаблоном `a`:

In [120]:
df['location_endswith'] = df['location'].str.endswith('a')
df.head(3)

Unnamed: 0,location,year,category,rank,query,location_startswith,location_endswith
0,Global,2001,Consumer Brands,1,Nokia,True,False
1,Global,2001,Consumer Brands,2,Sony,True,False
2,Global,2001,Consumer Brands,3,BMW,True,False


Методы `startwith()` и `endswith()` не поддерживают регулярные выражения. Для более точного поиска рассмотрим следующие методы.

### 6.3. Метод match()

Метод `match()` определяет, начинается ли каждая строка с шаблона, возвращая булево значение. Выведем все запросы о моделях `Nokia`:

In [121]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['query'].str.match('Nokia', case=True)

0         True
1        False
2        False
3        False
4        False
         ...  
26950    False
26951    False
26952    False
26953    False
26954    False
Name: query, Length: 26955, dtype: bool

Чтобы вывести больше информации заключим предыдущую запись в `df[]`:

In [33]:
df[df['query'].str.match('Nokia', case=True)]

Unnamed: 0,location,year,category,rank,query
0,Global,2001,Consumer Brands,1,Nokia
29,Global,2001,New Products,5,Nokia 5510
67,Global,2002,Consumer Brands,3,Nokia
265,Italy,2003,Popular Brands,1,Nokia
999,Finland,2008,Top Companies,5,Nokia
1062,Hong Kong,2008,數碼產品,3,Nokia
1553,Global,2009,Looking to Buy Online: Fastest Rising Searches,4,Nokia N97
1957,Global,2010,Consumer Electronics,3,Nokia 5530
1959,Global,2010,Consumer Electronics,5,Nokia N900
3031,Argentina,2012,Shopping,2,Nokia 500


В запросах попадается название компании `Nokia` без модели, например, `Nokia 8`. Уточним запрос, воспользовавшись регулярным выражением:

In [122]:
import re
df[df['query'].str.match(r'\b..[k][i][a]\s.', case=True)]

Unnamed: 0,location,year,category,rank,query
29,Global,2001,New Products,5,Nokia 5510
1553,Global,2009,Looking to Buy Online: Fastest Rising Searches,4,Nokia N97
1957,Global,2010,Consumer Electronics,3,Nokia 5530
1959,Global,2010,Consumer Electronics,5,Nokia N900
3031,Argentina,2012,Shopping,2,Nokia 500
3032,Argentina,2012,Shopping,3,Nokia lumia 900
3489,Finland,2012,Mobile Devices,5,Nokia 500
3583,Germany,2012,Gadgets,4,Nokia Lumia 920
4524,South Africa,2012,Gadgets & Phones,5,Nokia n9
4774,Uganda,2012,Gadgets & Phones,5,Nokia Asha 303


Здесь:  
`import re` – импорт библиотеки решулярных выражений.  
`match()` – ищет совпадение в начале строки.  
`\b` – обозначает границу слова. В нашем случае: слева – ничего, справа – буква..  
`.` – любой один символ, кроме символа переноса строки.    
`[k][i][a]` – только символы `k`, `i` и `a` соответственно.  
`\s` – любой пробельный символ.  
`case=True` – чувствителен к регистру.  

### 6.4. Метод findall()

Метод `findall` возвращает совпадения шаблонов:

In [123]:
df['findall'] = df['query'].str.findall(r'\b..[k][i][a]\s.', flags=re.IGNORECASE).transform(''.join)
df.loc[df['findall'] != '']

Unnamed: 0,location,year,category,rank,query,findall
29,Global,2001,New Products,5,Nokia 5510,Nokia 5
1553,Global,2009,Looking to Buy Online: Fastest Rising Searches,4,Nokia N97,Nokia N
1957,Global,2010,Consumer Electronics,3,Nokia 5530,Nokia 5
1959,Global,2010,Consumer Electronics,5,Nokia N900,Nokia N
3031,Argentina,2012,Shopping,2,Nokia 500,Nokia 5
3032,Argentina,2012,Shopping,3,Nokia lumia 900,Nokia l
3489,Finland,2012,Mobile Devices,5,Nokia 500,Nokia 5
3583,Germany,2012,Gadgets,4,Nokia Lumia 920,Nokia L
4524,South Africa,2012,Gadgets & Phones,5,Nokia n9,Nokia n
4774,Uganda,2012,Gadgets & Phones,5,Nokia Asha 303,Nokia A


Здесь:  
`df['findall'] != '']` – отбирает все значения, за исключением пустой строчки.  
`flags=re.IGNORECASE` – игнорирует регистр при поиске.  
`transform(''.join)` – по умолчанию `findall()` заключает все запросы в квадратные скобки `[]`, что не очень удобно для последующей обработки. Поэтому мы заменили скобки на пустое место `''`.

Напишем цикл, который выводит отфильтрованные запросы:

In [124]:
for index, value in df['findall'].items():
    if value != '':
        print(f"Индекс: {index}, Значение: {df.iloc[index].query}")

Индекс: 29, Значение: Nokia 5510
Индекс: 1553, Значение: Nokia N97
Индекс: 1957, Значение: Nokia 5530
Индекс: 1959, Значение: Nokia N900
Индекс: 3031, Значение: Nokia 500
Индекс: 3032, Значение: Nokia lumia 900
Индекс: 3489, Значение: Nokia 500
Индекс: 3583, Значение: Nokia Lumia 920
Индекс: 4524, Значение: Nokia n9
Индекс: 4774, Значение: Nokia Asha 303
Индекс: 5261, Значение: Nokia Asha 311
Индекс: 5262, Значение: Nokia Lumia 620
Индекс: 7996, Значение: Nokia Lumia 520
Индекс: 8821, Значение: Nokia XL
Индекс: 8823, Значение: Nokia X
Индекс: 8961, Значение: Nokia X
Индекс: 9351, Значение: Nokia X
Индекс: 9999, Значение: Nokia X
Индекс: 10367, Значение: Nokia X
Индекс: 17103, Значение: Nokia 8
Индекс: 17104, Значение: Nokia 6


### 6.5. Метод str.contains()

Метод `str.contains()` в результате поиска возвращает булево значение:

In [125]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['query'].str.contains(r'\b..[k][i][a]\s.', regex=True)

0        False
1        False
2        False
3        False
4        False
         ...  
26950    False
26951    False
26952    False
26953    False
26954    False
Name: query, Length: 26955, dtype: bool

In [126]:
df[df['query'].str.contains(r'\b..[k][i][a]\s.', regex=True)]

Unnamed: 0,location,year,category,rank,query
29,Global,2001,New Products,5,Nokia 5510
1553,Global,2009,Looking to Buy Online: Fastest Rising Searches,4,Nokia N97
1957,Global,2010,Consumer Electronics,3,Nokia 5530
1959,Global,2010,Consumer Electronics,5,Nokia N900
3031,Argentina,2012,Shopping,2,Nokia 500
3032,Argentina,2012,Shopping,3,Nokia lumia 900
3489,Finland,2012,Mobile Devices,5,Nokia 500
3583,Germany,2012,Gadgets,4,Nokia Lumia 920
4524,South Africa,2012,Gadgets & Phones,5,Nokia n9
4774,Uganda,2012,Gadgets & Phones,5,Nokia Asha 303


### 6.6. Метод extractall()

Метод `extraclall()` вернет столбец с поисковым шаблоном. Результаты, не имеющие совпадений, отображаться не будут:

In [127]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['query'].str.extractall(r"(\b..[k][i][a]\s.)")

Unnamed: 0_level_0,Unnamed: 1_level_0,0
Unnamed: 0_level_1,match,Unnamed: 2_level_1
29,0,Nokia 5
1553,0,Nokia N
1957,0,Nokia 5
1959,0,Nokia N
3031,0,Nokia 5
3032,0,Nokia l
3489,0,Nokia 5
3583,0,Nokia L
4524,0,Nokia n
4774,0,Nokia A


Присвоить название столбцу с результатами можно через следующую запись: `?P<название столбца>`. 

In [128]:
df['query'].str.extractall(r'(?P<model>\b..[k][i][a]\s.)')

Unnamed: 0_level_0,Unnamed: 1_level_0,model
Unnamed: 0_level_1,match,Unnamed: 2_level_1
29,0,Nokia 5
1553,0,Nokia N
1957,0,Nokia 5
1959,0,Nokia N
3031,0,Nokia 5
3032,0,Nokia l
3489,0,Nokia 5
3583,0,Nokia L
4524,0,Nokia n
4774,0,Nokia A


Несколько фильтров в одном запросе:

In [129]:
df['query'].str.extractall(r'(?P<model>\b..[k][i][a]\s.)(?P<number>[5])')

Unnamed: 0_level_0,Unnamed: 1_level_0,model,number
Unnamed: 0_level_1,match,Unnamed: 2_level_1,Unnamed: 3_level_1
29,0,Nokia 5,5
1957,0,Nokia 5,5


### 6.7. Метод isin()

Узнаем, содержатся ли искомые значения в столбце методом `isin()` :

In [130]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['query'].isin(['Agar.io', 'Paris'])

0        False
1        False
2        False
3        False
4        False
         ...  
26950    False
26951    False
26952    False
26953    False
26954    False
Name: query, Length: 26955, dtype: bool

In [131]:
df.loc[df['query'].isin(['Agar.io', 'Paris'])]

Unnamed: 0,location,year,category,rank,query
105,Global,2002,Travel Destinations,1,Paris
2588,Singapore,2011,Travel Destinations,4,Paris
3761,Ireland,2012,Travel Destinations,2,Paris
4944,United Kingdom,2012,Travel Destinations,5,Paris
10372,Global,2015,Searches,3,Agar.io
10374,Global,2015,Searches,5,Paris
10376,Global,2015,Global News,2,Paris
10480,Australia,2015,News Items of 2015,1,Paris
10489,Austria,2015,Die Suchbegriffe des Jahres,5,Paris
10491,Austria,2015,Schlagzeilen des Jahres,2,Paris


## 7. Фильтрация по языку

### 7.1. Декодер

В датасете могут оказаться кракозябры: `ЧЎЧЁЧЧ™Чќ`. Для борьбы с ними есть отличная библиотека `ftfy` (англ. fixes text for you – исправляет текст для тебя), которая также имеет [веб-реализацию](https://ftfy.now.sh/). Установим `ftfty`:

In [None]:
!pip install ftfy

In [132]:
from ftfy import fix_encoding
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/decode.csv')
df['decode'] = df['encode'].apply(fix_encoding)
df

Unnamed: 0,encode,decode
0,He's Justinâ¤,He's Justin❤
1,Le Schtroumpf Docteur conseille g√¢teaux et ba...,Le Schtroumpf Docteur conseille gâteaux et bai...
2,âœ” No problems,✔ No problems
3,РґРѕСЂРѕРіРµ РР·-РїРѕРґ #С„СѓС‚Р±РѕР»,дороге Из-под #футбол
4,Handwerk bringt dich überall hin: Von der YO...,„Handwerk bringt dich überall hin“: Von der YO...
5,Hi guys í ½í¸,Hi guys 😍
6,hihi RT username: âºí ½í¸,hihi RT username: ☺😘
7,Beta Haber: HÄ±rsÄ±zÄ± BÃ¼yÃ¼ Korkuttu,Beta Haber: Hırsızı Büyü Korkuttu
8,Kayanya laptopku error deh soalnya tiap mau ng...,Kayanya laptopku error deh soalnya tiap mau ng...


Здесь:  
`apply(fix_encoding)` – метод `apply()` применяет к каждому элементу столбца `encode` функцию `fix_encoding`.

## 7.2. Определение языка

Библиотека `google_trans` оказалась с багами, поэтому воспользуемся ее работоспособным форком – `google_trans_new`. Установим `google_trans_new`:

In [None]:
!pip install google_trans_new
!pip install requests

In [134]:
from google_trans_new import google_translator
import requests

df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends_lang.csv')
df['category']= df['category'].apply(fix_encoding)

detector = google_translator()  

for index, row in df['category'].items():
    try:
        df.loc[index, 'category language'] = detector.detect(row)[1]
        print(detector.detect(row)[1])
    except:
        df.loc[index, 'category language'] = 'Error'
        print('Error')

english
english
spanish
english
greek
spanish
korean
english
english
hebrew
hebrew
japanese
russian
russian
spanish
latvian
lithuanian
estonian
czech
danish
croatian
finnish
french
dutch


Здесь:  
`for index, row ...` – цикл по индексу и значению в столбце `category`.  

`try .... detector.detect(row)[1]` – определение языка. `0` – сокращенный вариант `en`, `1` – полный вариант `english`.  

`except ... 'Error'` – если по какой-то причине нам не удастся определить язык, в ячейку запишется значение `Error`.

In [135]:
df

Unnamed: 0,location,year,category,rank,query,category language
0,Global,2001,Consumer Brands,1,Nokia,english
1,Global,2001,Consumer Brands,2,Sony,english
2,Argentina,2015,Qué...,2,Qué es ISIS,spanish
3,Global,2001,Consumer Brands,4,Palm,english
4,Greece,2016,Διασημότητες,3,Γιάννης Χαρούλης,greek
5,Spain,2015,Los términos que más crecieron,2,Eurovisión,spanish
6,South Korea,2015,조리법,5,파김치 맛있게 담는 법,korean
7,Global,2001,Movies,1,Harry Potter,english
8,Global,2001,Movies,2,Lord of the Rings,english
9,Israel,2015,סרטים,1,מהיר ועצבני 7,hebrew


Получим строки, содержащие язык `russian`:

In [136]:
df.loc[df['category language'] == "russian"]

Unnamed: 0,location,year,category,rank,query,category language
12,Russia,2020,«Что такое...?»/«Что значит...?»,1,Пандемия,russian
13,Russia,2020,«Что такое...?»/«Что значит...?»,2,Коронавирус,russian


### 8. Статистические данные

### 8.1. Метод desribe()

Для просмотра статистической сводки столбцов, содержащих численные значения, введем `df.describe()`.

In [137]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df.describe()

Unnamed: 0,year,rank
count,26955.0,26955.0
mean,2015.243369,3.0
std,3.564683,1.41424
min,2001.0,1.0
25%,2013.0,2.0
50%,2016.0,3.0
75%,2018.0,4.0
max,2020.0,5.0


Здесь:  
`count` – считает количество записей в столбце без значения `NaN`. Отдельно можно вызвать через `df.count()`.  

`mean` – среднее значение `df.mean()`.  

`std` – стандартное отклонение `df.std()`.  

`min` – минимальное число в столбце `df.min()`.  

`25%`	– 25-й процентиль.  
`50%`	– 50-й процентиль.  
`75%`	– 75-й процентиль.  

`max` – максимальное число в столбце `df.max()`.

## 8.2. Подсчет повторяющихся значений

Подсчитаем количество элементов в столбце `query` методом `count()`:

In [138]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
df['query'].count()

26955

С помощью метода `value_counts` узнаем сколько раз значения повторяются в столбце:

In [139]:
df['query'].value_counts()

Paul Walker         84
Donald Trump        83
Facebook            62
Robin Williams      61
Whitney Houston     56
                    ..
長寿                   1
바운스                  1
Sidang MK            1
Kari Gjærum          1
Guillermo Dávila     1
Name: query, Length: 18431, dtype: int64

По умолчанию из результата исключаются NaN-значения. Чтобы отобразить их, поставим параметру `dropna` значение `False`.

In [140]:
df['query'].value_counts(dropna=False)

Paul Walker         84
Donald Trump        83
Facebook            62
Robin Williams      61
Whitney Houston     56
                    ..
長寿                   1
바운스                  1
Sidang MK            1
Kari Gjærum          1
Guillermo Dávila     1
Name: query, Length: 18431, dtype: int64

Создадим столбец `query_count`, в который запишем количество упоминаний элемента:

In [141]:
df['query_count'] = df.groupby('query')['query'].transform('count')
df.sample(5)

Unnamed: 0,location,year,category,rank,query,query_count
6098,Israel,2013,מתכונים,4,עוגות לפסח פרווה,1
4837,Ukraine,2012,Фільми,3,Третій зайвий,1
16890,Finland,2017,Viihde,1,Tuntematon sotilas,1
23608,Taiwan,2019,快速竄升政治人物（不包含已故者）,4,謝龍介,1
13796,Denmark,2016,Begivenheder,2,OL,2


Здесь:  
`groupby()` – используется для разделения данных на группы по критериям. Подробнее [здесь](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html).  

`transform('count')` – считает сколько раз повторяется значение в столбце `query`.

Выведем уникальные значения в столбце `location` через метод `unique()`:

In [142]:
df['location'].unique()

array(['Global', 'France', 'Germany', 'United Kingdom', 'Australia',
       'Canada', 'Italy', 'Netherlands', 'Spain', 'United States',
       'Argentina', 'Austria', 'Belgium', 'Brazil', 'Chile', 'China',
       'Colombia', 'Czechia', 'Denmark', 'Finland', 'Hong Kong', 'India',
       'Malaysia', 'Mexico', 'New Zealand', 'Philippines', 'Poland',
       'Russia', 'Singapore', 'South Africa', 'South Korea', 'Sweden',
       'Switzerland', 'Taiwan', 'Thailand', 'United Arab Emirates',
       'Costa Rica', 'Croatia', 'Dominican Republic', 'Ecuador',
       'El Salvador', 'Guatemala', 'Honduras', 'Japan', 'Kenya',
       'Nigeria', 'Panama', 'Peru', 'Egypt', 'Hungary', 'Ireland',
       'Israel', 'Norway', 'Portugal', 'Romania', 'Saudi Arabia',
       'Serbia', 'Slovakia', 'Turkey', 'Ukraine', 'Ghana', 'Indonesia',
       'Senegal', 'Uganda', 'Vietnam', 'Bangladesh', 'Bulgaria',
       'Estonia', 'Latvia', 'Lithuania', 'Pakistan', 'Puerto Rico',
       'Slovenia', 'Uruguay', 'Venezuela', '

### 9. Сохранение датафрейма

Сохраним датафрейм в csv-файл:

In [143]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends.csv')
save_file = df[['location', 'year', 'category', 'rank', 'query']]
save_file.to_csv('trends_saved.csv', encoding='utf8')

Здесь:  
`save_file` – столбцы датафрейма.  
`to_csv()` – сохранить датафрейм в файл формата `.csv`.

Откроем сохраненный файл:

In [144]:
df = pd.read_csv('https://raw.githubusercontent.com/tttdddnet/Python-Data-Journalism/main/part1/trends_saved.csv')
df.head(3)

Unnamed: 0.1,Unnamed: 0,location,year,category,rank,query
0,0,Global,2001,Consumer Brands,1,Nokia
1,1,Global,2001,Consumer Brands,2,Sony
2,2,Global,2001,Consumer Brands,3,BMW


После сохранения файла у нас повявился столбец `Unnamed: 0`. Он нам не нужен, потому удалим его:

In [145]:
df = df.drop('Unnamed: 0', 1)
df.head(3)

Unnamed: 0,location,year,category,rank,query
0,Global,2001,Consumer Brands,1,Nokia
1,Global,2001,Consumer Brands,2,Sony
2,Global,2001,Consumer Brands,3,BMW
