# Some more pandas

![](z94ZHJCmPIE.jpg)

In [None]:
import numpy as np 
import pandas as pd 

## Как самостоятельно создать датафрейм?

### 1) из списка словарей

In [None]:
towns1 = [{'Name': 'Moscow', 'Capital': 'Yes', 'Population': 15512000, 'Density': 4882.48}, # density - плотность населения,
         {'Name': 'Tartu', 'Capital': 'No', 'Population':  93124, 'Density': 2508.6},       #число человек на км
         {'Name': 'Kyoto', 'Capital': 'No', 'Population':  1472027, 'Density': 1778.18},
         {'Name': 'Monaco', 'Capital': 'Yes', 'Population': 975, 'Density': 5257.03}]

In [None]:
df_towns1 = pd.DataFrame(towns1)
df_towns1

Как видите, столбцы располагаются не всегда в том порядке, в каком они были даны.

Порядок можно изменить либо так:

In [None]:
df_towns1 = df_towns[['Name', 'Capital', 'Population', 'Density']]
df_towns1

### 2) из словаря со списками: from_dict(data)

In [None]:
towns2 = {'Name': ['Moscow', 'Tartu', 'Kyoto', 'Monaco'],
         'Capital': ['Yes', 'No', 'No', 'Yes'],
         'Population': [15512000, 93124, 1472027, 975],
         'Density': [4882.48, 2508.6, 1778.18, 5257.03] }
df_towns2 = pd.DataFrame.from_dict(towns2)
df_towns2

Также можно создать датафрейм не из просто словаря, а из OrderedDict

In [None]:
from collections import OrderedDict

In [None]:
towns3 = OrderedDict([ ('Name', ['Moscow', 'Tartu', 'Kyoto', 'Monaco']),
          ('Capital', ['Yes', 'No', 'No', 'Yes']),
          ('Population',  [15512000, 93124, 1472027, 975]),
          ('Density', [4882.48, 2508.6, 1778.18, 5257.03]) ] )
df_towns3 = pd.DataFrame.from_dict(ord_towns)
df_towns3

### 3) из списка кортежей/списков: from_records(data, columns=labels)

In [None]:
towns4 = [['Moscow', 'Tartu', 'Kyoto', 'Monaco'],
         ['Yes', 'No', 'No', 'Yes'],
         [15512000, 93124, 1472027, 975],
         [4882.48, 2508.6, 1778.18, 5257.03]]
labels = ['Name', 'Capital', 'Population', 'Density'] # названия столбцов в таком случае указываются отдельно
df_towns4 = pd.DataFrame.from_records(towns, columns=labels)
df_towns4

Некоторая подборка рабочих методов, единственное что, в последней версии пандас не рекомендуется использовать from_items() и вообще этот метод скоро удалят

![](pandas-dataframe-shadow.png)

## Сохранить датафрейм

to_csv(filename, sep='')

In [None]:
df_towns4.to_csv('towns.csv', sep='\t', encoding='utf-8')

Теперь наши данные сохранены и их можно снова при надобности извлекать с помощью pd.read_csv()

In [None]:
writer = pd.ExcelWriter(path, engine = 'xlsxwriter')
df_towns4.to_excel(writer, sheet_name = 'x1')
df2.to_excel(writer, sheet_name = 'x2')
writer.save()
writer.close()

### Задание 1

1) добавьте в таблицу ещё по 3-4 города (отредактировав список словарей, например)

2) сохраните её в .csv

3) напишите функцию, которая будет считать приблизительную площать города по населению и плотности (плотность населения равно количеству человек на километр квадратный), получая на вход его название и извлекая данные из датафрейма

4) добавьте в датафрейм столбик 'Square', куда сохранятся площади из 3).

5) сохраните получившийся датафрейм в отдельный csv-файл

6) получившиеся код и файлы пришлите мне и Мише

In [None]:
my_towns = ...

# Регулярные выражения

![](l1z19s49sk5bpc8vkmcbho7zgro.jpeg)

**Регулярные выражения** - по сути, это поиск по  (и не только) последовательности символов, заваемая ими. Т.е.жн это способ указать, какого вида сочетание нам нужно, далее уже разные уровни сложности.

In [None]:
import re

### re.findall() - находит все вхождения

In [None]:
re.findall('a', 'a')

In [None]:
re.findall('a', 'aa')

In [None]:
re.findall('aa', 'aaa')

In [None]:
re.findall('hello', "hello hello hello")

`*` означает повторение группы или символа от нуля до бесконечности раз

In [None]:
re.findall('h.*o', "hello hello hello") # жадный поиск

In [None]:
 re.findall('h.*?o', "hello hello hello") # ? позволяет его ограничить

In [None]:
re.findall('a[bcd]e', 'abe abbe')

In [None]:
re.findall('a[bcd]*e', 'ae abe abbe abbcde')

In [None]:
re.findall(r'a[bcd]*b', 'abcbdcbde')

`*` - 0 или больше

`+` - 1 или больше

`?` - 0 или 1

`.` - любой символ

`[..]` - любой из символов внутри (можно писать `[a-z], [А-Я]`)

`[^..]` - любой не из символов внутри

`\d` = `[0-9]`

`\D` - все нечисловые символы

`\s` - все пробельные символы

`\S` - все непробельные символы

`\w` - алфавитные символы

`\b` - граница слова

`^, $` - начало и конец строки

`{n}` - ровно n раз

In [None]:
re.findall('\d{5}', '1234512345')

In [None]:
re.findall('\d\d/\d\d/\d{4}', '11/02/1992')

In [None]:
re.findall('\w{2,3}', 'a aa aaa aa aaa bbb bb cccc')

In [None]:
re.findall('[-+]?\d+', '1 2 -1 +2456')

In [None]:
re.findall('15|24', '15 24')

In [None]:
re.findall('^.{2}\d', '123')

### Попробуйте порешать задачи отсюда

https://regex101.com/r/aGn8QC/2

- Найдите все натуральные числа (возможно, окружённые буквами);

- Найдите все «слова», написанные капсом (то есть строго заглавными), возможно внутри настоящих слов (аааБББввв);

- Найдите слова, в которых есть русская буква, а когда-нибудь за ней цифра;

- Найдите все слова, начинающиеся с русской или латинской большой буквы (\b — граница слова);

- Найдите слова, которые начинаются на гласную (\b — граница слова);;

- Найдите все натуральные числа, не находящиеся внутри или на границе слова;

- Найдите строчки, в которых есть символ * (. — это точно не конец строки!);

- Найдите строчки, в которых есть открывающая и когда-нибудь потом закрывающая скобки;

Отдельно:

- напишите выражение, которые сможет расспознать номер телефона в тексте (российский)