# Технические средства анализа данных

### Полезные ссылки:

- <a href="https://www.anaconda.com/download">Anaconda distribution</a><br/>
- <a href="https://code.visualstudio.com/docs/?dv=win64user">VS Code</a> - VS Code IDE<br/>
- <a href="https://www.jetbrains.com/pycharm/">PyCharm</a> - PyCharm  IDE<br/>
- <a href="https://colab.research.google.com/">Google Colab</a> - Google Colab<br/>
- <a href="https://numpy.org/">Numpy documentation</a><br />
- <a href="https://pandas.pydata.org/">Pandas documentation</a><br />
- <a href="https://matplotlib.org/">Matplotlib documentation</a>

### Дополнительные материалы:

- [Питон для анализа данных(курс Физтеха)](https://miptstats.github.io/courses/python.html)<br />
- [pythontutor (онлайн учебник Python)](https://pythontutor.ru/)<br />
- [Cody, AI-помощник в написании кода](https://sourcegraph.com/cody)<br />
- AI-помощники на основе ChatGPT в Телеграмм (ищите сами что больше нравится)<br />
- [stackoverflow](https://stackoverflow.com/)<br />


In [None]:
print ('hello world of Urban Climate Informatics!')

### Базовые типы данных

- Числовые типы
- Логический (boolean)
- None

Все типы данных являются объектами, т.е. **экземплярам** своих классов!




In [None]:
# Числовые типы и их приведение 

a = 3.14
b = 3
e = int (a)
print (e)


In [None]:
# Все есть объекты!  

print (type(a))
print (dir(a))

print (a.__sizeof__())
print ((0).__sizeof__())


### Строки (str)

In [None]:
str1 = 'Hello Urban Meteorology!'

str1 = (str1.replace('!','') + ' and Climatology').lower()
print (str1)

print (str(a) + ' -> ' + str (e))


In [None]:
# Строки неизменяемые

print (str1[0])
str1[0] = 'A'

In [None]:
## Форматирование строк

course_name = 'UClim4HSE-2025'
year = 2025

print ('Hello {} version {}'.format(course_name, year))
print ('Hello %s version %d'%(course_name, year))
print (f'Hello {course_name} version {year}')


### Базовые структуры (контейнеры) данных


- **Кортеж (tuple)** - неизменяемая упорядоченная коллекция (последовательность) элементов.
- **Список [list]** - изменяемая упорядоченная коллеция (последовательность) элементов
- **Множество {set}** - неупорядоченная коллекция уникальных элементов
- **Словарь {dict}** - неупорядоченная коллекция элементов с доступом по ключу. Ключами должны быть скалярные типы (int, float, str) или кортежи.

In [None]:
#кортеж и его распаковка

tup = (1, 2, 3, 3)
a,b,c,d = tup

print (f'type(tup) = {type(tup)}')
print (f'tup[1] = {tup[1]}')
print (f'a = {a}')

def func(a,b,c,d):
    return a+b+c+d

print (func (4,4,4,4))
print (func (*tup))

tup[1] = 5



In [None]:
#Списки и присваивание изменяемых типов

list1 = list (range (0,20,2))

list2 = list1.copy() #копирование списка
#list2 = list1         #ссылка на l1

list2.append (1000)

print(f'list1: {list1}')
print(f'list2: {list2}')

print (list1 is list2) #проверка, являются ли list1 и list2 одним и тем же объектом




In [None]:
# Изменяемые и неизменяемые типы данных и хеширование

print (tup.__hash__)   
print (list1.__hash__)  

In [None]:
# Словари

# Ключем в словаре может быть любой неизменяемый (хешируемый) тип данных

config = {'model':'WRF', 'exp_name': 'Moscow', 'version':5, 'draw_plots':False}

config['model'] = 'EMVI-MET'

print(config)
print (f'dict keys: {list(config.keys())}')
print (f'dict values: {list(config.values())}')
print (f'dict items: {list(config.items())}')


In [None]:
# Множества (могу включать в себя только неизменяемые типы данных)



list1 = [1, 1, 1, 3, 5, 125] + list (range (0, 30, 5)) + [125, 1000]

print (list1)
print (set (list1))

set1 = {'aaa', 'bb', 'cc'}
set2 = {'aaa', 'WRF', 'COSMO'}
#test = 13 in s
#display(test)

display (set2.difference(set1))

### Управление порядком исполнения
- условные операторы
- циклы
- генераторы (например range)
- функции

### Дата и время

In [None]:
from datetime import datetime

now = datetime.now()

birthday = datetime(1991, 12, 4, 0, 0, 0)
age = now - birthday
display(type (now))
display(type (age))



display(age.days / 365)


### Синтаксичесий сахар
- вычисления на списках
- маппинг (map) - применение функции ко всем элементам перечислимого аргумента
- лямбда-фунции
- упаковка (zip)

In [None]:
#вычисление на списках

dates = [datetime(2010,x,1) for x in range(1,13)]
display(dates)
#display([date.strftime('%Y-%m-%d %H:%M') for date in dates])

In [None]:
#упаковка 

def ordinal(n):
    if 10 <= n % 100 <= 20:
        suffix = 'th'
    else:
        suffix = {1: 'st', 2: 'nd', 3: 'rd'}.get(n % 10, 'th')
    return str(n) + suffix

numbers = list (range(1,10))


words = [f'hello {ordinal(n)} of {len(numbers)}' for n in numbers]

#print (list (zip (numbers, words)))

# for n, word in zip (numbers, words):
#     print (f'word number {n} is \'{word}\'')

for i, word in enumerate (words):
    print (f'word number {i} is \'{word}\'')


In [None]:
#маппинг и лямбда функции

import math

def square (x):
    return x**2

numbers2 = list (map (square, numbers))
#numbers2 = [int (x) for x in list (map (math.pow, numbers, [2]*len(numbers)))]
print (numbers2)


words1 = map (lambda n: 'hello ' + '%d'%n, numbers)
#words1 = map (lambda n: 'hello ' + ''.join ([f'{nn}, ' for nn in range(n+1)]), numbers2)
list(words1)

### Чуть-чуть Numpy и случайных чисел

In [None]:
import numpy as np

np.random.seed(1) # + np.eps)
arr1 = np.random.rand(10,10) #uniform distribution
arr2 = np.random.normal(size=(10,10)) #normal distribution

display(arr1)
#display(arr1.ndim)
#display(arr2)

#display(arr1.mean(axis = 0))
#display(arr2.mean())

#display(arr1.std())
#display(arr2.std())

### Случайное блуждание и наш первый график

In [None]:
from matplotlib import pyplot as plt

steps = np.random.normal(size=1000)

pos = np.cumsum(steps)

plt.figure()
plt.plot (pos)
plt.plot (np.convolve(pos, np.ones(50)/50, 'same'))
