<a href="https://colab.research.google.com/github/cpython-projects/python_da_06_11_25/blob/main/lesson_06.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. Що таке стрічка (String)

**Стрічка — це впорядкована, незмінювана (immutable) послідовність символів у Python.**

Використовується для зберігання:

* тексту
* ідентифікаторів
* кодів помилок
* назв категорій
* URL, email
* токенів API
* даних, які приходять через CSV/JSON як текст
* тощо

## Три ключові властивості

### Впорядкованість (ordered)

* У кожного символа свій індекс.
* Можна робити slicing, ітеруватися, обирати підрядки.

### Незмінюваність (immutable)

* Не можна змінити символ у стрічці.
* Будь-яка модифікація → створення нової стрічки.

### Елементи — символи Unicode (utf-8)

* Можна комбінувати текст різних мов.

# 2. Створення стрічок

In [1]:
x = 'Hello'
y = "Python"

print(x, y)

Hello Python


In [2]:
x = ''

In [4]:
ord(' ') # chr

32

# 3. Операції зі стрічками

**Конкатенація**

In [5]:
x = 'Hello'
y = 'world'

res = x + ' ' + y
print(res)

Hello world


**Повторення**

In [6]:
x = '-'
y = x * 20
print(y)

--------------------


**Перевірка належності**

In [7]:
x = 'Hello world'

In [8]:
'wo' in x

True

In [9]:
'Wo' in x

False

In [10]:
' ' in x

True

In [11]:
'T' not in x

True

In [14]:
x = input('text>>')
y = input('text>>')
print(y == x)
print(id(x), id(y))

text>>1234
text>>1234
True
133532226635792 133532226635312


In [15]:
x = '1234'
y = '1234'
print(y == x)
print(id(x), id(y))

True
133532638150544 133532638150544


**Індексація**

In [16]:
x = 'Hello world'

y = x[1:-1]
print(y)

ello worl


**Зрізи (slicing)**

In [17]:
x[::-1]

'dlrow olleH'

# 4. Основні методи стрічок

**`.lower()`, `.upper()`, `.title()`**

In [19]:
x = 'oleh tymchuk'

In [20]:
y = x.lower()

In [21]:
x is y

False

In [22]:
x.upper()

'OLEH TYMCHUK'

In [23]:
x.title()

'Oleh Tymchuk'

**`.replace()`**

In [24]:
x = 'Hello world'

y = x.replace('o', '***')
print(y)

Hell*** w***rld


In [25]:
x = '1   2   3'
y = x.replace('  ', '*')
print(y)

1* 2* 3


In [26]:
text = input('text>>>')

text>>>Hello            world!                Python is                            awesome


In [27]:
text.replace(' ', '')

'Helloworld!Pythonisawesome'

In [28]:
text.replace(' ', '&')

'Hello&&&&&&&&&&&&world!&&&&&&&&&&&&&&&&Python&is&&&&&&&&&&&&&&&&&&&&&&&&&&&&awesome'

In [29]:
while '  ' in text:
    text = text.replace('  ', ' ')
print(text)

Hello world! Python is awesome


In [None]:
i = 0
while i < len(text) - 1:
    if text[i] == ' ':
       j = i + 1
       while text[j] == ' ':
           j += 1
       text = text[:i + 1] + text[j:]
    i += 1
print(text)

**`.split()`**

In [30]:
x = 'Hello world! Python'

y = x.split()
print(y)

['Hello', 'world!', 'Python']


**`.join()`**

In [36]:
x = ['Hello', 'world', 'Python']

# ТАК НЕ МОЖНА
s = ''
for word in x:
    s += word + ' '
print(s)

Hello world Python 


In [37]:
y = ' '.join(x)
print(y)

Hello world Python


In [38]:
text = 'Hello            world!                Python is                            awesome'

res = ' '.join(text.split())
print(res)

Hello world! Python is awesome


**`.find()` і `.index()`**

In [41]:
x = 'Hello'

x.find('l')

2

In [43]:
x.find('L')

-1

In [42]:
x.index('l')

2

In [45]:
try:
  x.index('L')
except:
  print('not found')

not found


**`.lstrip()`, `.rstrip()`, `.strip()`**

In [40]:
x = '   Oleh  \n\t'
y = x.strip()
print(y)

y = x.lstrip()
print(y)

y = x.rstrip()
print(y)

Oleh
Oleh  
	
   Oleh


**Перевірки**

In [46]:
x = 'Oleh'

print(x.islower())

False


In [47]:
x.isupper()

False

In [48]:
x.istitle()

True

# 5. Порівняння рядків

Python порівнює рядки **лексикографічно (словниково)**.

Це означає:

* порівнюються коди символів (ASCII/Unicode)
* порівняння йде **символ за символом**
* враховується **регістр** (“A” < “a”)

---

### **Приклади**

```python
"apple" < "banana"
```

```
True   # 'a' < 'b'
```

```python
"Data" < "database"
```

```
True   # порівняння по символах: D == d? Ні → порівнюються коди
```

### **Регістр важливий**

```python
"Apple" < "apple"
```

```
True  # великий символ має менший код
```

### **Числа у рядках порівнюються як текст**

```python
"100" < "9"
```

```
True   # '1' < '9'
```

### **Порівняння на рівність**

```python
"data" == "data"
```

```
True
```

```python
"data" == "Data"
```

```
False  # регістр має значення
```

### **Порівняння довжин**

```python
len("Python") > len("R")
```

```
True
```

In [84]:
'HELLO' > 'z'

False

In [85]:
ord('z'), ord('H')

(122, 72)

In [86]:
'hello' > 'Z'

True

In [87]:
ord('h'), ord('Z')

(104, 90)

In [89]:
for i in range(128):
  print(i, chr(i))

0  
1 
2 
3 
4 
5 
6 
7 
8 
9 	
10 

11 
12 
13 
14 
15 
16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32  
33 !
34 "
35 #
36 $
37 %
38 &
39 '
40 (
41 )
42 *
43 +
44 ,
45 -
46 .
47 /
48 0
49 1
50 2
51 3
52 4
53 5
54 6
55 7
56 8
57 9
58 :
59 ;
60 <
61 =
62 >
63 ?
64 @
65 A
66 B
67 C
68 D
69 E
70 F
71 G
72 H
73 I
74 J
75 K
76 L
77 M
78 N
79 O
80 P
81 Q
82 R
83 S
84 T
85 U
86 V
87 W
88 X
89 Y
90 Z
91 [
92 \
93 ]
94 ^
95 _
96 `
97 a
98 b
99 c
100 d
101 e
102 f
103 g
104 h
105 i
106 j
107 k
108 l
109 m
110 n
111 o
112 p
113 q
114 r
115 s
116 t
117 u
118 v
119 w
120 x
121 y
122 z
123 {
124 |
125 }
126 ~
127 


# 6. Типові помилки при роботі зі стрічками

❌ спроба змінити символ

```python
s[0] = "A"  # error
```

❌ змішування типів

```python
"age: " + 25  # TypeError
"age: " + str(25)
```

❌ неправильне порівняння строк з числами

```python
"100" > "20"   # False (бо порівнюється як текст)
```

# 7. Задачі

## **1. Знайти домен з email-адреси**

У CRM-систему завантажили список email-клієнтів. Для подальшої сегментації потрібно визначити, з яких поштових сервісів вони частіше пишуть.

```python
email = "user123@gmail.com"
# результат: "gmail.com"
```

In [31]:
emails = ["user123@gmail.com", "user124@gmail.com", "user125@yahoo.com", "user126@yahoo.com"]

In [34]:
from collections import Counter

res = []
for email in emails:
  tmp = email.split('@')[-1]
  res.append(tmp)

res = Counter(res)
print(res)


Counter({'gmail.com': 2, 'yahoo.com': 2})


## **2. Зробити першу літеру великою**

Під час імпорту даних з Excel усі імена клієнтів збереглися в нижньому регістрі.
Потрібно виправити формат перед записом у базу.

```python
s = "analytics"
# результат: "Analytics"
```

In [None]:
s = "analytics"

## **3. Отримати всі слова довжиною > 5**

Під час аналізу ключових фраз з опису курсу потрібно вибрати довгі ключові терміни.

```python
text = "Big Data Analytics with Python"
# результат: ['Analytics', 'Python']
```

In [35]:
text = "Big Data Analytics with Python"
words = text.split()
for item in words:
  if len(item) > 5:
    print(item)

Analytics
Python


## **4. Очищення текстових полів**

Під час збору цін із різних джерел форматування виявилося нерівномірним: різні валюти, пробіли, перенос рядка.
Потрібно привести ціни до числового формату, а потім — до одного стандартного вигляду.

```python
prices = ["$50", "  45$", "60 USD", "\n70$"]
```

Завдання:

4.1. Перетворити всі значення в **int**  
4.2. Знайти **середню ціну**  
4.3. Отримати **мінімальну** та **максимальну** ціну  
4.4. Вивести всі ціни у вигляді: `"45 USD"`  

In [59]:
import statistics
prices = ["$50", "  45$", "60 USD", "\n70$"]


for i, item in enumerate(prices):
  prices[i] = float(item.replace('$', '').replace('USD', '').strip())


print(statistics.mean(prices))
print(min(prices))
print(max(prices))


for item in prices:
  print(f'{item} USD', end=', ')

56.25
45.0
70.0
50.0 USD , 45.0 USD , 60.0 USD , 70.0


In [60]:
x = [10, 20, 30, 40]

for i in range(len(x)):
  x[i] = f'*{x[i]}*'

print(x)

for i, item in enumerate(x):
  x[i] = f'*{item}*'

print(x)


['*10*', '*20*', '*30*', '*40*']


## **5. Парсинг логів (реальна ситуація адміністрування)**

Під час моніторингу серверів отримано логи, кожен з яких містить тип повідомлення, дату та деталі проблеми.
Потрібно виділити ключову інформацію для подальшої класифікації інцидентів.

```python
log = "ERROR 2025-11-25 14:03:10: CPU overload"
```

Завдання:

5.1. Отримати тип повідомлення: `"ERROR"`  
5.2. Виділити дату: `"2025-11-25"`  
5.3. Отримати саме повідомлення: `"CPU overload"`  

In [79]:
log = "ERROR 2025-11-25 14:03:10: CPU overload Tru la la la"
log = log.split()
log

['ERROR',
 '2025-11-25',
 '14:03:10:',
 'CPU',
 'overload',
 'Tru',
 'la',
 'la',
 'la']

In [80]:
log_type, log_date, log_time, *msg = log

In [81]:
log_type

'ERROR'

In [82]:
log_date, log_time

('2025-11-25', '14:03:10:')

In [83]:
msg = ' '.join(msg)
msg

'CPU overload Tru la la la'

In [62]:
a = 5
b = 6
c = 7

y = a, b, c

print(y)

(5, 6, 7)


In [63]:
a

5

In [64]:
y

(5, 6, 7)

In [65]:
x = [1, 2, 3, 4]

a, b, c, d = x

print(a, b, c, d)

1 2 3 4


In [69]:
x = [1, 2, 3, 4]

*a, b, c = x

print(a, b, c)

[1, 2] 3 4


## **6. Робота з CSV-рядком**

Під час створення DataFrame колонка приходить у форматі одного рядка.
Потрібно дістати список назв полів та привести їх до стандартного стилю.

```python
row = "id,age,country,salary"
```

Завдання:

6.1. Зробити список: `['id', 'age', 'country', 'salary']`  
6.2. Перетворити всі назви у **snake_case** (на випадок, якщо будуть складні поля)  
6.3. Перевірити, чи є `"salary"` серед колонок  