# Урок 1. Введение в анализ данных

## Домашнее задание:

В эпикризах, которые у нас представлены, формат дат, относительно простой и легко поддаётся "чистке" и подготовке

В домашнем задании, я хочу, чтобы вы отработали навыки использования регулярных выражений для подготовки дат

- **Описание задания**
Даты выражаются по-разному. В России дата обычно выражается в формате **`дд-ММ-гг`**; в то время как в США он обычно выражается в формате **`ММ-дд-гггг`**. Иногда люди также используют сокращения месяцев, например **`aug`**.

  Цель этого задания — помочь вам познакомиться с регулярными выражениями (или «регулярными выражениями») и применить свои знания к реальным данным. Вы сможете:
  - Используйте регулярные выражения для извлечения дат в различных форматах из текста.


- **Требования**
  - Извлеките даты из предоставленного файла .txt.
  - Преобразование/нормализация извлеченных дат в желаемый формат **`гггг-ММ-дд`**
    - Пример: дата извлечения **`27 сентября 2021 г.`**; Форматированная дата **`27.09.2021`**

- **Правила нормализации форматированных дат**
  - Предположим, что все даты в формате **`xx/xx/xx`** имеют формат **`мм/дд/гг`**.
  - Предположим, что даты в формате **`xx/xx`** равны **`мм/гг`**.
  - Предположим, что все даты, где год закодирован только двумя цифрами, относятся к 1900-м годам (например, `05.01.89` — это `5 января 1989 года`).
  - Если день отсутствует (например, «9/2009»), предположим, что это первый день месяца (например, «1 сентября 2009 года»).
  – Если месяц отсутствует (например, «2010»), предположим, что это первое января этого года (например, «1 января 2010 года»).

- **Дополнительная информация**
  - [Документация по регулярным выражениям](https://docs.python.org/3/library/re.html)

### Описание файла данных
Файл, который мы используем для этого задания, называется **`dates.txt`**. Каждая строка состоит из индекса строки, вкладки и соответствующего содержимого. Например:
- `0<tab>: 10/12/92Total time of visit (in minutes):`

In [1]:
!chcp 65001

Active code page: 65001


In [2]:
# import re
from re import sub, search, findall, match

In [3]:
# from google.colab import drive
# drive.mount('/content/drive')

*Важнейшая часть анализа - поиск даты поступления*
---


In [4]:
source_file_path = '22_1_SEM_files/dates.txt'

In [5]:
with open(source_file_path) as file:
  lines = file.readlines()

print(*lines[:16],sep='\n')  # print the first 5 rows in the file

0	: Na 130 on 7/21/1999Pertinent Medical Review of Systems Constitutional:

1	"""Hx of suicidal ideation and last felt suicidal in Marc, 1981. No Hx of suicide attempts. ""Felt that after being sober for 5 years and in custody for 22 months that I just wasn't getting it. I couldn't do it. He had my parents come in the following week and we talked and that's when we decided I should go on the methadone clinic,""Hx of Non Suicidal Self Injurious Behavior: No"

2	s 03/1980 Positive PPD: treated with INH for 6 months

3	: 7/11/90CPT code: 99205

4	: 6/02/1986CPT Code: 90792: With medical services

5	s  25 yo married female with hx of low grade anxiety, perfectionism and attention presents with increasing sx of depression after being laid off from her job in Mar 2012. This intake interview was conducted as a one time consult intake with the goal of referral to appropriate services.

6	: 6/18/85Primary Care Doctor:

7	: NV fire fighter died Sep 2007 while working.  Was friend from deployment

### Немного предобработаю текст, уберу лишние символы

In [6]:
new_lines = []
for text in lines:
  # clean_text = re.sub('\s+', ' ', text).strip()
  text = text.lower().replace(')', '').replace('(', '')
  clean_text = sub('code: \d+', '', text).strip()
  new_lines.append(clean_text)
  print(clean_text)


0	: na 130 on 7/21/1999pertinent medical review of systems constitutional:
1	"""hx of suicidal ideation and last felt suicidal in marc, 1981. no hx of suicide attempts. ""felt that after being sober for 5 years and in custody for 22 months that i just wasn't getting it. i couldn't do it. he had my parents come in the following week and we talked and that's when we decided i should go on the methadone clinic,""hx of non suicidal self injurious behavior: no"
2	s 03/1980 positive ppd: treated with inh for 6 months
3	: 7/11/90cpt
4	: 6/02/1986cpt : with medical services
5	s  25 yo married female with hx of low grade anxiety, perfectionism and attention presents with increasing sx of depression after being laid off from her job in mar 2012. this intake interview was conducted as a one time consult intake with the goal of referral to appropriate services.
6	: 6/18/85primary care doctor:
7	: nv fire fighter died sep 2007 while working.  was friend from deployment to san marino and trainings f

In [None]:
# ((\d{1,2}\/\d{1,2}\/\d{2,4})|(\d{1,2}\/\d{4}))
# ((\d{1,2}\/\d{1,2}\/\d{2,4})|(\d{1,2}\/\d{4})|((\d{1,2})?(\s\w*)?\s\d{4})|(\d{1,2}-\d{1,2}-\d{2,4})|(Code: \d+))
# ((\d{1,2}\/\d{1,2}\/\d{2,4})|(\d{1,2}\/\d{4})|((\d{1,2})?(\s\w*)?\s\d{4})|(\d{1,2}-\d{1,2}-\d{2,4}))

In [105]:
s = "in Marc, 1981. No Hx of suicide attemp"" July 25, 1983Total time of visit (in minutes)""sDec 1975:  'Several days', LEPROSARIUM,"
# (\w{1,4})?\s\,\\d{4}
# (\w{1,4}\,\\s?\d{4})
# (\w*\,\\s?\d{4})|
r3 = "\w{4}\,\\s\d{4}|\w{4}\s?\d{1,2}?\,\\s\d{4}|\w{4}\s?\d{4}"
c = findall(r3, s)
c

['Marc, 1981', 'July 25, 1983', 'sDec 1975']

In [107]:
reg2 = "((\d{1,2}\/\d{1,2}\/\d{2,4})|(\d{1,2}\/\d{4})|((\d{1,2})?(\s\w*)?\s\d{4})|(\d{1,2}-\d{1,2}-\d{2,4}))"
ed = {}
for line in new_lines:
    line_content = line.split('\t')
#     print(line_content)
    line_text = ' '.join(line_content[1].split(','))
#     print(line_text)
#   print(findall(reg2, line_text)[0][0].strip())
    ed[line_content[0]] = findall(reg2, line_text)[0][0].strip() # возьмем первое совпадение
    print(findall(reg2, line_text)[0][0].strip())
# d = list(extracted_dates.values())
# ed

7/21/1999
1981
03/1980
7/11/90
6/02/1986
mar 2012
6/18/85
sep 2007

8/1986
march 1979
9/17/72
06 oct 2003
11/24/94
november 1987
8/16/92
12/12/97
9/30/76
26 may 2010
june 1981
march 1973
12/8/97
09/13/94
9/1984
4/18/86
2/14/77
7/13/97
apr 2007
4/12/88
6/10/71
12/12/1993
in 2002
3/26/81
aug 2010
8/2010
10/6/79
8/31/77
tbi 1975
9/09/94
12/1975
9/21/79
3/18/80
1/1983
8/30/77
4/1972
05/12/1995
6/08/90
2/9/2008
08/21/77
1/27/98
5/02/82
2/18/79
25  1983
august 1979
10/11/1987
10/17/1980
10 feb 1983
5/18/2013
1/02/80
08/24/2011
1/29/79
5/21/77
2/12/79
9/08/78
7/9/81
january 2013
january 2007
9/04/85
7/1989
february 1985
5/2000
09/1975
8/17/79
08/03/1988
05/14/81
6/18/73
2008
10/23/73
7/26/92
2004
21 oct 1978
5/19/92
3/21/86
6/08/89
8/02/95
1999
02/08/88
5/10/81
11/09/98
14 1974
7/02/87
8/18/1995
2/1998
01/06/85

jan 1987
may 1990
dec 2007
5/18/91
6/21/75
3/18/87
01/06/89
07/02/1990
4/22/94
august 1984
oct 2014
10/1978
05/07/1975
8/29/74
jul 2003
1977
september 2006
12/29/1982
03/20/83
30  200

In [18]:
ed == extracted_dates

True

In [7]:
reg = "((\d{1,2}\/\d{1,2}\/\d{2,4})|(\d{1,2}\/\d{4})|((\d{1,2})?(\s\w*)?\s\d{4})|(\d{1,2}-\d{1,2}-\d{2,4}))"
extracted_dates = {}  # {row_index: extracted_contents}
for line in new_lines:
  line_content = line.split('\t')
  line_text = ' '.join(line_content[1].split(','))
  extracted_dates[line_content[0]] = findall(reg, line_text)[0][0].strip() # возьмем первое совпадение

In [8]:
dates = list(extracted_dates.values())
extracted_dates

{'0': '7/21/1999',
 '1': '1981',
 '2': '03/1980',
 '3': '7/11/90',
 '4': '6/02/1986',
 '5': 'mar 2012',
 '6': '6/18/85',
 '7': 'sep 2007',
 '8': '1975',
 '9': '8/1986',
 '10': 'march 1979',
 '11': '9/17/72',
 '12': '06 oct 2003',
 '13': '11/24/94',
 '14': 'november 1987',
 '15': '8/16/92',
 '16': '12/12/97',
 '17': '9/30/76',
 '18': '26 may 2010',
 '19': 'june 1981',
 '20': 'march 1973',
 '21': '12/8/97',
 '22': '09/13/94',
 '23': '9/1984',
 '24': '4/18/86',
 '25': '2/14/77',
 '26': '7/13/97',
 '27': 'apr 2007',
 '28': '4/12/88',
 '29': '6/10/71',
 '30': '12/12/1993',
 '31': 'in 2002',
 '32': '3/26/81',
 '33': 'aug 2010',
 '34': '8/2010',
 '35': '10/6/79',
 '36': '8/31/77',
 '37': 'tbi 1975',
 '38': '9/09/94',
 '39': '12/1975',
 '40': '9/21/79',
 '41': '3/18/80',
 '42': '1/1983',
 '43': '8/30/77',
 '44': '4/1972',
 '45': '05/12/1995',
 '46': '6/08/90',
 '47': '2/9/2008',
 '48': '08/21/77',
 '49': '1/27/98',
 '50': '5/02/82',
 '51': '2/18/79',
 '52': '25  1983',
 '53': 'august 1979',
 '

### Нормализация даты
- Если дата выглядит так: «09/1975» или «12/1989», вам необходимо преобразовать ее в «1975-09-01» и «1989-12-01».

In [9]:
months = {'jan': '01',
          'feb': '02',
          'mar': '03',
          'apr': '04',
          'may': '05',
          'jun': '06',
          'jul': '07',
          'aug': '08',
          'sep': '09',
          'oct': '10',
          'nov': '11',
          'dec': '12'}

In [10]:
def epi_dates_preparation1(strng, m_case):
  if m_case == 1:
    strng = sub('(\d{1,2}).(\d{1,2}).(\d{2,4})', '\\1-\\2-\\3', strng)
    date_list = strng.split('-')
    if len(date_list[0]) == 1:
      date_list[0] = f'0{date_list[0]}'
    if len(date_list[1]) == 1:
      date_list[1] = f'0{date_list[1]}'
    if len(date_list[2]) == 2:
      date_list[2] = f'19{date_list[2]}'
    strng = '-'.join(date_list)
    return sub('(\d{2}).(\d{2}).(\d{4})', '\\3-\\1-\\2', strng)
  elif m_case == 2:
    # strng = sub('(\d{1,2})*.(\w*).(\d{4})', '\\1-\\2-\\3', strng)
    date_list =strng.split()
    if len(date_list) == 1:
      return f'{date_list[0]}-01-01'
    elif len(date_list) == 3:
      date_list[0] = f'0{date_list[0]}' if date_list[0] != '' and len(date_list[0]) == 1 else '01'
      date_list[1] = months[date_list[1][:3]] if date_list[1] != '' and date_list[1][:3] in months.keys() else '01'
      if len(date_list[2]) == 2:
        date_list[2] = f'19{date_list[2]}'
      strng = '-'.join(date_list)
      return sub('(\d{2}).(\d{2}).(\d{4})', '\\3-\\2-\\1', strng)
    else:
      if date_list[0].isdigit() and date_list[0] != '' and len(date_list[0]) == 1:
        date_list[0] = f'0{date_list[0]}'
      else:
          date_list[0] = months[date_list[0][:3]] if date_list[0] != '' and date_list[0][:3] in months.keys() else '01'
      return f'{date_list[1]}-{date_list[0]}-01'

In [11]:
# Преобразование дат
def format_date(date):
    # Match "MM/DD/YY" format
    match_case = match(r'((\d{1,2}).(\d{1,2}).(\d{2,4}))', date)
    if match_case:
      return epi_dates_preparation1(date, m_case=1)
    # Match "DD Month YYYY" format
    match_case = match(r'(\d{1,2})?.(\w*)?.(\d{4})|(\d{4})', date)
    if match_case:
      return epi_dates_preparation1(date, m_case=2)
    return date

In [12]:
# Reformat the dates
formated_dates = dict()
for i, k in extracted_dates.items():
  formated_dates[i] = format_date(k)

In [13]:
for original, reformated in zip(dates, formated_dates.items()):
    print(f"{reformated[0]}. {original} -> {reformated[1]}")

0. 7/21/1999 -> 1999-07-21
1. 1981 -> 1981-01-01
2. 03/1980 -> 1980-03-01
3. 7/11/90 -> 1990-07-11
4. 6/02/1986 -> 1986-06-02
5. mar 2012 -> 2012-03-01
6. 6/18/85 -> 1985-06-18
7. sep 2007 -> 2007-09-01
8. 1975 -> 1975-01-01
9. 8/1986 -> 1986-08-01
10. march 1979 -> 1979-03-01
11. 9/17/72 -> 1972-09-17
12. 06 oct 2003 -> 2003-10-01
13. 11/24/94 -> 1994-11-24
14. november 1987 -> 1987-11-01
15. 8/16/92 -> 1992-08-16
16. 12/12/97 -> 1997-12-12
17. 9/30/76 -> 1976-09-30
18. 26 may 2010 -> 2010-05-01
19. june 1981 -> 1981-06-01
20. march 1973 -> 1973-03-01
21. 12/8/97 -> 1997-12-08
22. 09/13/94 -> 1994-09-13
23. 9/1984 -> 1984-09-01
24. 4/18/86 -> 1986-04-18
25. 2/14/77 -> 1977-02-14
26. 7/13/97 -> 1997-07-13
27. apr 2007 -> 2007-04-01
28. 4/12/88 -> 1988-04-12
29. 6/10/71 -> 1971-06-10
30. 12/12/1993 -> 1993-12-12
31. in 2002 -> 2002-01-01
32. 3/26/81 -> 1981-03-26
33. aug 2010 -> 2010-08-01
34. 8/2010 -> 1910-08-02
35. 10/6/79 -> 1979-10-06
36. 8/31/77 -> 1977-08-31
37. tbi 1975 -> 1975-

#### Шаг 4. Запишите результаты в файл `.txt`

- Вы можете изменить это, если вам будет проще записать файл по-другому, если он соответствует требованиям к отправке.

In [14]:
your_surname = 'mikhail_demin'

In [15]:
with open(f'22_1_SEM_files/assignment_{your_surname}.txt', "w") as f:
    for key, value in formated_dates.items():
        f.write(f'{key} {value}\n')

## **Требования к отправке**
1. Убедитесь, что вы использовали код для записи в файл с именем **`assignment_your_surname.txt`** для отправки.
2. Отправьте результаты в виде файла **.txt**.
3. Каждая строка в вашем файле должна иметь формат **`<line_number><tab><formatted_date>`**.
   > Пример: `0 1992-10-12`



Ваш файл будет сравнён с "золотым стандартом"

Оценка "зачёт" будет высталвена при точности >= 30%

При точности менее, рекомендовано переделать задание




 **Желаю Удачи!**