## **Script para tratar os arquivos originais da base**

Esse processo não analisará o conteúdo dos dados, apenas nas raras excecões.

A finalidade aqui é preparar as informações para serem carregadas no outro Jupyter onde serão feitas as análises

O arquivo 2000_orig.txt o valor da ordem da música está depois do nome da banda/música

Os arquivos de 2001 a 2005 o valor da ordem da música está antes do nome da banda/música, e tem um "." (ponto) depois do valor

O arquivo de 2006 o valor da ordem da música está antes do nome da banda/música, e não tem um "." (ponto) depois do valor

In [1]:
import json
import os
import re
from collections import Counter

In [2]:
folder_original = "resources/bases/original/"
folder_threated = "resources/bases/tratada/"

In [3]:
def int_try_parse(value):
    try:
        return int(value), True
    except ValueError:
        return value, False
    except Exception:
        return value, False

In [4]:
def read_file_on_line(path_to_file: str):
    """
    Read a file and return one single line
    """
    with open(path_to_file) as f:
        return f.read()

In [15]:
def read_file_lines(path_to_file: str):
    """
    Read a file and return one single line
    """
    if not os.path.exists(path_to_file):
        return []
    
    with open(path_to_file) as f:
        return [stripped for line in f if (stripped := line.strip())]

In [6]:
def threat_artist_with_hyphen_in_name(text):
    text = text.upper()
    text = text.replace("A-HA", "A HA")
    text = text.replace("B-52", "B 52")
    return text
    

## Tratando base **2000**

In [9]:
file = "2000_orig.txt"

In [10]:
path_to_file = f"{folder_original}{file}"
contents = read_file_on_line(path_to_file)

In [None]:
print(contents)

In [43]:
stop_words = [
    "Repetiu",
    "Repetiu 457 e 319",
    "Problemas",
    "2."
]

In [44]:
words_list = contents.split() 

In [45]:
words_list = [word for word in words_list if word not in stop_words]

### Checar se tem número de ordem repetido

se tiver valor repetido, tem que procurar qual é a repetição e tratar como remover

In [59]:
list_order = [word for word in words_list if word.isnumeric()]
group_by_order = Counter(list_order)

print(all(c > 1 for c in group_by_order.values()))

False


In [None]:
index_previous = 0

song_list = []

for index, word in enumerate(words_list[:100]):
    if word.isnumeric():             
        song_list.append(
            {
                "position": word,
                "artist": " ".join(words_list[index_previous:index]),
                "music": ""
            }
        )
        index_previous = index + 1

print(json.dumps(song_list, indent=4, sort_keys=True))

In [37]:
def save_new_file(items: list, year: int):
    path = f"{folder_threated}{year}_ok.txt"
    
    if os.path.exists(path):
        os.remove(path)
   
    with open(path, 'w') as f:
        for item in items:
            f.write(f'{item["position"]}|{item["artist"]}|{item["music"]}\n')

In [31]:
def validate_ammount(list_songs):
    return len(list_songs) == 500

## Arquivos de **2001 a 2004**

In [49]:
files = [
    "2001.txt",
    "2002.txt",
    "2003.txt",
    "2004.txt",
]
 
for file in files:
    path_to_file = f"{folder_original}{file}"
    contents = read_file_on_line(path_to_file)
    
    words_list = contents.split() 
    words_list = [word for word in words_list]
    
    pattern = "[\d]{1,}[\.][\s][\D]{1,}[-][\D]{1,}"
    song_list = []

    itens_in_list = re.findall(pattern, contents)
    
    for item in itens_in_list:
        point_position = item.find(".")
        order, _ = int_try_parse(item[:4].replace(".", ""))
        
        song_list.append(
                {
                    "position": order,
                    "artist": item[point_position + 1:].split("-")[0].strip().upper(),
                    "music": item[point_position + 1 :].split("-")[1].strip().upper()
                }
            )
        
    save_new_file(song_list, file[:4])
    print(f"Lista de {file} está como {validate_ammount(song_list)} tem {len(song_list)} registros")

Lista de 2001_orig.txt está como False tem 492 registros
Lista de 2002_orig.txt está como False tem 493 registros
Lista de 2003_orig.txt está como False tem 487 registros
Lista de 2004_orig.txt está como False tem 484 registros


## Arquivo **2005** 

In [None]:
year = "2005"
path_to_file = f"{folder_original}{year}.txt"
contents = read_file_on_line(path_to_file)
pattern = "[\d]{1,}[\.][\s][\D]{1,}"
song_list = []

itens_in_list = re.findall(pattern, contents)

for item in itens_in_list:
    point_position = item.find(".")
    order, _ = int_try_parse(item[:4].replace(".", ""))

    song_list.append(
            {
                "position": order,
                "artist": item[point_position + 1:].strip().upper(),
                "music": ""
            }
        )

save_new_file(song_list, year)
print(f"Lista de {file} está como {validate_ammount(song_list)} tem {len(song_list)} registros")

### Identificar o nome da banda na lista e separar a música

Arquivos 2005 e 2006 os nomes dos artistas e da música não tem separador

## Arquivos de **2007 a 2021**

In [95]:
for year in range(2007, 2022, 1):
    path_to_file = f"{folder_original}{year}.txt"
    lines = read_file_lines(path_to_file)
    
    print(path_to_file, len(lines))
    song_list = []
    
    for item in lines:
        pattern = "([\d]{1,3})(.*)"
        itens_in_list = re.findall(pattern, item)
        
        # print(itens_in_list)
                
        order = itens_in_list[0][0]
        artist_music = itens_in_list[0][1].strip()
        
        # print(artist_music)
        
        if artist_music.startswith("-") or artist_music.startswith("."):
            artist_music = artist_music[1:].strip()
        
        try:
            artist = artist_music.split("-")[0].upper().strip()
            music = artist_music.split("-")[1].upper().strip()
        
        except IndexError:
            artist = "??"
            music = "??"
        
        song_list.append(
                {
                    "position": order,
                    "artist": artist,
                    "music": music
                }
            )
        
    save_new_file(song_list, year)
    print(f"Lista de {year} está como {validate_ammount(song_list)} tem {len(song_list)} registros")


resources/bases/original/2007.txt 501
Lista de 2007 está como False tem 501 registros
resources/bases/original/2008.txt 498
Lista de 2008 está como False tem 498 registros
resources/bases/original/2009.txt 500
Lista de 2009 está como True tem 500 registros
resources/bases/original/2010.txt 500
Lista de 2010 está como True tem 500 registros
resources/bases/original/2011.txt 500
Lista de 2011 está como True tem 500 registros
resources/bases/original/2012.txt 500
Lista de 2012 está como True tem 500 registros
resources/bases/original/2013.txt 499
Lista de 2013 está como False tem 499 registros
resources/bases/original/2014.txt 500
Lista de 2014 está como True tem 500 registros
resources/bases/original/2015.txt 500
Lista de 2015 está como True tem 500 registros
resources/bases/original/2016.txt 500
Lista de 2016 está como True tem 500 registros
resources/bases/original/2017.txt 500
Lista de 2017 está como True tem 500 registros
resources/bases/original/2018.txt 500
Lista de 2018 está como 

## Validar qual posição está faltando ou está duplicada no arquivo tratado

In [20]:
positions_real = [i for i in range(1, 501)]

for year in range(2001, 2022, 1):
    path_to_file = f"{folder_threated}{year}_ok.txt"
    lines = read_file_lines(path_to_file)
    positions = [int(line.split("|")[0]) for line in lines]
    
    positions_not_found = []
    
    if len(positions) != positions_real:
        positions_not_found = [pos for pos in positions_real if pos not in positions]
        
    
    if positions_not_found:
        print(f"No arquivo {year}_ok.txt não foram encontradas as posições {positions_not_found}\n")
    

No arquivo 2001_ok.txt não foram encontradas as posições [66, 83, 252, 275, 319, 320, 360, 396]

No arquivo 2002_ok.txt não foram encontradas as posições [64, 155, 230, 247, 344, 348, 386]

No arquivo 2003_ok.txt não foram encontradas as posições [39, 74, 82, 167, 198, 205, 206, 218, 282, 345, 373, 439, 444]

No arquivo 2004_ok.txt não foram encontradas as posições [1, 2, 20, 31, 37, 49, 60, 81, 98, 106, 118, 154, 160, 165, 342, 390]

No arquivo 2005_ok.txt não foram encontradas as posições [105, 260, 298, 389, 433, 484, 487]

No arquivo 2006_ok.txt não foram encontradas as posições [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 10

In [23]:
for year in range(2001, 2022, 1):
    path_to_file = f"{folder_threated}{year}_ok.txt"
    lines = read_file_lines(path_to_file)
    positions = [int(line.split("|")[0]) for line in lines]   
    
    if any(positions.count(element) > 1 for element in positions):       
        print(f"No arquivo {year}_ok.txt tem posições duplicadas. São eles: \n")
        print([item for item, count in Counter(positions).items() if count > 1], "\n")


No arquivo 2007_ok.txt tem posições duplicadas. São eles: 

[296, 187, 186] 

No arquivo 2021_ok.txt tem posições duplicadas. São eles: 

[1] 

