# Detecçao lingua do repositório

Utilizando os dados salvos pelo script **`01-pesquisa.ipynb`** , em particular o arquivo CSV gerado, o objetivo principal é identificar a língua predominante do repositório, ou seja, a língua usada para criar o conteúdo do repositório. Por exemplo, determinar se o repositório foi criado em inglês ou outras línguas.

## Importação de Bibliotecas

- **os**: Para verificar e criar diretórios no sistema de arquivos.
- **pandas (`pd`)**: Para manipulação e análise de dados tabulares.
- **langdetect**: Para detectar o idioma de textos fornecidos.

## Configuração Inicial

- **Semente para Reprodutibilidade**:
  - O gerador de números aleatórios da biblioteca `langdetect` é configurado com `DetectorFactory.seed = 0` para garantir que os resultados da detecção de idiomas sejam consistentes em diferentes execuções.

## Verificação e Criação de Diretórios

- O script verifica a existência do diretório `../Database/Resultados-Busca`.
- Caso o diretório não exista, ele é criado automaticamente com `os.makedirs`.

## Estrutura do Código

1. **Importação de Bibliotecas**
2. **Configuração de Semente para Detecção de Idioma**
3. **Verificação e Criação de Diretórios**
4. **Leitura do Arquivo CSV**
5. **Definição da Função de Detecção de Idioma**
6. **Aplicação da Detecção ao DataFrame**
7. **Salvamento do DataFrame Atualizado**

## Função para Detecção de Idioma

A função `detect_language` é definida para identificar o idioma de textos fornecidos:
- **Entrada**: Uma string contendo o texto a ser analisado.
- **Saída**:
  - Retorna o código do idioma detectado (ex.: "en" para inglês, "pt" para português).
  - Retorna `"unknown"` se:
    - O texto for nulo ou vazio.
    - Ocorreu um erro durante a detecção.

## Aplicação da Detecção de Idioma

- A detecção de idioma é aplicada à coluna `description` do DataFrame usando o método `apply`.
- Uma nova coluna chamada `language_detected` é adicionada ao DataFrame para armazenar os resultados da detecção.


In [None]:
import os  # Importa a biblioteca os para interagir com o sistema de arquivos
import pandas as pd  # Importa a biblioteca pandas para manipulação de dados
# Importa a função de detecção de idioma
from langdetect import detect, DetectorFactory

# Configurar o gerador de números aleatórios para a detecção de idioma
# Define uma semente para garantir resultados reprodutíveis na detecção de idioma
DetectorFactory.seed = 0

# Verificar e criar pastas para armazenamento de dados
if not os.path.exists("../Database/Resultados-Busca"):  # Verifica se o diretório existe
    os.makedirs("../Database/Resultados-Busca")  # Cria o diretório se não existir

# Lê o arquivo CSV que contém os dados dos repositórios coletados anteriormente
df = pd.read_csv('../Database/Resultados-Busca/repositorios_ux.csv')

# Função para detectar o idioma de um texto


def detect_language(text):
    # Verifica se o texto é nulo ou vazio
    if pd.isnull(text) or text.strip() == "":
        return "unknown"  # Retorna "unknown" se o texto não for válido
    try:
        return detect(text)  # Tenta detectar o idioma do texto
    except Exception:
        return "unknown"  # Retorna "unknown" em caso de erro durante a detecção


# Adiciona uma nova coluna ao DataFrame com o idioma detectado
df['language_detected'] = df['description'].apply(
    detect_language)  # Aplica a função de detecção a cada descrição

# Salva o DataFrame atualizado em um novo arquivo CSV
df.to_csv('../Database/Resultados-Busca/repositories_data.csv',index=False)  # Salva o DataFrame sem o índice