In [1]:
import pandas as pd  # Importa a biblioteca pandas para manipulação de dados

# Carregar dados do arquivo CSV
# Lê o arquivo CSV contendo os dados dos repositórios
df = pd.read_csv('../Database/Resultados-Busca/repositories_data.csv')

# Filtro 1: Seleciona repositórios com mais de 10 estrelas
# Filtra o DataFrame para incluir apenas repositórios com mais de 10 estrelas
df = df[df['stars'] > 10]

# Filtro 2: Seleciona repositórios com mais de 10 forks
# Filtra o DataFrame para incluir apenas repositórios com mais de 10 forks
df = df[df['forks'] > 10]

# Filtro 3: Seleciona repositórios que estão em inglês
# Filtra o DataFrame para incluir apenas repositórios detectados como inglês
df = df[df['language_detected'].isin(['en'])]

# Filtro 4: Seleciona repositórios criados nos últimos 10 anos
# Converte a coluna 'created_at' para o tipo datetime, tratando erros como NaT
df['created_at'] = pd.to_datetime(df['created_at'], errors='coerce')
# Calcula a data que representa 10 anos atrás em UTC
ten_years_ago = pd.Timestamp.now(tz='UTC') - pd.DateOffset(years=10)
# Filtra o DataFrame para incluir apenas repositórios criados nos últimos 10 anos
df = df[df['created_at'] > ten_years_ago]

# Filtro 5: Converter a coluna 'updated_at' para o tipo datetime (caso ainda não esteja)
# Garante que a coluna 'updated_at' seja do tipo datetime
df['updated_at'] = pd.to_datetime(df['updated_at'])

# Filtro 6: Seleciona repositórios que foram atualizados em 2024
# Filtra o DataFrame para incluir apenas repositórios que foram atualizados no ano de 2024
df = df[df['updated_at'].dt.year == 2024]

# Filtro 7: Verifica se o nome e a descrição não são nulos ou vazios
df = df[(df['name'].notna()) & (df['description'].notna()) &
        (df['name'].str.strip() != '') & (df['description'].str.strip() != '')]  # Filtra o DataFrame para garantir que nome e descrição sejam válidos

# Verificar se o DataFrame está vazio após a aplicação dos filtros
if df.empty:
    # Mensagem caso nenhum repositório passe pelos filtros
    print("Nenhum repositório atende aos critérios de filtro.")
else:
    # Salvar o DataFrame filtrado em um novo arquivo CSV
    df.to_csv('../Database/Resultados-Busca/repositories_ux_filtrados.csv',
              index=False, sep=',', decimal=',')  # Salva o DataFrame filtrado sem incluir o índice
    print("Repositórios filtrados com sucesso.")  # Mensagem de sucesso

    # Exemplo de resumo de dados filtrados
    print(df.describe())  # Exibe um resumo estatístico dos dados filtrados

    # Adicione aqui mais análises conforme necessário

Repositórios filtrados com sucesso.
               stars         forks  open_issues  contributors_count  \
count    2964.000000   2964.000000  2964.000000         2964.000000   
mean     2974.334683    461.637314    68.813428           30.846491   
std      8544.984970   2095.783094   216.263055           68.820856   
min        14.000000     11.000000     0.000000            0.000000   
25%       136.750000     28.000000     3.000000            2.000000   
50%       456.500000     67.000000    12.000000            7.000000   
75%      1776.000000    236.250000    44.250000           21.000000   
max    167445.000000  58886.000000  3803.000000          472.000000   

       commits_count       watchers          size  releases_count  
count    2964.000000    2964.000000  2.964000e+03     2964.000000  
mean     1349.014845    2974.334683  7.344697e+04       43.309717  
std     11175.408327    8544.984970  5.096299e+05      424.624999  
min         1.000000      14.000000  0.000000e+00   