# Imports

In [2]:
import pandas as pd

In [3]:
# Import the dataset into a pandas DataFrame
df = pd.read_csv('../dados/github_repos_completos.csv')

# Display dataset information
print('Dataset de Repositórios do GitHub contendo:')
print(f'{df.shape[0]} registros')
print(f'{df.shape[1]} colunas\n')

df.head()

Dataset de Repositórios do GitHub contendo:
9450 registros
18 colunas



Unnamed: 0,name,owner,stars,forks,language,created_at,updated_at,size_kb,watchers_count,open_issues,owner_type,owner_public_repos,owner_location,subscribers_count,last_year_commits,contributors,closed_issues,pull_requests
0,free-programming-books,EbookFoundation,359735,63576,Python,2013-10-11T06:50:37Z,2025-06-21T02:09:07Z,19483,359735,45,Organization,37,virtual,5000,339,432,129,15
1,public-apis,public-apis,351991,37004,Python,2016-03-20T23:49:42Z,2025-06-21T02:06:40Z,4771,351991,492,Organization,1,,4316,5,427,159,490
2,system-design-primer,donnemartin,306925,50727,Python,2017-02-26T16:15:28Z,2025-06-21T02:06:11Z,11239,306925,498,User,27,"Washington, D.C.",5000,4,113,18,256
3,awesome-python,vinta,247255,25843,Python,2014-06-27T21:00:06Z,2025-06-21T02:08:14Z,6769,247255,486,User,20,Taiwan,5000,1,368,28,471
4,Python,TheAlgorithms,201541,46909,Python,2016-07-16T09:44:01Z,2025-06-21T01:50:56Z,15391,201541,397,Organization,44,India,5000,181,454,334,329


# Data Dictionary

In [4]:
# Display the data types of each column in the DataFrame
df.dtypes

name                  object
owner                 object
stars                  int64
forks                  int64
language              object
created_at            object
updated_at            object
size_kb                int64
watchers_count         int64
open_issues            int64
owner_type            object
owner_public_repos     int64
owner_location        object
subscribers_count      int64
last_year_commits      int64
contributors           int64
closed_issues          int64
pull_requests          int64
dtype: object

In [5]:
# Create a DataFrame to serve as a data dictionary, showing each attribute's name and its data type.
dict_df = pd.DataFrame({
    'Nome do Atributo': df.dtypes.index,
    'Tipo do Valor': df.dtypes.values.astype(str),
})

In [6]:
dict_df

Unnamed: 0,Nome do Atributo,Tipo do Valor
0,name,object
1,owner,object
2,stars,int64
3,forks,int64
4,language,object
5,created_at,object
6,updated_at,object
7,size_kb,int64
8,watchers_count,int64
9,open_issues,int64


In [7]:
# Helper function to classify a data type as 'Numérico' (Numeric) or 'Categórico' (Categorical).
def classify_format(dtype):
    if dtype == 'int64' or dtype == 'float64':
        return 'Numérico'
    else:
        return 'Categórico'

In [8]:
# Apply the classification function to determine if each attribute is 'Numérico' or 'Categórico'.
dict_df['Tipo do Formato'] = dict_df['Tipo do Valor'].apply(classify_format)

In [10]:
# Add descriptions for each attribute to the data dictionary.
descricoes = [
    "Nome do repositório",
    "Login do usuário/organização dono",
    "Número de estrelas",
    "Número de forks",
    "Linguagem principal do projeto",
    "Data de criação do repositório (UTC)",
    "Data da última atualização",
    "Tamanho aproximado do repositório em KB",
    "Usuários acompanhando o repositório",
    "Issues abertas no momento",
    "Tipo do dono (User ou Organization)",
    "Quantidade de repositórios públicos do dono",
    "Localização geográfica declarada no perfil (opcional)",
    "Inscritos no repositório",
    "Quantidade de commits realizados nos últimos 12 meses",
    "Número de contribuidores únicos",
    "Issues fechadas nos últimos 6 meses",
    "Quantidade total de pull requests (abertos + fechados)"
]

dict_df['Descrição do Atributo'] = descricoes

In [11]:
# Refine 'Tipo do Valor' for clarity and accuracy in the data dictionary.
# 'object' is replaced with 'string', and specific date columns are set to 'datetime'.

dict_df['Tipo do Valor'] = dict_df['Tipo do Valor'].replace('object', 'string')
dict_df.loc[dict_df['Nome do Atributo'].isin(['created_at', 'updated_at']), 'Tipo do Valor'] = 'datetime'

In [12]:
dict_df

Unnamed: 0,Nome do Atributo,Tipo do Valor,Tipo do Formato,Descrição do Atributo
0,name,string,Categórico,Nome do repositório
1,owner,string,Categórico,Login do usuário/organização dono
2,stars,int64,Numérico,Número de estrelas
3,forks,int64,Numérico,Número de forks
4,language,string,Categórico,Linguagem principal do projeto
5,created_at,datetime,Categórico,Data de criação do repositório (UTC)
6,updated_at,datetime,Categórico,Data da última atualização
7,size_kb,int64,Numérico,Tamanho aproximado do repositório em KB
8,watchers_count,int64,Numérico,Usuários acompanhando o repositório
9,open_issues,int64,Numérico,Issues abertas no momento


In [14]:
# Save the created data dictionary DataFrame to a CSV file.
dict_df.to_csv('../dados/req2.csv', index=False)