### Readme
notebook que carga y analiza el fichero JSON con información de repositorios
los datos se han obtenido via API GraphQL y REST API de github

### Carga de librerías y fichero de datos. comprobaciones básicas

In [28]:
# imports de librerías requeridas

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

import json
from tabulate import tabulate
import locale

In [29]:
#pd.set_option('display.precision', 2)  # Configurar la precisión de decimales

# Configurar la visualización para que los números se muestren en formato europeo
pd.set_option('display.float_format', lambda x: '{:,.2f}'.format(x).replace(',', 'X').replace('.', ',').replace('X', '.'))

In [30]:
#DATA_FILE='D:\\Dev\\github-scrapping-02\\Data\\xmerge-metadata.json'
DATA_FILE='D:\\Dev\\github-scrapping-02\\Data\\repos_adicionales.json'

In [31]:
#compression = None if DATA_FILE.endswith('.json') else 'infer'
#df = pd.read_json(DATA_FILE, compression=compression)

# Abrimos y leemos el archivo JSON
with open(DATA_FILE, 'r') as f:
    repos = [json.loads(line) for line in f]


In [32]:
# Convertimos los datos a un DataFrame de pandas para mejor visualización
df = pd.json_normalize(repos)

In [33]:
df.head()

Unnamed: 0,name,description,stargazerCount,forkCount,createdAt,updatedAt,pushedAt,diskUsage,isArchived,isEmpty,...,issues.totalCount,forks.totalCount,assignableUsers.totalCount,deployments.totalCount,environments.totalCount,milestones.totalCount,releases.totalCount,pullRequests.totalCount,watchers.totalCount,licenseInfo
0,CnC_Remastered_Collection,,18329,4736,2020-03-30T17:48:04Z,2024-10-06T19:17:42Z,2022-12-08T11:20:03Z,8432,False,False,...,99,4681,3,0,0,0,0,23,523,
1,trax,Trax — Deep Learning with Clear Code and Speed,8069,813,2019-10-05T15:09:14Z,2024-10-06T04:04:02Z,2024-09-10T20:43:39Z,169293,False,False,...,232,806,6,0,0,0,18,1571,141,
2,vuido,Native desktop applications using Vue.js.,6106,231,2018-05-17T18:12:02Z,2024-09-25T09:20:42Z,2023-03-01T22:54:33Z,717,False,False,...,58,230,1,0,0,0,4,15,202,
3,city-roads,Visualization of all roads within any city,6014,446,2020-01-19T16:42:16Z,2024-10-06T19:46:52Z,2024-09-27T03:24:47Z,2135,False,False,...,53,433,1,29,1,0,0,25,85,
4,zero,Zero is a web server to simplify web development.,5832,243,2018-11-21T21:05:14Z,2024-09-24T07:35:33Z,2024-02-26T11:34:35Z,8277,False,False,...,92,242,1,0,0,0,0,110,50,


In [34]:
# crear copia de seguridad
df_copy=df.copy()

In [35]:
df_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5040 entries, 0 to 5039
Data columns (total 36 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   name                        5040 non-null   object 
 1   description                 4764 non-null   object 
 2   stargazerCount              5040 non-null   int64  
 3   forkCount                   5040 non-null   int64  
 4   createdAt                   5040 non-null   object 
 5   updatedAt                   5040 non-null   object 
 6   pushedAt                    5040 non-null   object 
 7   diskUsage                   5040 non-null   int64  
 8   isArchived                  5040 non-null   bool   
 9   isEmpty                     5040 non-null   bool   
 10  isFork                      5040 non-null   bool   
 11  isInOrganization            5040 non-null   bool   
 12  isPrivate                   5040 non-null   bool   
 13  isTemplate                  5040 

In [36]:
print(len(df_copy))

5040


In [37]:
# Contar el número de valores no nulos por columna
non_null_counts = df_copy.notnull().sum()
print(non_null_counts)

name                          5040
description                   4764
stargazerCount                5040
forkCount                     5040
createdAt                     5040
updatedAt                     5040
pushedAt                      5040
diskUsage                     5040
isArchived                    5040
isEmpty                       5040
isFork                        5040
isInOrganization              5040
isPrivate                     5040
isTemplate                    5040
hasIssuesEnabled              5040
hasWikiEnabled                5040
hasProjectsEnabled            5040
hasSponsorshipsEnabled        5040
mergeCommitAllowed            5040
viewerCanSubscribe            5040
contributors                  5040
owner.login                   5040
owner.url                     5040
licenseInfo.name              3803
primaryLanguage.name          5040
languages.nodes               5040
issues.totalCount             5040
forks.totalCount              5040
assignableUsers.tota

In [38]:
# Contar el número de valores nulos por columna
null_counts = df_copy.isnull().sum()
print(null_counts)

name                             0
description                    276
stargazerCount                   0
forkCount                        0
createdAt                        0
updatedAt                        0
pushedAt                         0
diskUsage                        0
isArchived                       0
isEmpty                          0
isFork                           0
isInOrganization                 0
isPrivate                        0
isTemplate                       0
hasIssuesEnabled                 0
hasWikiEnabled                   0
hasProjectsEnabled               0
hasSponsorshipsEnabled           0
mergeCommitAllowed               0
viewerCanSubscribe               0
contributors                     0
owner.login                      0
owner.url                        0
licenseInfo.name              1237
primaryLanguage.name             0
languages.nodes                  0
issues.totalCount                0
forks.totalCount                 0
assignableUsers.tota

In [39]:
# Contar el número de columnas
num_columns = df_copy.shape[1]

print(f"El número de columnas en el DataFrame es: {num_columns}")

El número de columnas en el DataFrame es: 36


In [40]:
# licenseInfo no contiene valores. Esa información se encuentra en licenseInfo.name
df_copy.drop(columns=['licenseInfo'], inplace=True)


In [41]:
# Conversión de las columnas a tipo datetime
df_copy['createdAt'] = pd.to_datetime(df_copy['createdAt'])
df_copy['updatedAt'] = pd.to_datetime(df_copy['updatedAt'])
df_copy['pushedAt'] = pd.to_datetime(df_copy['pushedAt'])

# Verificar los tipos de datos
df_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5040 entries, 0 to 5039
Data columns (total 35 columns):
 #   Column                      Non-Null Count  Dtype              
---  ------                      --------------  -----              
 0   name                        5040 non-null   object             
 1   description                 4764 non-null   object             
 2   stargazerCount              5040 non-null   int64              
 3   forkCount                   5040 non-null   int64              
 4   createdAt                   5040 non-null   datetime64[ns, UTC]
 5   updatedAt                   5040 non-null   datetime64[ns, UTC]
 6   pushedAt                    5040 non-null   datetime64[ns, UTC]
 7   diskUsage                   5040 non-null   int64              
 8   isArchived                  5040 non-null   bool               
 9   isEmpty                     5040 non-null   bool               
 10  isFork                      5040 non-null   bool            

### Calidad del dato

In [42]:
# Homogeneidad de tipos:
# Verificar si todas las filas de cada columna en df_copy contienen el mismo tipo de dato
for col in df_copy.columns:
    # Aplicar la función 'type' a cada valor y contar los tipos únicos
    tipo_unico = df_copy[col].apply(type).nunique()
    
    if tipo_unico == 1:
        print(f"Todos los valores de la columna '{col}' son del mismo tipo.")
    else:
        print(f"La columna '{col}' contiene diferentes tipos de datos.")
        
        # Mostrar algunos ejemplos de los tipos y valores heterogéneos
        tipos_diferentes = df_copy[col].apply(type).unique()  # Tipos diferentes en la columna
        print(f"Tipos encontrados en la columna '{col}': {tipos_diferentes}")
        
        # Filtrar los valores que no coinciden con el primer tipo de la columna
        for tipo in tipos_diferentes:
            ejemplos = df_copy[df_copy[col].apply(type) == tipo][col].head(3)  # Muestra hasta 3 ejemplos
            print(f"Ejemplos de valores del tipo {tipo}: {ejemplos.values}")
            
    print("-" * 50)


Todos los valores de la columna 'name' son del mismo tipo.
--------------------------------------------------
La columna 'description' contiene diferentes tipos de datos.
Tipos encontrados en la columna 'description': [<class 'NoneType'> <class 'str'>]
Ejemplos de valores del tipo <class 'NoneType'>: [None None None]
Ejemplos de valores del tipo <class 'str'>: ['Trax — Deep Learning with Clear Code and Speed'
 'Native desktop applications using Vue.js.'
 'Visualization of all roads within any city']
--------------------------------------------------
Todos los valores de la columna 'stargazerCount' son del mismo tipo.
--------------------------------------------------
Todos los valores de la columna 'forkCount' son del mismo tipo.
--------------------------------------------------
Todos los valores de la columna 'createdAt' son del mismo tipo.
--------------------------------------------------
Todos los valores de la columna 'updatedAt' son del mismo tipo.
------------------------------

In [43]:
print(len(df_copy.columns))

35


In [44]:
df_copy.describe()

Unnamed: 0,stargazerCount,forkCount,diskUsage,contributors,issues.totalCount,forks.totalCount,assignableUsers.totalCount,deployments.totalCount,environments.totalCount,milestones.totalCount,releases.totalCount,pullRequests.totalCount,watchers.totalCount
count,"5.040,00","5.040,00","5.040,00","5.040,00","5.040,00","5.040,00","5.040,00","5.040,00","5.040,00","5.040,00","5.040,00","5.040,00","5.040,00"
mean,39948,8944,"46.227,69",582,5632,8623,1077,5858,039,068,931,8251,1625
std,46107,18703,"434.163,64",1277,21846,18010,11279,98879,679,544,3913,46272,5054
min,9800,000,000,000,000,000,000,000,000,000,000,000,000
25%,23000,2700,46800,000,500,2600,100,000,000,000,000,100,600
50%,30350,5000,"2.937,50",200,1600,4900,100,000,000,000,000,800,1100
75%,43600,9400,"16.042,75",500,4600,9100,200,000,000,000,600,3800,1800
max,"18.329,00","5.305,00","19.157.628,00",10000,"10.058,00","5.273,00","2.204,00","64.740,00",46900,23700,"1.000,00","25.125,00","3.157,00"


In [45]:
# Filtrar filas que contienen valores negativos en cualquier columna numérica
# Asegurarse de seleccionar solo las columnas numéricas del DataFrame
columnas_numericas = df_copy.select_dtypes(include=['number']).columns
print(f"Hay '{len(columnas_numericas)}' atributos numéricos")

# Verificar si alguna de las columnas numéricas contiene valores negativos
negativos = df_copy[columnas_numericas] < 0

# Mostrar las columnas que tienen valores negativos
columnas_con_negativos = negativos.any()

# Imprimir las columnas que tienen al menos un valor negativo
for columna, tiene_negativos in columnas_con_negativos.items():
    if tiene_negativos:
        print(f"'{columna}' tiene valores negativos********.")
    else:
        print(f"'{columna}' no tiene valores negativos.")


Hay '13' atributos numéricos
'stargazerCount' no tiene valores negativos.
'forkCount' no tiene valores negativos.
'diskUsage' no tiene valores negativos.
'contributors' no tiene valores negativos.
'issues.totalCount' no tiene valores negativos.
'forks.totalCount' no tiene valores negativos.
'assignableUsers.totalCount' no tiene valores negativos.
'deployments.totalCount' no tiene valores negativos.
'environments.totalCount' no tiene valores negativos.
'milestones.totalCount' no tiene valores negativos.
'releases.totalCount' no tiene valores negativos.
'pullRequests.totalCount' no tiene valores negativos.
'watchers.totalCount' no tiene valores negativos.


In [46]:
# Para verificar si existen duplicados, se crea clave primaria creada a partir de owner.login y name:
# Crear la nueva columna 'reponame' combinando 'owner.login' y 'name'
df_copy['reponame'] = df_copy['owner.login'] + '/' + df_copy['name']

In [47]:
df_copy['reponame'].head()

0    electronicarts/CnC_Remastered_Collection
1                                 google/trax
2                              mimecorg/vuido
3                           anvaka/city-roads
4                        remoteinterview/zero
Name: reponame, dtype: object

In [48]:
# Duplicados
# Obtener los duplicados en la columna 'reponame'
duplicados = df_copy[df_copy.duplicated(subset='reponame', keep=False)]

if not duplicados.empty:
    # Agrupar por 'reponame' y mostrar índices de duplicados y el original
    for valor in duplicados['reponame'].unique():
        indices_duplicados = df_copy[df_copy['reponame'] == valor].index
        
        # Filtrar el índice del original
        indice_original = indices_duplicados[0]  # Primer índice como original
        indices_sin_original = indices_duplicados[1:]  # Índices de los duplicados sin el original

        print(f"Duplicado: '{valor}' en índices: {list(indices_sin_original)}")
        print(f"Original: '{valor}' en índice: {indice_original}\n")

        # Eliminar duplicados uno a uno
        for indice in indices_sin_original:
            df_copy = df_copy.drop(indice).reset_index(drop=True)
            print(f"Eliminado el duplicado en índice: {indice}")

else:
    print("No se encontraron registros duplicados en la columna 'reponame'.")


No se encontraron registros duplicados en la columna 'reponame'.


In [49]:
df_copy.shape

(5040, 36)

### Lenguajes

In [50]:
df_copy['languages.nodes'].head()

0    [{'name': 'C++'}, {'name': 'Assembly'}, {'name...
1    [{'name': 'Python'}, {'name': 'Jupyter Noteboo...
2            [{'name': 'JavaScript'}, {'name': 'Vue'}]
3    [{'name': 'JavaScript'}, {'name': 'HTML'}, {'n...
4    [{'name': 'JavaScript'}, {'name': 'HTML'}, {'n...
Name: languages.nodes, dtype: object

In [51]:
# Contar el número de lenguajes por repositorio
df_copy['language_count'] = df_copy['languages.nodes'].apply(lambda x: len(x))

# Mostrar los resultados
print(df_copy[['languages.nodes', 'language_count']].head())


                                     languages.nodes  language_count
0  [{'name': 'C++'}, {'name': 'Assembly'}, {'name...               6
1  [{'name': 'Python'}, {'name': 'Jupyter Noteboo...               3
2          [{'name': 'JavaScript'}, {'name': 'Vue'}]               2
3  [{'name': 'JavaScript'}, {'name': 'HTML'}, {'n...               5
4  [{'name': 'JavaScript'}, {'name': 'HTML'}, {'n...               6


In [52]:
# elimino .totalCount de nombres de variables
# Quitar '.totalCount' de los nombres de las columnas en df_copy
df_copy.columns = df_copy.columns.str.replace('.totalCount', '', regex=False)

In [53]:
df_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5040 entries, 0 to 5039
Data columns (total 37 columns):
 #   Column                  Non-Null Count  Dtype              
---  ------                  --------------  -----              
 0   name                    5040 non-null   object             
 1   description             4764 non-null   object             
 2   stargazerCount          5040 non-null   int64              
 3   forkCount               5040 non-null   int64              
 4   createdAt               5040 non-null   datetime64[ns, UTC]
 5   updatedAt               5040 non-null   datetime64[ns, UTC]
 6   pushedAt                5040 non-null   datetime64[ns, UTC]
 7   diskUsage               5040 non-null   int64              
 8   isArchived              5040 non-null   bool               
 9   isEmpty                 5040 non-null   bool               
 10  isFork                  5040 non-null   bool               
 11  isInOrganization        5040 non-null   boo

In [54]:
# Convertir las columnas de tipo datetime64 a strings en formato ISO 8601
df_copy['createdAt'] = df_copy['createdAt'].dt.strftime('%Y-%m-%dT%H:%M:%S')
df_copy['pushedAt'] = df_copy['pushedAt'].dt.strftime('%Y-%m-%dT%H:%M:%S')
df_copy['updatedAt'] = df_copy['updatedAt'].dt.strftime('%Y-%m-%dT%H:%M:%S')

# Guardar el DataFrame en formato JSON
#df_copy.to_json('D:\\Dev\\github-scrapping-02\\Data\\df_clean.json', orient='records', lines=True)
df_copy.to_json('D:\\Dev\\github-scrapping-02\\Data\\df_new_records.json', orient='records', lines=True)