In [32]:
import pandas as pd
import numpy as np

# ============================================================================
# CARGA DE DATOS
# ============================================================================

print("üìä Cargando archivos de datos...")

# Cargar TopRepositorios
df_top_repos = pd.read_csv('../Datos/TopRepositorios.csv')
print(f"‚úì TopRepositorios cargado: {len(df_top_repos)} registros")

# Cargar TopReposXLenguajes.txt
df_repos_lang = pd.read_csv('../Datos/TopReposXLenguajes.csv')
print(f"‚úì TopReposXLenguajes cargado: {len(df_repos_lang)} registros")

üìä Cargando archivos de datos...
‚úì TopRepositorios cargado: 13 registros
‚úì TopReposXLenguajes cargado: 188 registros


In [33]:
# ============================================================================
# LIMPIEZA DE DATOS
# ============================================================================

def limpiar_numeros(df, columnas):
    """
    Convierte columnas con n√∫meros formateados (e.g., '6,702') a enteros
    """
    for col in columnas:
        df[col] = df[col].str.replace(',', '').str.replace('"', '').astype(int)
    return df

print("\nüßπ Limpiando datos...")

# Limpiar n√∫meros en TopRepositorios
df_top_repos = limpiar_numeros(df_top_repos, ['NumberOfStar', 'NumberOfFork'])

# Limpiar n√∫meros en TopReposXLenguajes
df_repos_lang = limpiar_numeros(df_repos_lang, ['NumberOfStar', 'NumberOfFork'])

print("‚úì N√∫meros convertidos a formato num√©rico")


üßπ Limpiando datos...
‚úì N√∫meros convertidos a formato num√©rico


In [34]:
# ============================================================================
# ESTAD√çSTICAS GENERALES
# ============================================================================

print("\nüìà Estad√≠sticas Generales:")
print(f"  - Total de lenguajes √∫nicos: {df_repos_lang['Language'].nunique()}")
print(f"  - Repositorio m√°s popular: {df_top_repos.loc[df_top_repos['NumberOfStar'].idxmax(), 'Repository']}")
print(f"  - Total de estrellas (top repos): {df_top_repos['NumberOfStar'].sum():,}")
print(f"  - Total de forks (top repos): {df_top_repos['NumberOfFork'].sum():,}")


üìà Estad√≠sticas Generales:
  - Total de lenguajes √∫nicos: 10
  - Repositorio m√°s popular: opencode
  - Total de estrellas (top repos): 323,404
  - Total de forks (top repos): 37,031


In [35]:
# ============================================================================
# AN√ÅLISIS POR LENGUAJE
# ============================================================================

print("\nüîç An√°lisis por Lenguaje:")

# Estad√≠sticas agregadas por lenguaje
stats_por_lenguaje = df_repos_lang.groupby('Language').agg({
    'NumberOfStar': ['sum', 'mean', 'count'],
    'NumberOfFork': ['sum', 'mean']
}).round(0)

stats_por_lenguaje.columns = ['Total_Stars', 'Promedio_Stars', 'Num_Repos', 'Total_Forks', 'Promedio_Forks']
stats_por_lenguaje = stats_por_lenguaje.reset_index()
stats_por_lenguaje = stats_por_lenguaje.sort_values('Total_Stars', ascending=False)

print("\nTop 10 Lenguajes por Total de Estrellas:")
print(stats_por_lenguaje.head(10))


üîç An√°lisis por Lenguaje:

Top 10 Lenguajes por Total de Estrellas:
     Language  Total_Stars  Promedio_Stars  Num_Repos  Total_Forks  \
7        Rust       771430         33540.0         23        69092   
1         C++       521261         26063.0         20        92765   
2          Go       450283         23699.0         19        62050   
9  TypeScript       437436         33649.0         13        55393   
4         PHP       396125         16505.0         24        90444   
3  JavaScript       352912         25208.0         14        84735   
6        Ruby       303259         13784.0         22        93900   
0           C       270122         14217.0         19        41762   
8       Swift       208181          9463.0         22        26583   
5      Python       206752         17229.0         12        24245   

   Promedio_Forks  
7          3004.0  
1          4638.0  
2          3266.0  
9          4261.0  
4          3768.0  
3          6052.0  
6          4268.0

In [36]:
# ============================================================================
# PREPARAR DATOS PARA VISUALIZACI√ìN
# ============================================================================

print("\nüíæ Preparando datos para visualizaci√≥n...")

# 1. Promedio de estrellas por lenguaje (para gr√°fico de barras)
promedio_estrellas = stats_por_lenguaje[['Language', 'Promedio_Stars', 'Num_Repos']].copy()
promedio_estrellas = promedio_estrellas.sort_values('Promedio_Stars', ascending=False).head(10)

# 2. Top repositorios por lenguaje espec√≠fico (para an√°lisis detallado)
top_repos_por_lang = {}
for lang in df_repos_lang['Language'].unique():
    repos = df_repos_lang[df_repos_lang['Language'] == lang].nlargest(5, 'NumberOfStar')
    top_repos_por_lang[lang] = repos

# 3. Distribuci√≥n de repos por lenguaje
distribucion_lenguajes = df_repos_lang['Language'].value_counts().reset_index()
distribucion_lenguajes.columns = ['Language', 'Count']


üíæ Preparando datos para visualizaci√≥n...


In [37]:
# ============================================================================
# EXPORTAR DATOS PROCESADOS
# ============================================================================

print("\nüìÅ Guardando datos procesados...")

# Crear directorio si no existe
import os
os.makedirs('datos_procesados', exist_ok=True)

# Guardar archivos procesados
df_top_repos.to_csv('../Datos_procesados/Top_repos_clean.csv', index=False)
df_repos_lang.to_csv('../Datos_procesados/Repos_por_lenguaje_clean.csv', index=False)
stats_por_lenguaje.to_csv('../Datos_procesados/Estadisticas_lenguajes.csv', index=False)
promedio_estrellas.to_csv('../Datos_procesados/Promedio_estrellas_top10.csv', index=False)
distribucion_lenguajes.to_csv('../Datos_procesados/Distribucion_lenguajes.csv', index=False)

print("‚úì Archivos guardados en carpeta 'datos_procesados/'")
print("\n‚úÖ Procesamiento completado exitosamente!")


üìÅ Guardando datos procesados...
‚úì Archivos guardados en carpeta 'datos_procesados/'

‚úÖ Procesamiento completado exitosamente!


In [None]:
# ============================================================================
# VISTA PREVIA DE DATOS
# ============================================================================

print("\nüëÄ Vista previa de datos procesados:")
print("\n--- TopRepositorios (primeras 5 filas) ---")
print(df_top_repos.head())

print("\n--- Estad√≠sticas por Lenguaje (Top 5) ---")
print(stats_por_lenguaje.head())

print("\n--- Distribuci√≥n de Lenguajes ---")
print(distribucion_lenguajes.head(10))