# **Análisis de una Competencia de Kaggle**

### **DATASET:**
Se tiene un conjunto de datos en formato JSON que contiene información sobre una competencia de Kaggle. Los datos incluyen el ID del participante, el número de intentos, el tiempo invertido en la competencia y las puntuaciones obtenidas en cada intento. Algunos participantes tienen datos incompletos o valores nulos, que deberás manejar antes de realizar el análisis.

### **OBJETIVOS:**
* Cargar y explorar un archivo JSON.
* Identificar y manejar datos nulos.
* Calcular estadísticas descriptivas (promedios, máximos, mínimos, etc.) para el número de intentos, el tiempo invertido y las puntuaciones.
* Aplicar condicionales y operadores matemáticos para evaluar el rendimiento de los participantes (e.g., calcular el promedio de puntuaciones por intento).
* Guardar el conjunto de datos limpio en un nuevo archivo JSON.

In [4]:
# Importar las bibliotecas necesarias
import pandas as pd
import numpy as np
import json

In [5]:
# Cargar el archivo JSON
file_path = r'C:\Users\romi_\repositorios\mitic-data-science-team-1-septiembre-2024\clases\ds-fundamentals\data\ejercicios_integracion\competencia_kaggle.json'
with open(file_path, 'r') as file:
    data = json.load(file)

# Mostrar los datos de manera elegante
df = pd.json_normalize(data, 'puntuaciones', ['id_participante', 'nombre', 'intentos', 'tiempo_total_horas'], 
                       errors='ignore', record_prefix='puntuacion_')

# Renombrar las columnas adecuadamente
df.columns = ['puntuacion', 'id_participante', 'nombre', 'intentos', 'tiempo_total_horas']

# Mostrar los datos cargados
print("Datos cargados:")
print(df)

Datos cargados:
    puntuacion id_participante          nombre intentos tiempo_total_horas
0         80.0               1  Participante_A        5                 12
1         85.0               1  Participante_A        5                 12
2         90.0               1  Participante_A        5                 12
3         88.0               1  Participante_A        5                 12
4          NaN               1  Participante_A        5                 12
5         70.0               2  Participante_B        3               None
6         75.0               2  Participante_B        3               None
7          NaN               2  Participante_B        3               None
8         85.0               3  Participante_C        4                 10
9         90.0               3  Participante_C        4                 10
10        95.0               3  Participante_C        4                 10
11        93.0               3  Participante_C        4                 10
12       

In [6]:
# Identificar datos nulos
print("\nDatos nulos:")
print(df.isnull().sum())

# Manejar los datos nulos: Reemplazar nulos en las puntuaciones por la media de las puntuaciones de cada participante
df['puntuacion'] = df.groupby('id_participante')['puntuacion'].transform(lambda x: x.fillna(x.mean()))

# Reemplazar nulos en tiempo_total_horas e intentos con el promedio
df['tiempo_total_horas'].fillna(df['tiempo_total_horas'].mean(), inplace=True)


Datos nulos:
puntuacion            5
id_participante       0
nombre                0
intentos              0
tiempo_total_horas    3
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['tiempo_total_horas'].fillna(df['tiempo_total_horas'].mean(), inplace=True)
  df['tiempo_total_horas'].fillna(df['tiempo_total_horas'].mean(), inplace=True)


In [7]:
# Estadísticas descriptivas para intentos, tiempo y puntuaciones
print("\nEstadísticas descriptivas:")
print(df[['intentos', 'tiempo_total_horas', 'puntuacion']].describe())

# Calcular el promedio de puntuaciones por intento para cada participante
df['promedio_puntuacion_por_intento'] = df.groupby('id_participante')['puntuacion'].transform('mean') / df['intentos']

# Mostrar el DataFrame actualizado
print("\nDatos con el promedio de puntuaciones por intento:")
print(df)


Estadísticas descriptivas:
       tiempo_total_horas  puntuacion
count           20.000000   20.000000
mean            11.411765   80.837500
std              2.636960    9.581807
min              5.000000   60.000000
25%             10.000000   77.250000
50%             12.000000   81.625000
75%             14.000000   86.312500
max             14.000000   95.000000

Datos con el promedio de puntuaciones por intento:
    puntuacion id_participante          nombre intentos  tiempo_total_horas  \
0        80.00               1  Participante_A        5           12.000000   
1        85.00               1  Participante_A        5           12.000000   
2        90.00               1  Participante_A        5           12.000000   
3        88.00               1  Participante_A        5           12.000000   
4        85.75               1  Participante_A        5           12.000000   
5        70.00               2  Participante_B        3           11.411765   
6        75.00           

In [8]:
# Guardar el conjunto de datos limpio en un nuevo archivo JSON
output_path = r'C:\Users\romi_\repositorios\mitic-data-science-team-1-septiembre-2024\clases\ds-fundamentals\data\ejercicios_integracion\competencia_kaggle_limpio.json'
df.to_json(output_path, orient='records', indent=4)

print(f"\nConjunto de datos limpio guardado en: {output_path}")



Conjunto de datos limpio guardado en: C:\Users\romi_\repositorios\mitic-data-science-team-1-septiembre-2024\clases\ds-fundamentals\data\ejercicios_integracion\competencia_kaggle_limpio.json
