In [19]:
import pandas as pd
import missingno as msno
from ydata_profiling import ProfileReport
import matplotlib.pyplot as plt

In [20]:
df = pd.read_csv('./train_muestra_ct.csv')

In [6]:
df.head()
df.shape

(4049213, 10)

### Generar reporte automático



In [7]:
profile = ProfileReport(
    df,
    title="reporte",
    explorative=True,  
    correlations={
        "pearson": {"calculate": True},
        "spearman": {"calculate": True},
        "kendall": {"calculate": True},
        "phi_k": {"calculate": True},
    },
    missing_diagrams={
        "bar": True,
        "matrix": True,
        "heatmap": True,
    },
)

# Guardar como HTML
profile.to_file("reporte_df.html")
print("\nReporte generado")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

100%|██████████| 10/10 [00:10<00:00,  1.02s/it]


Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]


Reporte generado


In [17]:
df.describe()


Unnamed: 0,row_id,timestamp,user_id,content_id,content_type_id,task_container_id,user_answer,answered_correctly,prior_question_elapsed_time
count,3954940.0,3954940.0,3954940.0,3954940.0,3954940.0,3954940.0,3954940.0,3954940.0,3954940.0
mean,50611260.0,7737407000.0,1076650000.0,4987.972,0.0,912.1728,1.423909,0.6569088,25434.85
std,29222270.0,11611380000.0,619707300.0,3292.6,0.0,1367.284,1.155937,0.4747417,19956.33
min,4.0,0.0,115.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,25302240.0,529823400.0,540804600.0,2001.0,0.0,105.0,0.0,0.0,16000.0
50%,50607090.0,2691744000.0,1071726000.0,4979.0,0.0,385.0,1.0,1.0,21000.0
75%,75917250.0,10001520000.0,1615726000.0,7218.0,0.0,1106.0,3.0,1.0,29666.0
max,101230300.0,87192900000.0,2147482000.0,13522.0,0.0,9999.0,3.0,1.0,300000.0


Verificar datos faltantes en cada columna

In [21]:
#print("Valores nulos por columna (TOTAL):\n", df.isnull().sum())
completitud = df.notna().mean() * 100
print("Porcentaje de completitud por columna:\n", completitud)

Porcentaje de completitud por columna:
 row_id                            100.000000
timestamp                         100.000000
user_id                           100.000000
content_id                        100.000000
content_type_id                   100.000000
task_container_id                 100.000000
user_answer                       100.000000
answered_correctly                100.000000
prior_question_elapsed_time        97.671819
prior_question_had_explanation     99.611431
dtype: float64


In [12]:
duplicados_exactos = df[df.duplicated(keep=False)]  

print(f"Número de registros duplicados exactos: {len(duplicados_exactos)}")
if not duplicados_exactos.empty:
    print("\nEjemplo de registros duplicados:")
    display(duplicados_exactos.sort_values(by=list(df.columns)).head())

Número de registros duplicados exactos: 0


In [14]:
print("valores interpretados como null")
print("Recuento de -1 en 'user_answer':", (df['user_answer'] == -1).sum())
print("Recuento de -1 en 'answered_correctly':", (df['answered_correctly'] == -1).sum())


valores interpretados como null
Recuento de -1 en 'user_answer': 0
Recuento de -1 en 'answered_correctly': 0


In [None]:
# Detección de outliers en 'valor' (método IQR)
Q1 = df['timestamp'].quantile(0.25)
Q3 = df['timestamp'].quantile(0.75)
IQR = Q3 - Q1
outliers = df[(df['timestamp'] < (Q1 - 1.5*IQR)) | (df['timestamp'] > (Q3 + 1.5*IQR))]
print("\nNúmero de outliers en timestamp", len(outliers))



Número de outliers en timestamp 368842


<Axes: xlabel='timestamp'>

In [16]:
# Detección de outliers en 'valor' (método IQR)
Q1 = df['prior_question_elapsed_time'].quantile(0.25)
Q3 = df['prior_question_elapsed_time'].quantile(0.75)
IQR = Q3 - Q1
outliers = df[(df['prior_question_elapsed_time'] < (Q1 - 1.5*IQR)) | (df['prior_question_elapsed_time'] > (Q3 + 1.5*IQR))]
print("\nNúmero de outliers en prior_question_elapsed_time", len(outliers))



Número de outliers en prior_question_elapsed_time 288431


In [25]:
df['prior_question_elapsed_time_min'] = df['prior_question_elapsed_time'] / 60000
df['timestamp_hrs'] = df['timestamp'] / 3600000
df.head()


Unnamed: 0,row_id,timestamp,user_id,content_id,content_type_id,task_container_id,user_answer,answered_correctly,prior_question_elapsed_time,prior_question_had_explanation,prior_question_elapsed_time_min,timestamp_min,timestamp_hrs
0,162814,2192514769,3459591,4406,0,155,0,0,11000.0,True,0.183333,609.03188,609.03188
1,32681,324855427,786638,7093,0,114,2,1,34400.0,True,0.573333,90.237619,90.237619
2,40971,335689585,1095916,9107,0,233,0,0,8000.0,True,0.133333,93.247107,93.247107
3,63321,2397825389,1409904,1053,0,362,1,1,16000.0,True,0.266667,666.062608,666.062608
4,186690,14882365329,3838215,3365,0,3255,2,1,27000.0,True,0.45,4133.990369,4133.990369


### Conclusión sobre el análisis exploratorio:

Con la generación de nuestro reporte automático y algunas de las métricas básicas podemos realizar ciertas recomendaciones para nuestros datos.

Primero , debido al tipo de registro en nuestras variables: prior_question_elapsed_time y timestamp que se registraron en milisegundos son valores en extremo grandes y depende del modelo usado puede que convenga convertir estas variables a unidades mas acorde a.

Por otra parte en las variables de: prior_question_elapsed_time y prior_question_had_explanation existen registros con valores nulos y aunque representan muy pocos datos (menos de un 5%) comviene eliminarlos.

Por otra parte es conveniente deja las columnas que hacen referencia a los id de otras tablas puesto que para el modelo se necesitará juntarlas de acuerdo al tipo de preguntas.

Por último existen muchos outliers dentro de mis columnas numericas(relacionadas con el tiempo entre preguntas). Sin embargo debido a lo explicado comviene no eliminarlos

