# Cienciade Datos: Uso del teléfono en Adolescentes

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
import matplotlib.pyplot as plt
import math


In [None]:
# Cargar el archivo CSV
df = pd.read_csv("../data/data.csv")


In [None]:
df.info()

# Limpiar identificadores
df.drop(columns=['ID', 'Name'], inplace=True)
df.describe(include="all")

In [None]:
df.duplicated().sum()

In [None]:
df.isna().sum()


In [None]:
df.describe(include='all')

In [None]:
df.hist(figsize=(12, 8))
plt.tight_layout()
plt.show()

In [None]:
# Crear variable binaria de adicción (1 = alto, 0 = bajo)
df["AddiccionBinaria"] = (df["Addiction_Level"] > 5).astype(int)

# 3. Variables predictoras y objetivo
X = df[["Daily_Usage_Hours"]]     # Horas de uso
y = df["AddiccionBinaria"]        # Etiqueta

# 4. Separar datos entrenamiento/prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# 5. Modelo
model = LogisticRegression()
model.fit(X_train, y_train)

# 6. Predicciones
y_pred = model.predict(X_test)

# 7. Resultados
print("MATRIZ DE CONFUSIÓN")
print(confusion_matrix(y_test, y_pred))




In [None]:
print("\nREPORTE DE CLASIFICACIÓN")
print(classification_report(y_test, y_pred))



In [None]:

# 8. Grafico simple
plt.scatter(df["Daily_Usage_Hours"], df["AddiccionBinaria"])
plt.xlabel("Horas de uso del celular al día")
plt.ylabel("Adicción (0=bajo, 1=alto)")
plt.title("Uso diario vs adicción")
plt.show()

In [None]:
y_prob = model.predict_proba(X_test)[:, 1]
df_pred = pd.DataFrame({"Horas": X_test["Daily_Usage_Hours"], "Probabilidad": y_prob})
print(df_pred.head())


In [None]:
plt.hist(df["Daily_Usage_Hours"], bins=20)
plt.xlabel("Horas de uso")
plt.ylabel("Cantidad de personas")
plt.title("Distribución de horas de uso")
plt.show()



## Matriz de gráficos de dispersión respecto al nivel de adicción

In [None]:
variables_numericas = df.select_dtypes(include="number").columns
variables_numericas = [col for col in variables_numericas if col not in ["Addiction_Level", "AddiccionBinaria"]]

n_vars = len(variables_numericas)
n_cols = 3
n_rows = math.ceil(n_vars / n_cols)

fig, axes = plt.subplots(n_rows, n_cols, figsize=(5 * n_cols, 4 * n_rows), squeeze=False)

unique_levels = sorted(df["Addiction_Level"].unique())
unique_levels_int = sorted({int(round(x)) for x in unique_levels})

for idx, col in enumerate(variables_numericas):
    r = idx // n_cols
    c = idx % n_cols
    axes[r][c].scatter(df[col], df["Addiction_Level"], alpha=0.5)
    axes[r][c].set_title(col)
    axes[r][c].set_xlabel(col)
    axes[r][c].set_ylabel("Addiction_Level")
    axes[r][c].set_yticks(unique_levels_int)

for idx in range(n_vars, n_rows * n_cols):
    r = idx // n_cols
    c = idx % n_cols
    axes[r][c].set_visible(False)

fig.suptitle("Matriz de gráficos de dispersión (Addiction_Level en eje Y)")
plt.tight_layout(rect=[0, 0, 1, 0.95])
plt.show()
