In [2]:
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go

In [4]:
# Cargar dataset
df = pd.read_csv("teen_phone_addiction_dataset.csv")

# Vista general
print(df.head())

   ID               Name  Age  Gender          Location School_Grade  \
0   1    Shannon Francis   13  Female        Hansonfort          9th   
1   2    Scott Rodriguez   17  Female      Theodorefort          7th   
2   3        Adrian Knox   13   Other       Lindseystad         11th   
3   4  Brittany Hamilton   18  Female      West Anthony         12th   
4   5       Steven Smith   14   Other  Port Lindsaystad          9th   

   Daily_Usage_Hours  Sleep_Hours  Academic_Performance  Social_Interactions  \
0                4.0          6.1                    78                    5   
1                5.5          6.5                    70                    5   
2                5.8          5.5                    93                    8   
3                3.1          3.9                    78                    8   
4                2.5          6.7                    56                    4   

   ...  Screen_Time_Before_Bed  Phone_Checks_Per_Day  Apps_Used_Daily  \
0  ...       

In [5]:
# Ver estructura general
df.info()

# Ver estadísticas básicas de columnas numéricas
df.describe()

# Ver nombres exactos de columnas
print(df.columns)

# Para normalizar y eliminar posibles espacios
df.columns = df.columns.str.lower().str.replace(' ', '_')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3000 entries, 0 to 2999
Data columns (total 25 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   ID                      3000 non-null   int64  
 1   Name                    3000 non-null   object 
 2   Age                     3000 non-null   int64  
 3   Gender                  3000 non-null   object 
 4   Location                3000 non-null   object 
 5   School_Grade            3000 non-null   object 
 6   Daily_Usage_Hours       3000 non-null   float64
 7   Sleep_Hours             3000 non-null   float64
 8   Academic_Performance    3000 non-null   int64  
 9   Social_Interactions     3000 non-null   int64  
 10  Exercise_Hours          3000 non-null   float64
 11  Anxiety_Level           3000 non-null   int64  
 12  Depression_Level        3000 non-null   int64  
 13  Self_Esteem             3000 non-null   int64  
 14  Parental_Control        3000 non-null   

In [6]:
columnas_utiles = [
    'age', 'gender', 'daily_usage_hours', 'sleep_hours',
    'academic_performance', 'exercise_hours', 'anxiety_level',
    'apps_used_daily', 'time_on_social_media', 'time_on_gaming',
    'addiction_level'
]

df = df[columnas_utiles]
print(df.columns.tolist())

['age', 'gender', 'daily_usage_hours', 'sleep_hours', 'academic_performance', 'exercise_hours', 'anxiety_level', 'apps_used_daily', 'time_on_social_media', 'time_on_gaming', 'addiction_level']


In [7]:
print("Valores únicos en 'gender':")
print(df['gender'].unique())

print("\nConteo por categoría:")
print(df['gender'].value_counts())

Valores únicos en 'gender':
['Female' 'Other' 'Male']

Conteo por categoría:
gender
Male      1016
Female    1007
Other      977
Name: count, dtype: int64


In [8]:
# Pasar a minúsculas y limpiar espacios
df['gender'] = df['gender'].str.strip().str.lower()

# Filtrar solo 'male' y 'female'
df = df[df['gender'].isin(['male', 'female'])]

# Verificar conteo final
print(df['gender'].value_counts())

gender
male      1016
female    1007
Name: count, dtype: int64


In [9]:
print(df.describe())

               age  daily_usage_hours  sleep_hours  academic_performance  \
count  2023.000000        2023.000000  2023.000000           2023.000000   
mean     16.004943           5.053584     6.501038             74.706377   
std       1.988586           1.969979     1.502518             14.803954   
min      13.000000           0.000000     3.000000             50.000000   
25%      14.000000           3.700000     5.500000             62.000000   
50%      16.000000           5.000000     6.500000             75.000000   
75%      18.000000           6.400000     7.500000             88.000000   
max      19.000000          11.200000    10.000000            100.000000   

       exercise_hours  anxiety_level  apps_used_daily  time_on_social_media  \
count     2023.000000    2023.000000      2023.000000           2023.000000   
mean         1.039199       5.589718        12.506673              2.502076   
std          0.726175       2.862620         4.590968              0.975301   

In [10]:
# Ver tipos de datos
print(df.dtypes)

# Verificar valores nulos
print(df.isnull().sum())

# Revisar duplicados
print(f"Duplicados: {df.duplicated().sum()}")

# Valores atípicos (ejemplo en edad)
print(df[df['age'] < 13])
print(df[df['age'] > 19])

# Ejemplo: valores extremos en daily_usage_hours
print(df[df['daily_usage_hours'] > 10])

# Valores extremos en sleep_hours
print(df[df['sleep_hours'] < 4])

age                       int64
gender                   object
daily_usage_hours       float64
sleep_hours             float64
academic_performance      int64
exercise_hours          float64
anxiety_level             int64
apps_used_daily           int64
time_on_social_media    float64
time_on_gaming          float64
addiction_level         float64
dtype: object
age                     0
gender                  0
daily_usage_hours       0
sleep_hours             0
academic_performance    0
exercise_hours          0
anxiety_level           0
apps_used_daily         0
time_on_social_media    0
time_on_gaming          0
addiction_level         0
dtype: int64
Duplicados: 0
Empty DataFrame
Columns: [age, gender, daily_usage_hours, sleep_hours, academic_performance, exercise_hours, anxiety_level, apps_used_daily, time_on_social_media, time_on_gaming, addiction_level]
Index: []
Empty DataFrame
Columns: [age, gender, daily_usage_hours, sleep_hours, academic_performance, exercise_hours, anxiet

Se realiza un analisis y se tiene la siguiente conclusión sobre el dataset:
- No hay valores nulos.
- No hay duplicados.
- Todas las columnas tienen el tipo de dato correcto (`int64`, `float64`, `object` para `gender`).
- Edad: entre 13 y 19 años → lógico para adolescentes.
- Horas de uso diario: hasta 11.2 horas → alto pero realista.
- Horas de sueño: mínimo 3 horas → posible en casos extremos.
- `gender` estandarizado: solo `male` y `female` en minúsculas.

# Preparación del conjunto de datos

Tras realizar un proceso de limpieza y verificación de calidad, se concluye que el DataFrame se encuentra en condiciones óptimas para proceder con el análisis exploratorio. Se eliminaron columnas irrelevantes, se estandarizaron las variables categóricas (como el género), y se confirmó la ausencia de valores nulos y registros duplicados. Además, se validaron los rangos de cada variable para asegurar su coherencia con el contexto del estudio. Por tanto, el conjunto de datos está listo para ser analizado mediante técnicas gráficas y estadísticas que permitan extraer patrones e insights relevantes.