# Limpieza y Análisis de Datos con Pandas

Este notebook trabaja con el archivo `screentime_analysis_extended.csv`.

Objetivos:
1. Cargar datos y explorarlos.
2. Detectar y tratar valores nulos.
3. Eliminar duplicados.
4. Arreglar tipos de datos.
5. Limpiar texto.
6. Detectar columnas vacías y borrarlas.
7. Guardar el dataset limpio.
8. Hacer un mini análisis final.

## 1. Importación y exploración inicial

In [9]:
import pandas as pd

# Cargar el CSV (ajusta la ruta si lo tienes en otra carpeta)
df = pd.read_csv("screentime_analysis_extended.csv")

# Vista rápida de las primeras filas
display(df.head())

# Información general de columnas y tipos
df.info()

# Estadísticas básicas (incluyendo texto)
display(df.describe(include='all'))


Unnamed: 0,user_id,app_name,screen_time(min),notifications,date,comentarios
0,1001,Instagram,45.0,10.0,2024-05-12,
1,1002,WhatsApp,60.0,12.0,2024-05-12,
2,1003,YouTube,120.0,8.0,2024-05-13,
3,1004,Telegram,30.0,5.0,2024-05-14,
4,1021,Instagram,,14.0,2024-05-12,


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17 entries, 0 to 16
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   user_id           17 non-null     int64  
 1   app_name          17 non-null     object 
 2   screen_time(min)  15 non-null     float64
 3   notifications     15 non-null     float64
 4   date              16 non-null     object 
 5   comentarios       0 non-null      float64
dtypes: float64(3), int64(1), object(2)
memory usage: 948.0+ bytes


Unnamed: 0,user_id,app_name,screen_time(min),notifications,date,comentarios
count,17.0,17,15.0,15.0,16,0.0
unique,,12,,,5,
top,,WhatsApp,,,2024-05-13,
freq,,3,,,6,
mean,1039.823529,,82.0,8.666667,,
std,28.089667,,34.111163,3.677473,,
min,1001.0,,30.0,3.0,,
25%,1004.0,,55.0,5.5,,
50%,1055.0,,90.0,8.0,,
75%,1063.0,,110.0,12.0,,


## 2. Detección y manejo de valores nulos (NaN)

In [None]:
# Conteo de valores nulos por columna
print("Valores nulos por columna:")
print(df.isna().sum())

# Rellenar NaN en columnas numéricas clave con valores por defecto
df.fillna({'screen_time(min)': 0, 'notifications': 0}, inplace=True)

# Eliminar filas que no tengan app o tiempo de pantalla (esenciales para análisis)
df.dropna(subset=['app_name', 'screen_time(min)'], inplace=True)

print('\nDespués de limpieza de NaN:')
print(df.isna().sum())

display(df.head())


Valores nulos por columna:
user_id              0
app_name             0
screen_time(min)     2
notifications        2
date                 1
comentarios         17
dtype: int64

Después de limpieza de NaN:
user_id              0
app_name             0
screen_time(min)     0
notifications        0
date                 1
comentarios         17
dtype: int64


Unnamed: 0,user_id,app_name,screen_time(min),notifications,date,comentarios
0,1001,Instagram,45.0,10.0,2024-05-12,
1,1002,WhatsApp,60.0,12.0,2024-05-12,
2,1003,YouTube,120.0,8.0,2024-05-13,
3,1004,Telegram,30.0,5.0,2024-05-14,
4,1021,Instagram,0.0,14.0,2024-05-12,


## 3. Eliminación de duplicados

In [11]:
# Detectar filas duplicadas completas
duplicados = df[df.duplicated()]
print("Filas duplicadas detectadas:")
display(duplicados)

# Eliminar duplicados
df.drop_duplicates(inplace=True)

print("Tamaño tras eliminar duplicados:", df.shape)


Filas duplicadas detectadas:


Unnamed: 0,user_id,app_name,screen_time(min),notifications,date,comentarios
7,1002,WhatsApp,60.0,12.0,2024-05-12,


Tamaño tras eliminar duplicados: (16, 6)


## 4. Conversión de tipos de datos (`astype`, `to_datetime`)

In [12]:
print("Tipos ANTES:")
print(df.dtypes)

# Convertir columnas numéricas que puedan venir como texto
df['screen_time(min)'] = df['screen_time(min)'].astype(float)

# notifications puede tener mezcla de enteros y strings -> forzamos conversión segura
df['notifications'] = pd.to_numeric(df['notifications'], errors='coerce').fillna(0).astype(int)

# Convertir fechas a datetime, forzando formato cuando hay mezcla
df['date'] = pd.to_datetime(df['date'], errors='coerce', dayfirst=True)

print("\nTipos DESPUÉS:")
print(df.dtypes)

display(df.head())


Tipos ANTES:
user_id               int64
app_name             object
screen_time(min)    float64
notifications       float64
date                 object
comentarios         float64
dtype: object

Tipos DESPUÉS:
user_id                      int64
app_name                    object
screen_time(min)           float64
notifications                int64
date                datetime64[ns]
comentarios                float64
dtype: object


Unnamed: 0,user_id,app_name,screen_time(min),notifications,date,comentarios
0,1001,Instagram,45.0,10,2024-12-05,
1,1002,WhatsApp,60.0,12,2024-12-05,
2,1003,YouTube,120.0,8,NaT,
3,1004,Telegram,30.0,5,NaT,
4,1021,Instagram,0.0,14,2024-12-05,


## 5. Eliminación de columnas vacías

In [13]:
# Eliminamos columnas que estén completamente vacías
df.dropna(axis=1, how='all', inplace=True)

print("Columnas actuales del DataFrame:")
print(df.columns.tolist())


Columnas actuales del DataFrame:
['user_id', 'app_name', 'screen_time(min)', 'notifications', 'date']


## 6. Limpieza y normalización de texto (`.str` en Pandas)

In [14]:
# Normalizar nombres de apps:
# - quitar espacios en blanco
# - poner la primera letra en mayúscula de cada palabra
# - eliminar espacios internos (Instagram  -> Instagram, 'YouTube Music' -> 'Youtubemusic')
df['app_name'] = (
    df['app_name']
      .astype(str)
      .str.strip()
      .str.title()
      .str.replace(' ', '', regex=False)
)

display(df[['app_name']].head(10))

# Buscar todas las filas que contienen "Youtube"
youtube_rows = df[df['app_name'].str.contains('Youtube', case=False, na=False)]
print("Filas con Youtube:")
display(youtube_rows)


Unnamed: 0,app_name
0,Instagram
1,Whatsapp
2,Youtube
3,Telegram
4,Instagram
5,Whatsapp
6,Tiktok
8,Telegram
9,Instagram
10,Whatsapp


Filas con Youtube:


Unnamed: 0,user_id,app_name,screen_time(min),notifications,date
2,1003,Youtube,120.0,8,NaT
12,1063,YoutubeMusic,130.0,9,NaT
13,1064,YoutubeKids,95.0,7,NaT


## 7. Métodos extra de cadena (`str.len`, `str.startswith`, etc.)

In [15]:
# Longitud del nombre de la app
df['app_name_len'] = df['app_name'].str.len()

# Apps que empiezan por 'Y'
apps_y = df[df['app_name'].str.startswith('Y', na=False)]

print("Apps que empiezan por 'Y':")
display(apps_y[['app_name', 'app_name_len']].drop_duplicates())

display(df[['app_name', 'app_name_len']].head())


Apps que empiezan por 'Y':


Unnamed: 0,app_name,app_name_len
2,Youtube,7
12,YoutubeMusic,12
13,YoutubeKids,11


Unnamed: 0,app_name,app_name_len
0,Instagram,9
1,Whatsapp,8
2,Youtube,7
3,Telegram,8
4,Instagram,9


## 8. Detección de tipos mezclados en columnas

In [16]:
print("Tipos actuales:")
print(df.dtypes)

print("\nTipo real de cada celda en las primeras filas:")
display(df.applymap(type).head())

# Convertir automáticamente al tipo más adecuado (opcional)
df = df.convert_dtypes()

print("\nTipos tras convert_dtypes():")
print(df.dtypes)


Tipos actuales:
user_id                      int64
app_name                    object
screen_time(min)           float64
notifications                int64
date                datetime64[ns]
app_name_len                 int64
dtype: object

Tipo real de cada celda en las primeras filas:


  display(df.applymap(type).head())


Unnamed: 0,user_id,app_name,screen_time(min),notifications,date,app_name_len
0,<class 'int'>,<class 'str'>,<class 'float'>,<class 'int'>,<class 'pandas._libs.tslibs.timestamps.Timesta...,<class 'int'>
1,<class 'int'>,<class 'str'>,<class 'float'>,<class 'int'>,<class 'pandas._libs.tslibs.timestamps.Timesta...,<class 'int'>
2,<class 'int'>,<class 'str'>,<class 'float'>,<class 'int'>,<class 'pandas._libs.tslibs.nattype.NaTType'>,<class 'int'>
3,<class 'int'>,<class 'str'>,<class 'float'>,<class 'int'>,<class 'pandas._libs.tslibs.nattype.NaTType'>,<class 'int'>
4,<class 'int'>,<class 'str'>,<class 'float'>,<class 'int'>,<class 'pandas._libs.tslibs.timestamps.Timesta...,<class 'int'>



Tipos tras convert_dtypes():
user_id                      Int64
app_name            string[python]
screen_time(min)             Int64
notifications                Int64
date                datetime64[ns]
app_name_len                 Int64
dtype: object


## 9. Guardar el dataset limpio

In [17]:
df.to_csv('screentime_analysis_clean.csv', index=False)
print('Archivo screentime_analysis_clean.csv guardado correctamente.')

Archivo screentime_analysis_clean.csv guardado correctamente.


## 10. Mini análisis final por aplicación

In [18]:
# ¿Qué apps tienen más tiempo medio de pantalla?
screen_time_media = (
    df.groupby('app_name')['screen_time(min)']
      .mean()
      .sort_values(ascending=False)
)

print("Tiempo medio de pantalla (min) por app:")
display(screen_time_media)

# ¿Qué apps generan más notificaciones?
notif_media = (
    df.groupby('app_name')['notifications']
      .mean()
      .sort_values(ascending=False)
)

print("Notificaciones medias por app:")
display(notif_media)


Tiempo medio de pantalla (min) por app:


app_name
YoutubeMusic        130.0
Youtube             120.0
Netflix             110.0
TikTok              100.0
YoutubeKids          95.0
Whatsapp        86.666667
Telegram             60.0
CalendarPro          50.0
Instagram            25.0
Tiktok                0.0
Name: screen_time(min), dtype: Float64

Notificaciones medias por app:


app_name
TikTok          12.0
Instagram       10.0
YoutubeMusic     9.0
Whatsapp         9.0
Youtube          8.0
YoutubeKids      7.0
Netflix          6.0
Telegram         5.0
CalendarPro      3.0
Tiktok           0.0
Name: notifications, dtype: Float64