<a href="https://colab.research.google.com/github/DanielTusarma/proyecto_bootcamp/blob/main/Proyecto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# **Proyecto**


# **Impacto en la Salud Mental generado por el uso diario de la tecnología.**

Este proyecto tiene como objetivo analizar cómo el uso diario de las diferentes tecnologias como:
Redes sociales, videojuegos, y dispositivos electrónicos
pueden influir en aspectos de la salud mental, el sueño, el estres y la actividad fisica de las personas.

En este caso utilizaremos un conjunto de datos recopilado en el 2024 que contiende información detallada sobre estos hábitos digitales, como también el bienestar social o el apoyo social. Lo que se busca en este análisis es explorar e identificar patrones relevantes que nos permitan comprender mejor el impacto que genera la tecnología en la vida cotidiana.



##  **🧪 Carga inicial y exploración del conjunto de datos**

En esta sección se realiza la carga del conjunto de datos directamente desde una URL de Github, permitiendo su acceso desde cualquier entorno. A continuación, se hace una revisión preliminar de su estructura general mediante funciones como head(), info() y describe() para entender el tipo de variables disponibles y su formato.

### **📁 Importación y carga del dataset alojado en Github**

Con la librería pandas cargamos el dataset directamente desde una URL pública de GitHub. Este archivo esta en formato .csv que contiene los datos relacionados con el uso diario de la tecnología y su posible impacto en la salud mental.

In [1]:
import pandas as pd

# carga y lectura del archivo.csv
df = pd.read_csv('https://raw.githubusercontent.com/DanielTusarma/dataset_dt/refs/heads/main/mental_health_and_technology_usage_2024.csv')


### **🔎 Revisión preliminar del conjunto de datos**

Se realiza una inspección inicial para conocer la estructura del dataset, identificar la cantidad de registros, el tipo de variables presentes y detectar posibles valores nulos o inconsistencias que deban ser tratadas más adelante.

👉 Visualizamos las primeras celdas del dataset para comprender su estructura general:

In [2]:
df.head()

Unnamed: 0,User_ID,Age,Gender,Technology_Usage_Hours,Social_Media_Usage_Hours,Gaming_Hours,Screen_Time_Hours,Mental_Health_Status,Stress_Level,Sleep_Hours,Physical_Activity_Hours,Support_Systems_Access,Work_Environment_Impact,Online_Support_Usage
0,USER-00001,23,Female,6.57,6.0,0.68,12.36,Good,Low,8.01,6.71,No,Negative,Yes
1,USER-00002,21,Male,3.01,2.57,3.74,7.61,Poor,High,7.28,5.88,Yes,Positive,No
2,USER-00003,51,Male,3.04,6.14,1.26,3.16,Fair,High,8.04,9.81,No,Negative,No
3,USER-00004,25,Female,3.84,4.48,2.59,13.08,Excellent,Medium,5.62,5.28,Yes,Negative,Yes
4,USER-00005,53,Male,1.2,0.56,0.29,12.63,Good,Low,5.55,4.0,No,Positive,Yes


👉 Revisamos la información general del dataset, incluyendo el tipo de datos y valores nulos:

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   User_ID                   10000 non-null  object 
 1   Age                       10000 non-null  int64  
 2   Gender                    10000 non-null  object 
 3   Technology_Usage_Hours    10000 non-null  float64
 4   Social_Media_Usage_Hours  10000 non-null  float64
 5   Gaming_Hours              10000 non-null  float64
 6   Screen_Time_Hours         10000 non-null  float64
 7   Mental_Health_Status      10000 non-null  object 
 8   Stress_Level              10000 non-null  object 
 9   Sleep_Hours               10000 non-null  float64
 10  Physical_Activity_Hours   10000 non-null  float64
 11  Support_Systems_Access    10000 non-null  object 
 12  Work_Environment_Impact   10000 non-null  object 
 13  Online_Support_Usage      10000 non-null  object 
dtypes: floa

👉 Resumen estadístico de las columnas numéricas para conocer su distribución:

In [4]:
df.describe()

Unnamed: 0,Age,Technology_Usage_Hours,Social_Media_Usage_Hours,Gaming_Hours,Screen_Time_Hours,Sleep_Hours,Physical_Activity_Hours
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,41.5186,6.474341,3.972321,2.515598,7.975765,6.500724,5.00386
std,13.920217,3.169022,2.313707,1.446748,4.042608,1.450933,2.905044
min,18.0,1.0,0.0,0.0,1.0,4.0,0.0
25%,29.0,3.76,1.98,1.26,4.52,5.26,2.49
50%,42.0,6.425,3.95,2.52,7.9,6.5,4.99
75%,54.0,9.2125,5.99,3.79,11.5,7.76,7.54
max,65.0,12.0,8.0,5.0,15.0,9.0,10.0


👉 Convertimos los nombres de cada columna del dataframe en una lista de Python.

In [5]:
df.columns.tolist()

['User_ID',
 'Age',
 'Gender',
 'Technology_Usage_Hours',
 'Social_Media_Usage_Hours',
 'Gaming_Hours',
 'Screen_Time_Hours',
 'Mental_Health_Status',
 'Stress_Level',
 'Sleep_Hours',
 'Physical_Activity_Hours',
 'Support_Systems_Access',
 'Work_Environment_Impact',
 'Online_Support_Usage']

👉 Recorremos cada fila del dataframe y mostramos el tipo de dato de cada valor de la columna especificada, en este caso preciso la columna "User_ID", para detectar diferentes tipos de datos como pueden ser tipos de datos Int, Str, etc.

In [6]:
for index, fila in df.iterrows():

    print(f"Indice: {index}, valor X: {type(fila['User_ID'])}")

Indice: 0, valor X: <class 'str'>
Indice: 1, valor X: <class 'str'>
Indice: 2, valor X: <class 'str'>
Indice: 3, valor X: <class 'str'>
Indice: 4, valor X: <class 'str'>
Indice: 5, valor X: <class 'str'>
Indice: 6, valor X: <class 'str'>
Indice: 7, valor X: <class 'str'>
Indice: 8, valor X: <class 'str'>
Indice: 9, valor X: <class 'str'>
Indice: 10, valor X: <class 'str'>
Indice: 11, valor X: <class 'str'>
Indice: 12, valor X: <class 'str'>
Indice: 13, valor X: <class 'str'>
Indice: 14, valor X: <class 'str'>
Indice: 15, valor X: <class 'str'>
Indice: 16, valor X: <class 'str'>
Indice: 17, valor X: <class 'str'>
Indice: 18, valor X: <class 'str'>
Indice: 19, valor X: <class 'str'>
Indice: 20, valor X: <class 'str'>
Indice: 21, valor X: <class 'str'>
Indice: 22, valor X: <class 'str'>
Indice: 23, valor X: <class 'str'>
Indice: 24, valor X: <class 'str'>
Indice: 25, valor X: <class 'str'>
Indice: 26, valor X: <class 'str'>
Indice: 27, valor X: <class 'str'>
Indice: 28, valor X: <class 's

👉 Se realiza un listado general de todas sus columnas.


In [7]:
df.columns.tolist()


['User_ID',
 'Age',
 'Gender',
 'Technology_Usage_Hours',
 'Social_Media_Usage_Hours',
 'Gaming_Hours',
 'Screen_Time_Hours',
 'Mental_Health_Status',
 'Stress_Level',
 'Sleep_Hours',
 'Physical_Activity_Hours',
 'Support_Systems_Access',
 'Work_Environment_Impact',
 'Online_Support_Usage']

👉 Se crea un diccionario de traducciones donde la clave es el nombre de la columna y su valor es la traducción de dicha clave.

In [8]:
traducciones = {
    'User_ID': 'ID_Usuario',
    'Age': 'Edad',
    'Gender': 'Género',
    'Technology_Usage_Hours': 'Horas_Tecnología',
    'Social_Media_Usage_Hours': 'Horas_Redes_Sociales',
    'Gaming_Hours': 'Horas_Juegos',
    'Screen_Time_Hours': 'Horas_Pantalla',
    'Mental_Health_Status': 'Estado_Salud_Mental',
    'Stress_Level': 'Nivel_Estrés',
    'Sleep_Hours': 'Horas_Sueño',
    'Physical_Activity_Hours': 'Horas_Actividad_Física',
    'Support_Systems_Access': 'Acceso_Soporte',
    'Work_Environment_Impact': 'Impacto_Entorno_Laboral',
    'Online_Support_Usage': 'Uso_Soporte_Online'
}

👉 Se realiza la respectiva traducción a español decada columna del dataframe segun la información del diccionario anterior.

In [9]:
df = df.rename(columns=traducciones)

👉 Volvemos a listar las columnas del dataframe para verificar que si haya realizado las traducciones de manera correcta.

In [10]:
df.columns.tolist()

['ID_Usuario',
 'Edad',
 'Género',
 'Horas_Tecnología',
 'Horas_Redes_Sociales',
 'Horas_Juegos',
 'Horas_Pantalla',
 'Estado_Salud_Mental',
 'Nivel_Estrés',
 'Horas_Sueño',
 'Horas_Actividad_Física',
 'Acceso_Soporte',
 'Impacto_Entorno_Laboral',
 'Uso_Soporte_Online']

👉 De nuevo verificamos la información del dataframe donde incluye todas sus columnas y sus respectivos tipos de datos.

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   ID_Usuario               10000 non-null  object 
 1   Edad                     10000 non-null  int64  
 2   Género                   10000 non-null  object 
 3   Horas_Tecnología         10000 non-null  float64
 4   Horas_Redes_Sociales     10000 non-null  float64
 5   Horas_Juegos             10000 non-null  float64
 6   Horas_Pantalla           10000 non-null  float64
 7   Estado_Salud_Mental      10000 non-null  object 
 8   Nivel_Estrés             10000 non-null  object 
 9   Horas_Sueño              10000 non-null  float64
 10  Horas_Actividad_Física   10000 non-null  float64
 11  Acceso_Soporte           10000 non-null  object 
 12  Impacto_Entorno_Laboral  10000 non-null  object 
 13  Uso_Soporte_Online       10000 non-null  object 
dtypes: float64(6), int64(1)

## 🧹Limpieza de datos

### Contar valores nulos por cada columna

👉 Verificamos cuantos valores faltantes tiene cada columna.

In [12]:
df.isnull().sum()

ID_Usuario                 0
Edad                       0
Género                     0
Horas_Tecnología           0
Horas_Redes_Sociales       0
Horas_Juegos               0
Horas_Pantalla             0
Estado_Salud_Mental        0
Nivel_Estrés               0
Horas_Sueño                0
Horas_Actividad_Física     0
Acceso_Soporte             0
Impacto_Entorno_Laboral    0
Uso_Soporte_Online         0
dtype: int64

👉 Verificamos si existen filas repetidas en el dataframe.

In [13]:
df.duplicated().sum()

0

### Identificar valores únicos por cada columna

👉 Verificamos cuantos valores únicos tiene cada columna en el dataframe.

In [14]:
df.nunique()

ID_Usuario                 10000
Edad                          48
Género                         3
Horas_Tecnología            1101
Horas_Redes_Sociales         801
Horas_Juegos                 501
Horas_Pantalla              1400
Estado_Salud_Mental            4
Nivel_Estrés                   3
Horas_Sueño                  501
Horas_Actividad_Física      1001
Acceso_Soporte                 2
Impacto_Entorno_Laboral        3
Uso_Soporte_Online             2
dtype: int64

👉 Verificamos en todo el dataframe los valores únicos existentes.

In [15]:
# for col in df.columns:
#    print(f"\nColumna: {col}")
#    print(df[col].unique())

👉 Verificamos la consistencia en algunas columas categóricas.

In [16]:
# En este caso tomamos la columna "Estado_Salud_Mental"
df['Estado_Salud_Mental'].unique()
df['Estado_Salud_Mental'].value_counts()

Estado_Salud_Mental
Excellent    2518
Good         2508
Fair         2490
Poor         2484
Name: count, dtype: int64

In [17]:
# En este caso tomamos la columna "Nivel_Estrés"
df['Nivel_Estrés'].unique()
df['Nivel_Estrés'].value_counts()

Nivel_Estrés
Medium    3338
Low       3332
High      3330
Name: count, dtype: int64

In [18]:
# En este caso tomamos la columna "Género"
df['Género'].unique()
df['Género'].value_counts()

Género
Other     3364
Male      3350
Female    3286
Name: count, dtype: int64

## ⚒️ EDA Análisis exploratorio

### 👉 Matriz de correlación de variables numéricas

In [19]:
import numpy as np
df_numericas = df.select_dtypes(include=[np.number])


In [20]:
import seaborn as sns
import matplotlib.pyplot as plt

# Calcular la matriz de correlación
corr = df_numericas.corr()

# Graficar el heatmap
plt.figure(figsize=(8, 6))
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Mapa de Correlación')
plt.show()


ModuleNotFoundError: No module named 'seaborn'

### Histograma

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

sns.histplot(data=df, x = 'Edad', bins=70, kde=True)
plt.title('Géneros')
plt.show()

In [None]:
print("Hola mundo, 'de nuevo'")
print('hola mundo, "otra vez"')

Hola mundo, 'de nuevo'
hola mundo, "otra vez"
