# Análisis exploratorio de datos de "Students Social Media Addiction".

Obtuvimos estos datos de kaggle, éste conjunto de datos "Redes sociales y relaciones estudiantiles" contiene registros anónimos del comportamiento de los estudiantes en redes sociales y sus resultados vitales. Abarca varios países y niveles académicos, centrándose en aspectos clave como la intensidad de uso, las preferencias de plataforma y la dinámica de las relaciones. Cada fila representa la respuesta de un estudiante a la encuesta.

La encuesta se aplicó a estudiantes de entre 16 y 25 años de edad inscritos en un programa de secundaria, preparatoria y universidad, ésta tuvo cobertura de varios países entre ellos, India, Estados Unidos, Reino Unido, Canadá, Australia, Alemania, Brasil, Japón, Corea del Sur, entre otros; la encuesta se realizó en el primer trimestre del 2025. 

In [2]:
# A continuación importaremos las librerías necesarias para el análisis exploratorio de datos
import pandas as pd
import plotly.express as px

# Crear dataframe
students_data=pd.read_csv(r"C:\Users\almav\OneDrive\Documentos\Triple Ten\Sprint 7\Project_S7\Sprint7_project_app\Students Social Media Addiction.csv")

# Mostrar las primeras líneas del dataframe students_data
students_data.head()

Unnamed: 0,Student_ID,Age,Gender,Academic_Level,Country,Avg_Daily_Usage_Hours,Most_Used_Platform,Affects_Academic_Performance,Sleep_Hours_Per_Night,Mental_Health_Score,Relationship_Status,Conflicts_Over_Social_Media,Addicted_Score
0,1,19,Female,Undergraduate,Bangladesh,5.2,Instagram,Yes,6.5,6,In Relationship,3,8
1,2,22,Male,Graduate,India,2.1,Twitter,No,7.5,8,Single,0,3
2,3,20,Female,Undergraduate,USA,6.0,TikTok,Yes,5.0,5,Complicated,4,9
3,4,18,Male,High School,UK,3.0,YouTube,No,7.0,7,Single,1,4
4,5,21,Male,Graduate,Canada,4.5,Facebook,Yes,6.0,6,In Relationship,2,7


In [3]:
# Llamar al método info para ver la información general del dataframe
students_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 705 entries, 0 to 704
Data columns (total 13 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Student_ID                    705 non-null    int64  
 1   Age                           705 non-null    int64  
 2   Gender                        705 non-null    object 
 3   Academic_Level                705 non-null    object 
 4   Country                       705 non-null    object 
 5   Avg_Daily_Usage_Hours         705 non-null    float64
 6   Most_Used_Platform            705 non-null    object 
 7   Affects_Academic_Performance  705 non-null    object 
 8   Sleep_Hours_Per_Night         705 non-null    float64
 9   Mental_Health_Score           705 non-null    int64  
 10  Relationship_Status           705 non-null    object 
 11  Conflicts_Over_Social_Media   705 non-null    int64  
 12  Addicted_Score                705 non-null    int64  
dtypes: fl

In [4]:
# Verificar si tenemos datos duplicados
students_data.duplicated().sum()

np.int64(0)

### A continuación realizaremos algunos histogramas:


In [5]:
# Crear histograma de la edad de los encuestadios con plotly-express
fig_1 = px.histogram(students_data, x='Age',
                   title='Distribución de la Edad de los Estudiantes encuestados',
                   labels={'Age': 'Edad del Estudiante'},
                   color_discrete_sequence=['skyblue'])

fig_1.show()

In [6]:
# Histograma para la puntuación de salud mental
fig_2 = px.histogram(students_data, x='Mental_Health_Score',
                   title='Distribución de la Puntuación de Salud Mental de los Estudiantes',
                   labels={'Mental_Health_Score': 'Puntuación de Salud Mental (1-10)'},
                   color_discrete_sequence=['lightcoral'], 
                   nbins=10)

fig_2.show()

### A continuación realizaremos algunos gráficos de dispersión:

In [7]:
# Gráfico de dispersión de hrs de uso diario vs puntuación de adicción a social media
fig_addiction = px.scatter(students_data,
                           x='Avg_Daily_Usage_Hours',
                           y='Addicted_Score',
                           title='Horas de Uso Diario de Redes Sociales vs. Puntuación de Adicción',
                           labels={
                               'Avg_Daily_Usage_Hours': 'Horas de Uso Diario Promedio',
                               'Addicted_Score': 'Puntuación de Adicción (1-10)'
                           })
fig_addiction.show()

In [8]:
# Gráfico para horas de sueño por noche vs puntuación de salud mental
fig_sleep_mental = px.scatter(students_data,
                              x='Sleep_Hours_Per_Night',
                              y='Mental_Health_Score',
                              title='Horas de Sueño por Noche vs. Puntuación de Salud Mental',
                              labels={
                                  'Sleep_Hours_Per_Night': 'Horas de Sueño por Noche',
                                  'Mental_Health_Score': 'Puntuación de Salud Mental (1-10)'
                              })
fig_sleep_mental.show()