# Practica 1.1. Manipuación de datos

## Objetivo

En esta práctica, aprenderás a aplicar técnicas de análisis de datos utilizando Pandas para explorar un dataset relacionado con la salud mental. El objetivo es que pongas en práctica tus habilidades de manipulación, limpieza y análisis de datos para obtener conclusiones interesantes.

Escribe aquí tu reporte

Paso 1: Carga del Dataset
Primero, vas a cargar el archivo CSV que contiene la información sobre diferentes factores que influyen en la salud mental. Utiliza la biblioteca Pandas para leer el archivo y observa las primeras filas del dataset. Esto te ayudará a familiarizarte con la información que vas a analizar.

Preguntas:
¿Cuántos registros y columnas tiene el dataset?
¿Qué tipo de datos predominan?

In [14]:
import pandas as pd

data = pd.read_csv('dataset/mental_health.csv')

num_registros, num_columnas = data.shape


tipos_datos = data.dtypes.value_counts()


print(f"El dataset tiene {num_registros} registros y {num_columnas} columnas.")
print("Tipos de datos predominantes:")
print(tipos_datos)


El dataset tiene 1200 registros y 21 columnas.
Tipos de datos predominantes:
int64      14
object      5
float64     2
Name: count, dtype: int64


Paso 2: Exploración Inicial
Ahora que ya tienes los datos cargados, es momento de explorar un poco más. Consulta información general como el tipo de datos en cada columna, cuántos datos no nulos hay, y revisa las primeras filas. También obtén estadísticas básicas como la media y el rango de los datos. Esto te ayudará a detectar si algo llama la atención o si hay datos fuera de lo normal.

Preguntas:
¿Existen columnas que podrían ser categóricas pero aparecen como tipo object?
¿Hay valores que parecen inconsistentes o fuera de rango?

In [2]:
info_general = data.info()

primeras_filas = data.head()

valores_nulos = data.isnull().sum()

estadisticas_basicas = data.describe()

columnas_objeto = data.select_dtypes(include='object').columns

# Mostrar los resultados
print("Información general sobre el dataset:")
print(info_general)
print("\nPrimeras filas del dataset:")
print(primeras_filas)
print("\nValores nulos por columna:")
print(valores_nulos)
print("\nEstadísticas básicas del dataset:")
print(estadisticas_basicas)
print("\nColumnas que podrían ser categóricas pero están como tipo object:")
print(columnas_objeto)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1200 entries, 0 to 1199
Data columns (total 21 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Age                            1200 non-null   int64  
 1   Gender                         1200 non-null   object 
 2   Education_Level                1200 non-null   object 
 3   Employment_Status              1200 non-null   object 
 4   Sleep_Hours                    1200 non-null   float64
 5   Physical_Activity_Hrs          1200 non-null   float64
 6   Social_Support_Score           1200 non-null   int64  
 7   Anxiety_Score                  1200 non-null   int64  
 8   Depression_Score               1200 non-null   int64  
 9   Stress_Level                   1200 non-null   int64  
 10  Family_History_Mental_Illness  1200 non-null   int64  
 11  Chronic_Illnesses              1200 non-null   int64  
 12  Medication_Use                 453 non-null    o

Paso 3: Limpieza de Datos
Es hora de "limpiar" los datos. Revisa si hay valores nulos o datos duplicados. Decide qué hacer con ellos: ¿los eliminarás, los reemplazarás o aplicarás otra estrategia? También asegúrate de que los tipos de datos de cada columna son correctos y convierte aquellos que no estén en el formato adecuado.

Preguntas:
¿Qué porcentaje del dataset contiene valores nulos?
¿Qué estrategia decidiste aplicar para tratar los valores nulos y por qué?

In [5]:

porcentaje_nulos = data.isnull().mean() * 100


duplicados = data.duplicated().sum()


data['Sleep_Hours'] = data['Sleep_Hours'].fillna(data['Sleep_Hours'].mean())
data['Physical_Activity_Hrs'] = data['Physical_Activity_Hrs'].fillna(data['Physical_Activity_Hrs'].mean())
data['Social_Support_Score'] = data['Social_Support_Score'].fillna(data['Social_Support_Score'].mean())
data['Anxiety_Score'] = data['Anxiety_Score'].fillna(data['Anxiety_Score'].mean())
data['Depression_Score'] = data['Depression_Score'].fillna(data['Depression_Score'].mean())
data['Stress_Level'] = data['Stress_Level'].fillna(data['Stress_Level'].mean())
data['Self_Esteem_Score'] = data['Self_Esteem_Score'].fillna(data['Self_Esteem_Score'].mean())
data['Life_Satisfaction_Score'] = data['Life_Satisfaction_Score'].fillna(data['Life_Satisfaction_Score'].mean())
data['Loneliness_Score'] = data['Loneliness_Score'].fillna(data['Loneliness_Score'].mean())


data['Medication_Use'] = data['Medication_Use'].fillna('None')
data['Substance_Use'] = data['Substance_Use'].fillna('None')


data['Age'] = data['Age'].astype(int)
data['Gender'] = data['Gender'].astype('category')
data['Education_Level'] = data['Education_Level'].astype('category')
data['Employment_Status'] = data['Employment_Status'].astype('category')


data.drop_duplicates(inplace=True)


print("Porcentaje de valores nulos por columna después de la limpieza:")
print(porcentaje_nulos)

print(f"\nNúmero de registros duplicados eliminados: {duplicados}")


print("\nPrimeras filas después de la limpieza:")
print(data.head())


Porcentaje de valores nulos por columna después de la limpieza:
Age                               0.00
Gender                            0.00
Education_Level                   0.00
Employment_Status                 0.00
Sleep_Hours                       0.00
Physical_Activity_Hrs             0.00
Social_Support_Score              0.00
Anxiety_Score                     0.00
Depression_Score                  0.00
Stress_Level                      0.00
Family_History_Mental_Illness     0.00
Chronic_Illnesses                 0.00
Medication_Use                   62.25
Therapy                           0.00
Meditation                        0.00
Substance_Use                    69.50
Financial_Stress                  0.00
Work_Stress                       0.00
Self_Esteem_Score                 0.00
Life_Satisfaction_Score           0.00
Loneliness_Score                  0.00
dtype: float64

Número de registros duplicados eliminados: 0

Primeras filas después de la limpieza:
   Age  Gender E

El porcentaje de valores nulos se calcula por columna y se muestra en el resultado.

La estrategia aplicada para tratar los valores nulos es rellenarlos con la media para las columnas numéricas y con la moda (o "None") para las columnas categóricas, para evitar eliminar demasiados datos y asegurar que el análisis no se vea sesgado.

Paso 4: Análisis Estadístico
En este paso, vas a calcular algunas estadísticas básicas para tres columnas importantes: Anxiety_Score, Depression_Score y Stress_Level. Queremos saber cuál es la media, la mediana y la desviación estándar de estos valores. Esto te permitirá tener una idea general sobre cómo están distribuidos estos puntajes.

Preguntas:
¿Cuál de los tres puntajes tiene mayor variabilidad?
¿Qué observas sobre la diferencia entre media y mediana en cada caso? ¿Qué te dice esto sobre la distribución?

In [7]:


# Seleccionar las columnas de interés
columnas_interes = ['Anxiety_Score', 'Depression_Score', 'Stress_Level']

# Calcular la media, mediana y desviación estándar para cada columna
estadisticas = data[columnas_interes].agg(['mean', 'median', 'std'])

# Mostrar los resultados
print("Estadísticas básicas (Media, Mediana, Desviación Estándar):")
print(estadisticas)

# Calcular la variabilidad (desviación estándar) para comparar
variabilidad = data[columnas_interes].std()

# Determinar cuál tiene mayor variabilidad
columna_mayor_variabilidad = variabilidad.idxmax()

# Mostrar cuál tiene mayor variabilidad
print(f"\nLa columna con mayor variabilidad es: {columna_mayor_variabilidad}")

# Responder sobre la diferencia entre media y mediana
for columna in columnas_interes:
    media = estadisticas.loc['mean', columna]
    mediana = estadisticas.loc['median', columna]
    if media > mediana:
        distribucion = "positivamente sesgada (hacia la derecha)"
    elif media < mediana:
        distribucion = "negativamente sesgada (hacia la izquierda)"
    else:
        distribucion = "simétrica"

    print(f"\nPara la columna {columna}:")
    print(f"  Media: {media}")
    print(f"  Mediana: {mediana}")
    print(f"  Distribución: {distribucion}")


Estadísticas básicas (Media, Mediana, Desviación Estándar):
        Anxiety_Score  Depression_Score  Stress_Level
mean        10.470000         10.674167      5.000833
median      10.500000         11.000000      5.000000
std          5.911138          5.632889      2.538281

La columna con mayor variabilidad es: Anxiety_Score

Para la columna Anxiety_Score:
  Media: 10.47
  Mediana: 10.5
  Distribución: negativamente sesgada (hacia la izquierda)

Para la columna Depression_Score:
  Media: 10.674166666666666
  Mediana: 11.0
  Distribución: negativamente sesgada (hacia la izquierda)

Para la columna Stress_Level:
  Media: 5.0008333333333335
  Mediana: 5.0
  Distribución: positivamente sesgada (hacia la derecha)


Paso 5: Filtrado de Datos
Aquí vas a enfocarte en subconjuntos específicos del dataset. Primero, identifica a las personas que tienen un puntaje alto en ansiedad (puedes elegir un valor alto, como por encima de 80). Luego, clasifica a las personas según las horas de sueño que reportan (menos de 5 horas, entre 5 y 7 horas, y más de 7 horas) y analiza cómo varía el nivel de estrés en cada grupo.

Preguntas:
¿Qué porcentaje del total presenta niveles altos de ansiedad?
¿Existe una relación visible entre las horas de sueño y el nivel de estrés?

In [10]:
# Paso 1: Filtrar personas con puntaje alto de ansiedad (por encima de 80)
ansiedad_alta = data[data['Anxiety_Score'] > 80]

# Calcular el porcentaje de personas con niveles altos de ansiedad
porcentaje_ansiedad_alta = (len(ansiedad_alta) / len(data)) * 100

# Paso 2: Clasificar a las personas según las horas de sueño
# Crear una nueva columna 'Sleep_Category' para clasificar a las personas en los grupos correspondientes
def clasificar_suenio(sleep_hours):
    if sleep_hours < 5:
        return 'Menos de 5 horas'
    elif 5 <= sleep_hours <= 7:
        return 'Entre 5 y 7 horas'
    else:
        return 'Más de 7 horas'

data['Sleep_Category'] = data['Sleep_Hours'].apply(clasificar_suenio)

# Paso 3: Analizar cómo varía el nivel de estrés según las categorías de sueño
nivel_estres_por_suenio = data.groupby('Sleep_Category')['Stress_Level'].mean()

# Mostrar resultados
print(f"Porcentaje de personas con niveles altos de ansiedad (>80): {porcentaje_ansiedad_alta:.2f}%")
print("\nNivel de estrés promedio por categoría de horas de sueño:")
print(nivel_estres_por_suenio)


Porcentaje de personas con niveles altos de ansiedad (>80): 0.00%

Nivel de estrés promedio por categoría de horas de sueño:
Sleep_Category
Entre 5 y 7 horas    4.954237
Menos de 5 horas     5.136842
Más de 7 horas       5.004762
Name: Stress_Level, dtype: float64


Paso 6: Ordenamiento
Ahora vas a ordenar el dataset para encontrar a las personas con mayor satisfacción de vida y menor puntaje de soledad. ¿Puedes descubrir algún patrón? ¿Qué tienen en común estas personas?

Preguntas:
¿Qué características comunes encuentras en estas 10 personas?
¿Qué hipótesis podrías plantear sobre el vínculo entre satisfacción y soledad?

In [11]:
ordenado = data.sort_values(by=['Life_Satisfaction_Score', 'Loneliness_Score'], ascending=[False, True])


top_10_satisfaccion_soledad = ordenado.head(10)


caracteristicas_comunes = top_10_satisfaccion_soledad[['Age', 'Gender', 'Education_Level', 'Social_Support_Score', 'Therapy', 'Meditation']]

print("Top 10 personas con mayor satisfacción de vida y menor soledad:")
print(top_10_satisfaccion_soledad[['Age', 'Gender', 'Life_Satisfaction_Score', 'Loneliness_Score']])

print("\nCaracterísticas comunes de estas 10 personas:")
print(caracteristicas_comunes)

hipotesis = """
Hipótesis: Las personas con mayor satisfacción en la vida y menor puntaje de soledad podrían tener un mayor apoyo social, menos estrés,
y/o utilizar estrategias de manejo de salud mental como la meditación y la terapia.
El apoyo social y las actividades relacionadas con el bienestar psicológico podrían estar directamente vinculadas con una mejor calidad de vida
y menores sentimientos de soledad.
"""

print("\nHipótesis sobre la relación entre satisfacción y soledad:")
print(hipotesis)


Top 10 personas con mayor satisfacción de vida y menor soledad:
     Age  Gender  Life_Satisfaction_Score  Loneliness_Score
14    53    Male                        9                 1
33    44    Male                        9                 1
83    61  Female                        9                 1
92    31  Female                        9                 1
103   43  Female                        9                 1
217   25  Female                        9                 1
262   49  Female                        9                 1
391   44   Other                        9                 1
438   41  Female                        9                 1
675   29    Male                        9                 1

Características comunes de estas 10 personas:
     Age  Gender Education_Level  Social_Support_Score  Therapy  Meditation
14    53    Male      Bachelor's                     5        0           1
33    44    Male      Bachelor's                     3        0           0
8

Paso 7: Guardado de Resultados
Filtra el dataset para encontrar a las personas que reciben terapia y que además tienen un nivel bajo de estrés (por debajo de la mediana). Una vez que tengas este subconjunto, guarda la información en un nuevo archivo CSV para tenerlo listo para futuros análisis.

Preguntas:
¿Cuántas personas cumplen con ambas condiciones?
¿Qué conclusiones puedes hacer sobre la relación entre terapia y nivel de estrés en este conjunto?

In [17]:
# Calcular la mediana del nivel de estrés
mediana_estres = data['Stress_Level'].median()

# Filtrar a las personas que reciben terapia y tienen un nivel de estrés por debajo de la mediana
filtered_data = data[(data['Therapy'] == 1) & (data['Stress_Level'] < mediana_estres)]

# Guardar el subconjunto filtrado en un nuevo archivo CSV
filtered_data.to_csv('dataset/personas_con_terapia_y_bajo_estres.csv', index=False)

# Mostrar cuántas personas cumplen con ambas condiciones
cantidad_personas = len(filtered_data)

print(f"Cantidad de personas que cumplen con ambas condiciones: {cantidad_personas}")


Cantidad de personas que cumplen con ambas condiciones: 108
