In [55]:
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

In [None]:
df = pd.read_csv('student_depression_dataset.csv')
df.head()

In [None]:
df.columns

# 1. Missing data: Remove or leave blank some values randomly

In [59]:
filas_aleatorias = df.sample(20).index
columnas = df.columns
df.loc[filas_aleatorias, columnas] = np.nan

In [None]:
df.isna().sum()

Se seleccionaron filas aleatorias y sus valores fueron reemplazados por NaN para simular registros incompletos o faltantes.

# 2. Duplicated rows: Add exact or partial duplicates

In [None]:
duplicadas = df.iloc[:10]
df = pd.concat([df, duplicadas])
df.head()

In [None]:
df[df.duplicated()]

Se duplicaron algunas filas para simular registros repetidos en el conjunto de datos.


# 3. Outliers: Insert extreme values in numeric columns

In [64]:
filas = df.sample(5).index
df.loc[filas, "Age"] = 999

In [None]:
df[df["Age"] > 100]


Se introdujeron outliers en las columnas numéricas (como CGPA) para simular errores de medición o de entrada de datos.

# 4. Format inconsistencies: Change date formats, numeric formats, or units


In [89]:
filas = df.sample(10).index
df.loc[filas, "Depression"] = df.loc[filas, "Depression"].astype(str) + " pts"


In [None]:
df.loc[filas, "Depression"]


Se convirtieron valores numéricos en cadenas de texto al agregar texto o símbolos, creando formatos inconsistentes dentro de la misma columna.

# 5. Typographical errors: Introduce spelling mistakes in categorical columns

In [None]:
df.loc[df["Gender"] == "Female", "Gender"] = "Fmale"


In [None]:
df["Gender"].value_counts()

Se introdujeron errores ortográficos en columnas categóricas para simular errores humanos de entrada de datos.


# 6. Extra categories: Add unusual values in categorical columns to simulate errors

In [None]:
filas = df.sample(7).index
df.loc[filas, "City"] = "Mars"

Se añadieron valores inusuales y nuevas categorías en columnas categóricas que no existían en el conjunto de datos original.

# 7️. Incorrect data types: Store numbers as strings or vice versa

In [None]:
df["Degree"] = df["Degree"].map({"B.Pharm": 1, "BSc": 2, "BA": 3, "BCA": 4})
df["Degree"].head(10)

Algunos valores numéricos fueron almacenados como cadenas de texto en lugar de como números

# 8. No default codification of file (utf-8?)

In [92]:
df = pd.read_csv("student_depression_dataset.csv", encoding='latin1')


Para simular un error de codificación, se modificaron los encabezados del dataset de manera incorrecta y se exportó el archivo con una codificación incorrecta

# 9. INCORRECT HEADERS

In [84]:
df.columns = ["ID", "Gender", "Age", "Locaction", "Profession", "Stress Level", "Pressure", "CGPA", "Satisfaction", "Job Sat", "Sleep Hours", "Diet", "Degree", "Suicidal Thoughts", "Hours", "Financial Stress", "Family Mental Health", "Depression"]


Se modificaron los nombres de las columnas para hacerlos inconsistentes con el conjunto de datos original

# 10.Extra punctuation symbols (1000€)

In [None]:
df["Age"] = df["Age"].astype(str) + "€"
df["Age"].head(10)


In [94]:
df.to_csv("dirty_dataset.csv", index=False)