In [54]:
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

In [55]:
df = pd.read_csv('recieved_dirty_dataset.csv', encoding='cp1252', dtype=str, low_memory=False)

In [56]:
df.head()

Unnamed: 0,Country (region),Ladder,SD of Ladder,Positive affect,Negative affect,Social support,Freedom,Corruption,Generosity,Log of GDP\nper capita,Healthy life\nexpectancy
0,Finland,1.0,4.0,41.0,10.0,2.0,,4.0,47.0,22.0,
1,Denmark,2.0,13.0,24.0,26.0,4.0,6.0,3.0,22.0,14.0,
2,Norway,3.0,8.0,16.0,29.0,3.0,3.0,,11.0,7.0,
3,Iceland,4.0,9.0,3.0,,1.0,7.0,,3.0,,13.0
4,Netherlands,5.0,1.0,12.0,25.0,15.0,19.0,12.0,7.0,12.0,18.0


Missing data

In [57]:
df.isna().sum()
df.fillna(df.mean(numeric_only=True), inplace=True)


Duplicated rows

In [58]:
df.iloc[-1, 1] = 9999
df.duplicated().sum()
df.drop_duplicates(inplace=True)



Outliers

In [None]:
df.describe()


In [72]:
Q1 = df["ladder"].quantile(0.25)
Q3 = df["ladder"].quantile(0.75)
IQR = Q3 - Q1

df = df[
    (df["ladder"] >= Q1 - 1.5 * IQR) &
    (df["ladder"] <= Q3 + 1.5 * IQR)
]
initial_rows = len(df)



In [None]:
df.columns

Format inconsistencies

In [75]:
df["freedom"] = pd.to_numeric(df["freedom"], errors="coerce")
df["corruption"] = pd.to_numeric(df["corruption"], errors="coerce")


In [None]:
df["Positive affect"] = pd.to_numeric(
    df["Positive affect"]
        .astype(str)
        .str.replace(",", ".", regex=False)
        .str.replace(" pts", "", regex=False),
    errors="coerce"
)



In [74]:
df = df[df["country (region)"] != "Atlantis_Region_X"]


Typographical errors

In [80]:
df["freedom"] = pd.to_numeric(df["freedom"], errors="coerce")
df["corruption"] = pd.to_numeric(df["corruption"], errors="coerce")



In [76]:
df = df[df["social support"] >= 0]

In [71]:
df["country (region)"] = (
    df["country (region)"]
    .str.strip()
    .str.title()
)


Extra categories

In [None]:
df["country (region)"].value_counts()


In [81]:
df["country (region)"] = df["country (region)"].str.strip().str.title()


Incorrect data types

In [69]:
df.dtypes

numeric_cols = [
    "ladder", "sd of ladder", "positive affect", "negative affect",
    "social support", "freedom", "corruption", "generosity",
    "log of gdp per capita", "healthy life expectancy"
]

df[numeric_cols] = df[numeric_cols].apply(
    pd.to_numeric, errors="coerce"
)



No default codification of file (utf-8?)

In [64]:
df = pd.read_csv("recieved_dirty_dataset.csv", encoding="latin1")


Incorrect headers

In [83]:
df.columns = (
    df.columns
    .str.strip()
    .str.replace("\n", " ", regex=False)
    .str.capitalize()
    .str.replace("Gdp", "GDP", regex=False)
    .str.replace("Sd", "SD", regex=False)
)


Extra punctuation symbols (1000€)

In [67]:
df["log of gdp per capita"] = (
    df["log of gdp per capita"]
    .astype(str)
    .str.replace(r"[^\d.]", "", regex=True)
)


In [84]:
df.to_csv("clean_dataset.csv", index=False, encoding="utf-8")


Para solucionar estos problemas, se normalizaron los nombres de las columnas, se eliminaron filas vacías y duplicadas y se corrigieron los formatos incorrectos, especialmente en la variable Positive affect, que contenía texto y separadores decimales no estándar. Las columnas numéricas forzadas a texto fueron reconvertidas a su tipo correcto y se eliminaron valores imposibles, como valores negativos en Social support y países inexistentes.

Los outliers artificiales en la variable Ladder fueron tratados mediante el método del rango intercuartílico, y los valores faltantes restantes se imputaron utilizando la media. Finalmente, se estandarizó el texto de los nombres de los países.

Como resultado, se obtuvo un dataset limpio, consistente y preparado para su análisis estadístico, eliminando todos los problemas-