### Importaciones

In [37]:
import pandas as pd
import numpy as np
import random

# 1. Cargar el dataset original
df = pd.read_csv('felicidad.csv')

### Comenzamos con el ensuciamiento del dataset

#### Encabezados Incorrectos (Error 1)

##### Cambiamos nombres por algo confuso y con caracteres especiales

In [38]:
df.rename(columns={
    'Country': 'País/Region!!',
    'Happiness Score': 'SCORE_FELICIDAD (2015)',
    'Economy (GDP per Capita)': 'Economía'
}, inplace=True)

#### Datos Faltantes (Error 2)

##### Eliminamos 15 valores aleatorios en la columna de Score

In [39]:
idx_missing = df.sample(15).index
df.loc[idx_missing, 'SCORE_FELICIDAD (2015)'] = np.nan

#### Filas Duplicadas (Error 3)

##### Duplicamos las primeras 5 filas exactamente

In [40]:
df = pd.concat([df, df.iloc[:5]], ignore_index=True)

#### Valores Atípicos / Outliers (Error 4)

##### Insertamos una felicidad imposible (999.0) y una negativa (-10.5)

In [41]:
df.loc[10, 'SCORE_FELICIDAD (2015)'] = 999.9
df.loc[20, 'SCORE_FELICIDAD (2015)'] = -10.5

#### Errores Tipográficos (Error 5)

##### "Ensuciamos" nombres de países

In [42]:
df['País/Region!!'] = df['País/Region!!'].replace({
    'Switzerland': 'Switz3rland',
    'Norway': 'Nor-way',
    'Canada': 'Iván_espabila'
})

#### Espacios y Símbolos Extra (Error 6)

##### Añadimos símbolos de moneda a la economía y espacios en blanco

In [43]:
df['Economía'] = df['Economía'].apply(lambda x: f"{x} € " if pd.notnull(x) else x)

#### Tipos de Datos Incorrectos (Error 7)

##### Convertimos el Happiness Rank a String (texto)

In [44]:
df['Happiness Rank'] = df['Happiness Rank'].astype(str)

#### Inconsistencia de Formato (Error 8)

##### En la columna 'Region', algunos en mayúsculas, otros con espacios locos

In [45]:
df.loc[0:10, 'Region'] = df.loc[0:10, 'Region'].str.upper()
df.loc[11:20, 'Region'] = df.loc[11:20, 'Region'].apply(lambda x: f"   {x}   ")

#### Categorías Extrañas (Error 9)

##### Inventamos regiones inexistentes para algunos registros

In [46]:
df.loc[50:55, 'Region'] = 'Narnia Region'

#### Formato numérico inconsistente (Error 10)

##### Cambiamos el punto decimal por coma en algunos registros de 'Family' (como string)

In [47]:
df['Family'] = df['Family'].apply(lambda x: str(x).replace('.', ',') if random.random() > 0.5 else x)

#### Guardamos con una codificación distinta a UTF-8 (Error 11)

In [48]:

df.to_csv('dirty_dataset.csv', index=False, encoding='cp1252')

print("¡Dataset ensuciado con éxito! Se ha generado 'dirty_dataset.csv'")

¡Dataset ensuciado con éxito! Se ha generado 'dirty_dataset.csv'
