# Módulo 2 – Limpieza y Transformación de Datos

En esta sesión aprenderás a preparar tus datos antes de un análisis profundo. Trabajaremos con los datasets **`salarios.csv`** y **`paises.csv`** ubicados en `data/raw/`.


##  Objetivos de la sesión
- Detectar y manejar **valores nulos** y **duplicados**.
- Limpiar columnas monetarias y convertir tipos de datos.
- **Unir** (merge) datasets por claves comunes.
- Crear **nuevas columnas** útiles para el análisis.
- Exportar los datos limpios a `data/processed/`.


## Recuerden la Estructura de un proyecto

Una estructura recomendada puede ser:
```
project-name/
├── assest/           # Imagenes, graficos (generalmente no se sube a github)
├── data/             # Datos crudos y procesados
    ├──── raw/   
    ├──── processed/   --> Crear esta carpeta si no la tienen
├── notebooks/        # Notebooks del proyecto
├── utils/            # Funciones auxiliares
├── docs/             # Documentación
├── README.md         # Descripción general
├── environment.yml   # Dependencias usando conda
└── requirements.txt  # Dependencias usando pip

---
## 1 · Importar librerías y cargar datasets
Comenzamos cargando Pandas y leyendo los archivos CSV desde la carpeta `data/raw/`.


### 📦 Librerías que usaremos
Importamos módulos clave para:

* **pandas / numpy** → manipulación numérica y tabular  
* **matplotlib / seaborn** → gráficos rápidos (los usaremos más adelante)  
* **pathlib** → manejar rutas de forma independiente del sistema operativo

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sys as s
from pathlib import Path


### 🔍 Ubicar el archivo de salarios
Utilizamos la constante `DATA_RAW_DIR` (definida en `utils.paths`) para construir
la ruta absoluta a **salarios.csv**.  
Esto evita escribir paths “hard-codeados” y hace el notebook portable.

In [2]:
#Importar la carpeta de datos raw desde paths
# from cursos.analisis_datos.utils.paths import DATA_RAW_DIR

#definir un path o ruta con Path
# path_salarios = DATA_RAW_DIR / "salarios.csv"
path_salarios = "../data/raw/salarios.csv"
path_salarios = str(path_salarios)

print(f"Ruta del archivo salarios: {path_salarios}")
print(f"existe archivo salarios: {Path(path_salarios).exists()}")

Ruta del archivo salarios: ../data/raw/salarios.csv
existe archivo salarios: True


### 📥 Carga del dataset de salarios
Leemos el archivo con `pd.read_csv()`.  
* `sep=','` porque es un CSV estándar.  
* `encoding='utf-8'` asegura que caracteres latinos/acentos se lean bien.

In [3]:
df_salarios = pd.read_csv(filepath_or_buffer=path_salarios, sep=',', encoding='utf-8')

In [4]:
df_salarios.head(7)

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual,bono_anual
0,José,López,36,Chile,Sí,Mercado Libre,Python Developer,2,$71841,€4981
1,Fernanda,Vargas,39,Chile,Sí,Amazon,AI Software Engineer,2,$142115,€1252
2,Fernanda,Ramírez,30,Colombia,No,Facebook,Machine Learning Engineer,2,$92278,€5262
3,José,Gómez,35,Chile,Sí,Mercado Libre,Python Developer,12,$97130,€3671
4,Ana,Pérez,32,Panamá,No,Amazon,Project Manager,2,$61413,€10190
5,Andrea,Torres,45,Costa Rica,No,Mercado Libre,Data Engineer,8,$84987,€5493
6,Andrea,Vargas,58,Chile,No,Mercado Libre,Data Scientist,9,$96936,€4911


---
## 2 · Explorar la estructura del dataset
### 2.1 Información general
Revisamos tipos de datos, cantidad de filas/columnas y valores nulos.


### 🏷️ Inspección rápida del DataFrame
`df.info()` resume:
* Columnas y tipos (`object`, `int64`, etc.)  
* Filas no-nulas por columna → detectamos valores faltantes (`pais`, `empresa`)  
* Memoria ocupada

In [5]:
df_salarios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 325 entries, 0 to 324
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   nombre                   325 non-null    object
 1   apellido                 325 non-null    object
 2   edad                     325 non-null    int64 
 3   pais                     324 non-null    object
 4   educacion_universitaria  325 non-null    object
 5   nombre_de_la_empresa     317 non-null    object
 6   cargo                    325 non-null    object
 7   anos_en_la_empresa       325 non-null    int64 
 8   sueldo_anual             325 non-null    object
 9   bono_anual               325 non-null    object
dtypes: int64(2), object(8)
memory usage: 25.5+ KB


### 2.2 Estadísticas descriptivas rápidas


### 📊 Estadísticas descriptivas
`df.describe()` genera medidas (count, mean, std…) solo para columnas
numéricas. Aquí vemos *edad* y *años en la empresa*.  
Esto ayuda a detectar outliers y entender la dispersión.

In [6]:
df_salarios.describe()

Unnamed: 0,edad,anos_en_la_empresa
count,325.0,325.0
mean,40.889231,6.353846
std,11.582769,3.997803
min,22.0,0.0
25%,30.0,3.0
50%,41.0,6.0
75%,51.0,10.0
max,60.0,13.0


---
## 3 · Limpiar columnas monetarias
Las columnas `sueldo_anual` y `bono_anual` tienen símbolos de moneda. Eliminamos `$` y `€` y convertimos a `float`.


In [7]:
df_salarios.head()

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual,bono_anual
0,José,López,36,Chile,Sí,Mercado Libre,Python Developer,2,$71841,€4981
1,Fernanda,Vargas,39,Chile,Sí,Amazon,AI Software Engineer,2,$142115,€1252
2,Fernanda,Ramírez,30,Colombia,No,Facebook,Machine Learning Engineer,2,$92278,€5262
3,José,Gómez,35,Chile,Sí,Mercado Libre,Python Developer,12,$97130,€3671
4,Ana,Pérez,32,Panamá,No,Amazon,Project Manager,2,$61413,€10190


Revisar las columnas `sueldo_anual` y `bono_anual` pues tienen los simbolos de moneda

### 💲 Columnas monetarias originales
Previsualizamos `sueldo_anual` y `bono_anual` antes de limpiarlas.
Observa que contienen símbolos (`$`, `€`) 

In [8]:
# escribe tu codigo aqui
df_salarios[['sueldo_anual', 'bono_anual']]

Unnamed: 0,sueldo_anual,bono_anual
0,$71841,€4981
1,$142115,€1252
2,$92278,€5262
3,$97130,€3671
4,$61413,€10190
...,...,...
320,$97114,€1684
321,$104541,€3128
322,$86042,€8746
323,$96078,€11419


In [9]:

# escribe tu codigo aqui
df_salarios = df_salarios.rename(
columns = {
    "sueldo_anual": "sueldo_anual_dolares",
    "bono_anual": "bono_anual_euros"
}
)


Revisar si las columnas cambiaron de nombre con `.columns`

In [10]:
# escribe tu codigo aqui
df_salarios.columns

Index(['nombre', 'apellido', 'edad', 'pais', 'educacion_universitaria',
       'nombre_de_la_empresa', 'cargo', 'anos_en_la_empresa',
       'sueldo_anual_dolares', 'bono_anual_euros'],
      dtype='object')

In [11]:
df_salarios.head(1)

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros
0,José,López,36,Chile,Sí,Mercado Libre,Python Developer,2,$71841,€4981


Reemplazar el simbolo de dólar `$` por  `''` utilizando el método `.replace()` 

### ✂️ Eliminar símbolo de dólar
`str.replace('$','')` quita el carácter pero **deja las comas**.
Aún es tipo `object` (string); falta:
1. eliminar comas,
2. convertir a `float`.

In [12]:
# escribe tu codigo aqui
df_salarios['sueldo_anual_dolares'] =  (df_salarios['sueldo_anual_dolares'].str.replace('$', ''))


In [13]:
df_salarios.head()

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros
0,José,López,36,Chile,Sí,Mercado Libre,Python Developer,2,71841,€4981
1,Fernanda,Vargas,39,Chile,Sí,Amazon,AI Software Engineer,2,142115,€1252
2,Fernanda,Ramírez,30,Colombia,No,Facebook,Machine Learning Engineer,2,92278,€5262
3,José,Gómez,35,Chile,Sí,Mercado Libre,Python Developer,12,97130,€3671
4,Ana,Pérez,32,Panamá,No,Amazon,Project Manager,2,61413,€10190


Cambiar el tipo de dato de sueldo_anual_dolares con `.astype(float)`

> **Nota:** se produce un `ValueError` porque todavía hay **celdas vacías**
  (`''`) o valores con comas que impiden la conversión directa a `float`.

In [15]:

df_salarios['sueldo_anual_dolares'] = df_salarios['sueldo_anual_dolares'].astype(float)

ValueError: could not convert string to float: ''

### Funcionó? o Cuál es el error?

##### Tu respuesta aqui

reemplazar las celdas vacias `''`

### 🛠️ Reemplazar strings vacíos por `NaN`
Usamos `.replace('', np.nan)` para que pandas los reconozca como faltantes
y permita la conversión numérica en el siguiente paso.

In [14]:
# escribe tu codigo aqui
df_salarios['sueldo_anual_dolares'] = df_salarios['sueldo_anual_dolares'].replace('',np.nan) 

Cambiar el tipo de datos con `.astype(float)`

### 🔄 Convertir a numérico
Ahora que no hay símbolos ni strings vacíos, `astype(float)` funciona.
El resultado es una columna `float64` lista para cálculos.

In [15]:
# escrib
df_salarios['sueldo_anual_dolares'] = df_salarios['sueldo_anual_dolares'].astype(float)
df_salarios['sueldo_anual_dolares'].head()


0     71841.0
1    142115.0
2     92278.0
3     97130.0
4     61413.0
Name: sueldo_anual_dolares, dtype: float64

Revisar que valores de `sueldo_anual_dolares` tienen el valor `np.nan`

### 📌 Ver cuántos salarios quedaron como `NaN`
Esto nos indica cuántos registros tendrán que imputarse
o eliminarse en el siguiente bloque de limpieza.

In [None]:
# escribe tu codigo aqui


### 🔍 Inspeccionar filas con salario faltante
Listamos las 7 filas donde `sueldo_anual_dolares` es `NaN`.
Podremos decidir si:
* imputar con la mediana por cargo/país,  
* o eliminar si los valores son críticos.

In [16]:
df_salarios[df_salarios['sueldo_anual_dolares'].isna()]

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros
302,María,Ríos,27,Argentina,Sí,Globant,Python Developer,4,,€11287
305,Paula,Díaz,53,Costa Rica,No,,Machine Learning Engineer,10,,€9874
306,Luis,Pérez,27,Chile,No,Facebook,AI Software Engineer,10,,€10379
307,Andrea,Rodríguez,36,Panamá,Sí,Facebook,Project Manager,1,,€3878
308,Juan,Morales,49,Costa Rica,No,Amazon,Software Engineer,2,,€12223
309,Camila,Torres,45,México,No,Facebook,Data Engineer,3,,€2816
310,Diego,Díaz,41,México,No,Google,Data Analyst,0,,€5934


Ahora el mismo proceso con el símbolo de euros `€`

In [17]:
df_salarios['bono_anual_euros'] = (df_salarios['bono_anual_euros'].str.replace('€', ''))

In [18]:
df_salarios['bono_anual_euros'] = (df_salarios['bono_anual_euros'].astype(float))

In [19]:
df_salarios[df_salarios['bono_anual_euros'].isna()]

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros


In [21]:
df_salarios[['sueldo_anual_dolares', 'bono_anual_euros']].head()

Unnamed: 0,sueldo_anual_dolares,bono_anual_euros
0,71841.0,4981.0
1,142115.0,1252.0
2,92278.0,5262.0
3,97130.0,3671.0
4,61413.0,10190.0


---
## 4 · Detección y manejo de valores nulos
### 4.1 Contar nulos por columna


In [22]:
df_salarios.isnull().sum()

nombre                     0
apellido                   0
edad                       0
pais                       1
educacion_universitaria    0
nombre_de_la_empresa       8
cargo                      0
anos_en_la_empresa         0
sueldo_anual_dolares       7
bono_anual_euros           0
dtype: int64

> **Estrategias comunes:**
- **Eliminar** filas/columnas con muchos nulos (`dropna`).
- **Imputar** con media/mediana/moda (`fillna`).
- **Revisar** si los nulos tienen significado en tu análisis.


Revisemos el caso de la columna `['pais']`

In [36]:
# escribe tu codigo aqui

df_salarios[df_salarios["pais"].isna()]


Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros
300,Ana,Pérez,51,,No,Oracle,Project Manager,2,67999.0,12035.0


In [23]:
df_salarios[df_salarios["pais"].isna()]


Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros
300,Ana,Pérez,51,,No,Oracle,Project Manager,2,67999.0,12035.0


In [37]:
df_salarios = df_salarios.dropna(subset=["pais"])

In [38]:
df_salarios.isnull().sum()

nombre                     0
apellido                   0
edad                       0
pais                       0
educacion_universitaria    0
nombre_de_la_empresa       0
cargo                      0
anos_en_la_empresa         0
sueldo_anual_dolares       0
bono_anual_euros           0
dtype: int64

Ahora revisemos el caso de la columna `["nombre_de_la_empresa"]`

In [39]:
df_salarios[df_salarios["nombre_de_la_empresa"].isna()]

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros


No es necesario eliminar esos datos, pues podemos clasificarlos como `"Empresa Desconocida"`

In [40]:
# escribe tu codigo aqui
df_salarios['nombre_de_la_empresa']= (df_salarios['nombre_de_la_empresa'].fillna("Empresa Desconocida"))

In [41]:
df_salarios[df_salarios["nombre_de_la_empresa"].isna()]

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros


In [42]:
df_salarios.isnull().sum()

nombre                     0
apellido                   0
edad                       0
pais                       0
educacion_universitaria    0
nombre_de_la_empresa       0
cargo                      0
anos_en_la_empresa         0
sueldo_anual_dolares       0
bono_anual_euros           0
dtype: int64

Revisemos el caso de `["sueldo_anual_dolares"]`

In [43]:
df_salarios[df_salarios["sueldo_anual_dolares"].isna()]

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros


Al no existir el registro de sueldos, la decision que tomamos fue eliminar esas filas con `dropna()`

In [44]:
df_salarios = df_salarios.dropna(subset=["sueldo_anual_dolares"])

In [45]:
df_salarios.isnull().sum()

nombre                     0
apellido                   0
edad                       0
pais                       0
educacion_universitaria    0
nombre_de_la_empresa       0
cargo                      0
anos_en_la_empresa         0
sueldo_anual_dolares       0
bono_anual_euros           0
dtype: int64

In [46]:
df_salarios[df_salarios["pais"].isna()]

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros


Ahora no tenemos valores nulos

---
## 5 · Detección y manejo de duplicados
Buscamos registros exactos repetidos.


In [47]:
# escribe tu codigo aqui
duplicados = df_salarios.duplicated()
print(f'Duplicados encontrados: {duplicados.sum()}')

Duplicados encontrados: 10


In [48]:
df_salarios = df_salarios.drop_duplicates()

In [49]:
duplicados = df_salarios.duplicated()
print(f'Duplicados encontrados: {duplicados.sum()}')

Duplicados encontrados: 0


In [50]:
df_salarios.info()

<class 'pandas.core.frame.DataFrame'>
Index: 307 entries, 0 to 318
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   nombre                   307 non-null    object 
 1   apellido                 307 non-null    object 
 2   edad                     307 non-null    int64  
 3   pais                     307 non-null    object 
 4   educacion_universitaria  307 non-null    object 
 5   nombre_de_la_empresa     307 non-null    object 
 6   cargo                    307 non-null    object 
 7   anos_en_la_empresa       307 non-null    int64  
 8   sueldo_anual_dolares     307 non-null    float64
 9   bono_anual_euros         307 non-null    float64
dtypes: float64(2), int64(2), object(6)
memory usage: 26.4+ KB


### 🔢 Reiniciar índices
`reset_index(drop=True)` crea un nuevo índice consecutivo (0 → n-1) y descarta el índice anterior.  
Útil después de eliminar filas o reordenar el DataFrame para evitar huecos o duplicados en la numeración.

In [51]:
df_salarios = df_salarios.reset_index(drop=True)

In [52]:
df_salarios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 307 entries, 0 to 306
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   nombre                   307 non-null    object 
 1   apellido                 307 non-null    object 
 2   edad                     307 non-null    int64  
 3   pais                     307 non-null    object 
 4   educacion_universitaria  307 non-null    object 
 5   nombre_de_la_empresa     307 non-null    object 
 6   cargo                    307 non-null    object 
 7   anos_en_la_empresa       307 non-null    int64  
 8   sueldo_anual_dolares     307 non-null    float64
 9   bono_anual_euros         307 non-null    float64
dtypes: float64(2), int64(2), object(6)
memory usage: 24.1+ KB


### 💱 Conversión de Euros a Dólares  
Definimos una **tasa de cambio fija** `TASA_EUR_USD = 1.10` (1 € → 1.10 US$)  
y creamos la columna `bono_anual_dolares` multiplicando cada valor en  
`bono_anual_euros` por esa tasa. Esta operación es vectorizada: se aplica  
a toda la columna sin necesidad de bucles y deja ambos montos disponibles  
para comparaciones o visualizaciones futuras.

In [53]:
df_salarios.head()

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros
0,José,López,36,Chile,Sí,Mercado Libre,Python Developer,2,71841.0,4981.0
1,Fernanda,Vargas,39,Chile,Sí,Amazon,AI Software Engineer,2,142115.0,1252.0
2,Fernanda,Ramírez,30,Colombia,No,Facebook,Machine Learning Engineer,2,92278.0,5262.0
3,José,Gómez,35,Chile,Sí,Mercado Libre,Python Developer,12,97130.0,3671.0
4,Ana,Pérez,32,Panamá,No,Amazon,Project Manager,2,61413.0,10190.0


In [54]:
# 1 € ≈ 1.10 USD
TASA_EUR_USD = 0.86

In [55]:
df_salarios["bono_anual_dolares"] = (
    df_salarios["bono_anual_euros"] * TASA_EUR_USD
)

In [56]:
df_salarios[["bono_anual_euros", "bono_anual_dolares"]]

Unnamed: 0,bono_anual_euros,bono_anual_dolares
0,4981.0,4283.66
1,1252.0,1076.72
2,5262.0,4525.32
3,3671.0,3157.06
4,10190.0,8763.40
...,...,...
302,6723.0,5781.78
303,1684.0,1448.24
304,3128.0,2690.08
305,8746.0,7521.56


### 📏 Ajuste de precisión  
Redondeamos `bono_anual_dolares` a **una cifra decimal** (`round(1)`) para  
homogeneizar el formato de los valores monetarios y evitar “ruido” de  
centavos insignificantes al presentar o agrupar los datos.

In [None]:
# escribe tu codigo aqui

In [57]:
df_salarios[["bono_anual_euros", "bono_anual_dolares"]]

Unnamed: 0,bono_anual_euros,bono_anual_dolares
0,4981.0,4283.66
1,1252.0,1076.72
2,5262.0,4525.32
3,3671.0,3157.06
4,10190.0,8763.40
...,...,...
302,6723.0,5781.78
303,1684.0,1448.24
304,3128.0,2690.08
305,8746.0,7521.56


In [58]:
df_salarios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 307 entries, 0 to 306
Data columns (total 11 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   nombre                   307 non-null    object 
 1   apellido                 307 non-null    object 
 2   edad                     307 non-null    int64  
 3   pais                     307 non-null    object 
 4   educacion_universitaria  307 non-null    object 
 5   nombre_de_la_empresa     307 non-null    object 
 6   cargo                    307 non-null    object 
 7   anos_en_la_empresa       307 non-null    int64  
 8   sueldo_anual_dolares     307 non-null    float64
 9   bono_anual_euros         307 non-null    float64
 10  bono_anual_dolares       307 non-null    float64
dtypes: float64(3), int64(2), object(6)
memory usage: 26.5+ KB


## 6 · Cargar el dataframe de países


In [93]:
#definir un path o ruta con Path
path_paises = "../data/raw/paises.csv"
path_paises = str(path_paises)

print(f"Ruta del archivo paises: {path_paises}")
print(f"existe archivo paises: {Path(path_paises).exists()}")

Ruta del archivo paises: ../data/raw/paises.csv
existe archivo paises: True


In [60]:
df_paises = pd.read_csv(filepath_or_buffer=path_paises, sep=',', encoding='utf-8')

In [61]:
df_paises.head()

Unnamed: 0,pais,capital,cantidad_de_habitantes,PIB,ingreso_per_capita
0,Argentina,Buenos Aires,45376763,"$641,000,000,000","$14,120"
1,Brasil,Brasilia,214326223,"$2,000,000,000,000","$9,334"
2,Chile,Santiago,19116209,"$317,000,000,000","$16,580"
3,Colombia,Bogotá,51874024,"$343,000,000,000","$6,611"
4,México,Ciudad de México,126014024,"$1,410,000,000,000","$11,190"


In [62]:
df_paises['pais'].unique()

array(['Argentina', 'Brasil', 'Chile', 'Colombia', 'México', 'Perú',
       'Uruguay', 'Panamá', 'Ecuador', 'Bolivia'], dtype=object)

In [63]:
df_paises['pais'].nunique()

10

In [64]:
df_salarios['pais'].unique()

array(['Chile', 'Colombia', 'Panamá', 'Costa Rica', 'México', 'Uruguay',
       'Argentina', 'Perú'], dtype=object)

In [65]:
df_salarios['pais'].nunique()

8

In [66]:
paises_en_df_paises = set(df_paises["pais"])
paises_en_df_paises

{'Argentina',
 'Bolivia',
 'Brasil',
 'Chile',
 'Colombia',
 'Ecuador',
 'México',
 'Panamá',
 'Perú',
 'Uruguay'}

In [67]:
paises_en_df_salarios = set(df_salarios["pais"])
paises_en_df_salarios

{'Argentina',
 'Chile',
 'Colombia',
 'Costa Rica',
 'México',
 'Panamá',
 'Perú',
 'Uruguay'}

### 🔍 Identificar discrepancias entre DataFrames

1. **`paises_faltantes_en_df_paises`**  
   Conjunto de países que **están en `df_paises` pero no aparecen** en `df_salarios`.

2. **`paises_faltantes_en_df_salarios`**  
   Conjunto inverso: países presentes en `df_salarios`, ausentes en `df_paises`.

3. **`paises_faltantes`**  
   Unión (`|`) de ambos conjuntos → lista global de **todos los países que no coinciden** entre los dos DataFrames.  
   Útil para decidir si imputar, descartar o investigar la fuente de datos.

In [94]:
paises_faltantes_en_df_paises = paises_en_df_paises - paises_en_df_salarios
paises_faltantes_en_df_paises

{'Bolivia', 'Brasil', 'Ecuador'}

In [69]:
paises_faltantes_en_df_salarios =  paises_en_df_salarios - paises_en_df_paises
paises_faltantes_en_df_salarios

{'Costa Rica'}

In [70]:
paises_faltantes = paises_faltantes_en_df_paises | paises_faltantes_en_df_salarios
paises_faltantes

{'Bolivia', 'Brasil', 'Costa Rica', 'Ecuador'}

In [71]:
df_paises[df_paises['pais'].isin(paises_faltantes)]

Unnamed: 0,pais,capital,cantidad_de_habitantes,PIB,ingreso_per_capita
1,Brasil,Brasilia,214326223,"$2,000,000,000,000","$9,334"
8,Ecuador,Quito,18001000,"$118,000,000,000","$6,556"
9,Bolivia,La Paz,12456000,"$44,000,000,000","$3,530"


### 🗑️ Eliminar registros específicos  
Usamos `drop(index=[1, 8, 9])` para remover las filas cuyo índice es 1, 8 y 9  
(Brasil, Ecuador y Bolivia en este caso). Esto excluye esos países del  
DataFrame `df_paises` antes de realizar uniones o análisis posteriores.

In [72]:
# escribe tu codigo aqui

df_paises = df_paises.drop(index=[1,8,9])

In [73]:
df_paises.reset_index(drop=True, inplace=True)

In [74]:
df_paises

Unnamed: 0,pais,capital,cantidad_de_habitantes,PIB,ingreso_per_capita
0,Argentina,Buenos Aires,45376763,"$641,000,000,000","$14,120"
1,Chile,Santiago,19116209,"$317,000,000,000","$16,580"
2,Colombia,Bogotá,51874024,"$343,000,000,000","$6,611"
3,México,Ciudad de México,126014024,"$1,410,000,000,000","$11,190"
4,Perú,Lima,33925854,"$268,000,000,000","$7,900"
5,Uruguay,Montevideo,3518552,"$71,000,000,000","$20,300"
6,Panamá,Ciudad de Panamá,4468000,"$76,000,000,000","$16,995"


### 💲 Limpieza y conversión de columnas monetarias  
Seleccionamos las columnas `PIB` e `ingreso_per_capita` y:

1. **`replace({'\\$': '', ',': ''}, regex=True)`**  
   - Elimina el símbolo de dólar (`$`) y las comas de miles (`,`).  
   - `regex=True` permite usar patrones de expresión regular.

2. **`astype(float)`**  
   - Convierte las cadenas ya limpias a valores numéricos (`float64`).

Resultado: ambas columnas quedan listas para cálculos y comparaciones
estadísticas sin símbolos ni separadores.

In [75]:
df_paises[["PIB", "ingreso_per_capita"]] = (df_paises[["PIB", "ingreso_per_capita"]].replace({'\\$': '', ',': ''}, regex=True).astype(float))

In [76]:
df_paises.head()

Unnamed: 0,pais,capital,cantidad_de_habitantes,PIB,ingreso_per_capita
0,Argentina,Buenos Aires,45376763,641000000000.0,14120.0
1,Chile,Santiago,19116209,317000000000.0,16580.0
2,Colombia,Bogotá,51874024,343000000000.0,6611.0
3,México,Ciudad de México,126014024,1410000000000.0,11190.0
4,Perú,Lima,33925854,268000000000.0,7900.0


In [77]:
df_paises.isnull().sum()

pais                      0
capital                   0
cantidad_de_habitantes    0
PIB                       0
ingreso_per_capita        0
dtype: int64

---
## 7 · Unir datasets (`merge`)
Unimos `df_salarios` con `df_paises` por la columna `pais` para enriquecer la información.


In [78]:
# escribe tu codigo aqui

df_salarios_pais = pd.merge(df_salarios,df_paises, on ='pais',how='left').reset_index(drop=True)

In [79]:
df_salarios_pais.head()

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros,bono_anual_dolares,capital,cantidad_de_habitantes,PIB,ingreso_per_capita
0,José,López,36,Chile,Sí,Mercado Libre,Python Developer,2,71841.0,4981.0,4283.66,Santiago,19116209.0,317000000000.0,16580.0
1,Fernanda,Vargas,39,Chile,Sí,Amazon,AI Software Engineer,2,142115.0,1252.0,1076.72,Santiago,19116209.0,317000000000.0,16580.0
2,Fernanda,Ramírez,30,Colombia,No,Facebook,Machine Learning Engineer,2,92278.0,5262.0,4525.32,Bogotá,51874024.0,343000000000.0,6611.0
3,José,Gómez,35,Chile,Sí,Mercado Libre,Python Developer,12,97130.0,3671.0,3157.06,Santiago,19116209.0,317000000000.0,16580.0
4,Ana,Pérez,32,Panamá,No,Amazon,Project Manager,2,61413.0,10190.0,8763.4,Ciudad de Panamá,4468000.0,76000000000.0,16995.0


---
## 8 · Crear columnas derivadas


### 💰 Métrica de compensación total  
Creamos `compensacion_total` sumando el salario anual (`sueldo_anual_dolares`)  
y el bono anual convertido a dólares (`bono_anual_dolares`).  
Esta columna refleja cuánto percibe realmente cada empleado en un año,  
facilitando análisis comparativos por país, cargo o empresa.

In [83]:
# escribe tu codigo aqui

df_salarios_pais['compensacion_total'] = df_salarios_pais['sueldo_anual_dolares'] + df_salarios_pais['bono_anual_dolares']



In [84]:
df_salarios_pais.head()

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros,bono_anual_dolares,capital,cantidad_de_habitantes,PIB,ingreso_per_capita,senioridad,compensacion_total
0,José,López,36,Chile,Sí,Mercado Libre,Python Developer,2,71841.0,4981.0,4283.66,Santiago,19116209.0,317000000000.0,16580.0,Junior,76124.66
1,Fernanda,Vargas,39,Chile,Sí,Amazon,AI Software Engineer,2,142115.0,1252.0,1076.72,Santiago,19116209.0,317000000000.0,16580.0,Junior,143191.72
2,Fernanda,Ramírez,30,Colombia,No,Facebook,Machine Learning Engineer,2,92278.0,5262.0,4525.32,Bogotá,51874024.0,343000000000.0,6611.0,Junior,96803.32
3,José,Gómez,35,Chile,Sí,Mercado Libre,Python Developer,12,97130.0,3671.0,3157.06,Santiago,19116209.0,317000000000.0,16580.0,Senior,100287.06
4,Ana,Pérez,32,Panamá,No,Amazon,Project Manager,2,61413.0,10190.0,8763.4,Ciudad de Panamá,4468000.0,76000000000.0,16995.0,Junior,70176.4


### 🏆 Clasificación de senioridad  
Creamos la columna `senioridad` con `np.where`:

* **Condición** → `anos_en_la_empresa > 5`  
  - Si el empleado lleva **más de 5 años**, se le etiqueta como **"Senior"**.  
  - En caso contrario, se marca como **"Junior"**.

Así obtenemos una variable categórica que nos ayudará a comparar
compensaciones y otros indicadores entre niveles de experiencia.

In [85]:
# escribe tu codigo aqui
df_salarios_pais['senioridad'] = np.where(df_salarios_pais['anos_en_la_empresa']> 5,'Senior','Junior')

In [86]:
df_salarios_pais[['nombre', 'apellido', 'anos_en_la_empresa','compensacion_total', 'senioridad']].head(10)

Unnamed: 0,nombre,apellido,anos_en_la_empresa,compensacion_total,senioridad
0,José,López,2,76124.66,Junior
1,Fernanda,Vargas,2,143191.72,Junior
2,Fernanda,Ramírez,2,96803.32,Junior
3,José,Gómez,12,100287.06,Senior
4,Ana,Pérez,2,70176.4,Junior
5,Andrea,Torres,8,89710.98,Senior
6,Andrea,Vargas,9,101159.46,Senior
7,Pedro,Herrera,1,162149.86,Junior
8,Juan,Torres,9,98542.9,Senior
9,María,Vargas,13,115575.44,Senior


### 🔎 Revisión de valores nulos por columna  
`df_salarios_pais.isna().sum()` muestra cuántos `NaN` hay en cada columna  
tras el merge. Los resultados indican que los registros de **Costa Rica**  
aún presentan nulos en `capital`, `PIB`, `cantidad_de_habitantes` e  
`ingreso_per_capita`. Conviene imputar o investigar estos campos antes de  
continuar con el análisis para evitar sesgos o errores en cálculos agregados.

In [92]:
df_salarios_pais.isna().sum()

nombre                      0
apellido                    0
edad                        0
pais                        0
educacion_universitaria     0
nombre_de_la_empresa        0
cargo                       0
anos_en_la_empresa          0
sueldo_anual_dolares        0
bono_anual_euros            0
bono_anual_dolares          0
capital                    39
cantidad_de_habitantes     39
PIB                        39
ingreso_per_capita         39
senioridad                  0
compensacion_total          0
dtype: int64

In [88]:
df_salarios_pais[df_salarios_pais['pais'] == 'Costa Rica']
df_salarios_pais.isna().sum()

nombre                      0
apellido                    0
edad                        0
pais                        0
educacion_universitaria     0
nombre_de_la_empresa        0
cargo                       0
anos_en_la_empresa          0
sueldo_anual_dolares        0
bono_anual_euros            0
bono_anual_dolares          0
capital                    39
cantidad_de_habitantes     39
PIB                        39
ingreso_per_capita         39
senioridad                  0
compensacion_total          0
dtype: int64

### 🔍 Filtrar filas de Costa Rica  
Creamos `mask_cr` para identificar las filas donde `pais == "Costa Rica"` y,  
con `loc`, mostramos únicamente esos registros. Así podemos inspeccionar  
qué columnas siguen con `NaN` y decidir cómo imputarlas o ajustarlas.

In [89]:
mask_cr = df_salarios_pais["pais"] == "Costa Rica"
df_salarios_pais.loc[mask_cr]

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros,bono_anual_dolares,capital,cantidad_de_habitantes,PIB,ingreso_per_capita,senioridad,compensacion_total
5,Andrea,Torres,45,Costa Rica,No,Mercado Libre,Data Engineer,8,84987.0,5493.0,4723.98,,,,,Senior,89710.98
16,Fernanda,Ríos,23,Costa Rica,Sí,Oracle,Data Engineer,10,97616.0,8345.0,7176.7,,,,,Senior,104792.7
21,Pedro,Ramírez,54,Costa Rica,Sí,Microsoft,Machine Learning Engineer,2,101737.0,9828.0,8452.08,,,,,Junior,110189.08
23,Pedro,Torres,22,Costa Rica,Sí,Facebook,AI Software Engineer,6,115269.0,10657.0,9165.02,,,,,Senior,124434.02
32,Carlos,Herrera,53,Costa Rica,No,Rappi,Data Scientist,4,79861.0,7554.0,6496.44,,,,,Junior,86357.44
34,Fernanda,Díaz,38,Costa Rica,No,Oracle,Project Manager,0,89704.0,7063.0,6074.18,,,,,Junior,95778.18
35,Diego,González,40,Costa Rica,No,Globant,Machine Learning Engineer,12,104739.0,11879.0,10215.94,,,,,Senior,114954.94
41,Lucía,López,49,Costa Rica,Sí,Meta,Data Scientist,13,61352.0,7054.0,6066.44,,,,,Senior,67418.44
45,Pedro,Vargas,28,Costa Rica,No,Facebook,Data Analyst,8,56598.0,3690.0,3173.4,,,,,Senior,59771.4
51,Fernanda,Torres,47,Costa Rica,Sí,Google,Product Owner,7,87181.0,7291.0,6270.26,,,,,Senior,93451.26


### 📝 Diccionario con datos oficiales de Costa Rica  
Definimos `datos_cr` con los valores verificados para imputar en las filas  
de Costa Rica:

* **capital:** San José  
* **cantidad_de_habitantes:** 5 150 000  
* **PIB:** 86 500 000 000 USD  
* **ingreso_per_capita:** 14 319 USD

Estos números reemplazarán los `NaN` correspondientes en el DataFrame.

In [90]:
datos_cr = {
    "capital": "San José",
    "cantidad_de_habitantes": 5150000,
    "PIB": 86500000000,
    "ingreso_per_capita": 14319
}

### 🛠️ Imputar valores faltantes para Costa Rica  
Recorremos `datos_cr` y, para cada columna:

1. **Ubicamos** únicamente las filas de Costa Rica (`mask_cr`).  
2. **`fillna(valor)`** reemplaza solo los `NaN` con el dato oficial correspondiente.  
3. Asignamos el resultado de vuelta a la misma columna, dejando intactos los
   registros de otros países.

De este modo, Costa Rica queda completa sin alterar los valores ya correctos.

In [95]:
# escribe tu codigo aqui

for col,valor in datos_cr.items():
    df_salarios_pais.loc[mask_cr,col]= (df_salarios_pais.loc[mask_cr,col].fillna(valor))

In [96]:
df_salarios_pais.loc[mask_cr]

Unnamed: 0,nombre,apellido,edad,pais,educacion_universitaria,nombre_de_la_empresa,cargo,anos_en_la_empresa,sueldo_anual_dolares,bono_anual_euros,bono_anual_dolares,capital,cantidad_de_habitantes,PIB,ingreso_per_capita,senioridad,compensacion_total
5,Andrea,Torres,45,Costa Rica,No,Mercado Libre,Data Engineer,8,84987.0,5493.0,4723.98,San José,5150000.0,86500000000.0,14319.0,Senior,89710.98
16,Fernanda,Ríos,23,Costa Rica,Sí,Oracle,Data Engineer,10,97616.0,8345.0,7176.7,San José,5150000.0,86500000000.0,14319.0,Senior,104792.7
21,Pedro,Ramírez,54,Costa Rica,Sí,Microsoft,Machine Learning Engineer,2,101737.0,9828.0,8452.08,San José,5150000.0,86500000000.0,14319.0,Junior,110189.08
23,Pedro,Torres,22,Costa Rica,Sí,Facebook,AI Software Engineer,6,115269.0,10657.0,9165.02,San José,5150000.0,86500000000.0,14319.0,Senior,124434.02
32,Carlos,Herrera,53,Costa Rica,No,Rappi,Data Scientist,4,79861.0,7554.0,6496.44,San José,5150000.0,86500000000.0,14319.0,Junior,86357.44
34,Fernanda,Díaz,38,Costa Rica,No,Oracle,Project Manager,0,89704.0,7063.0,6074.18,San José,5150000.0,86500000000.0,14319.0,Junior,95778.18
35,Diego,González,40,Costa Rica,No,Globant,Machine Learning Engineer,12,104739.0,11879.0,10215.94,San José,5150000.0,86500000000.0,14319.0,Senior,114954.94
41,Lucía,López,49,Costa Rica,Sí,Meta,Data Scientist,13,61352.0,7054.0,6066.44,San José,5150000.0,86500000000.0,14319.0,Senior,67418.44
45,Pedro,Vargas,28,Costa Rica,No,Facebook,Data Analyst,8,56598.0,3690.0,3173.4,San José,5150000.0,86500000000.0,14319.0,Senior,59771.4
51,Fernanda,Torres,47,Costa Rica,Sí,Google,Product Owner,7,87181.0,7291.0,6270.26,San José,5150000.0,86500000000.0,14319.0,Senior,93451.26


### ✅ Verificación final de nulos  
Ejecutamos `df_salarios_pais.isnull().sum()` para confirmar que **todas las  
columnas ahora muestran 0 valores faltantes**. Nuestro DataFrame está listo  
para pasar al Análisis Exploratorio de Datos sin riesgos de errores por `NaN`.

In [97]:
# escribe tu codigo aqui
df_salarios_pais.isna().sum()

nombre                     0
apellido                   0
edad                       0
pais                       0
educacion_universitaria    0
nombre_de_la_empresa       0
cargo                      0
anos_en_la_empresa         0
sueldo_anual_dolares       0
bono_anual_euros           0
bono_anual_dolares         0
capital                    0
cantidad_de_habitantes     0
PIB                        0
ingreso_per_capita         0
senioridad                 0
compensacion_total         0
dtype: int64

In [98]:
df_salarios_pais.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 307 entries, 0 to 306
Data columns (total 17 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   nombre                   307 non-null    object 
 1   apellido                 307 non-null    object 
 2   edad                     307 non-null    int64  
 3   pais                     307 non-null    object 
 4   educacion_universitaria  307 non-null    object 
 5   nombre_de_la_empresa     307 non-null    object 
 6   cargo                    307 non-null    object 
 7   anos_en_la_empresa       307 non-null    int64  
 8   sueldo_anual_dolares     307 non-null    float64
 9   bono_anual_euros         307 non-null    float64
 10  bono_anual_dolares       307 non-null    float64
 11  capital                  307 non-null    object 
 12  cantidad_de_habitantes   307 non-null    float64
 13  PIB                      307 non-null    float64
 14  ingreso_per_capita       3

---
## 9 · Exportar dataset limpio


In [103]:
# from cursos.analisis_datos.utils.paths import ''

# me dio error use ruta directa

In [106]:
salarios_pais_path = "/Users/Marco/Documents/DataAnalysisCourse/pydatapanama-cursos/cursos/analisis_datos/data/processed/salarios_pais.csv"
salarios_pais_path = str(salarios_pais_path)

print(f"Ruta del archivo salarios_paises: {salarios_pais_path}")
print(f"existe archivo salarios_pais: {Path(salarios_pais_path).exists()}")

Ruta del archivo salarios_paises: /Users/Marco/Documents/DataAnalysisCourse/pydatapanama-cursos/cursos/analisis_datos/data/processed/salarios_pais.csv
existe archivo salarios_pais: False


### 💾 Exportar dataset limpio  
`to_csv(..., index=False, sep=',', encoding='utf-8')` guarda `df_salarios_pais` como un CSV en la ruta definida por `salarios_pais_path`, sin incluir la columna de índice y usando codificación UTF-8.  
La línea `print()` confirma en pantalla la ubicación del archivo generado, facilitando su localización para futuros análisis o compartición.

In [107]:
# escribe tu codigo aqui

df_salarios_pais.to_csv(path_or_buf=salarios_pais_path,index=False,sep=',',encoding='utf-8')

In [108]:
print(f' Dataset limpio exportado a {salarios_pais_path}')

 Dataset limpio exportado a /Users/Marco/Documents/DataAnalysisCourse/pydatapanama-cursos/cursos/analisis_datos/data/processed/salarios_pais.csv


In [109]:
print(f"existe archivo salarios_pais: {Path(salarios_pais_path).exists()}")

existe archivo salarios_pais: True


---
## 10 · Resumen 
En esta práctica aprendiste a:
- Limpiar columnas con símbolos.
- Detectar/llenar nulos y eliminar duplicados.
- Realizar un **merge** y enriquecer tu información.
- Crear métricas derivadas y exportar datos limpios.

