# Analisis de Salario por Region en Puerto Rico

Este notebook documenta el proceso de carga, limpieza y preparación de los datos utilizados para construir el dashboard de análisis salarial en Tableau.

In [3]:
import pandas as pd

# Puedes utilizar otras librerias adicionales si deseas analizar mas a fondo la data
# import numpy as np
# import seaborn as sns
# imort matplotlib.pyplot as plt

## Carga de Datos
Cargamos los datos desde su forma original en la carpeta `data/raw/`.

In [5]:
# Cargamos el archivo a un dataframe
df = pd.read_csv('data/raw/Workforce and Wage by Location.csv')


# Para ver las primeras filas de data que analizaremos                
df.head()        

Unnamed: 0,ID PUMA,PUMA,ID Year,Year,ID Workforce Status,Workforce Status,Average Wage,Slug PUMA,Temp,Growth
0,79500US7200100,"Aguadilla, Aguada & Moca PUMA, PR",2022,2022,True,True,25236.070968,aguadilla-aguada-moca-puma-pr,23058.972623,9.441437
1,79500US7200200,"Mayagüez, Añasco & Hormigueros PUMA, PR",2022,2022,True,True,25500.492767,mayaguez-anasco-hormigueros-puma-pr,23667.970702,7.742624
2,79500US7200300,"Cabo Rojo, San Germán & Lajas PUMA, PR",2022,2022,True,True,25193.700073,cabo-rojo-san-german-lajas-puma-pr,23034.585832,9.373358
3,79500US7200400,"Yauco, Sabana Grande & Peñuelas PUMA, PR",2022,2022,True,True,22427.277409,yauco-sabana-grande-penuelas-puma-pr,20761.045758,8.02576
4,79500US7200500,"Ponce PUMA, PR",2022,2022,True,True,28662.43858,ponce-puma-pr,26206.181086,9.372817


## Limpieza de Datos

- Se eliminaron las columnas irrelevantes que no aportan valor al análisis.
- Se renombraron las columnas clave para mejorar la legibilidad y comprensión.
- Se ajustaron los tipos de datos, aplicando formato `float` a las columnas numéricas para una mejor visualización.
- Se sustituyeron los valores nulos en la columna `Growth` por `'N/A'` para indicar claramente la ausencia de datos disponibles.

In [6]:
# Se eliminan columnas inecesarias
clean_df = df.drop(['Temp', 'ID PUMA', 'Year', 'Workforce Status', 'ID Workforce Status', 'Slug PUMA'], 
                   axis=1)

#Se ajustan nombres
clean_df = clean_df.rename(columns={'ID Year': 'Year'})

# Se le cambia el tipo de data a unos mas legible y optimo para visualizaciòn
clean_df['Average Wage'] = clean_df['Average Wage'].round(2)
clean_df['Growth'] = clean_df['Growth'].round(2)

# Se ajustan los valores null a N/A para indicar la ausencia de datos
clean_df['Growth'] = clean_df['Growth'].fillna('N/A')

The history saving thread hit an unexpected error (OperationalError('attempt to write a readonly database')).History will not be written to the database.


## Exportacion de Datos
Luego de haber limpiado los datos se exportan a `data/processed/` donde estara el nuevo archivo csv que sera utilizado para analisis y visualizaciones.

In [7]:
# Exporta la data limpia a un acrchivo .csv listo para analisis
clean_df.to_csv('data/processed/cleaned_avg_wage_data.csv', index=False)

## Proceso de Limpieza Completado
Proceso de limpieza completado y datos listos para visualización en Tableau.