### En este apartado utilizaremos los datos del archivo: "01_data_cleaning_salaries_mexico_INEGI.csv" Y los trabajaremos para que tengan la estructura y tipo de datos que necesitamos

### In this section we will use the data from the file: "01_data_cleaning_salaries_mexico_INEGI.csv" And we will work on them so that they have the structure and type of data that we need

In [2]:
# Importo las librerias a utilizar en este proceso de visualizacion de datos
# I imported the libraries to be used in this data visualization process
import pandas as pd
import numpy as np

In [16]:
# Leo el archivo con los datos ya limpios
# I read the file with the data already clean
df = pd.read_csv("csv/01_data_cleaning_salaries_mexico_INEGI.csv", sep=";", encoding="utf-8")
df = df.drop(columns=["Unnamed: 0"])
df.head()


Unnamed: 0,Entidad Federativa,Sexo,2005 Trimestre I,2005 Trimestre II,2005 Trimestre III,2005 Trimestre IV,2006 Trimestre I,2006 Trimestre II,2006 Trimestre III,2006 Trimestre IV,...,2021 Trimestre III,2021 Trimestre IV,2022 Trimestre I,2022 Trimestre II,2022 Trimestre III,2022 Trimestre IV,2023 Trimestre I,2023 Trimestre II,2023 Trimestre III,2023 Trimestre IV
0,Aguascalientes,Hombres,7956.986146,8049.33092,8228.385315,8162.127084,7790.1818,8489.410853,8439.755319,7987.732875,...,7912.679217,7648.109072,8323.847492,8379.504958,7562.818107,7660.378085,7975.511519,8083.148186,7762.185006,8059.59049
1,Aguascalientes,Mujeres,5738.093081,6014.697008,6458.98278,5927.876338,6003.173507,6218.697676,6159.854554,5509.048836,...,6006.032279,5777.487228,6380.068829,6031.19748,6058.736912,5916.811515,6384.733535,6027.326483,6232.155533,6326.378096
2,Baja California,Hombres,11121.33244,11554.325486,11719.864926,11799.271502,11943.729951,12352.62081,12014.600893,11642.132797,...,9697.53351,9531.697427,10653.652687,10513.316764,10406.833206,10520.641082,10930.090052,11024.219651,11466.613763,11150.548745
3,Baja California,Mujeres,8681.546303,8730.942158,9139.675116,8970.430082,9226.693396,9189.111038,9259.457728,8729.694057,...,8138.362005,7577.269433,8508.610418,8212.507327,8728.911717,8236.631117,8826.823642,9385.479492,9145.234686,8976.979799
4,Baja California Sur,Hombres,10687.529,10994.352958,11123.709717,11140.542736,10634.3098,12069.13527,11646.069305,12697.486293,...,11714.217021,11405.967836,10886.453929,11315.246464,11456.636535,10887.651395,11517.980555,11974.998,12022.313625,11809.187075


In [4]:
# Al tener un formato mixto puede traer compliaciones al graficar
# Por lo que cambio el formato a vertical y verificamos su estructura nueva

# Having a mixed format can cause complications when graphing
# So I change the format to vertical and we verify its new structure

df_vertical = pd.melt(df, id_vars=['Entidad Federativa', 'Sexo'], var_name='Periodo', value_name='Salario')
df_vertical.shape

(4864, 4)

In [5]:
# Ordeno nuestro DataFrame por Entidad y Sexo
# I sort our DataFrame by Entity and Sex
df_vertical.sort_values(by=["Entidad Federativa", "Sexo"], ascending=True)
df_vertical.tail(25)

Unnamed: 0,Entidad Federativa,Sexo,Periodo,Salario
4839,Oaxaca,Mujeres,2023 Trimestre IV,3620.805071
4840,Puebla,Hombres,2023 Trimestre IV,5856.27789
4841,Puebla,Mujeres,2023 Trimestre IV,4607.375113
4842,Querétaro,Hombres,2023 Trimestre IV,8302.882382
4843,Querétaro,Mujeres,2023 Trimestre IV,5847.297679
4844,Quintana Roo,Hombres,2023 Trimestre IV,8739.664697
4845,Quintana Roo,Mujeres,2023 Trimestre IV,6854.307311
4846,San Luis Potosí,Hombres,2023 Trimestre IV,7313.637389
4847,San Luis Potosí,Mujeres,2023 Trimestre IV,5576.192664
4848,Sinaloa,Hombres,2023 Trimestre IV,9338.203105


In [6]:
# Cambio el tipo de dato de todas las columnas para manejarlos mejor, en el caso de salarios debo asegurarme que 
# no haya valores imposibles de cambiar a float. 

# I change the data type of all the columns to handle them better, in the case of salaries I must make sure that 
# there are no values ​​that cannot be changed to float.

df_vertical["Entidad Federativa"] = df_vertical["Entidad Federativa"].astype(str)
df_vertical["Sexo"] = df_vertical["Sexo"].astype(str)
df_vertical["Periodo"] = df_vertical["Periodo"].astype(str)
df_vertical["Salario"] = df_vertical["Salario"].replace('ND', 0)
df_vertical["Salario"] = pd.to_numeric(df_vertical["Salario"], errors='coerce').fillna(0)
df_vertical["Salario"] = df_vertical["Salario"].round(2)


  df_vertical["Salario"] = df_vertical["Salario"].replace('ND', 0)


In [7]:
# Verifico que en verdad tengan el tipo de dato que necesito
# I verify that they really have the type of data I need
df_vertical.dtypes

Entidad Federativa     object
Sexo                   object
Periodo                object
Salario               float64
dtype: object

In [8]:
# Para mejor tratamiento futuro, separo la columna periodo en 2 (año, trimestre)
# For better future treatment, I separate the period column into 2 (year, quarter)
split_temporal = df_vertical["Periodo"].str.split(expand=True)
split_temporal[1] = split_temporal[1] + " " + split_temporal[2]
split_temporal = split_temporal.drop(columns=2)
split_temporal.columns = ['Año', 'Trimestre']
df_vertical = pd.concat([df_vertical, split_temporal], axis=1)
df_tratado = df_vertical.drop(columns=["Periodo"])

In [13]:
print(df_tratado.head())
df_tratado["Año"] = df_tratado["Año"].astype(int)
print(df_tratado.dtypes)

    Entidad Federativa     Sexo   Salario   Año    Trimestre
0       Aguascalientes  Hombres   7956.99  2005  Trimestre I
1       Aguascalientes  Mujeres   5738.09  2005  Trimestre I
2      Baja California  Hombres  11121.33  2005  Trimestre I
3      Baja California  Mujeres   8681.55  2005  Trimestre I
4  Baja California Sur  Hombres  10687.53  2005  Trimestre I
Entidad Federativa     object
Sexo                   object
Salario               float64
Año                     int64
Trimestre              object
dtype: object


In [18]:
# Hago una prueba para ver si puedo filtrar correctamente los datos con un query de SQL
# I test to see if I can correctly filter the data with a SQL query
df_tratado.query("Sexo == 'Hombres' & Año == 2023 & Trimestre=='Trimestre I'").sort_values(by= "Entidad Federativa", ascending=True)

Unnamed: 0,Entidad Federativa,Sexo,Salario,Año,Trimestre
4608,Aguascalientes,Hombres,7975.51,2023,Trimestre I
4610,Baja California,Hombres,10930.09,2023,Trimestre I
4612,Baja California Sur,Hombres,11517.98,2023,Trimestre I
4614,Campeche,Hombres,6622.01,2023,Trimestre I
4620,Chiapas,Hombres,4095.73,2023,Trimestre I
4622,Chihuahua,Hombres,9643.39,2023,Trimestre I
4624,Ciudad de México,Hombres,9504.01,2023,Trimestre I
4616,Coahuila de Zaragoza,Hombres,9171.29,2023,Trimestre I
4618,Colima,Hombres,9203.53,2023,Trimestre I
4626,Durango,Hombres,6966.58,2023,Trimestre I


In [19]:
# Exporto el reporte tratado a csv
# I export the processed report to csv
df_tratado.to_csv("csv/02_data_ready_for_visualization_salaries_mexico_INEGI.csv", sep=";", index=True, encoding="utf-8")