##### En esta fase se aplican tareas de limpieza y transformación para estandarizar el conjunto de datos y corregir las incidencias detectadas en el análisis preliminar. Se ajustan formatos, tipos de dato y criterios de codificación para garantizar coherencia y calidad antes del análisis. En esta etapa no se crean nuevas variables, únicamente se depuran y normalizan las existentes para dejar el dataset preparado para su explotación posterior.

## Importación de librerías

In [1]:
# Tratamiento de datos.

import pandas as pd
pd.set_option('display.max_columns', None)
import numpy as np

# Visualizaciones.

import matplotlib.pyplot as plt
import seaborn as sns

## Carga de datos `fraudTrain.csv`

In [2]:
df_fraud = pd.read_csv("../data/1.raw/fraudTrain.csv", index_col= 0)

Se muestran las primeras filas para verificar que el conjunto de datos se ha cargado correctamente.

In [3]:
df_fraud.head()

Unnamed: 0,trans_date_trans_time,cc_num,merchant,category,amt,first,last,gender,street,city,state,zip,lat,long,city_pop,job,dob,trans_num,unix_time,merch_lat,merch_long,is_fraud
0,2019-12-13 10:58:20,4681699462969,fraud_Kling Inc,gas_transport,92.53,Joseph,Gonzalez,M,319 Wendy Fort Suite 179,Murfreesboro,TN,37132,35.8596,-86.421,158701,"Journalist, newspaper",1978-03-06,1e9a5baf2d98ea7a21158a8adb1bcbb7,1355396300,35.233931,-86.053992,0
1,2019-06-22 12:28:00,4364010865167176,fraud_Predovic Inc,shopping_net,5.79,Gary,Martinez,M,03512 Jackson Ports,Reno,NV,89512,39.5483,-119.7957,276896,Immunologist,1997-03-12,bf07aaaa3b2f4775dc2f5d3c222bd986,1340368080,40.432188,-119.956735,0
2,2019-04-28 19:43:17,4040099974063068803,"fraud_Turner, Ziemann and Lehner",food_dining,55.25,Jeffrey,Lewis,M,24255 Bryan Square,Palermo,ND,58769,48.3396,-102.24,229,Administrator,1983-03-20,4a587132a79ebc2091832a926d096977,1335642197,49.123042,-102.129622,0
3,2019-07-16 08:08:34,4555104582813474,fraud_Gerlach Inc,shopping_net,82.6,Chris,Daniel,M,025 White Fork Apt. 633,Rock Glen,PA,18246,40.954,-76.1747,143,Health and safety adviser,1982-02-19,a19a0d24d6fab24f5a4cd98ce2d8af43,1342426114,41.787515,-75.74917,0
4,2019-07-23 03:29:17,30026790933302,"fraud_Rohan, White and Aufderhar",misc_net,104.96,John,Peters,M,555 Michael Burgs,Mayersville,MS,39113,32.9013,-91.0286,595,Technical brewer,1979-09-03,574010e975db3d75163768d20d1fec0c,1343014157,32.201658,-90.782759,0


Se visualizan las últimas filas del dataset para comprobar que la carga se ha realizado correctamente y que el archivo se ha leído hasta el final.

In [4]:
df_fraud.tail()

Unnamed: 0,trans_date_trans_time,cc_num,merchant,category,amt,first,last,gender,street,city,state,zip,lat,long,city_pop,job,dob,trans_num,unix_time,merch_lat,merch_long,is_fraud
389995,2019-06-20 15:07:33,371284100299909,"fraud_Baumbach, Strosin and Nicolas",shopping_pos,8.23,Hannah,Thomas,F,1004 Willis Pass,Hedley,TX,79237,34.8698,-100.6806,513,Early years teacher,1976-05-24,7fa24d3d1c075467ba65e1a092c163f7,1340204853,34.374344,-100.005574,0
389996,2019-04-25 12:02:16,3592325941359225,fraud_Erdman-Ebert,personal_care,9.78,Ashley,Robinson,F,1007 Colton Forks,Hopewell,VA,23860,37.2876,-77.295,31970,Purchasing manager,1935-08-15,d5c7836b37a4ed28c1304eb847f7dca7,1335355336,36.750143,-78.190098,0
389997,2019-10-25 16:49:47,5559857416065248,"fraud_O'Connell, Botsford and Hand",home,26.62,Jack,Hill,M,5916 Susan Bridge Apt. 939,Grenada,CA,96038,41.6125,-122.5258,589,Systems analyst,1945-12-21,63f49489d1ff4d4701e756ba2837dc05,1351183787,41.338409,-123.105357,0
389998,2019-01-15 20:24:39,3564182536169293,"fraud_Witting, Beer and Ernser",home,3.7,Brenda,Johnson,F,56160 Nicholas Isle,Norwich,OH,43767,39.9934,-81.8024,1443,Research scientist (medical),1962-03-04,9a08350d00bb9bf65569c42e7f20b3c9,1326659079,39.511339,-82.754286,0
389999,2019-10-05 19:15:19,377113842678100,fraud_Kassulke Inc,entertainment,14.3,Billy,Gallagher,M,673 Delgado Burg,Greenwich,NJ,8323,39.4055,-75.3209,804,Insurance risk surveyor,1965-03-25,a7b2be172f556633c1d117bd70203af7,1349464519,40.065891,-75.417425,0


### Revisión de tipos de datos

In [5]:
df_fraud.info()

<class 'pandas.core.frame.DataFrame'>
Index: 390000 entries, 0 to 389999
Data columns (total 22 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   trans_date_trans_time  390000 non-null  object 
 1   cc_num                 390000 non-null  int64  
 2   merchant               390000 non-null  object 
 3   category               390000 non-null  object 
 4   amt                    390000 non-null  float64
 5   first                  390000 non-null  object 
 6   last                   390000 non-null  object 
 7   gender                 390000 non-null  object 
 8   street                 390000 non-null  object 
 9   city                   390000 non-null  object 
 10  state                  390000 non-null  object 
 11  zip                    390000 non-null  int64  
 12  lat                    390000 non-null  float64
 13  long                   390000 non-null  float64
 14  city_pop               390000 non-null  i

## Limpieza y transformacion de datos

En esta fase se realizan los ajustes y conversiones necesarios para corregir inconsistencias y preparar el conjunto de datos para asegurar la calidad del dataset antes del análisis.

#### Transformación de varibles temporales

In [6]:
df_fraud['trans_date_trans_time'] = pd.to_datetime(df_fraud['trans_date_trans_time'])

df_fraud['trans_date_trans_time'].dtype.name

'datetime64[ns]'

In [7]:
df_fraud[["trans_date_trans_time"]].isna().sum()

trans_date_trans_time    0
dtype: int64

In [8]:
df_fraud["dob"] = pd.to_datetime(df_fraud["dob"])

df_fraud["dob"].dtype.name

'datetime64[ns]'

In [9]:
df_fraud[["dob"]].isna().sum()

dob    0
dtype: int64

Se verifica que despues de la transformación las variables han sido convertidas de tipo `object` a `datetime64`, para comprobar que la conversión se ha realizado correctamente, se revisa la presencia de valores nulos en cada variable.<br> Esto garantiza un tratamiento correcto de la información, lo que permite realizar operaciones en el análisis de series temporales y comparativas por periodos.

### Ajuste de tipos de datos

In [10]:
df_fraud['zip'] = df_fraud['zip'].astype("string").str.zfill(5)

df_fraud['zip'].dtype.name

'string'

`zip`: actúa como un identificador geográfico, ya que únicamente representa el código postal del titular. Por este motivo, no debe interpretarse como una variable numérica ya que su análisis estadístico no aporta ningun valor, es preferible convertirla a tipo **string** para tratarla como una variable categórica y facilitar su uso.

In [11]:
state_map_fraud = {
"AL":"Alabama","AK":"Alaska","AZ":"Arizona","AR":"Arkansas","CA":"California",
"CO":"Colorado","CT":"Connecticut","DE":"Delaware","FL":"Florida","GA":"Georgia",
"HI":"Hawaii","ID":"Idaho","IL":"Illinois","IN":"Indiana","IA":"Iowa","KS":"Kansas",
"KY":"Kentucky","LA":"Louisiana","ME":"Maine","MD":"Maryland","MA":"Massachusetts",
"MI":"Michigan","MN":"Minnesota","MS":"Mississippi","MO":"Missouri","MT":"Montana",
"NE":"Nebraska","NV":"Nevada","NH":"New Hampshire","NJ":"New Jersey","NM":"New Mexico",
"NY":"New York","NC":"North Carolina","ND":"North Dakota","OH":"Ohio","OK":"Oklahoma",
"OR":"Oregon","PA":"Pennsylvania","RI":"Rhode Island","SC":"South Carolina",
"SD":"South Dakota","TN":"Tennessee","TX":"Texas","UT":"Utah","VT":"Vermont",
"VA":"Virginia","WA":"Washington","WV":"West Virginia","WI":"Wisconsin",
"WY":"Wyoming","DC":"District of Columbia"
}

df_fraud["state"] = df_fraud["state"].astype("string").str.strip().str.upper()

df_fraud["state"] = df_fraud["state"].map(state_map_fraud)

In [12]:
df_fraud['state'].value_counts().head(5)

state
Texas           28350
New York        25000
Pennsylvania    24099
California      17103
Ohio            14003
Name: count, dtype: int64

In [13]:
df_fraud['state'].value_counts().sum() , len(df_fraud)

(np.int64(390000), 390000)

In [14]:
df_fraud["state"] = df_fraud["state"].astype("category")

df_fraud["state"].dtype.name

'category'

El uso del nombre completo en la variable `state` permite una representación geográfica más consistente y descriptiva haciendola más accesible para el análisis, lo que resulta especialmente útil en informes y paneles operativos, ya que mejora la experiencia de lectura y disminuye el riesgo de confusiones derivadas de abreviaturas.

Además, se realiza una comparación para verificar la columna `state`. Si ambos resultados coinciden, significa que el recuento total de registros por estado cubre el 100% del dataset, es decir, no hay valores nulos y la transformación ha sido completa.

Por último, se convierte `state` a **category** con el objetivo de optimizar el dataset, dado que los estados se repiten a lo largo de los registros y esto mejora la eficiencia en consultas y agregaciones por estado. Esta decisión favorece el rendimiento en segmentaciones, ya que acelera los cálculos y reduce el almacenamiento necesario frente a un tipo texto. 

In [15]:
df_fraud["gender"] = (df_fraud["gender"].astype("string").str.strip().str.upper().map({"F": "Female", "M": "Male"}))

In [16]:
df_fraud['gender'].value_counts()

gender
Female    213438
Male      176562
Name: count, dtype: int64

In [17]:
df_fraud["gender"].value_counts().sum() , len(df_fraud)

(np.int64(390000), 390000)

In [18]:
df_fraud["gender"] = df_fraud["gender"].astype("category")

df_fraud['gender'].dtype.name

'category'

Se recodifican las categorías de **F** y **M** a etiquetas más descriptivas **Female** y **Male**, mejorando la legibilidad del dataset y su interpretación en análisis y visualizaciones. 

Se verificar que la recodificación no ha generado valores nulos y que la la variable se encuentra completa en todos los registros.

Por último, se convierte `state` a **category** para estandarizar su tratamiento como variable categórica.Este ajuste facilita el análisis por grupos, además de contribuir a una gestión más eficiente del dataset.

In [19]:
df_fraud["category"] = (df_fraud["category"].astype("string").str.strip().str.capitalize().astype("category"))

df_fraud["category"].dtype.name

'category'

La columna `category` se normaliza para evitar inconsistencias de escritura y se convierte a **category**. Este ajuste optimiza el análisis por grupos, facilitando su lectura y el análisis posterior.

In [20]:
df_fraud["merchant"] = (df_fraud["merchant"].astype("string").str.strip().astype("category"))

df_fraud["merchant"].dtype.name

'category'

Se realiza una limpieza de `merchant` para garantizar consistencia en los nombres de comercios. Despues se convierte a tipo **category** para representar adecuadamente una variable cualitativa con valores repetidos y optimizar el rendimiento en análisis por grupos, reduciendo además el consumo de memoria al almacenarla.

In [21]:
df_fraud["city"] = (df_fraud["city"].astype("string").str.strip().str.title().astype("category"))

df_fraud["city"].dtype.name

'category'

Se normaliza `city` para unificar el formato de escritura y evitar duplicidades derivadas de mayúsculas, minúsculas o espacios, posteriormente se convierte a **category** para facilitar análisis por grupos.

In [22]:
df_fraud["job"] = (df_fraud["job"].astype("string").str.strip().str.title().astype("category"))

df_fraud["job"].dtype.name

'category'

Se normaliza la columna `job` para evitar inconsistencias en la denominación de ocupaciones. Posteriormente, se convierte a tipo **category** con el fin de optimizar el almacenamiento y facilitar el análisis por grupos.

### Eliminación de variables innecesarias

In [23]:
df_fraud = df_fraud.drop(columns=["cc_num","first", "last", "street", "lat", "long", "trans_num", "unix_time", "merch_lat", "merch_long"])

In [24]:
df_fraud.columns

Index(['trans_date_trans_time', 'merchant', 'category', 'amt', 'gender',
       'city', 'state', 'zip', 'city_pop', 'job', 'dob', 'is_fraud'],
      dtype='object')

Se eliminan `cc_num`, `first`, `last`, `street`, `lat`, `long`, `trans_num`, `unix_time`, `merch_lat` y `merch_long` para depurar el dataset, ya que estas variables no aportan valor analítico directo para el estudio del fraude y además de esta manera se reduce el ruido en el conjunto de datos.

In [25]:
df_fraud.info()

<class 'pandas.core.frame.DataFrame'>
Index: 390000 entries, 0 to 389999
Data columns (total 12 columns):
 #   Column                 Non-Null Count   Dtype         
---  ------                 --------------   -----         
 0   trans_date_trans_time  390000 non-null  datetime64[ns]
 1   merchant               390000 non-null  category      
 2   category               390000 non-null  category      
 3   amt                    390000 non-null  float64       
 4   gender                 390000 non-null  category      
 5   city                   390000 non-null  category      
 6   state                  390000 non-null  category      
 7   zip                    390000 non-null  string        
 8   city_pop               390000 non-null  int64         
 9   job                    390000 non-null  category      
 10  dob                    390000 non-null  datetime64[ns]
 11  is_fraud               390000 non-null  int64         
dtypes: category(6), datetime64[ns](2), float64(1), in

Tras aplicar las transformaciones, se realiza una comprobación final ejecutando nuevamente `df_fraud.info()` para verificar la correcta conversión del conjunto de datos antes del análisis.

Se confirma que `trans_date_trans_time` y `dob` han quedado en formato **datetime64**, que `zip` y `category` se han convertido a tipo **string**, y que el resto de variables mantienen formatos coherentes.
Además, todas las columnas conservan **390000** lo que muestra que no hay registros nulos.

Se procede a guardar la nueva base de datos depurada y lista para su análisis bajo el nombre `fraudTrain_limpio.parquet`.

In [26]:
df_fraud.to_parquet("../data/2.processed/fraudTrain_limpio.parquet", index= False)

### Carga de datos `IRSIncomeByZipCode.xlsx`

In [27]:
df_income = pd.read_excel("../data/1.raw/IRSIncomeByZipCode.xlsx", index_col=0)

Se revisan los primeros registros del conjunto de datos para confirmar que los datos se han leído sin incidencias.

In [28]:
df_income.head()

Unnamed: 0_level_0,STATE,ZIPCODE,Number of returns,Adjusted gross income (AGI),Avg AGI,Number of returns with total income,Total income amount,Avg total income,Number of returns with taxable income,Taxable income amount,Avg taxable income
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,AL,0,2022380,105089761,51.96341,2022380,106420533,52.621433,1468370,67850874,46.208295
1,AL,35004,4930,255534,51.832454,4930,258024,52.337525,4020,163859,40.760945
2,AL,35005,3300,128387,38.905152,3300,129390,39.209091,2440,70760,29.0
3,AL,35006,1230,58302,47.4,1230,58585,47.630081,940,36341,38.660638
4,AL,35007,11990,643708,53.687073,11990,651350,54.324437,9280,414878,44.706681


Se muestran los últimos registros para verificar que la estructura y el contenido del dataset se ha cargado íntegramente y sin incidencias.

In [29]:
df_income.tail()

Unnamed: 0_level_0,STATE,ZIPCODE,Number of returns,Adjusted gross income (AGI),Avg AGI,Number of returns with total income,Total income amount,Avg total income,Number of returns with taxable income,Taxable income amount,Avg taxable income
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
27785,WY,83126,150,8176,54.506667,150,8319,55.46,110,4543,41.3
27786,WY,83127,1400,87014,62.152857,1400,88398,63.141429,1060,58258,54.960377
27787,WY,83128,860,62354,72.504651,860,63379,73.696512,680,45017,66.201471
27788,WY,83414,200,21393,106.965,200,22319,111.595,170,15853,93.252941
27789,WY,99999,24460,2117021,86.550327,24460,2154270,88.073181,19990,1656600,82.871436


### Estructura de las variables

In [30]:
df_income.info()

<class 'pandas.core.frame.DataFrame'>
Index: 27790 entries, 0 to 27789
Data columns (total 11 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   STATE                                  27790 non-null  object 
 1   ZIPCODE                                27790 non-null  int64  
 2   Number of returns                      27790 non-null  int64  
 3   Adjusted gross income (AGI)            27790 non-null  int64  
 4   Avg AGI                                27790 non-null  float64
 5   Number of returns with total income    27790 non-null  int64  
 6   Total income amount                    27790 non-null  int64  
 7   Avg total income                       27790 non-null  float64
 8   Number of returns with taxable income  27790 non-null  int64  
 9   Taxable income amount                  27790 non-null  int64  
 10  Avg taxable income                     27790 non-null  float64
dtypes: floa

## Limpieza y transformacion de datos


En este apartado se ejecutan tareas de depuración y tipado con el objetivo de normalizar las variables y garantizar consistencia en el dataset antes del análisis.

### Ajuste de tipos de datos

In [31]:
df_income.columns = (df_income.columns.str.strip().str.lower().str.replace(" ", "_").str.replace(r"[()]", "", regex=True))

In [32]:
df_income.columns

Index(['state', 'zipcode', 'number_of_returns', 'adjusted_gross_income_agi',
       'avg_agi', 'number_of_returns_with_total_income', 'total_income_amount',
       'avg_total_income', 'number_of_returns_with_taxable_income',
       'taxable_income_amount', 'avg_taxable_income'],
      dtype='object')

Se estandariza el nombre de las columnas para mantener coherencia y que sigan el mismo criterio de formato y estilo que el conjunto de datos `fraudTrain_limpio.parquet`. 

In [33]:
state_map_income = {
"AL":"Alabama","AK":"Alaska","AZ":"Arizona","AR":"Arkansas","CA":"California",
"CO":"Colorado","CT":"Connecticut","DE":"Delaware","FL":"Florida","GA":"Georgia",
"HI":"Hawaii","ID":"Idaho","IL":"Illinois","IN":"Indiana","IA":"Iowa","KS":"Kansas",
"KY":"Kentucky","LA":"Louisiana","ME":"Maine","MD":"Maryland","MA":"Massachusetts",
"MI":"Michigan","MN":"Minnesota","MS":"Mississippi","MO":"Missouri","MT":"Montana",
"NE":"Nebraska","NV":"Nevada","NH":"New Hampshire","NJ":"New Jersey","NM":"New Mexico",
"NY":"New York","NC":"North Carolina","ND":"North Dakota","OH":"Ohio","OK":"Oklahoma",
"OR":"Oregon","PA":"Pennsylvania","RI":"Rhode Island","SC":"South Carolina",
"SD":"South Dakota","TN":"Tennessee","TX":"Texas","UT":"Utah","VT":"Vermont",
"VA":"Virginia","WA":"Washington","WV":"West Virginia","WI":"Wisconsin",
"WY":"Wyoming","DC":"District of Columbia"
}

df_income["state"] = df_income["state"].astype("string").str.strip().str.upper()

df_income["state"] = df_income["state"].map(state_map_income)

In [34]:
df_income['state'].value_counts().head()

state
Texas           1625
New York        1542
California      1484
Pennsylvania    1367
Illinois        1230
Name: count, dtype: int64

In [35]:
df_income['state'].value_counts().sum() , len(df_income)

(np.int64(27790), 27790)

In [36]:
df_income["state"] = df_fraud["state"].astype("category")

En `df_income`, se transforma `state` a nombres completos para reforzar la consistencia, estandarizar la dimensión geográfica, mejorar la interpretación de resultados en tablas  y facilitar su uso en visualizaciones, manteniendo el mismo criterio aplicado en el dataframe anterior `df_fraud`.

Posteriormente, se contrasta la suma de los registros contados por estado con el total de filas del dataset. Al coincidir ambos valores, se confirma que la columna no presenta nulos y que la transformación se ha realizado correctamente.

Finalmente, se convierte `state`a **category** para reflejar su naturaleza categórica y optimizar el rendimiento del análisis. Al igual que en el dataset previo `df_income`, esta conversión mejora la eficiencia en consultas, y disminuye la carga de almacenamiento frente a mantenerla como texto.

In [37]:
df_income['zipcode'] = df_income['zipcode'].astype("string").str.zfill(5)

df_income['zipcode'].dtype.name

'string'

`zipcode`: corresponde al código postal y actúa como clave geográfica, mantenerlo como variable numérica puede provocar problemas de formato, por esta razón conviene convertirla a string y utilizarla como dimensión categórica en el análisis.

In [38]:
df_income["zipcode"].value_counts().get("00000", 0), df_income["zipcode"].value_counts().get("99999", 0)

(np.int64(51), np.int64(51))

Se identifican códigos postales atípicos, como **00000** y **99999**, que no representan ubicaciones válidas y deben depurarse antes del análisis.

In [39]:
df_income = df_income[(df_income["zipcode"] != "00000") & (df_income["zipcode"] != "99999")]

In [40]:
df_income["zipcode"].value_counts().get("00000", 0), df_income["zipcode"].value_counts().get("99999", 0)

(0, 0)

El proceso de depuración ha removido con éxito los registros con **00000** y **99999**, mejorando la consistencia del dataset para el análisis posterior.

In [41]:
df_income = df_income.rename(columns={"zipcode": "zip"})

Este cambio se realiza para estandarizar el esquema de columnas, al utilizar `zip` en ambos datasets se simplifica el **merge** y se asegura que la variable de código postal actúe como clave de unión bajo el mismo identificador en todo el proyecto.

### Eliminación de variables

En el caso de `df_income`, no se elimina ninguna columna, ya que todas las variables aportan información relevante para el análisis y la posterior fase de unión.

In [42]:
df_income.info()

<class 'pandas.core.frame.DataFrame'>
Index: 27688 entries, 1 to 27788
Data columns (total 11 columns):
 #   Column                                 Non-Null Count  Dtype   
---  ------                                 --------------  -----   
 0   state                                  27688 non-null  category
 1   zip                                    27688 non-null  string  
 2   number_of_returns                      27688 non-null  int64   
 3   adjusted_gross_income_agi              27688 non-null  int64   
 4   avg_agi                                27688 non-null  float64 
 5   number_of_returns_with_total_income    27688 non-null  int64   
 6   total_income_amount                    27688 non-null  int64   
 7   avg_total_income                       27688 non-null  float64 
 8   number_of_returns_with_taxable_income  27688 non-null  int64   
 9   taxable_income_amount                  27688 non-null  int64   
 10  avg_taxable_income                     27688 non-null  float64 

Una vez completada la fase de limpieza, se revisa `df_income.info()` para comprobar que los cambios se han aplicado correctamente. La columna `STATE` se estandariza a `state` y se tipa como **category**, mientras que `ZIPCODE` se transforma en `zip` y se convierte a **string**, asegurando un formato adecuado para el análisis y la integración con el dataset principal.

Finalmente, todas las variables mantienen **27.688** valores, lo que indica que el dataset final está íntegro y preparado para el análisis.

Una vez finalizada la limpieza y transformación, se procede a exporta la base de datos con el nombre `income_limpio.parquet`, dejando el dataset listo para conservar el tipado y facilitar la unión posterior.

In [43]:
df_income.to_parquet("../data/2.processed/IRSIncomeByZipCode_limpio.parquet", index= False)

En ambos casos se utiliza **Parquet** para guardar los datasets depurados porque es un formato columnar y comprimido que reduce el tamaño de los archivos y acelera la carga frente a **CSV** o **Excel**. Además, conserva los tipos de datos, lo que evita repetir transformaciones al recargar los datos y facilita la unión posterior entre datasets.

In [44]:
set(df_fraud["state"].unique()) - set(df_income["state"].unique())

{'Delaware'}

In [45]:
set(df_income["state"].unique()) - set(df_fraud["state"].unique())

set()

### Integración de bases de datos

Se procede a fusionar las bases de datos procedentes de distintas fuentes para generar un conjunto final consistente. Esta etapa es clave para habilitar análisis más completos y comparables en las fase posterior del proyecto.


In [46]:
df_union = df_fraud.merge(df_income.rename(columns={"state": "state_income"}), on="zip", how="left", validate="many_to_one")

In [47]:
mismatch = df_union["state_income"].notna() & (df_union["state"] != df_union["state_income"])
mismatch.mean(), mismatch.sum()

(np.float64(0.8129923076923077), np.int64(317067))

In [48]:
df_union["state"] = df_union["state_income"].combine_first(df_union["state"])


In [49]:
mismatch = df_union["state_income"].notna() & (df_union["state"] != df_union["state_income"])
mismatch.mean(), mismatch.sum()


(np.float64(0.0), np.int64(0))

In [50]:
df_union = df_union.drop(columns=['state_income'])

In [51]:
df_union.head()

Unnamed: 0,trans_date_trans_time,merchant,category,amt,gender,city,state,zip,city_pop,job,dob,is_fraud,number_of_returns,adjusted_gross_income_agi,avg_agi,number_of_returns_with_total_income,total_income_amount,avg_total_income,number_of_returns_with_taxable_income,taxable_income_amount,avg_taxable_income
0,2019-12-13 10:58:20,fraud_Kling Inc,Gas_transport,92.53,Male,Murfreesboro,Tennessee,37132,158701,"Journalist, Newspaper",1978-03-06,0,,,,,,,,,
1,2019-06-22 12:28:00,fraud_Predovic Inc,Shopping_net,5.79,Male,Reno,Texas,89512,276896,Immunologist,1997-03-12,0,9810.0,291026.0,29.666259,9810.0,293304.0,29.898471,6420.0,149740.0,23.323988
2,2019-04-28 19:43:17,"fraud_Turner, Ziemann and Lehner",Food_dining,55.25,Male,Palermo,Ohio,58769,229,Administrator,1983-03-20,0,150.0,19468.0,129.786667,150.0,19782.0,131.88,130.0,16059.0,123.530769
3,2019-07-16 08:08:34,fraud_Gerlach Inc,Shopping_net,82.6,Male,Rock Glen,Pennsylvania,18246,143,Health And Safety Adviser,1982-02-19,0,,,,,,,,,
4,2019-07-23 03:29:17,"fraud_Rohan, White and Aufderhar",Misc_net,104.96,Male,Mayersville,Mississippi,39113,595,Technical Brewer,1979-09-03,0,,,,,,,,,


In [52]:
df_union.tail()

Unnamed: 0,trans_date_trans_time,merchant,category,amt,gender,city,state,zip,city_pop,job,dob,is_fraud,number_of_returns,adjusted_gross_income_agi,avg_agi,number_of_returns_with_total_income,total_income_amount,avg_total_income,number_of_returns_with_taxable_income,taxable_income_amount,avg_taxable_income
389995,2019-06-20 15:07:33,"fraud_Baumbach, Strosin and Nicolas",Shopping_pos,8.23,Female,Hedley,Wisconsin,79237,513,Early Years Teacher,1976-05-24,0,180.0,5351.0,29.727778,180.0,5451.0,30.283333,110.0,2905.0,26.409091
389996,2019-04-25 12:02:16,fraud_Erdman-Ebert,Personal_care,9.78,Female,Hopewell,California,23860,31970,Purchasing Manager,1935-08-15,0,12540.0,515284.0,41.091228,12540.0,519508.0,41.42807,9170.0,306179.0,33.389204
389997,2019-10-25 16:49:47,"fraud_O'Connell, Botsford and Hand",Home,26.62,Male,Grenada,Kentucky,96038,589,Systems Analyst,1945-12-21,0,280.0,11039.0,39.425,280.0,11223.0,40.082143,200.0,5706.0,28.53
389998,2019-01-15 20:24:39,"fraud_Witting, Beer and Ernser",Home,3.7,Female,Norwich,Minnesota,43767,1443,Research Scientist (Medical),1962-03-04,0,650.0,35001.0,53.847692,650.0,35515.0,54.638462,550.0,22850.0,41.545455
389999,2019-10-05 19:15:19,fraud_Kassulke Inc,Entertainment,14.3,Male,Greenwich,New York,8323,804,Insurance Risk Surveyor,1965-03-25,0,360.0,23882.0,66.338889,360.0,24325.0,67.569444,300.0,16373.0,54.576667


In [53]:
len(df_fraud), len(df_union)


(390000, 390000)

In [54]:
df_union.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 390000 entries, 0 to 389999
Data columns (total 21 columns):
 #   Column                                 Non-Null Count   Dtype         
---  ------                                 --------------   -----         
 0   trans_date_trans_time                  390000 non-null  datetime64[ns]
 1   merchant                               390000 non-null  category      
 2   category                               390000 non-null  category      
 3   amt                                    390000 non-null  float64       
 4   gender                                 390000 non-null  category      
 5   city                                   390000 non-null  category      
 6   state                                  390000 non-null  category      
 7   zip                                    390000 non-null  string        
 8   city_pop                               390000 non-null  int64         
 9   job                                    390000 no

In [55]:
df_union.duplicated().sum()

np.int64(0)

In [56]:
nulos = df_union.isna().sum().sort_values(ascending=False)

print(nulos[nulos > 0])

total_income_amount                      64910
avg_total_income                         64910
number_of_returns_with_taxable_income    64910
taxable_income_amount                    64910
number_of_returns                        64910
avg_taxable_income                       64910
number_of_returns_with_total_income      64910
avg_agi                                  64910
adjusted_gross_income_agi                64910
dtype: int64


In [57]:
nulos_porc = df_union.isna().mean().round(4).sort_values(ascending=False)*100

print(nulos_porc[nulos_porc > 0])

total_income_amount                      16.64
avg_total_income                         16.64
number_of_returns_with_taxable_income    16.64
taxable_income_amount                    16.64
number_of_returns                        16.64
avg_taxable_income                       16.64
number_of_returns_with_total_income      16.64
avg_agi                                  16.64
adjusted_gross_income_agi                16.64
dtype: float64


In [58]:
df_union.dropna(subset=['avg_taxable_income', 'adjusted_gross_income_agi', 'avg_agi', 'number_of_returns_with_total_income', 'total_income_amount', 'avg_total_income', 'number_of_returns_with_taxable_income', 'taxable_income_amount', 'number_of_returns'], inplace= True)

nulos = df_union.isna().sum().sort_values(ascending=False)

print(nulos[nulos > 0])

Series([], dtype: int64)


In [59]:
df_union.head()

Unnamed: 0,trans_date_trans_time,merchant,category,amt,gender,city,state,zip,city_pop,job,dob,is_fraud,number_of_returns,adjusted_gross_income_agi,avg_agi,number_of_returns_with_total_income,total_income_amount,avg_total_income,number_of_returns_with_taxable_income,taxable_income_amount,avg_taxable_income
1,2019-06-22 12:28:00,fraud_Predovic Inc,Shopping_net,5.79,Male,Reno,Texas,89512,276896,Immunologist,1997-03-12,0,9810.0,291026.0,29.666259,9810.0,293304.0,29.898471,6420.0,149740.0,23.323988
2,2019-04-28 19:43:17,"fraud_Turner, Ziemann and Lehner",Food_dining,55.25,Male,Palermo,Ohio,58769,229,Administrator,1983-03-20,0,150.0,19468.0,129.786667,150.0,19782.0,131.88,130.0,16059.0,123.530769
5,2019-11-26 13:06:50,"fraud_Schroeder, Wolff and Hermiston",Travel,525.26,Male,Richland,Pennsylvania,8350,825,Licensed Conveyancer,1991-07-06,0,380.0,18448.0,48.547368,380.0,18677.0,49.15,310.0,11536.0,37.212903
6,2019-06-19 12:30:36,"fraud_Schroeder, Wolff and Hermiston",Travel,7.94,Female,Hawley,Michigan,56549,4508,Naval Architect,1949-04-24,0,2260.0,148251.0,65.597788,2260.0,151377.0,66.980973,1910.0,102419.0,53.622513
7,2019-05-19 18:01:52,fraud_Baumbach Ltd,Personal_care,9.55,Male,Comfrey,North Carolina,56019,914,Health And Safety Adviser,1944-07-26,0,440.0,22379.0,50.861364,440.0,23428.0,53.245455,360.0,14901.0,41.391667


In [60]:
df_union.isna().sum()

trans_date_trans_time                    0
merchant                                 0
category                                 0
amt                                      0
gender                                   0
city                                     0
state                                    0
zip                                      0
city_pop                                 0
job                                      0
dob                                      0
is_fraud                                 0
number_of_returns                        0
adjusted_gross_income_agi                0
avg_agi                                  0
number_of_returns_with_total_income      0
total_income_amount                      0
avg_total_income                         0
number_of_returns_with_taxable_income    0
taxable_income_amount                    0
avg_taxable_income                       0
dtype: int64

In [61]:
df_union.to_parquet("../data/2.processed/df_final.parquet", index=False)