### 01_Fuentes.ipynb: 
Este notebook se enfoca en la adquisición e inspección inicial de los datos. El objetivo es cargar el archivo **"quejas-clientes.csv"** y realizar una primera exploración para entender su estructura, tipos de datos y la cantidad de filas y columnas. 

Como alternativa a los datos faltantes vamos a incorporar otras fuentes con las que podamos realizar la imputación de los mismos: 

1.En la WEB con el siguiente enlace obtenemos un **"zip_code_database.csv"** de los Zip-codes de US: https://www.zip-codes.com

El código ZIP (de la sigla en inglés "Zoning Improvement Plan") es un código postal que sirve para identificar áreas geográficas con fines de entrega de correo. Un código FIPS (de la sigla en inglés "Federal Information Processing Standard") es un código numérico utilizado por el gobierno de EE. UU. para identificar de manera única estados, condados y otras subdivisiones geográficas. 

In [1]:
# Importamos librerías
import pandas as pd
import numpy as np
import os

# from ydata_profiling import ProfileReport
# from skrub import TableReport

# Ignoramos los warnings
import warnings
warnings.filterwarnings("ignore")

In [2]:
print(os.getcwd())

c:\Users\aisat\Desktop\DSPT25_RA\3-DSPT2025-ML\Proy_Final_ML_RA\1.notebooks


In [3]:
path_data= "C:/Users/aisat/Desktop/DSPT25_RA/3-DSPT2025-ML/Proy_Final_ML_RA/data/"

In [4]:
# 1. Cargar el archivo CSV
print ("Cargando el archivo 'quejas-clientes.csv'...")
try:
    df = pd.read_csv (path_data + 'quejas-clientes.csv', sep=",", encoding='utf-8')
    print ("¡Archivo cargado exitosamente!\n")
except FileNotFoundError:
    print ("Error: El archivo 'quejas-clientes.csv' no se encuentra en el directorio.")
except Exception as e:
    print (f"Error al cargar el archivo: {e}")

Cargando el archivo 'quejas-clientes.csv'...
¡Archivo cargado exitosamente!



In [5]:
# Mostrar las primeras 5 filas del DataFrame
df.head()

Unnamed: 0.1,Unnamed: 0,Complaint ID,Product,Sub-product,Issue,Sub-issue,State,ZIP code,Date received,Date sent to company,Company,Company response,Timely response?,Consumer disputed?
0,0,1291006,Debt collection,,Communication tactics,Frequent or repeated calls,TX,76119.0,2015-03-19,2015-03-19,"Premium Asset Services, LLC",In progress,Yes,
1,1,1290580,Debt collection,Medical,Cont'd attempts collect debt not owed,Debt is not mine,TX,77479.0,2015-03-19,2015-03-19,Accounts Receivable Consultants Inc.,Closed with explanation,Yes,
2,2,1290564,Mortgage,FHA mortgage,"Application, originator, mortgage broker",,MA,2127.0,2015-03-19,2015-03-19,RBS Citizens,Closed with explanation,Yes,Yes
3,3,1291615,Credit card,,Other,,CA,92592.0,2015-03-19,2015-03-19,Navy FCU,In progress,Yes,
4,4,1292165,Debt collection,Non-federal student loan,Cont'd attempts collect debt not owed,Debt resulted from identity theft,,43068.0,2015-03-19,2015-03-19,Transworld Systems Inc.,In progress,Yes,


In [6]:
# Eliminamos las filas duplicadas en el dataframe
df = df.drop_duplicates()

In [7]:
# Aplicamos el formato datetime a las columnas con fechas.
df['Date received'] = pd.to_datetime(df['Date received'], dayfirst=False)
df['Date sent to company'] = pd.to_datetime(df['Date sent to company'], dayfirst=False)

In [8]:
# Mostrar información general del DataFrame (tipos de datos, valores no nulos)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28156 entries, 0 to 28155
Data columns (total 14 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   Unnamed: 0            28156 non-null  int64         
 1   Complaint ID          28156 non-null  int64         
 2   Product               28156 non-null  object        
 3   Sub-product           17582 non-null  object        
 4   Issue                 28154 non-null  object        
 5   Sub-issue             13211 non-null  object        
 6   State                 27735 non-null  object        
 7   ZIP code              27876 non-null  float64       
 8   Date received         28156 non-null  datetime64[ns]
 9   Date sent to company  28156 non-null  datetime64[ns]
 10  Company               28156 non-null  object        
 11  Company response      28156 non-null  object        
 12  Timely response?      28156 non-null  object        
 13  Consumer dispute

In [9]:
# Mostrar los valores faltantes en las diferentes variables del DataFrame
print (df.isnull().sum())
print ("-" * 30)

Unnamed: 0                  0
Complaint ID                0
Product                     0
Sub-product             10574
Issue                       2
Sub-issue               14945
State                     421
ZIP code                  280
Date received               0
Date sent to company        0
Company                     0
Company response            0
Timely response?            0
Consumer disputed?      22150
dtype: int64
------------------------------


Con el archivo quejas-clientes.csv, podemos abordar un problema de clasificación supervisada. El objetivo es predecir si un consumidor disputará la respuesta de una empresa a su queja. Esto es un problema de clasificación binaria, donde la variable objetivo es la columna Consumer disputed? con valores Yes o No.

In [10]:
# Revisión de la variable objetivo
# La variable objetivo es 'Consumer disputed?'
print("\nAnálisis de la variable objetivo 'Consumer disputed?':")
print(df['Consumer disputed?'].value_counts(dropna=False))
print("\nObservaciones sobre la variable objetivo:")
print("'Consumer disputed?': Los valores NaN probablemente representan quejas que no fueron disputadas.\
 Habrá que tratarlos en la limpieza de datos.")


Análisis de la variable objetivo 'Consumer disputed?':
Consumer disputed?
NaN    22150
Yes     4708
No      1298
Name: count, dtype: int64

Observaciones sobre la variable objetivo:
'Consumer disputed?': Los valores NaN probablemente representan quejas que no fueron disputadas. Habrá que tratarlos en la limpieza de datos.


In [11]:
# Guardamos el archivo df.csv
df.to_csv(path_data + 'df.csv', index=False, header=True)
df.head()

Unnamed: 0.1,Unnamed: 0,Complaint ID,Product,Sub-product,Issue,Sub-issue,State,ZIP code,Date received,Date sent to company,Company,Company response,Timely response?,Consumer disputed?
0,0,1291006,Debt collection,,Communication tactics,Frequent or repeated calls,TX,76119.0,2015-03-19,2015-03-19,"Premium Asset Services, LLC",In progress,Yes,
1,1,1290580,Debt collection,Medical,Cont'd attempts collect debt not owed,Debt is not mine,TX,77479.0,2015-03-19,2015-03-19,Accounts Receivable Consultants Inc.,Closed with explanation,Yes,
2,2,1290564,Mortgage,FHA mortgage,"Application, originator, mortgage broker",,MA,2127.0,2015-03-19,2015-03-19,RBS Citizens,Closed with explanation,Yes,Yes
3,3,1291615,Credit card,,Other,,CA,92592.0,2015-03-19,2015-03-19,Navy FCU,In progress,Yes,
4,4,1292165,Debt collection,Non-federal student loan,Cont'd attempts collect debt not owed,Debt resulted from identity theft,,43068.0,2015-03-19,2015-03-19,Transworld Systems Inc.,In progress,Yes,


In [12]:
# Conclusión
print ("\n--- Conclusión de 01_Fuentes.ipynb ---")
print ("El archivo CSV ha sido cargado e inspeccionado. Se han identificado la variable objetivo 'Consumer disputed?' y las columnas disponibles." \
"\nEl próximo paso es la limpieza y el análisis exploratorio de datos.")


--- Conclusión de 01_Fuentes.ipynb ---
El archivo CSV ha sido cargado e inspeccionado. Se han identificado la variable objetivo 'Consumer disputed?' y las columnas disponibles.
El próximo paso es la limpieza y el análisis exploratorio de datos.


In [13]:
# Un pequeño reporte de las columnas, con sus tipos, % de missings y cardinalidad, resultará muy útil a lo largo de la analítica.
def data_report(df):
    # Sacamos los NOMBRES
    cols = pd.DataFrame(df.columns.values, columns=["COL_N"])

    # Sacamos los TIPOS
    types = pd.DataFrame(df.dtypes.values, columns=["DATA_TYPE"])

    # Sacamos los MISSINGS
    percent_missing = round(df.isnull().sum() * 100 / len(df), 2)
    percent_missing_df = pd.DataFrame(percent_missing.values, columns=["MISSINGS (%)"])

    # Sacamos los VALORES UNICOS
    unicos = pd.DataFrame(df.nunique().values, columns=["UNIQUE_VALUES"])
    
    percent_cardin = round(unicos['UNIQUE_VALUES']*100/len(df), 2)
    percent_cardin_df = pd.DataFrame(percent_cardin.values, columns=["CARDIN (%)"])

    concatenado = pd.concat([cols, types, percent_missing_df, unicos, percent_cardin_df], axis=1, sort=False)
    concatenado.set_index('COL_N', drop=True, inplace=True)

    return concatenado.T
        
data_report(df)

COL_N,Unnamed: 0,Complaint ID,Product,Sub-product,Issue,Sub-issue,State,ZIP code,Date received,Date sent to company,Company,Company response,Timely response?,Consumer disputed?
DATA_TYPE,int64,int64,object,object,object,object,object,float64,datetime64[ns],datetime64[ns],object,object,object,object
MISSINGS (%),0.0,0.0,0.0,37.56,0.01,53.08,1.5,0.99,0.0,0.0,0.0,0.0,0.0,78.67
UNIQUE_VALUES,28156,28156,11,42,89,46,59,9868,78,78,1534,6,2,2
CARDIN (%),100.0,100.0,0.04,0.15,0.32,0.16,0.21,35.05,0.28,0.28,5.45,0.02,0.01,0.01


Analizamos los elementos más frecuentes de las diferentes columnas/variables numéricas y categóricas.

In [14]:
# Crearemos un informe para cada variable del dataframe, ordenados de forma descendente y %, número de valores unicos y datos faltantes.
def variable_report(df):
    for variable in df.columns:
        columna_original = variable
        # 1. Obtener la frecuencia de cada elemento único y ordenar de forma descendente
        conteo_elementos = df[columna_original].value_counts()

        # 2. Calcular el porcentaje de cada elemento
        porcentaje = df[columna_original].value_counts(normalize=True) * 100

        # 3. Formatear el porcentaje a 2 decimales
        porcentaje_formateado = porcentaje.map('{:.2f}%'.format)

        # 4. Crear un nuevo DataFrame con la información
        df_resultado = pd.DataFrame({
            columna_original: conteo_elementos.index,
            'Frecuencia': conteo_elementos.values,
            'Porcentaje': porcentaje_formateado.values
        })
        print (df_resultado.head(12), "\n")
        print ("Número de datos únicos", len(df[columna_original].sort_values(ascending=True).unique()))
        print ("Número de datos faltantes", len(df[df[columna_original].isna()]),"\n", "-" * 50)
        

In [15]:
# Ejecutamos la función "variable_report" para nuestro DataFrame
variable_report(df)

    Unnamed: 0  Frecuencia Porcentaje
0        28155           1      0.00%
1            0           1      0.00%
2            1           1      0.00%
3            2           1      0.00%
4            3           1      0.00%
5            4           1      0.00%
6            5           1      0.00%
7            6           1      0.00%
8            7           1      0.00%
9            8           1      0.00%
10           9           1      0.00%
11          10           1      0.00% 

Número de datos únicos 28156
Número de datos faltantes 0 
 --------------------------------------------------
    Complaint ID  Frecuencia Porcentaje
0        1178180           1      0.00%
1        1291006           1      0.00%
2        1290580           1      0.00%
3        1290564           1      0.00%
4        1291615           1      0.00%
5        1292165           1      0.00%
6        1291176           1      0.00%
7        1288848           1      0.00%
8        1288788           1      

**Obtengamos una vista general de nuestro DataFrame**

In [None]:
profile = ProfileReport(df, title="Profiling Report", explorative=True)
profile.to_file("profiling_report.html")

In [None]:
report = TableReport(df, title="Table Report")
report

### Tabla de State y Codigos ZIP de US: "zip_code_database.csv"

El código ZIP (de la sigla en inglés "Zoning Improvement Plan") es un código postal que sirve para identificar áreas geográficas con fines de entrega de correo. Un código FIPS (de la sigla en inglés "Federal Information Processing Standard") es un código numérico utilizado por el gobierno de EE. UU. para identificar de manera única estados, condados y otras subdivisiones geográficas. 

Podemos verificar los códigos en el siguiente enlace (WEB): https://www.zip-codes.com

In [16]:
df_ZIPcode = pd.read_csv (path_data + "zip_code_database.csv", sep=",")
df_ZIPcode.head()

Unnamed: 0,zip,type,decommissioned,primary_city,acceptable_cities,unacceptable_cities,state,county,timezone,area_codes,world_region,country,latitude,longitude,irs_estimated_population
0,501,UNIQUE,0,Holtsville,,Internal Revenue Service,NY,Suffolk County,America/New_York,631,,US,40.81,-73.04,562
1,544,UNIQUE,0,Holtsville,,Internal Revenue Service,NY,Suffolk County,America/New_York,631,,US,40.81,-73.04,0
2,601,STANDARD,0,Adjuntas,,"Colinas Del Gigante, Jard De Adjuntas, Urb San...",PR,Adjuntas Municipio,America/Puerto_Rico,"787, 939",,US,18.16,-66.72,0
3,602,STANDARD,0,Aguada,,"Alts De Aguada, Bo Guaniquilla, Comunidad Las ...",PR,Aguada Municipio,America/Puerto_Rico,"787, 939",,US,18.38,-67.18,0
4,603,STANDARD,0,Aguadilla,Ramey,"Bda Caban, Bda Esteves, Bo Borinquen, Bo Ceiba...",PR,Aguadilla Municipio,America/Puerto_Rico,"787, 939",,US,18.43,-67.15,0


In [17]:
# Creamos df_zip seleccionando las columnas que nos interesan
df_zip = df_ZIPcode[['state','primary_city' ,'zip']]

# Renombramos algunas columnas
df_zip = df_zip.rename(columns={'state': 'State_ref' ,'primary_city': 'City_ref', 'zip': 'ZIP_ref'})

# Guardamos el archivo df_zip.csv
df_zip.to_csv(path_data + 'df_zip.csv', index=False, header=True)
df_zip.head()

Unnamed: 0,State_ref,City_ref,ZIP_ref
0,NY,Holtsville,501
1,NY,Holtsville,544
2,PR,Adjuntas,601
3,PR,Aguada,602
4,PR,Aguadilla,603
