# Selección de datos

- Seleccionar posibles variables categoricas
- Realizar analisis cuantitativo

In [2]:
#Importar libreriras necesarias.

from dateutil.relativedelta import relativedelta
from datetime import datetime,timedelta

import funciones as fc
import matplotlib.pyplot as plt
import numpy as np
import os
import pandas as pd
import plotly.express as px
import scipy.stats as stats
import sklearn.metrics as sk

# Ajustar la configuración de visualización
pd.set_option('display.max_columns', None)  


In [None]:
df= pd.read_csv('data_depurada.csv')
print(f'Tamaño del dataframe: {df.shape}')

In [None]:
#Listar todas las columans del dataframe
columnas = df.columns.tolist()
print('\n'.join(columnas))

In [None]:
#Conocer la cantidad de registros por columna
print("Cantidad de columnas por tipo:")
df.dtypes.value_counts()

In [None]:
# Calcular la cantidad de valores nulos por columna
null_counts = df.isnull().sum()

# Filtrar columnas con valores nulos
null_counts = null_counts[null_counts >1]

# Ordenar de mayor a menor cantidad de valores nulos
null_counts = null_counts.sort_values(ascending=True)

print(f"Analisis de valores nulos: \n{null_counts}")

In [None]:
#Observar comportamiento estadistico e las columnas númericas
fc.boxplot_numeric_variables_plotly(df,column='NIS_RAD')

In [None]:
# Analisis de valores unicos en las columnas de tipo texto para cada Dataframe
print("Analisis valores unicos columnas tipo texto")

total_filas = len(df)

columnas_texto = df.select_dtypes(include='object').columns

columna_nulas = null_counts[null_counts/total_filas > 0.59].index.tolist()

for columna in columnas_texto:
    
    if df[columna].value_counts().mean()>1 and columna not in columna_nulas:
        
        print("="*100)

        porcentaje_valores_unicos = round(len(df[columna].value_counts())*100/len(df),2)
        
        print(f"Valores unicos columna {columna} | % valores unicos ({porcentaje_valores_unicos}):")
        
        print(df[columna].value_counts())

In [None]:
# Función para la generación de gráficos de barra #

def generar_grafico_barras(df:pd.DataFrame,columna:str,top:int,titulo_eje_y:str,titulo:str=None):
 
    df_agrupado = df[columna].value_counts().reset_index()

    df_agrupado.rename(columns={'index':columna,columna:'total'},inplace=True)

    df_agrupado.sort_values(by='total',ascending=True)

    df_agrupado['porcentaje'] = df_agrupado['total']*100/df_agrupado['total'].sum()

    df_agrupado['porcentaje'] = df_agrupado['porcentaje'].round(2)

    df_agrupado['porcentaje_acumulado'] = df_agrupado['porcentaje'].cumsum().round(2)
    
    if titulo is None:
        
        #Si la columna tiene más de 50 valores únicos,solo mostrará la cantidad a mostrar en top
        titulo_grafico = f'Top {top} columna {columna}' if top<len(df_agrupado) else f'Distribución clientes por {columna}'

    else:

        titulo_grafico = titulo

    df_agrupado = df_agrupado.loc[:top-1,:]

    fig = px.bar(data_frame=df_agrupado,x=columna,y='total',
                 hover_data=['porcentaje','porcentaje_acumulado'],
                 text_auto=True,)

    # Personalizar el gráfico
    
    fig.update_layout(title=titulo_grafico,
                  xaxis_title=columna,
                  yaxis_title=titulo_eje_y)
    
    fig.show()

In [None]:

#Crear una lista de las variables categoricas seleccionadas para graficar
list_variables_categoricas = []


for columna in list_variables_categoricas:

    generar_grafico_barras(df=df,
                            columna=columna,
                            titulo_eje_y='Total usuarios',
                            top=50)

In [None]:
#Cantidad de clientes por constante
x = ''
y = ''



df_ciiu_agrupado = (df.groupby(x).agg({y:'count'})
                    .rename(columns={y:'cantidad_usuarios'}).reset_index())

print("Cantidad de usuarios por estado")
(df_ciiu_agrupado.sort_values(by=y,ascending=False)[:20])


In [None]:
#Cantidad de clientes por CIIU
x = ''
y = ''



df_ciiu_agrupado = (df.groupby(x).agg({y:'count'})
                    .rename(columns={y:'cantidad_usuarios'}).reset_index())

print("Cantidad de usuarios por estado")
(df_ciiu_agrupado.sort_values(by=y,ascending=False)[:20])
