# Limpieza Base de Datos - Compradores y Vendedores

In [1]:
# Librerías

import pandas as pd


In [2]:
# Vamos a Importar los Datos

compradores = pd.read_excel('/Users/daniel/Downloads/Formulario_Demanda.xlsx')


In [3]:

# De Wide a Long


compradores = compradores.melt(id_vars=['periodo_juego'],  # preservamos estas columnas
                                    value_vars=['p_1', 'p_2', 'p_3'],  # estas son las que convertimos a formato largo
                                    var_name='variable_original',  # nombre de la nueva columna para las variables originales
                                    value_name='nueva_variable')  # nombre de la nueva columna para los valores

# Mostrar el resultado para verificar
print(compradores.head())




   periodo_juego variable_original nueva_variable
0              1               p_1             13
1              1               p_1             25
2              1               p_1             20
3              1               p_1              9
4              1               p_1             21


## Oferta


In [4]:
# Vamos a Importar los Datos

vendedores = pd.read_excel('/Users/daniel/Downloads/Formulario_Oferta.xlsx')

In [5]:

# De Wide a Long


vendedores = vendedores.melt(id_vars=['periodo_juego'],  # preservamos estas columnas
                                    value_vars=['p_1', 'p_2', 'p_3'],  # estas son las que convertimos a formato largo
                                    var_name='variable_original',  # nombre de la nueva columna para las variables originales
                                    value_name='nueva_variable')  # nombre de la nueva columna para los valores

# Mostrar el resultado para verificar
print(vendedores.head())



   periodo_juego variable_original nueva_variable
0              1               p_1              6
1              1               p_1             10
2              1               p_1             20
3              1               p_1             20
4              1               p_1             14


# Cálculos Importantes

In [6]:
# Ordenamos el Dataset

compradores = compradores.sort_values(by=['periodo_juego', 'variable_original'])


compradores.to_excel('compradores.xlsx', index=False, engine='openpyxl')

In [14]:
# Contamos ahora los Valores

# Función para contar valores que no son ni N/A ni 0
def contar_valores_no_cero_na(serie):
    return serie[serie.notna() & (serie != 0) & (serie != '.')].count()

# Agrupar por 'periodo_juego' y aplicar la función definida
conteo_valores = compradores.groupby('periodo_juego')['nueva_variable'].apply(contar_valores_no_cero_na).reset_index()


conteo_valores.to_excel('conteo_valores.xlsx', index=False, engine='openpyxl')
print(conteo_valores)

   periodo_juego  nueva_variable
0              1              23
1              2              21
2              3              24
3              4              20
4              5              22
5              6              13
6              7              14
7              8              16
8              9               3
9             10               3


In [8]:
# Convertir la columna 'nueva_variable' a numérico, tratando los no convertibles a NaN
compradores['nueva_variable'] = pd.to_numeric(compradores['nueva_variable'], errors='coerce')

# Ahora intentar calcular el promedio agrupado
promedios = compradores.groupby('periodo_juego')['nueva_variable'].mean().reset_index()

# Mostrar los promedios
print(promedios)

promedios.to_excel('promedios.xlsx', index=False, engine='openpyxl')

   periodo_juego  nueva_variable
0              1       18.869565
1              2       18.857143
2              3       18.041667
3              4       20.200000
4              5       22.363636
5              6       15.461538
6              7       15.000000
7              8       15.812500
8              9       35.666667
9             10       38.333333


In [9]:
# Desviación Estandar

# Agrupar los datos por 'periodo_juego' y calcular la desviación estándar para cada grupo
desviacion_estandar = compradores.groupby('periodo_juego')['nueva_variable'].std().reset_index()

# Renombrar las columnas para claridad
desviacion_estandar.columns = ['periodo_juego', 'desviacion_estandar']

# Mostrar el nuevo DataFrame
print(desviacion_estandar)

desviacion_estandar.to_excel('desviacion_estandar.xlsx', index=False, engine='openpyxl')

   periodo_juego  desviacion_estandar
0              1             6.166658
1              2             5.943784
2              3             9.115105
3              4             7.045715
4              5             5.057248
5              6             0.776250
6              7             2.882307
7              8             2.227667
8              9             4.509250
9             10             4.932883
