In [14]:
import pandas as pd
import dask.dataframe as dd 
import geopandas as gpd

In [15]:
import plotly.express as px
import dask.dataframe as dd
import plotly.io as pio


# File path to raw data
file_path = 'raw_data/datosEncuestaGalletas.csv'

# Define column names
column_names = ['marca_temporal', 'rango etario', 'nacionalidad', 'act. fisica (30 min) por semana',
                'frecuencia consumo de galletas', 'en que tipo de comida consume galletas', 'tipo de galletas',
                'cuantas unidades consume', 'en que se fija al comprar', 'que es lo importante al comprar',
                '¿lee ingredientes?', '¿consume galletas con fibra dietetica?', '¿se siente satisfecho despues de comer?',
                '¿nota la diferencia de saciedad al comer galletas azucaradas en comparacion de las integrales?',
                'cuanto dinero esta dispuesto al comprar un paquete de galletas?', '¿estaria dispuesto a pagar mas por una galleta mas saludable?',
                'consumiría galletas preparas con cascara de papa?', 'que factores consideraria al comprar una galleta elaborada con cascara de papa',
                'cual de las siguientes afirmaciones refleja su opinion acerca de las galletas elaboradas con cascara de papa']

# Specify data types
dtypes = {col: 'string' for col in column_names}

# Load the CSV file
dfd = dd.read_csv(file_path, header=None, names=column_names, dtype=dtypes, assume_missing=True)

# Drop the 'marca_temporal' column
dfd = dfd.drop(columns=['marca_temporal'])

# Convert Dask DataFrame to pandas DataFrame
pdf = dfd.compute()

# Gráfico de barras para frecuencia de consumo de galletas
fig = px.bar(pdf, x='frecuencia consumo de galletas', title='Frecuencia de Consumo de Galletas')

contingency_table = pd.crosstab(pdf['frecuencia consumo de galletas'], pdf['act. fisica (30 min) por semana'])


In [4]:
# Frecuencia de consumo de galletas por rango etario
for age_range in pdf['rango etario'].unique():
    subset = pdf[pdf['rango etario'] == age_range]
    print(f"Frecuencia de consumo de galletas para {age_range}:")
    print(subset['frecuencia consumo de galletas'].value_counts())
    print("\n")


Frecuencia de consumo de galletas para Seleccione el rango etario al cual pertenece:
frecuencia consumo de galletas
¿Con cuánta frecuencia consume galletas?    1
Name: count, dtype: Int64


Frecuencia de consumo de galletas para 18-24 años:
frecuencia consumo de galletas
1-2 veces a la semana    43
1-2 veces al mes         22
3-4 veces a la semana    13
Todos los días            8
5-6 veces a la semana     7
Nunca                     1
Name: count, dtype: Int64


Frecuencia de consumo de galletas para 25-30 años:
frecuencia consumo de galletas
1-2 veces al mes         10
1-2 veces a la semana     8
3-4 veces a la semana     3
Name: count, dtype: Int64


Frecuencia de consumo de galletas para 31-40 años:
frecuencia consumo de galletas
1-2 veces a la semana    7
1-2 veces al mes         5
3-4 veces a la semana    2
Name: count, dtype: Int64


Frecuencia de consumo de galletas para 41-50 años:
frecuencia consumo de galletas
1-2 veces al mes         2
3-4 veces a la semana    1
1-2 veces a

In [11]:
# import dash
# from dash import dcc, html
# from dash.dependencies import Input, Output

# # Inicializar la app
# app = dash.Dash(__name__)

# # Layout de la app
# app.layout = html.Div([
#     dcc.Dropdown(
#         id='column-dropdown',
#         options=[{'label': col, 'value': col} for col in pdf.columns if col != 'marca_temporal'],
#         value='rango etario'
#     ),
#     dcc.Graph(id='bar-chart')
# ])

# # Callback para actualizar el gráfico basado en la columna seleccionada
# @app.callback(
#     Output('bar-chart', 'figure'),
#     [Input('column-dropdown', 'value')]
# )
# def update_chart(selected_column):
#     fig = px.bar(pdf, x=selected_column, title=f'Frecuencia de {selected_column}')
#     return fig

# # Ejecutar la app
# if __name__ == '__main__':
#     app.run_server(debug=True)
