In [53]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns



In [54]:
# Importación del archivo . csv

df = pd.read_csv('base_datos_restaurantes_USA_v2.csv')


In [55]:
# Columnas en bruto

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 17 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   id_persona                 30000 non-null  int64  
 1   nombre                     30000 non-null  object 
 2   apellido                   30000 non-null  object 
 3   edad                       29899 non-null  float64
 4   genero                     30000 non-null  object 
 5   ciudad_residencia          30000 non-null  object 
 6   estrato_socioeconomico     30000 non-null  object 
 7   frecuencia_visita          30000 non-null  int64  
 8   promedio_gasto_comida      29855 non-null  float64
 9   ocio                       30000 non-null  object 
 10  consume_licor              30000 non-null  object 
 11  preferencias_alimenticias  28597 non-null  object 
 12  membresia_premium          30000 non-null  object 
 13  telefono_contacto          14834 non-null  obj

In [56]:
# Lista de ciudades

df['ciudad_residencia'].describe

<bound method NDFrame.describe of 0            Miami
1           Denver
2           Denver
3           Boston
4        San Diego
           ...    
29995      Houston
29996       Denver
29997    San Diego
29998      Chicago
29999      Chicago
Name: ciudad_residencia, Length: 30000, dtype: object>

In [57]:
# Mi ciudad: San Diego, California, EE.UU.
# Se compone de 3075 filas y 17 columnas antes de filtrar.

df_sandiego = df[df['ciudad_residencia'] == 'San Diego'].copy()
df_sandiego.shape

(3075, 17)

In [58]:
df_sandiego.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3075 entries, 4 to 29997
Data columns (total 17 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   id_persona                 3075 non-null   int64  
 1   nombre                     3075 non-null   object 
 2   apellido                   3075 non-null   object 
 3   edad                       3068 non-null   float64
 4   genero                     3075 non-null   object 
 5   ciudad_residencia          3075 non-null   object 
 6   estrato_socioeconomico     3075 non-null   object 
 7   frecuencia_visita          3075 non-null   int64  
 8   promedio_gasto_comida      3061 non-null   float64
 9   ocio                       3075 non-null   object 
 10  consume_licor              3075 non-null   object 
 11  preferencias_alimenticias  2885 non-null   object 
 12  membresia_premium          3075 non-null   object 
 13  telefono_contacto          1501 non-null   object 
 

In [59]:
# 3 columnas eliminadas (id persona, nombre y apellido). Datos irrelevantes para nuestro propósito.

df_sandiego.drop(columns=['id_persona','nombre','apellido'], inplace=True)

In [60]:
# Comprobamos que hay 14 columnas. 3 columnas menos de las 17 que nos devolvió en la linea 30.

df_sandiego.shape

(3075, 14)

In [61]:
# Identificando elementos duplicados (luego de ejecutar responde con cero elementos duplicados)

duplicados = df_sandiego.duplicated().sum()
duplicados

np.int64(0)

In [62]:
# Identificación de valores nulos.

porcentaje_nulos = df.isna().mean()*100
print(porcentaje_nulos)

id_persona                    0.000000
nombre                        0.000000
apellido                      0.000000
edad                          0.336667
genero                        0.000000
ciudad_residencia             0.000000
estrato_socioeconomico        0.000000
frecuencia_visita             0.000000
promedio_gasto_comida         0.483333
ocio                          0.000000
consume_licor                 0.000000
preferencias_alimenticias     4.676667
membresia_premium             0.000000
telefono_contacto            50.553333
correo_electronico           50.240000
tipo_de_pago_mas_usado        0.000000
ingresos_mensuales            0.000000
dtype: float64


In [63]:
# Copia de la tabla original para poder limpiar sin modificar la original.

df_sdlimpio = df_sandiego.copy()


#### Voy a proceder a imputar valores o eliminar columnas para darle tratamiento a los datos nulos.

In [64]:
# Imputaciones usando la mediana

df_sdlimpio['edad'].fillna(df_sdlimpio['edad'].median(), inplace=True)
df_sdlimpio['promedio_gasto_comida'].fillna(df_sdlimpio['promedio_gasto_comida'].median(), inplace=True)

In [65]:
# Eliminación de columnas por alta proporción de datos faltantes

df_sdlimpio.drop(columns=['telefono_contacto', 'correo_electronico'], inplace=True)

In [66]:
# Donde faltan datos en la columna "preferencias_alimenticias", se imputará el valor "Sin datos"

df_sdlimpio['preferencias_alimenticias'].fillna('Sin datos', inplace=True)

In [67]:
# Ver porcentajes de columnas con datos imputados y elimnados

print(df_sdlimpio.isna().mean() * 100)

# Luego de ejecutado vemos que el resultado en todas las columnas es cero, lo cual nos indica que no hay valores faltantes en ninguna de nuestras columnas

edad                         0.0
genero                       0.0
ciudad_residencia            0.0
estrato_socioeconomico       0.0
frecuencia_visita            0.0
promedio_gasto_comida        0.0
ocio                         0.0
consume_licor                0.0
preferencias_alimenticias    0.0
membresia_premium            0.0
tipo_de_pago_mas_usado       0.0
ingresos_mensuales           0.0
dtype: float64


#### A continuación, tablas cruzadas (falta describir análisis)

In [68]:
# Tabla cruzada de 'Género' y 'Membresía Premium'.

pd.crosstab(df['genero'], df['membresia_premium'])

membresia_premium,No,Sí
genero,Unnamed: 1_level_1,Unnamed: 2_level_1
Femenino,8601,6443
Masculino,8554,6402


In [69]:
# Tabla cruzada entre 'Promedio de gasto' y 'Tipo de pago más usado'.

pd.crosstab(df['promedio_gasto_comida'], df['tipo_de_pago_mas_usado'], normalize='index') * 100

tipo_de_pago_mas_usado,App,Criptomoneda,Efectivo,Tarjeta
promedio_gasto_comida,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0.00,27.34108,1.845523,38.345865,32.467532
5.00,0.00000,0.000000,0.000000,100.000000
5.01,20.00000,0.000000,40.000000,40.000000
5.02,40.00000,0.000000,20.000000,40.000000
5.04,0.00000,25.000000,25.000000,50.000000
...,...,...,...,...
148.51,0.00000,0.000000,100.000000,0.000000
149.68,0.00000,0.000000,100.000000,0.000000
149.73,0.00000,0.000000,100.000000,0.000000
149.89,0.00000,0.000000,100.000000,0.000000


In [70]:
# Tabla cruzada de 'Estrato socioeconomico' y 'frecuencia_visita'.

pd.crosstab(df['estrato_socioeconomico'], df['frecuencia_visita'])

frecuencia_visita,-3,0,1,2,3,4,5,6,7,8,9,10
estrato_socioeconomico,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Alto,469,0,0,0,0,2827,2831,2911,0,0,0,0
Bajo,308,1463,1459,1458,1473,0,0,0,0,0,0,0
Medio,500,0,0,2201,2224,2215,2185,0,0,0,0,0
Muy Alto,270,0,0,0,0,0,916,835,878,862,839,876


In [71]:
# Tabla pivote de gasto promedio por tipo de pago

df.pivot_table(
    values='promedio_gasto_comida',
    index='tipo_de_pago_mas_usado',
    aggfunc='mean'
)



Unnamed: 0_level_0,promedio_gasto_comida
tipo_de_pago_mas_usado,Unnamed: 1_level_1
App,32.238374
Criptomoneda,30.793201
Efectivo,32.803915
Tarjeta,32.748854


# EDA

In [72]:
# Tablas de frecuencia absolutas.

df_sandiego['genero'].value_counts()

genero
Femenino     1567
Masculino    1508
Name: count, dtype: int64

In [73]:
# Tablas de frecuencia relativas.

df_sandiego['genero'].value_counts(normalize=True) * 100

genero
Femenino     50.95935
Masculino    49.04065
Name: proportion, dtype: float64

In [74]:

df_sandiego['preferencias_alimenticias'].value_counts(normalize=True) * 100

preferencias_alimenticias
Vegetariano    26.204506
Carnes         22.738302
Mariscos       20.242634
Vegano         14.107452
Pescado         9.982669
Otro            6.724437
Name: proportion, dtype: float64

In [75]:
df_sandiego['consume_licor'].value_counts(normalize=True) * 100

consume_licor
Sí    61.821138
No    38.178862
Name: proportion, dtype: float64

In [76]:
df_sandiego['membresia_premium'].value_counts(normalize=True) * 100

membresia_premium
No    51.154472
Sí    48.845528
Name: proportion, dtype: float64