## PROYECTO SPRINT 10
---

### 1. Descripción del proyecto 
Se ha decidido abrir un pequeño café regentado por robots en Los Ángeles. Si bien el proyecto presenta un potencial prometedor, también conlleva un costo significativo. Por ello, se ha optado por explorar estrategias para atraer inversionistas que compartan el interés en las dinámicas actuales del mercado.

Para fortalecer la propuesta de inversión, se llevará a cabo un estudio de mercado exhaustivo utilizando datos recopilados de fuentes abiertas sobre el panorama de restaurantes en Los Ángeles. Este análisis permitirá comprender a fondo las tendencias del sector, identificar oportunidades de mercado y delinear una estrategia sólida para el éxito del café.

---
### 2. Carga de dataset y procesamiento de datos 

In [1]:
# Importación de librerías neceserarias
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt
from plotly import graph_objects as go
import plotly.express as px

In [2]:
#Asignación de variable al dataset
rest_data = pd.read_csv('rest_data_us_upd.csv')

In [3]:
#Visualización de la información del dataset
rest_data.info()
rest_data.sample(10)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9651 entries, 0 to 9650
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   id           9651 non-null   int64 
 1   object_name  9651 non-null   object
 2   address      9651 non-null   object
 3   chain        9648 non-null   object
 4   object_type  9651 non-null   object
 5   number       9651 non-null   int64 
dtypes: int64(2), object(4)
memory usage: 452.5+ KB


Unnamed: 0,id,object_name,address,chain,object_type,number
7648,19434,BELLE BELLE'S CUE,701 W CESAR CHAVEZ AVE #107,False,Restaurant,5
607,12393,BLUE WINDOW,300 WORLD WAY,False,Restaurant,41
4749,16535,LA CENTRAL BAKERY,3727 E 1ST ST,True,Bakery,22
756,12542,ZEIDLERS CAFE,2701 N SEPULVEDA BLVD,False,Restaurant,69
2768,14554,HIGHLIGHT RESTAURANT,1651 1/2 N LA BREA AVE,True,Restaurant,32
333,12119,MINI MERCADITO IN E.L.A.,3425 E 1ST ST STE 132,False,Restaurant,28
9093,20879,LA POTRANCA BAR,12821 VENICE BLVD,True,Bar,17
3487,15273,AMISTAD CAFE,3745 S GRAND AVE,False,Restaurant,136
6123,17909,SHANGHAI DIAMOND GARDEN,9401 W PICO BLVD,False,Restaurant,86
4191,15977,MARIA'S RESTAURANTE Y PUPUSE,3401 N FIGUEROA ST,True,Restaurant,18


Al analizar el dataset, tanto a través de la visualización de su información como de una muestra representativa, podemos identificar el tipo de datos de cada columna y detectar la presencia de valores ausentes.

En el caso particular de la columna 'chain', observamos que, presenta una baja cantidad de valores ausentes y el tipo de dato asignado no es el adecuado.

Por lo tanto, se procederá a realizar las modificaciones necesarias para garantizar la correcta manipulación y análisis de la información contenida en esta columna 

In [4]:
#Se identifican los valores ausentes de la columna 'chain'
missing_values = rest_data['chain'].isnull()
rows_with_missing_values = rest_data[missing_values]
rows_with_missing_values

Unnamed: 0,id,object_name,address,chain,object_type,number
7408,19194,TAQUERIA LOS 3 CARNALES,5000 E WHITTIER BLVD,,Restaurant,14
7523,19309,JAMMIN JIMMY'S PIZZA,1641 FIRESTONE BLVD,,Pizza,1
8648,20434,THE LEXINGTON THEATER,129 E 3RD ST,,Restaurant,35


In [5]:
# Cambio de tipo de dato en la columna 'chain'
rest_data['chain'] = rest_data['chain'].astype(bool)

rest_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9651 entries, 0 to 9650
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   id           9651 non-null   int64 
 1   object_name  9651 non-null   object
 2   address      9651 non-null   object
 3   chain        9651 non-null   bool  
 4   object_type  9651 non-null   object
 5   number       9651 non-null   int64 
dtypes: bool(1), int64(2), object(3)
memory usage: 386.5+ KB


Después de realizar el cambio del tipo de dato de de la columna 'chain', se puede observar que ya no existen valores ausentes en la misma columna. 

---
### 3. Análisis de datos 

In [6]:
# Búsqueda de las proporciones de los distintos tipos de establecimientos.
establishments= rest_data.groupby('object_type').agg({'object_name':'count'})
establishments.sort_values(by='object_name', ascending=False)

Unnamed: 0_level_0,object_name
object_type,Unnamed: 1_level_1
Restaurant,7255
Fast Food,1066
Cafe,435
Pizza,320
Bar,292
Bakery,283


In [7]:
#Gráfico para visualizar proporción de los distintos tipos de establecimientos.
labels = establishments.index.to_list()
object_name_values = establishments['object_name'].values
df = px.data.tips()
fig = px.pie(df, values=object_name_values, names=labels, color_discrete_sequence=px.colors.sequential.RdBu, 
             title='Proporciones de los diferentes tipos de establecimientos')
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

De acuerdo a la visualización de los resultados a tráves del gráfico, podemos comprobar que el establecimiento tipo 'Restaurant' cuenta con el mayor porcentaje con el 75.2% , seguido de 'Fast Food' con el 11%. Teniendo entre una diferencia bastante significativa. 
El último lugar, lo ocupa 'Bakery' con un 2.93%. 

In [8]:
#Búsqueda de las proporciones de los establecimientos que pertenecen a una cadena y de los que no.
establishments= rest_data.groupby('chain').agg({'object_name':'count'})
establishments

Unnamed: 0_level_0,object_name
chain,Unnamed: 1_level_1
False,5972
True,3679


In [9]:
#Gráfico para visualizar proporción de establecimientos que pertenecen a una cadena.
labels = ['Franquicia','Independiente']
object_name_values = [3679, 5972]
df = px.data.tips()
fig = px.pie(df, values=object_name_values, names=labels, color_discrete_sequence=px.colors.sequential.RdBu, 
             title='Proporciones de establecimientos que pertenecen a una cadena')
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

El 61.9% son establecimientos independientes, es decir, no pertenecen a niguna franquicia. El 38.1% pertenecen a una cadena.

In [10]:
# Búsqueda de establecimiento que son habitualmente una cadena.
establishments_chain= rest_data.groupby('object_type').agg({'chain':'sum'})
establishments_chain= establishments_chain.sort_values(by='chain', ascending=False)
establishments_chain

Unnamed: 0_level_0,chain
object_type,Unnamed: 1_level_1
Restaurant,2294
Fast Food,605
Bakery,283
Cafe,266
Pizza,154
Bar,77


In [16]:

labels = establishments_chain.index.to_list()
chain_values = establishments_chain['chain'].values

df = px.data.gapminder()
fig = px.bar(df, y=chain_values, x=labels, text_auto='.2s',
            title="Número de cadenas por establecimiento", 
            color_discrete_sequence=px.colors.sequential.RdBu,
            template='simple_white')

plt.tight_layout()
fig.show()

<Figure size 640x480 with 0 Axes>