# Análisis de los 25 retailers más grandes de Estados Unidos

In [1]:
import pandas as pd
import numpy as np
import altair as alt

In [2]:
df = pd.read_csv('largest_us_retailers.csv')
df

Unnamed: 0,Company,Sales,Stores,Sales/Avg. Store,Store Count Growth,Category
0,Walmart US,658119,4574.0,65.649725,0.012843,Supercenters
1,Kroger,115037,3931.0,30.03185,0.053887,Grocery
2,Costco,90048,495.0,187.79562,0.06681,Warehouse Club
3,Home Depot,83976,1965.0,42.735878,0.0,Home Improvement
4,Walgreen Boots,78924,8002.0,9.810927,-0.010511,Drug Stores
5,CVS incl. Target,77792,9813.0,8.825959,0.255662,Drug Stores
6,Amazon,71687,,,,Electronic/Mail Order
7,Target,71208,1772.0,39.982033,-0.010056,Supercenters
8,Lowe's,60311,1828.0,33.311792,0.01952,Home Improvement
9,Albertsons,56829,2326.0,23.877731,-0.044371,Grocery


In [3]:
df.columns

Index(['Company', 'Sales', 'Stores', 'Sales/Avg. Store', 'Store Count Growth',
       'Category'],
      dtype='object')

In [4]:
alt.Chart(df).mark_bar(color = '#ffacd9').encode(
    x = alt.X('Sales', title = '', axis=alt.Axis(grid = False,labelFontSize=12,labels = False,ticks = False, domain = False)),
    y = alt.Y('Company', title = '',sort = '-x', axis=alt.Axis(grid = False,labelFontSize=14)),
    tooltip = [alt.Tooltip('Company',title = 'Company'),alt.Tooltip('Sales', title = 'Sales MUSD')]
).configure_title(
    fontSize = 18,
    anchor = 'middle',
    color = '#e4007c'
).configure_view(
    strokeWidth=0
).properties (
    title = 'Sales'
)

## I. Preguntas del negocio

### 1. ¿Cuál es el promedio de ventas sin contar a la compañía dominante?

Compañía dominante: **Walmart**

In [5]:
# Quitar los datos de Walmart US para el cálculo del promedio
companies = df[df['Company'] != 'Walmart US']

# Visualizar el cambio en una gráfica
bar = alt.Chart(companies).mark_bar(color = '#ff79c2').encode(
    x = alt.X('Sales', title = '', axis=alt.Axis(grid = False,labelFontSize=12,labels = False,ticks = False, domain = False)),
    y = alt.Y('Company', title = '', sort = '-x', axis=alt.Axis(grid = False,labelFontSize=14)),
    tooltip = [alt.Tooltip('Company',title = 'Company'),alt.Tooltip('Sales', title = 'Sales MUSD')]
)

m = alt.Chart(companies).mark_rule(color = 'black').encode(
    y = alt.Y('mean(Sales)',title = '',axis=alt.Axis(labels = False,ticks = False, domain = False)),
    tooltip = [alt.Tooltip('mean(Sales)', title = 'mean MUSD')]
)

(bar + m).properties (
    title = 'Sales'
).configure_title(
    fontSize = 18,
    anchor = 'middle',
    color = '#e4007c'
).configure_view(
    strokeWidth=0
)

In [6]:
meanCompanies = companies['Sales'].mean()
meanCompanies

46602.416666666664

El promedio de ventas por compañía es **46,602.4167M USD** 

Quitar los valores de Walmart fue con el fin de poder tener un promedio más real entre las demás compañías y no tener valores sesgados por la gran diferencia en ventas que tiene esta, con el resto de las compañías.

### 2. ¿Cuánto dinero en ventas generó la mayoría de las compañías?

In [7]:
# Visualizar el cambio en una gráfica
bar = alt.Chart(df).mark_bar(color = '#679997').encode(
    x = alt.X('Sales:Q',bin=alt.Bin(maxbins=60),title = 'Sales [M USD]'),
    y = alt.Y('count(Sales)', title = '',axis=alt.Axis(grid=False))
)

m = alt.Chart(df).mark_rule(color = 'black').encode(
    x = alt.X('mean(Sales)',title = '',axis=alt.Axis(ticks = False, domain = False)),
    tooltip = [alt.Tooltip('median(Sales)', title = 'median MUSD')]
)

(bar + m).properties (
    title = 'Sales'
).configure_title(
    fontSize = 18,
    anchor = 'middle',
    color = '#679997'
).configure_view(
    strokeWidth=0
)

In [8]:
medianSales = df['Sales'].median()
medianSales

34980.0

Todas las compañías vendieron **1,776,577M USD**.

Se puede observar en la tabla que la mayoría de las compañías vendió en un rango de 20mil millones a 40mil millones, lo cuál se ajusta al resultado que dió la media de **34,980M USD**

Para visualizar mejor el comportamiento de las compañías en la gráfica, se muestra el histograma sin los valores de Walmart US con la media total de incluyéndola.

In [9]:
bar = alt.Chart(companies).mark_bar(color = '#9ae5e2').encode(
    x = alt.X('Sales:Q',bin=alt.Bin(maxbins=10),title = 'Sales [M USD]'),
    y = alt.Y('count(Sales)', title = '',axis=alt.Axis(grid=False))
)

m = alt.Chart(df).mark_rule(color = 'black').encode(
    x = alt.X('mean(Sales)',title = '',axis=alt.Axis(ticks = False, domain = False)),
    tooltip = [alt.Tooltip('median(Sales)', title = 'median (all data)')]
)

(bar + m).properties (
    title = 'Sales'
).configure_title(
    fontSize = 18,
    anchor = 'middle',
    color = '#679997'
).configure_view(
    strokeWidth=0
)

### 3. ¿Cuántas tiendas tiene la mayoría de las compañías?

In [10]:
alt.Chart(df).mark_bar(color = 'skyblue').encode(
    x = alt.X('Stores:Q', title='Sales [M USD]',bin=alt.Bin(maxbins=10), axis=alt.Axis(domain = False)),
    y = alt.Y('count()', title='', axis=alt.Axis(grid=False, domain=False, ticks = False, )),
    tooltip = [alt.Tooltip('count()', title='Companies')]
).configure_view(
    strokeWidth=0
).properties (
    title = 'Stores'
)

In [11]:
medianStores = df['Stores'].median()
medianStores

1828.0

La gráfica muestra que la mayoría de las compañias tiene alrededor de dos mil tiendas. Lo cual se respalda en la mediana que es de **1828** tiendas.

### 4. ¿La cantidad de tiendas está relacionada con la cantidad de ventas? Es decir, ¿si una empresa tiene más tiendas tendrá más dinero de ventas?

In [12]:
sel = pts = alt.selection(type = 'single')

stores = alt.Chart(df).mark_bar().encode(
    x = alt.X('Sales', title = '', axis=alt.Axis(grid = False,labelFontSize=12,labels = False,ticks = False, domain = False)),
    y = alt.Y('Company', title = 'Sales', sort='-x', axis=alt.Axis(grid = False,labelFontSize=14,titleAnchor='start',titleAngle=0,titleFontSize=20, titleColor='#e4007c')),
    tooltip = [alt.Tooltip('Company',title = 'Company'),alt.Tooltip('Sales', title = 'Sales MUSD'),alt.Tooltip('Stores',title='Stores')],
    color = alt.condition(pts, alt.ColorValue("#ffacd9"), alt.ColorValue("grey"))
).add_selection(pts)

sales = alt.Chart(df).mark_bar(color = 'skyblue').encode(
    x = alt.X('Stores', title = '', axis=alt.Axis(grid = False,labelFontSize=12,labels = False,ticks = False, domain = False)),
    y = alt.Y('Company', title = 'Stores', sort='-x', axis=alt.Axis(grid = False,labelFontSize=14,titleAnchor='start',titleAngle=0,titleFontSize=20, titleColor='steelblue')),
    tooltip = [alt.Tooltip('Company',title = 'Company'),alt.Tooltip('Sales', title = 'Sales MUSD'),alt.Tooltip('Stores',title='Stores')],
    color = alt.condition(pts, alt.ColorValue("skyblue"), alt.ColorValue("grey"))
).add_selection(pts)

(stores | sales ).configure_view(
    strokeWidth=0
)

In [27]:
alt.Chart(df).mark_bar().encode(
    x = alt.X('Sales', title = '', axis=alt.Axis(grid = False,labelFontSize=12)),
    y = alt.Y('Stores', title = '', sort='-x', axis=alt.Axis(grid = False,labelFontSize=14,titleAngle=0,titleFontSize=18)),
    tooltip = [alt.Tooltip('Company',title = 'Company'),alt.Tooltip('Sales', title = 'Sales MUSD'),alt.Tooltip('Stores',title='Stores')],
    color = alt.condition(
        alt.datum.Stores,
        alt.ColorValue("steelblue"),
        alt.ColorValue("orange"))
).configure_view(
    strokeWidth=0
)

En las gráficas anteriores se comparan los valores de ventas y las cantidades de tiendas físicas para cada compañía, lo cual muestra que las ventas no se relacionan con las tiendas ya que, por ejemplo, Walmart que tiene la mayor cantidad de ventas, no es la que tiene la mayor cantidad de tiendas del conjunto.

Incluso existen compañías que no tiene tiendas físicas y tienen grandes ventas, como es Amazon o Apple.

### 5. ¿Cuál es el rango que existe entre las ventas?

In [13]:
alt.Chart(df).mark_boxplot().encode(
    y = alt.Y('Sales')
) | alt.Chart(companies).mark_boxplot().encode(
    y = alt.Y('Sales')
).interactive()



In [14]:
rango = df['Sales'].max() - df['Sales'].min()
rango

641527

El rango en el que se encuentran los valores es de **641,527M USD** ya que las ventas de Walmart se alejan de los datos de las demás compañías, incluso en el diagrama de caja se muestra como un dato atípico.

En la segunda gráfica se ve el comportamiento de las demás compañías para visualizar su rango.

### 6. ¿Cuáles son las 5 empresas que más tiendas físicas tienen? ¿Cuáles de ellas están dentro de las 5 empresas que más ventas tuvieron?

In [15]:
top = df.sort_values('Stores', ascending=False)
top5Stores = top.iloc[:5]
top5Stores

Unnamed: 0,Company,Sales,Stores,Sales/Avg. Store,Store Count Growth,Category
20,Dollar Tree,21464,14250.0,1.563919,0.079627,Dollar Stores
19,Dollar General,22234,13350.0,1.768885,0.132412,Dollar Stores
5,CVS incl. Target,77792,9813.0,8.825959,0.255662,Drug Stores
4,Walgreen Boots,78924,8002.0,9.810927,-0.010511,Drug Stores
0,Walmart US,658119,4574.0,65.649725,0.012843,Supercenters


In [16]:
top = df.sort_values('Sales', ascending=False)
top5Sales = top.iloc[:5]

In [17]:
sales = alt.Chart(df).mark_bar().encode(
    x = alt.X('Stores', title = '', axis=alt.Axis(grid = False,labelFontSize=12,labels = False,ticks = False, domain = False)),
    y = alt.Y('Company', title = 'Stores', sort='-x', axis=alt.Axis(grid = False,labelFontSize=14, titleAnchor='start',titleAngle=0,titleFontSize=18)),
    tooltip = [alt.Tooltip('Company',title = 'Company'),alt.Tooltip('Sales', title = 'Sales MUSD'),alt.Tooltip('Stores',title='Stores')],
    color = alt.condition(
        alt.datum.Stores >= 4574,
        alt.ColorValue("orange"),
        alt.ColorValue("steelblue"))
)

stores = alt.Chart(top5Sales).mark_bar().encode(
    x = alt.X('Sales', title = '', axis=alt.Axis(grid = False,labelFontSize=12,labels = False,ticks = False, domain = False)),
    y = alt.Y('Company', title = 'Top 5: Sales', sort='-x', axis=alt.Axis(grid = False,labelFontSize=14,titleAnchor='start',titleAngle=0,titleFontSize=18)),
    tooltip = [alt.Tooltip('Company',title = 'Company'),alt.Tooltip('Sales', title = 'Sales MUSD'),alt.Tooltip('Stores',title='Stores')],
    color = alt.condition(
        alt.datum.Stores >= 4574,
        alt.ColorValue("orange"),
        alt.ColorValue("steelblue"))
)


( sales | stores ).configure_view(
    strokeWidth=0
)

Las cinco compañías con más tiendas son:

1. **Dollar Tree**
2. **Dollar General**
3. **CVS incl. Target**
4. **Walgreen Boots**
5. **Walmart US**

De las cuales sólo Walgreen Boots y Walmart se encuentran en el top 5 de las compañías con más ventas, como lo muestran las gráficas.


## II. Preguntas opcionales

### 7. ¿Qué categoría de compañía generó más ventas?

In [18]:
alt.Chart(df).mark_bar(
    color="lightblue"
).encode(
    x = alt.X('Sales', title='', axis=alt.Axis(grid=False, format='.2s',labels = False,ticks = False, domain = False)),
    y = alt.Y('Category', title=''),
    tooltip = [alt.Tooltip('Sales', title='Sales [M USD]')]
).configure_view(
    strokeWidth=0
).properties(
    title = 'Sales per Category'
).configure_title(
    fontSize = 18,
    anchor = 'middle',
    color = 'steelblue'
)

La categoría con más ventas fue **Supercenters** con mas de 650 mil millones de dólares en ventas. Lo cual es muy lógico considerando los datos que se presentaron a lo largo del reporte, donde Walmart es el mayor vendedor y cae en esta categoría.

### 8. ¿Cuál es la compañía que en relación con su cantidad de tiendas físicas genera más ventas?

In [19]:
alt.Chart(df).mark_bar(color='orange').encode(
    x= alt.X('Sales\/Avg\. Store:Q', title = '', axis=alt.Axis(grid=False)),
    y= alt.Y('Company', title=''),
    tooltip = 'Sales\/Avg\. Store:Q'
).configure_view(
    strokeWidth=0
).properties(
    title = 'Average sales per Store'
)

**Costco** tiene el mayor promedio de ventas por tienda física, y es muy visible en la gráfica ya que la diferencia con la demás compañias es grande.

### 9. ¿Cuáles compañías venden de forma exclusivamente online? ¿Sus ventas destacan sobre las que también tienen tiendas físicas?

In [20]:
df[np.isnan(df['Stores'])]

Unnamed: 0,Company,Sales,Stores,Sales/Avg. Store,Store Count Growth,Category
6,Amazon,71687,,,,Electronic/Mail Order
11,Apple incl. Online,37664,,,,


In [26]:
alt.Chart(df).mark_bar().encode(
    x = alt.X('Sales', title = '', axis=alt.Axis(grid = False,labelFontSize=12,labels = False,ticks = False, domain = False)),
    y = alt.Y('Company', title = 'Stores', sort='-x', axis=alt.Axis(grid = False,labelFontSize=14, titleAnchor='start',titleAngle=0,titleFontSize=18)),
    tooltip = [alt.Tooltip('Company',title = 'Company'),alt.Tooltip('Sales', title = 'Sales MUSD'),alt.Tooltip('Stores',title='Stores')],
    color = alt.condition(
        alt.datum.Stores,
        alt.ColorValue("steelblue"),
        alt.ColorValue("orange"))
).configure_view(
    strokeWidth=0
)

**Amazon** y **Apple Online** no cuentan con tiendas físicas, sin embargo, sus ventas están dentro del rango de las ventas del resto de las compañias; no los posiciona entre las cinco mejores ventas pero si tienen un lugar medio en el conteo general. 

## III. Tus propias preguntas

### 10.

### 11.

### 12.

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=0162aef3-1eed-4dcb-aebd-bc59ff2f8f2f' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>