# <font color='#110273'>Analista Datos Marketing Digital LATAM Airlines</font>

#### <font color='#110273'> Autor: Scarlett Neira Giddings</font>


## <font color='#0D0259'>Introducción</font>

LATAM Airlines es la aerolínea más grande de América Latina, con sede en Santiago, Chile, y opera en más de 20 países. Nació de la fusión entre la chilena LAN y la brasileña TAM en 2012, ofreciendo vuelos nacionales e internacionales. La compañía cubre una amplia red de destinos en América, Europa, Oceanía y el Caribe, y se caracteriza por su enfoque en mejorar la experiencia del cliente a través de la tecnología y la sostenibilidad.

LATAM utiliza estrategias de ventas en múltiples canales, incluyendo plataformas digitales, donde las campañas de marketing digital juegan un rol fundamental para atraer y retener clientes.

El análisis de datos en este contexto es crucial para mejorar la toma de decisiones, optimizar campañas publicitarias y personalizar la experiencia del cliente. A través del análisis de métricas digitales como el tráfico web, conversiones, y comportamiento del usuario en las plataformas online, LATAM puede identificar oportunidades de crecimiento, mejorar la efectividad de sus estrategias de marketing y aumentar su competitividad en un mercado altamente dinámico.

Contamos con un archivo CSV que incluye datos sobre el funnel de ventas de la página web de LATAM Airlines, ventas de pasajes por destino y precios de tickets. Además, contiene información complementaria como códigos de aeropuertos y países. Realizaremos un análisis tanto del funnel de ventas como de las transacciones, con el objetivo de extraer insights valiosos que puedan mejorar la estrategia comercial y optimizar el rendimiento de la compañía.

Información complementaria:

- Cada ID de vuelo o transacción se identifica por la combinación de un código único formado por las siglas de 3 letras del aeropuerto de origen y del destino. Por ejemplo, un vuelo de Santiago a Lima tendría el código SCLLIM.
- PAX: Cantidad de pasajeros.
- Revenue: Ingresos por venta.

[Introducción](#Introducción)
[Data Exploring](#Data-Exploring)
1. [Análisis de Funnel](#Análisis-de-Funnel)
   - 1.1 [¿En qué áreas del Funnel te concentrarías y qué haría para cambiar estos resultados?](#Respuesta-1.1)
2. [Análisis de Ventas](#Análisis-de-Ventas)
   - 2.1 [¿A cuántas ciudades de Chile ofrece LATAM servicios de vuelos nacionales?](#Respuesta-2.1)
   - 2.2 [¿Cuáles son los 3 mayores destinos domésticos vendidos en Colombia?](#Respuesta-2.2)
   - 2.3 [¿Cuál es la tarifa media por pasajero (Revenue/Pax) en vuelos internacionales con origen en Brasil?](#Respuesta-2.3)
   - 2.4 [¿Cuál es el top 10 de ciudades de origen más frecuentes?](#Respuesta-2.4)
   - 2.5 [¿Cuál es el top 10 de países más vendidos?](#Respuesta-2.5)

## <font color='#0D0259'>Data Exploring</font>

En esta etapa del análisis, importamos las bibliotecas necesarias, cargamos los datos y hacemos una visualización rápida de los datos, con métodos como ```.info(), .describe()``` y ```.head()```

In [157]:
import pandas as pd
ventas_df = pd.read_csv('/Users/scarlettneiragiddings/Desktop/latam/Analisis_de_Ventas.csv')
funnel_df = pd.read_csv('/Users/scarlettneiragiddings/Desktop/latam/Analisis_Funnel_de_Ventas.csv')
cities_df = pd.read_csv('/Users/scarlettneiragiddings/Desktop/latam/Cities.csv')
countries_df = pd.read_csv('/Users/scarlettneiragiddings/Desktop/latam/Countries.csv')
flights_df = pd.read_csv('/Users/scarlettneiragiddings/Desktop/latam/Flights.csv')

In [158]:
ventas_df.info()
ventas_df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4836 entries, 0 to 4835
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id               4836 non-null   object
 1   Transactions     4836 non-null   object
 2   PAX: Passengers  4836 non-null   object
 3   Revenue (USD)    4836 non-null   object
dtypes: object(4)
memory usage: 151.2+ KB


Unnamed: 0,id,Transactions,PAX: Passengers,Revenue (USD)
0,BOGADL,3,6,$675
1,SCLADL,4,4,$534
2,GRUADL,2,4,$237
3,SCLALC,6,12,"$1,062"
4,ZCOALC,1,3,$191


In [163]:
cities_df.info()
cities_df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1097 entries, 0 to 1096
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   City IATA  1097 non-null   object
 1   Type       1097 non-null   object
 2   country    1096 non-null   object
 3   city       1097 non-null   object
 4   ES value   1097 non-null   object
dtypes: object(5)
memory usage: 43.0+ KB


Unnamed: 0,City IATA,Type,country,city,ES value
0,AUH,CITY,AE,Abu Dhabi,Abu Dhabi
1,DXB,CITY,AE,Dubai,Dubai
2,ANU,CITY,AG,Antigua,Antigua
3,LAD,CITY,AO,Luanda,Luanda
4,AEP,CITY,AR,Buenos Aires,Buenos Aires


In [161]:
funnel_df.info()
funnel_df.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Sales Funnel Step     5 non-null      object
 1   Cantidad de usuarios  5 non-null      object
dtypes: object(2)
memory usage: 208.0+ bytes


Unnamed: 0,Sales Funnel Step,Cantidad de usuarios
0,Homepage Total Users,150000
1,Search-Results (Product View),60000
2,Passenger Information (Add to Cart),15000
3,Payment Details,5000
4,Total transactions,3000


In [164]:
countries_df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Country IATA  50 non-null     object
 1   Type          50 non-null     object
 2   country       50 non-null     object
 3   country.1     50 non-null     object
 4   ES value      50 non-null     object
dtypes: object(5)
memory usage: 2.1+ KB


In [165]:
flights_df.info()
flights_df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 254 entries, 0 to 253
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   id         254 non-null    object
 1   tripType   254 non-null    object
 2   currency   254 non-null    object
 3   price      254 non-null    object
 4   currency2  254 non-null    object
 5   price2     254 non-null    int64 
dtypes: int64(1), object(5)
memory usage: 12.0+ KB


Unnamed: 0,id,tripType,currency,price,currency2,price2
0,ANFARI,oneway,CLP,"$74,486",USD,78
1,ANFCCP,oneway,CLP,"$31,086",USD,33
2,ANFIQQ,oneway,CLP,"$73,378",USD,77
3,ANFLSC,oneway,CLP,"$21,043",USD,22
4,ANFPMC,oneway,CLP,"$46,654",USD,49


Convertimos los datos mal clasificados como 'object' en 'int', para esto usaremos las expresiones ```.replace()``` y ```.astype()```

In [160]:
ventas_df['Transactions'] = ventas_df['Transactions'].str.replace(',', '').astype(int)
ventas_df['PAX: Passengers'] = ventas_df['PAX: Passengers'].str.replace(',', '').astype(int)
ventas_df['Revenue (USD)'] = ventas_df['Revenue (USD)'].str.replace('[$,]', '', regex=True).astype(int)

ventas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4836 entries, 0 to 4835
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id               4836 non-null   object
 1   Transactions     4836 non-null   int64 
 2   PAX: Passengers  4836 non-null   int64 
 3   Revenue (USD)    4836 non-null   int64 
dtypes: int64(3), object(1)
memory usage: 151.2+ KB


In [162]:
funnel_df['Cantidad de usuarios'] = funnel_df['Cantidad de usuarios'].str.replace(',', '').astype(int)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Sales Funnel Step     5 non-null      object
 1   Cantidad de usuarios  5 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 208.0+ bytes


In [166]:
flights_df['price'] = flights_df['price'].str.replace('[$,]', '', regex=True).astype(int)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 254 entries, 0 to 253
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   id         254 non-null    object
 1   tripType   254 non-null    object
 2   currency   254 non-null    object
 3   price      254 non-null    int64 
 4   currency2  254 non-null    object
 5   price2     254 non-null    int64 
dtypes: int64(2), object(4)
memory usage: 12.0+ KB


## <font color='#0D0259'>Análisis de Funnel</font>


#### <font color='#0D0259'>1 .- ¿En qué áreas del Funnel te concentrarías y qué haría para cambiar estos resultados?</font>

Para responder esta pregunta veremos la cantidad porcentual de usuarios que pasan de un step a otro, para esto utilizaremos la función ```pct_change()``` de la biblioteca pandas.

In [167]:
funnel_df['Porcentaje Cambio'] = 0.0

In [168]:
funnel_df['Porcentaje Cambio'] = funnel_df['Cantidad de usuarios'].pct_change() * 100

In [169]:
funnel_df.head()

Unnamed: 0,Sales Funnel Step,Cantidad de usuarios,Porcentaje Cambio
0,Homepage Total Users,150000,
1,Search-Results (Product View),60000,-60.0
2,Passenger Information (Add to Cart),15000,-75.0
3,Payment Details,5000,-66.666667
4,Total transactions,3000,-40.0


Análisis de resultados:

- Homepage Total Users: La cantidad total de usuarios que visitan la página es de 150.000, este es nuestro dato inicial.


- Search-Results (Product View): Los usuarios que avanzan a la etapa de búsqueda de vuelos disminuye en un 60%.

- Passenger Information (Add to Cart): Los usuarios que agregan los vuelos al carrito disminuye en un 75%.

- Payment Details: Quienes avanzan al pago disminuyen en un 66,6%, para esto deben ingresar su información personal.

- Total transactions: La cantidad de usuarios que completan su venta disminuye en un 40% desde el paso anterior.

La tasa de conversión total es de un 2%, entre los usuarios que entran a la página y compran sus pasajes.

Si tomamos un valor referencial del 65% como tasa de abandono alta, podemos decir que existen problemas en 2 steps de la página web, **Add to Cart y Payment Details**.







### <font color='#F21667'>Respuesta 1.1</font>


Según el análisis realizado, las etapas del embudo de ventas con mayores tasas de abandono son Passenger Information (Add to Cart) y Payment Details, con una disminución de usuarios del 75% y 66,67%, respectivamente.

**Add to Cart**
En esta fase, los usuarios pueden enfrentar diversas dificultades, como problemas al agregar boletos al carrito, precios que superan sus expectativas o falta de confianza en el sitio. Además, es importante considerar que muchos visitantes llegan al sitio con la intención de "cotizar" en lugar de comprar, y esta etapa puede ser la última para esos casos.

Para mejorar la retención de usuarios en esta etapa, se sugiere implementar estrategias que les recuerden los vuelos agregados a su carrito. Por ejemplo, si un usuario busca viajes a Cancún en una fecha específica y no completa la compra, se pueden enviar correos electrónicos recordatorios invitándolo a adquirir ese destino o alternativas similares en las fechas seleccionadas.

Es crucial desarrollar estrategias que fomenten el interés de los usuarios que solo buscan cotizar, con el objetivo de convertirlos en compradores. Esto puede incluir promociones y ofertas, así como recursos educativos, como un comparador de precios que permita visualizar los costos adicionales por servicios opcionales (equipaje, selección de asientos, prioridad, etc.). También se debe facilitar la conversión para usuarios con cuentas mediante el uso de millas acumuladas.

Además, se recomienda optimizar la experiencia del usuario (UX) en esta etapa, simplificando el proceso, lo que incluye la incorporación de extras y la venta de seguros.

**Payment Details**
En esta etapa, los usuarios pueden abandonar el proceso de pago por varios motivos, como un procedimiento complicado o tedioso, tarifas inesperadas que se añaden en esta fase, como tasas de embarque, o inseguridad respecto al método de pago.

Para mitigar estos problemas, se pueden introducir métodos de pago más confiables y rápidos para el usuario. Por ejemplo, permitir el almacenamiento de datos de pago en la cuenta del usuario para facilitar la __"compra con un clic"__. También se pueden habilitar opciones de pago de terceros, como Mercado Pago, Khipu y bancos en línea, que son familiares y confiables para muchos usuarios, ofreciendo opciones de transferencia, débito y crédito.

Respecto a las tarifas que pueden aumentar durante el proceso, algunas aerolíneas presentan el costo de las tasas de embarque u otros cargos opcionales al final del proceso, creando expectativas erróneas que pueden llevar al usuario a desistir de la compra. Para abordar esta situación, es fundamental proporcionar desde el primer paso un desglose claro del costo total, evitando sorpresas en las etapas posteriores.



## <font color='#0D0259'>Análisis de Ventas</font>

#### <font color='#0D0259'>1.- ¿A cuántas ciudades de Chile ofrece LATAM servicios de vuelos nacionales?</font>

Para realizar este análisis tomamos las bases de datos de ventas, ciudades y paises.

Creamos una nueva tabla donde almacenaremos solo los vuelos nacionales, lo que significa que en la columna 'id' de la base de datos, las siglas de aeropuerto de origen y destinos deben pertenecer a ciudades chilenas.

A partir de la nueva tabla con vuelos nacionales, tomamos los valores únicos de ciudades, para saber a cuántas ciudades de chile LATA ofrece servicios.

Dividimos la columna id como origen y destino, para una mayor comprensión y manipulación de los datos

In [170]:
ventas_df['origen'] = ventas_df['id'].str[:3]
ventas_df['destino'] = ventas_df['id'].str[-3:]

Creamos una nueva columna para poder filtrar datos que tengan tanto origen o destino en ciudades dentro del país chile, para esto debemos verificar si en cada fila, 'origen' y 'destino' están dentro del valor de país 'CL' Chile.

Luego creamos un dataframe con los vuelos que sean solo nacionales.

Para poder responder la pregunta, utilizamos la función ```.nunique()``` sobre destino para conocer la cantidad de valores únicos.


In [171]:
def verificar_vuelo_chile(row):
    if row['origen'] in cities_df['City IATA'].values:
        if cities_df[cities_df['City IATA'] == row['origen']]['country'].values[0] == 'CL':
            if cities_df[cities_df['City IATA'] == row['destino']]['country'].values[0] == 'CL':
                return 'si'
        return 'no'
    return 'no'

#aplicamos el método apply, para que la función corra en cada fila (axis=1) de nuestro dataframe.
ventas_df['chile'] = ventas_df.apply(verificar_vuelo_chile, axis=1)
#creamos el dataframe nacionalchile_df para filtrar solo los vuelos nacionales
chile_df = ventas_df[ventas_df['chile'] == 'si']


### <font color='#F21667'>Respuesta 2.1</font>


In [172]:
ciudades_chile = chile_df['destino'].nunique()

print(f"Latam ofrece servicios a {ciudades_chile} ciudades de Chile")

Latam ofrece servicios a 17 ciudades de Chile


#### <font color='#0D0259'>2.- ¿Cuáles son los 3 mayores destinos domésticos vendidos en Colombia?</font>


Para responder esta pregunta, realizamos los pasos anteriores, pero agrupamos en vuelos que tengan tanto 'origen' como 'destino' en Colombia 'CO'.

In [173]:
def verificar_vuelo_colombia(row):
    if row['origen'] in cities_df['City IATA'].values:
        if cities_df[cities_df['City IATA'] == row['origen']]['country'].values[0] == 'CO':
            if cities_df[cities_df['City IATA'] == row['destino']]['country'].values[0] == 'CO':
                return 'si'
        return 'no'
    return 'no'

ventas_df['colombia'] = ventas_df.apply(verificar_vuelo_colombia, axis=1)
#creamos el dataframe nacionalchile_df para filtrar solo los vuelos nacionales
colombia_df = ventas_df[ventas_df['colombia'] == 'si']

Agrupamos en un nuevo DF, llamado transacciones_por_destino, la suma de las transacciones con destino común, para esto ocupamos la función ```.groupby()``` que cumple una función similar al popular group by de SQL. 

Luego ordenamos el DF resultante en orden descendiente de transacciones, para conocer los destinos con mayor número de ventas.

In [174]:
transacciones_por_destino = colombia_df.groupby('destino')['Transactions'].sum().reset_index()
transacciones_por_destino.sort_values(by='Transactions', ascending=False)

Unnamed: 0,destino,Transactions
4,BOG,27191
10,MDE,23678
5,CLO,12297
6,CTG,8446
2,BAQ,7786
0,ADZ,5016
11,MTR,4863
15,SMR,3950
3,BGA,3897
13,PEI,3482


### <font color='#F21667'>Respuesta 2.2</font>
Los 3 mayores destinos en vuelos domésticos de Colombia son Bogotá, Medellín y Cali. Con transacciones totales de 27.191, 23.678 y 12.297 respectivamente.


#### <font color='#0D0259'>3.- Cuál es la tarifa media por pasajero (Revenue/Pax) en vuelos internacionales con origen en Brasil</font>

Tomamos la función empleada para la respuesta anterior, pero la modificamos para que nos entregue los valores que coincidan en el origen con 'BR' Brasil y que al mismo tiempo, sean distintos a 'BR' Brasil en destino.
Luego creamos un data frame más acotado, con los valores filtrados, que cumplan con ambas condiciones.

In [175]:
def verificar_vuelo_interbrasil(row):
    if row['origen'] in cities_df['City IATA'].values:
        #Elegimos los origenes en Brasil
        if cities_df[cities_df['City IATA'] == row['origen']]['country'].values[0] == 'BR':
            #Elegimos los destinos distintos a Brasil
            if cities_df[cities_df['City IATA'] == row['destino']]['country'].values[0] != 'BR':
                return 'si'
        return 'no'
    return 'no'

ventas_df['interbrasil'] = ventas_df.apply(verificar_vuelo_interbrasil, axis=1)

interbrasil_df = ventas_df[ventas_df['interbrasil'] == 'si']

Finalmente la Tarifa media por pasajero se calcula dividiendo Revenue/Pax, del total del DF creado.

In [176]:
tarifa_media_por_pax = (sum(interbrasil_df['Revenue (USD)'])/sum(interbrasil_df['PAX: Passengers']))

### <font color='#F21667'>Respuesta 2.3</font>


In [196]:
print(f'La tarifa media por pasajeros en vuelos internacionales con origen en Brasil es de USD {tarifa_media_por_pax:.2f}')

La tarifa media por pasajeros en vuelos internacionales con origen en Brasil es de USD 81.35


#### <font color='#0D0259'>4.- Cuál es el top 10 de ciudades de origen más frecuentes</font>

Agrupamos la cantidad de transacciones de acuerdo a las ciudades de origen, ocupamos la función .groupby() y .sum() para definir el total de transacciones.
Ordenamos los valores en forma descendente y tomamos los 10 primeros valores de la tabla.

In [178]:
origen_frecuencia = ventas_df.groupby('origen')['Transactions'].sum().reset_index()
origen_frecuencia = origen_frecuencia.sort_values(by='Transactions', ascending=False)
topten = origen_frecuencia['origen'].head(10).tolist()
topten

['SCL', 'LIM', 'GRU', 'CGH', 'BOG', 'BSB', 'MDE', 'SDU', 'ANF', 'FOR']

Como nos retorna una lista con los códigos de aeropuerto, definimos cuáles son las ciudades con un ciclo for, buscando cada item en la base de datos de 'Cities'.

In [179]:
for item in topten:
    matched_row = cities_df[cities_df['City IATA'] == item]
    if not matched_row.empty:
        print(matched_row['city'].values[0])

Santiago
Lima
Sao Paulo
Sao Paulo
Bogota
Brasilia
Medellin
Rio De Janeiro
Antofagasta
Fortaleza


Como vemos que Sao Paulo se repite, al tener dos de sus aeropuertos GRU y CGH en el top ten, agregaremos una ciudad más,

In [195]:
topten = origen_frecuencia['origen'].head(11).tolist()
top_city= []
for item in topten:
    matched_row = cities_df[cities_df['City IATA'] == item]
    if not matched_row.empty:
        top_city.append(matched_row['city'].values[0])

['Santiago',
 'Lima',
 'Sao Paulo',
 'Sao Paulo',
 'Bogota',
 'Brasilia',
 'Medellin',
 'Rio De Janeiro',
 'Antofagasta',
 'Fortaleza',
 'Belo Horizonte']

### <font color='#F21667'>Respuesta 2.4</font>

El top ten de ciudades con origen más frecuente son
1. Santiago
2. Lima
3. Sao Paulo
4. Bogota
5. Brasilia
6. Medellin
7. Rio De Janeiro
8. Antofagasta
9. Fortaleza
10. Belo Horizonte

#### <font color='#0D0259'>5.- Cuál es el top 10 de países más vendidos</font>

Para responder esta pregunta, utilizamos la función ```.merge()``` similar a un JOIN de SQL, utilizamos los datos de ventas y countries y la columna en común 'destino' y 'City IATA'.

In [185]:
ventas_df2 = pd.merge(ventas_df, cities_df, left_on='destino', right_on='City IATA', how='left')
ventas_df2 = ventas_df2.drop(['chile','colombia','interbrasil'],axis=1)

A partir de esta tabla, agruparemos el valor total de transacciones hechas por país.

In [186]:
country_frecuencia = ventas_df2.groupby('country')['Transactions'].sum().reset_index()
country_frecuencia = country_frecuencia.sort_values(by='Transactions', ascending=False)
toptencountry = country_frecuencia['country'].head(10).tolist()

In [187]:
for item in toptencountry:
    matched_row = countries_df[countries_df['country'] == item]
    if not matched_row.empty:
        print(matched_row['ES value'].values[0])

Brasil
Chile
Perú
Colombia
Ecuador
Estados Unidos
España
Argentina
México
Italia


### <font color='#F21667'>Respuesta 2.5</font>

El top ten de países más vendidos son:
1. Brasil
2. Chile
3. Perú
4. Colombia
5. Ecuador
6. Estados Unidos
7. España
8. Argentina
9. México
10. Italia