# Identificación de oportunidades de expansión para vuelos de aerolíneas comerciales de lujo

## Introduccion

**Contexto comercial.** Usted es un empleado de GrowthAir, una compañía aérea comercial en crecimiento. En los últimos años, GrowthAir ha ampliado los servicios de vuelos de lujo a lugares de todo el mundo. Tras el excelente desempeño de su equipo en la identificación de nuevas oportunidades comerciales el año pasado, se le ha encomendado la tarea de identificar los principales países para expandir aún más el servicio de vuelos de lujo de GrowthAir.


**Problema comercial.** Su gerente le ha pedido que responda la siguiente pregunta: <b>"¿En qué países debería GrowthAir expandir su servicio de vuelos de lujo?"</b>

**Contexto analítico.** Los datos relevantes son una serie de estimaciones de éxito (es decir, probabilidades de éxito) que han elaborado sus equipos internos de investigación de marketing. Usando su capacidad para realizar análisis de datos en Python, se embarcará en resumir las estimaciones de éxito disponibles para producir una recomendación concisa para su jefe.


## Fundamentos de Python

Python es un lenguaje de programación general interpretado y de alto nivel que se lanzó por primera vez en 1991. Python permite a los usuarios manipular fácilmente datos y almacenar valores en lo que se conoce como <b>objetos</b>. Todo en Python es un objeto y tiene un <b>type</b>. Por ejemplo, si un usuario desea almacenar el número entero 5 en un objeto llamado ```my_int```, esto puede lograrse mediante la instrucción ```my_int = 5```. Esta declaración le dice a Python que asigne el valor entero de 5 a la **variable** ```my_int``` (llamada variable aquí porque puede cambiar el valor). ```my_int``` es un objeto de Python y tiene el tipo ```int```.


Similar a cómo Excel distingue diferentes tipos de datos (como Texto, Número, Moneda, Científico), Python ofrece una variedad de tipos de datos. Estos son algunos tipos de datos comunes:

1. Integers, type ```int```: ```my_int = 1```
2. Float type ```float```: ```my_float = 25.5```
3. Strings, type ```str```: ```my_string = 'Hello'```

Aquí vemos (1) <b>integers</b> y (2) <b>floats</b> almacenan datos numéricos. La diferencia entre los dos es que los flotantes almacenan variables decimales, mientras que el tipo entero solo puede almacenar variables enteras. (3) es del tipo <b>string</b>. Las cadenas se utilizan para almacenar datos textuales en Python. Este caso utilizará variables de cadena para almacenar nombres de países. A menudo se utilizan para almacenar identificadores como nombres de personas, nombres de ciudades y más.

Hay otros tipos de datos disponibles en Python; sin embargo, estos son los tres tipos fundamentales que verá en casi todos los programas de Python. Siempre tenga en cuenta que **todos** los objetos en Python tienen un tipo.

Ahora que hemos cubierto los fundamentos de Python, echemos un vistazo a los datos de la empresa propiedad de GrowthAir sobre las estimaciones de éxito del país.

## Explorando estimaciones de exito 

Echemos un vistazo a una estructura de datos común utilizada para almacenar los datos de propiedad de su empresa sobre estimaciones de probabilidad de éxito para proyectos de expansión global por país. La siguiente variable ```success_estimates``` es un diccionario de Python, al que se le asignan ciertos datos usando el ```'='``` <b>operador de asignación</b>. Cada estimación aquí es un número (flotante) entre 0 y 1, inclusive, que representa la probabilidad de que la expansión a ese país sea exitosa.

El tipo de diccionario de Python almacena pares clave-valor que permiten a los usuarios acceder rápidamente a la información de una clave en particular. Al especificar una clave, el usuario puede devolver el valor correspondiente a la clave dada. La sintaxis de Python para diccionarios usa llaves {},

```python
dict = {'Key1':Value1, 'Key2':Value2, 'Key3':Value3}
```

El diccionario ```success_estimates``` tiene claves que son cadenas y valores que son del tipo <b>lista</b>. Una <b>lista</b> es una estructura de datos increíblemente útil en Python que puede almacenar cualquier cantidad de objetos de Python y se denota mediante el uso de corchetes ```[]```. En ```success_estimates``` a continuación, la lista contiene tipos flotantes. Las listas son versátiles y se pueden expandir agregando nuevos elementos al final de la lista (el lado más a la derecha se considera el final de la lista). Además, se puede acceder fácilmente a los elementos de la lista (es decir, los objetos de la lista) utilizando índices enteros. Curiosamente, las listas también pueden almacenar otras listas (llamadas listas de listas). Esto los convierte en una herramienta poderosa para almacenar conjuntos de datos complejos.

Echemos un vistazo a los datos ```success_estimates```:

In [8]:
# Probabilidades de expansion para cada pais ante diferentes escenarios
success_estimates = {'Australia': [0.6, 0.33, 0.11, 0.14],
                     'France': [0.66, 0.78, 0.98, 0.2],
                     'Italy': [0.6],
                     'Brazil': [0.22, 0.22, 0.43],
                     'USA': [0.2, 0.5, 0.3],
                     'England': [0.45],
                     'Canada': [0.25, 0.3],
                     'Argentina': [0.22],
                     'Greece': [0.45, 0.66, 0.75, 0.99, 0.15, 0.66],
                     'Morocco': [0.29],
                     'Tunisia': [0.68, 0.56],
                     'Egypt': [0.99],
                     'Jamaica': [0.61, 0.65, 0.71],
                     'Switzerland': [0.73, 0.86, 0.84, 0.51, 0.99],
                     'Germany': [0.45, 0.49, 0.36]}

Python te permite imprimir fácilmente los elementos almacenados en cualquier variable en la pantalla usando la instrucción ```print()```:


In [9]:
print(success_estimates)

{'Australia': [0.6, 0.33, 0.11, 0.14], 'France': [0.66, 0.78, 0.98, 0.2], 'Italy': [0.6], 'Brazil': [0.22, 0.22, 0.43], 'USA': [0.2, 0.5, 0.3], 'England': [0.45], 'Canada': [0.25, 0.3], 'Argentina': [0.22], 'Greece': [0.45, 0.66, 0.75, 0.99, 0.15, 0.66], 'Morocco': [0.29], 'Tunisia': [0.68, 0.56], 'Egypt': [0.99], 'Jamaica': [0.61, 0.65, 0.71], 'Switzerland': [0.73, 0.86, 0.84, 0.51, 0.99], 'Germany': [0.45, 0.49, 0.36]}


Observen el reordenamiento de los elementos del diccionario cuando imprimimos en comparación con el orden en el que originalmente definimos el diccionario. Este es un aspecto clave de los tipos de datos de diccionario: ¡están desordenados! (Esto es muy diferente en comparación con los tipos de datos de lista, que están ordenados).

Ahora, intuitivamente, nos gustaría recomendar que la empresa se esfuerce en el país con la estimación de éxito más alta. Pero, ¿qué significa esto cuando hay múltiples estimaciones de éxito para algunos países y solo una para otros? Exploraremos esto a continuación

## Interactuando con diccionarios y listas

Echando un vistazo cuidadoso al diccionario ```success_estimates```, notará que algunos países solo tienen una estimación de éxito, mientras que otros tienen muchas. Por ejemplo, Inglaterra tiene solo una estimación en su lista [0,45], mientras que Jamaica tiene tres estimaciones en su lista [0,61, 0,65, 0,71]. Acerquémonos a Jamaica y echemos un vistazo a algunas estadísticas resumidas de las estimaciones.

En Python, el tipo de diccionario tiene métodos incorporados (funciones, que discutiremos más adelante) para acceder a las claves y valores del diccionario. Estos métodos se llaman escribiendo ```.keys()``` o ```.values()``` después del objeto. Cambiaremos el tipo de retorno de llamar ```.keys()``` y ```.values()``` a una lista usando el método ```list()```.

In [10]:
# Mirando las keys...
list(success_estimates.keys())

['Australia',
 'France',
 'Italy',
 'Brazil',
 'USA',
 'England',
 'Canada',
 'Argentina',
 'Greece',
 'Morocco',
 'Tunisia',
 'Egypt',
 'Jamaica',
 'Switzerland',
 'Germany']

In [11]:
# ... y los valores respectivos
list(success_estimates.values())

[[0.6, 0.33, 0.11, 0.14],
 [0.66, 0.78, 0.98, 0.2],
 [0.6],
 [0.22, 0.22, 0.43],
 [0.2, 0.5, 0.3],
 [0.45],
 [0.25, 0.3],
 [0.22],
 [0.45, 0.66, 0.75, 0.99, 0.15, 0.66],
 [0.29],
 [0.68, 0.56],
 [0.99],
 [0.61, 0.65, 0.71],
 [0.73, 0.86, 0.84, 0.51, 0.99],
 [0.45, 0.49, 0.36]]

Haremos uso del acceso a claves y valores de un diccionario más adelante en el caso cuando comparemos las estimaciones de numerosos países. Por ahora, recuerde que puede acceder a la lista completa de claves o valores de un diccionario simplemente llamando a los métodos integrados.


También nos gustaría comprobar si el nombre de un país es una de las claves del diccionario. Python nos permite verificar si una clave está en un diccionario mediante el uso de la palabra clave ```in```. La declaración ```key in diccionario``` devolverá un <b>tipo booleano</b> de ```True``` si la clave es una de las claves en el diccionario y ```False``` de lo contrario. Echemos un vistazo a cómo funciona esto.

In [12]:
print('Verificando si Mrruecos esta presente:')
print('Morocco' in success_estimates)

print('Verificando si Japon esta presente:')
print('Japan' in success_estimates)

Verificando si Mrruecos esta presente:
True
Verificando si Japon esta presente:
False


Ahora nos gustaría acceder al valor correspondiente a una clave específica en el diccionario ```success_estimates```. Simplemente escriba el nombre del valor entre corchetes junto al nombre del diccionario. Por ejemplo, ```success_estimates['Jamaica']``` devolverá la lista de estimaciones de Jamaica:

In [13]:
success_estimates['Jamaica'] 

[0.61, 0.65, 0.71]

Si desea almacenar el resultado en una variable para usarla más adelante, use el operador de asignación ```'='```:


In [14]:
jamaica_list = success_estimates['Jamaica'] 

Luego puede ver el contenido de la lista a través del método ```print()```:

In [15]:
print(jamaica_list)

[0.61, 0.65, 0.71]


Aquí, verá que el orden de los elementos en la lista de Jamaica es el mismo que se definió originalmente arriba. Esto se debe a que las listas son objetos ordenados. De hecho, puede acceder a los elementos de una lista mediante un <i>index</i>. En Python, los índices comienzan en 0 (para el primer elemento de una lista dada) y se incrementan en 1 para cada elemento sucesivo. Por ejemplo, imprimamos cada elemento de la lista Jamaica:


In [16]:
print(jamaica_list[0]) # primer elemento de la lista
print(jamaica_list[1]) # segundo elemento de la lista
print(jamaica_list[2]) # tercer elemento de la lista

0.61
0.65
0.71


Python también ofrece una forma sencilla de determinar la longitud de una lista: el método ```len()```. Esperamos que la longitud de ```jamaica_list``` sea 3 ya que tiene tres elementos:


In [17]:
len(jamaica_list) 

3

### Ejercicio 1:

Imprima la longitud de las listas de estimaciones de éxito para Francia, Grecia y Marruecos.

In [18]:
print('Numero de estimaciones para France:')
print(len(success_estimates['France']))

print('Numero de estimaciones para Greece:')
print(len(success_estimates['Greece']))

print('Numero de estimaciones para Morocco:')
print(len(success_estimates['Morocco']))

Numero de estimaciones para France:
4
Numero de estimaciones para Greece:
6
Numero de estimaciones para Morocco:
1


### Ejercicio 2:

¿Cuál de los siguientes sería útil para almacenar estimaciones de éxito del proyecto si estuvieran disponibles a nivel regional en lugar de a nivel de país?

(a) List

(b) Dictionary

(c) Float

(d) String

**Respuesta.** (b).

(a) Las listas de Python almacenan datos de manera ordenada, donde cada elemento de una lista puede ser de cualquier tipo. No hay una asignación entre claves y valores en las listas de Python, sino que se accede a los elementos de la lista mediante índices enteros. Las listas se utilizan comúnmente para agrupar datos relacionados para su posterior procesamiento. En este caso, los datos de nivel regional aún consistirían en pares clave-valor (donde las claves son los nombres de las regiones), por lo que las listas no son ideales.

(b) B es la **respuesta correcta** ya que los diccionarios usan un par clave-valor para representar datos. Son de rápido acceso y están desordenadas. Los diccionarios son especialmente útiles cuando se accede a los datos mediante un identificador de uso común, como los nombres de países utilizados en este caso o los nombres de regiones, como se indica en este ejemplo.

(c) Los flotantes se usan para representar datos numéricos, por lo tanto, no se usan para asignar claves a valores.

(d) Las cadenas se utilizan para representar datos textuales. Si bien a menudo se usan como claves en un diccionario, las cadenas en sí mismas no están diseñadas para almacenar pares clave-valor de ningún tipo.

Ahora que estamos familiarizados con el uso de listas y sabemos que las listas son estructuras de datos ordenadas mientras que los diccionarios son estructuras de datos desordenadas, comencemos a comparar las estimaciones de éxito entre países.


## Cálculo de una estimación de éxito promedio específica de un país

Continuando con nuestro análisis sobre Jamaica, la lista contiene tres números, [0.61, 0.65, 0.71]. Recuerde que estos números son del tipo ```float``` en Python, que almacena valores decimales numéricos. Una forma lógica de resumir estas estimaciones para que puedan compararse entre países es utilizar el promedio aritmético. Usemos operadores aritméticos básicos para calcular la estimación promedio de éxito para Jamaica, almacenando el resultado en una nueva variable ```prom_jamaica```:


In [19]:
prom_jamaica = (0.61 + 0.65 + 0.71) / 3
print(prom_jamaica)

0.6566666666666666


Vemos que la probabilidad promedio de estimación de éxito para Jamaica es de aproximadamente 0,657. Sin embargo, producimos esta estimación codificando manualmente los valores. Si tuviéramos que hacer esto para todos los países, llevaría bastante tiempo. Así que nos gustaría usar una forma más automatizada de producir el promedio.


Para producir un promedio podemos utilizar una <b>función</b>. Las funciones operan sobre datos y variables en Python para realizar una acción deseada. Las funciones pueden tener tanto <b>entradas</b> como <b>salidas</b>, al igual que los operadores matemáticos familiares como la suma, la resta, la multiplicación y la división (cada uno de los cuales tiene dos entradas y una salida). Si bien las funciones en Python aún pueden tener un propósito matemático, como elevar al cuadrado un número entero, Python permite un comportamiento de función más abstracto, como imprimir en la pantalla. En este caso, la función ```print()``` imprimirá su entrada en la pantalla.


Usemos las funciones matemáticas integradas de Python ```sum()```, ```min()``` y ```max()``` para calcular la estimación de éxito promedio de Jamaica, la estimación de éxito mínima y estimación máxima de éxito, respectivamente:

In [20]:
pais = 'Jamaica'
jamaica_list = success_estimates[pais] #
print(jamaica_list)

[0.61, 0.65, 0.71]


In [21]:
avg_jamaica = sum(jamaica_list) / len(jamaica_list)
min_jamaica = min(jamaica_list)
max_jamaica = max(jamaica_list)
print("Pais:",pais,", Promedio:",avg_jamaica)
print("Pais:",pais,", Min:",min_jamaica)
print("Pais:",pais,", Max:",max_jamaica)

Pais: Jamaica , Promedio: 0.6566666666666666
Pais: Jamaica , Min: 0.61
Pais: Jamaica , Max: 0.71


Como era de esperar, obtenemos el mismo resultado promedio de aproximadamente 0.657. Tenga en cuenta que también podríamos haber redondeado los resultados a dos lugares decimales utilizando el método ```round()```. Esto puede mejorar la legibilidad.


In [22]:
avg_jamaica = round(sum(jamaica_list) / len(jamaica_list),2)
min_jamaica = round(min(jamaica_list),2)
max_jamaica = round(max(jamaica_list),2)
print("Pais:",pais,", Promedio:",avg_jamaica)
print("Pais:",pais,", Min:",min_jamaica)
print("Pais:",pais,", Max:",max_jamaica)

Pais: Jamaica , Promedio: 0.66
Pais: Jamaica , Min: 0.61
Pais: Jamaica , Max: 0.71


Las funciones en Python son una herramienta muy poderosa para aumentar la productividad y realizar tareas más complejas.


### Ejercicio 3:

Escriba un guión para calcular el éxito promedio de cada país. Muestra (usando ```print()```) la estimación de éxito promedio de cada país en la pantalla. Las declaraciones de impresión deben mostrar cada país en una nueva línea, por ejemplo:

```
Pais: France , Promedio: 0.655
Pais: Brazil , Promedio: 0.29
```

In [23]:
print("Pais:",'France',", Promedio:",sum(success_estimates['France']) / len(success_estimates['France']))
print("Pais:",'Brazil',", Promedio:",sum(success_estimates['Brazil']) / len(success_estimates['Brazil']))
print("Pais:",'Argentina',", Promedio:",sum(success_estimates['Argentina']) / len(success_estimates['Argentina']))
print("Pais:",'Germany',", Promedio:",sum(success_estimates['Germany']) / len(success_estimates['Germany']))
print("Pais:",'Australia',", Promedio:",sum(success_estimates['Australia']) / len(success_estimates['Australia']))
print("Pais:",'Canada',", Promedio:",sum(success_estimates['Canada']) / len(success_estimates['Canada']))
print("Pais:",'Greece',", Promedio:",sum(success_estimates['Greece']) / len(success_estimates['Greece']))
print("Pais:",'USA',", Promedio:",sum(success_estimates['USA']) / len(success_estimates['USA']))
print("Pais:",'Switzerland',", Promedio:",sum(success_estimates['Switzerland']) / len(success_estimates['Switzerland']))
print("Pais:",'Tunisia',", Promedio:",sum(success_estimates['Tunisia']) /len(success_estimates['Tunisia']))
print("Pais:",'Italy',", Promedio:",sum(success_estimates['Italy']) / len(success_estimates['Italy']))
print("Pais:",'Egypt',", Promedio:",sum(success_estimates['Egypt']) / len(success_estimates['Egypt']))
print("Pais:",'Jamaica',", Promedio:",sum(success_estimates['Jamaica']) / len(success_estimates['Jamaica']))
print("Pais:",'Morocco',", Promedio:",sum(success_estimates['Morocco']) / len(success_estimates['Morocco']))
print("Pais:",'England',", Promedio:",sum(success_estimates['England']) / len(success_estimates['England']))

Pais: France , Promedio: 0.655
Pais: Brazil , Promedio: 0.29
Pais: Argentina , Promedio: 0.22
Pais: Germany , Promedio: 0.4333333333333333
Pais: Australia , Promedio: 0.29500000000000004
Pais: Canada , Promedio: 0.275
Pais: Greece , Promedio: 0.61
Pais: USA , Promedio: 0.3333333333333333
Pais: Switzerland , Promedio: 0.7859999999999999
Pais: Tunisia , Promedio: 0.6200000000000001
Pais: Italy , Promedio: 0.6
Pais: Egypt , Promedio: 0.99
Pais: Jamaica , Promedio: 0.6566666666666666
Pais: Morocco , Promedio: 0.29
Pais: England , Promedio: 0.45


## Determinar sistemáticamente la estimación promedio de éxito para todos los países.

El objetivo final de este análisis es una recomendación sobre dónde se deben considerar las oportunidades de expansión global. Para llegar a una conclusión, lo ideal sería tener la probabilidad de éxito promedio de cada país.

Para lograr esto, utilizaremos un elemento de flujo de control en Python: el <b>bucle for</b>. El bucle ```for``` permite ejecutar las mismas declaraciones una y otra vez (es decir, bucle). Esto ahorra una cantidad significativa de tiempo de codificación de tareas repetitivas y ayuda a la legibilidad del código. La estructura general de un bucle for es:


```python
for iterator_variable in some_sequence:
    statements(s)
```

El ciclo for itera sobre ```some_sequence``` y realiza ```declaraciones``` en cada iteración. Es decir, en cada iteración, ```iterator_variable``` se actualiza al siguiente valor en ```some_sequence```. Como ejemplo concreto, considere el bucle:


```python
for i in [1,2,3,4]:
    print(i*i)
```


Aquí, el ciclo for se imprimirá en la pantalla cuatro veces; es decir, imprimirá ```1``` en la primera iteración del ciclo, ```4``` en la segunda iteración, ```9``` en la tercera y ```16`` ` en el cuarto. Por lo tanto, la declaración del ciclo for iterará sobre todos los elementos de la lista ```[1,2,3,4]```, y en cada iteración actualizará la variable del iterador ```i``` a la siguiente valor en la lista ```[1,2,3,4]```.

Usemos un bucle for en los datos de nuestro país obteniendo una lista de todas las claves en ```success_estimates```:


In [24]:
country_name_list = list(success_estimates.keys())
print(country_name_list)

['Australia', 'France', 'Italy', 'Brazil', 'USA', 'England', 'Canada', 'Argentina', 'Greece', 'Morocco', 'Tunisia', 'Egypt', 'Jamaica', 'Switzerland', 'Germany']


Aquí recorremos todos los elementos en ```country_name_list```, extraemos el valor correspondiente de ```success_estimates``` (que será del tipo lista), y posteriormente tomamos la media de la lista. La impresión detallada lo guiará a través de la ejecución del bucle for.


In [25]:
for i in country_name_list:
    print('--Comenzar iteracion--')
    print('Pais i = ' + i)
    print('Acceder al valor success_estimates[i]: ', success_estimates[i])
    print('Promedio de success_estimates[i]: ', sum(success_estimates[i]) / len(success_estimates[i]))
    print('--Ir a la siguiente iteracion del loop--')

--Comenzar iteracion--
Pais i = Australia
Acceder al valor success_estimates[i]:  [0.6, 0.33, 0.11, 0.14]
Promedio de success_estimates[i]:  0.29500000000000004
--Ir a la siguiente iteracion del loop--
--Comenzar iteracion--
Pais i = France
Acceder al valor success_estimates[i]:  [0.66, 0.78, 0.98, 0.2]
Promedio de success_estimates[i]:  0.655
--Ir a la siguiente iteracion del loop--
--Comenzar iteracion--
Pais i = Italy
Acceder al valor success_estimates[i]:  [0.6]
Promedio de success_estimates[i]:  0.6
--Ir a la siguiente iteracion del loop--
--Comenzar iteracion--
Pais i = Brazil
Acceder al valor success_estimates[i]:  [0.22, 0.22, 0.43]
Promedio de success_estimates[i]:  0.29
--Ir a la siguiente iteracion del loop--
--Comenzar iteracion--
Pais i = USA
Acceder al valor success_estimates[i]:  [0.2, 0.5, 0.3]
Promedio de success_estimates[i]:  0.3333333333333333
--Ir a la siguiente iteracion del loop--
--Comenzar iteracion--
Pais i = England
Acceder al valor success_estimates[i]:  [0.

Echemos un vistazo más de cerca al bucle anterior ```for```. La ```country_name_list``` tiene 15 países sobre los cuales itera el bucle ```for```. El bucle ```for``` utiliza una variable de marcador de posición, denominada ```i``` en este caso, para almacenar el elemento de ```country_name_list``` al que corresponde cada iteración del bucle. Es decir, para la primera iteración del ciclo ```for```, ```i = 'Brasil'```. Para la segunda iteración, ```i = 'Canada'```. Y así sucesivamente hasta que el bucle alcance el elemento final de ```country_name_list```, que luego completa y sale del proceso de bucle.

¿Por qué es útil este proceso de bucle? Bueno, ¡hemos realizado las mismas declaraciones de cálculo 15 veces y solo escribimos el código una vez! Observe que para cada iteración, se accede al valor correspondiente de ```success_estimates``` y se calcula la media de la lista devuelta. El proceso de bucle ```for``` también mejora la legibilidad del código.


### Ejercicio 4:

Escriba un bucle for para calcular el mínimo y el máximo de la lista de estimaciones de éxito de cada país, imprimiendo cada uno consecutivamente como en el ejemplo de bucle for anterior.

In [26]:
for i in country_name_list:
    print('Pais',i,', Min: ', min(success_estimates[i]))
    print('Pais',i,', Max: ', max(success_estimates[i]))

Pais Australia , Min:  0.11
Pais Australia , Max:  0.6
Pais France , Min:  0.2
Pais France , Max:  0.98
Pais Italy , Min:  0.6
Pais Italy , Max:  0.6
Pais Brazil , Min:  0.22
Pais Brazil , Max:  0.43
Pais USA , Min:  0.2
Pais USA , Max:  0.5
Pais England , Min:  0.45
Pais England , Max:  0.45
Pais Canada , Min:  0.25
Pais Canada , Max:  0.3
Pais Argentina , Min:  0.22
Pais Argentina , Max:  0.22
Pais Greece , Min:  0.15
Pais Greece , Max:  0.99
Pais Morocco , Min:  0.29
Pais Morocco , Max:  0.29
Pais Tunisia , Min:  0.56
Pais Tunisia , Max:  0.68
Pais Egypt , Min:  0.99
Pais Egypt , Max:  0.99
Pais Jamaica , Min:  0.61
Pais Jamaica , Max:  0.71
Pais Switzerland , Min:  0.51
Pais Switzerland , Max:  0.99
Pais Germany , Min:  0.36
Pais Germany , Max:  0.49


### Ejercicio 5:

Usando el ciclo for, escriba código para determinar el país con el mayor rango de estimaciones de éxito (es decir, la mayor diferencia entre la estimación más pequeña y la más grande para un país).

In [27]:
for i in country_name_list:
    country_range = max(success_estimates[i]) - min(success_estimates[i])
    print('Pais: ', i, ", Rango: ", country_range)

Pais:  Australia , Rango:  0.49
Pais:  France , Rango:  0.78
Pais:  Italy , Rango:  0.0
Pais:  Brazil , Rango:  0.21
Pais:  USA , Rango:  0.3
Pais:  England , Rango:  0.0
Pais:  Canada , Rango:  0.04999999999999999
Pais:  Argentina , Rango:  0.0
Pais:  Greece , Rango:  0.84
Pais:  Morocco , Rango:  0.0
Pais:  Tunisia , Rango:  0.12
Pais:  Egypt , Rango:  0.0
Pais:  Jamaica , Rango:  0.09999999999999998
Pais:  Switzerland , Rango:  0.48
Pais:  Germany , Rango:  0.13


## Usar listas de comprensión para determinar el número de estimaciones para cada país

En el futuro, nos interesa saber el número de estimaciones de éxito disponibles para cada país. Python ofrece una forma concisa de lograr este objetivo mediante el uso de <b>listas de comprensión</b>.

Las comprensiones de lista permiten construir una lista de manera concisa. Echemos un vistazo a cómo funciona esto.


In [28]:
key_name_list = [i for i in success_estimates]
key_name_list

['Australia',
 'France',
 'Italy',
 'Brazil',
 'USA',
 'England',
 'Canada',
 'Argentina',
 'Greece',
 'Morocco',
 'Tunisia',
 'Egypt',
 'Jamaica',
 'Switzerland',
 'Germany']

Here we see that we've looped over each key of the dictionary success_estimates (hence each country), and extracted the country name, all in one line of code. We can also access the values of each key in success_estimates.

In [29]:
value_name_list = [success_estimates[i] for i in success_estimates] # 
value_name_list

[[0.6, 0.33, 0.11, 0.14],
 [0.66, 0.78, 0.98, 0.2],
 [0.6],
 [0.22, 0.22, 0.43],
 [0.2, 0.5, 0.3],
 [0.45],
 [0.25, 0.3],
 [0.22],
 [0.45, 0.66, 0.75, 0.99, 0.15, 0.66],
 [0.29],
 [0.68, 0.56],
 [0.99],
 [0.61, 0.65, 0.71],
 [0.73, 0.86, 0.84, 0.51, 0.99],
 [0.45, 0.49, 0.36]]

En la lista de comprensión anterior, cada valor de ```i``` es un nombre de país y el valor se devuelve cuando se llama a ```success_estimates[i]```. Vemos que la comprensión de listas es una forma efectiva y concisa de escribir un ciclo for que crea una lista.

Podemos usar esto para determinar rápidamente cuántas estimaciones de éxito están disponibles para cada país.


In [30]:
[[i,len(success_estimates[i])] for i in success_estimates]

[['Australia', 4],
 ['France', 4],
 ['Italy', 1],
 ['Brazil', 3],
 ['USA', 3],
 ['England', 1],
 ['Canada', 2],
 ['Argentina', 1],
 ['Greece', 6],
 ['Morocco', 1],
 ['Tunisia', 2],
 ['Egypt', 1],
 ['Jamaica', 3],
 ['Switzerland', 5],
 ['Germany', 3]]

### Ejercicio 6:

In [31]:
success_estimates

{'Argentina': [0.22],
 'Australia': [0.6, 0.33, 0.11, 0.14],
 'Brazil': [0.22, 0.22, 0.43],
 'Canada': [0.25, 0.3],
 'Egypt': [0.99],
 'England': [0.45],
 'France': [0.66, 0.78, 0.98, 0.2],
 'Germany': [0.45, 0.49, 0.36],
 'Greece': [0.45, 0.66, 0.75, 0.99, 0.15, 0.66],
 'Italy': [0.6],
 'Jamaica': [0.61, 0.65, 0.71],
 'Morocco': [0.29],
 'Switzerland': [0.73, 0.86, 0.84, 0.51, 0.99],
 'Tunisia': [0.68, 0.56],
 'USA': [0.2, 0.5, 0.3]}

Usando la comprensión de listas, escriba un script para crear una <b>lista de listas</b> llamada ```sum_squares_list```, donde cada elemento de la lista es una lista de dos elementos [nombre del país, valor]. El elemento de valor en la lista debe ser la suma de los cuadrados de las estimaciones de éxito de ese país. Por ejemplo, un elemento de ```sum_squares_list``` debería ser para Jamaica, donde la lista de dos elementos es [Jamaica, 1,2987] (ya que 1,2987 = 0,61^2 + 0,65^2 + 0,71^2).


In [32]:
sum_squares_list = [[i, sum([j**2 for j in success_estimates[i]])] for i in success_estimates]
sum_squares_list

[['Australia', 0.5005999999999999],
 ['France', 2.0444],
 ['Italy', 0.36],
 ['Brazil', 0.28169999999999995],
 ['USA', 0.38],
 ['England', 0.2025],
 ['Canada', 0.1525],
 ['Argentina', 0.0484],
 ['Greece', 2.6388],
 ['Morocco', 0.0841],
 ['Tunisia', 0.7760000000000001],
 ['Egypt', 0.9801],
 ['Jamaica', 1.2987],
 ['Switzerland', 3.2183],
 ['Germany', 0.5722]]

### Ejercicio 7:

Nos gustaría determinar la dispersión alrededor de la estimación de éxito promedio para cada país. Usando listas de comprensión, escriba un código que reste la estimación de éxito promedio para un país dado de cada estimación de éxito para ese país. Almacene los resultados en una lista llamada ```removed_mean_list```. Redondea los valores a dos decimales. Su salida debe producir la siguiente lista de listas:


```
[['Australia', [0.3, 0.03, -0.19, -0.16]],
 ['France', [0.01, 0.12, 0.32, -0.46]],
 ['Italy', [0.0]],
 ['Brazil', [-0.07, -0.07, 0.14]],
 ['USA', [-0.13, 0.17, -0.03]],
 ['England', [0.0]],
 ['Canada', [-0.03, 0.02]],
 ['Argentina', [0.0]],
 ['Greece', [-0.16, 0.05, 0.14, 0.38, -0.46, 0.05]],
 ['Morocco', [0.0]],
 ['Tunisia', [0.06, -0.06]],
 ['Egypt', [0.0]],
 ['Jamaica', [-0.05, -0.01, 0.05]],
 ['Switzerland', [-0.06, 0.07, 0.05, -0.28, 0.2]],
 ['Germany', [0.02, 0.06, -0.07]]]
```

In [33]:
removed_mean_list = [[i, [round(j - sum(success_estimates[i])/len(success_estimates[i]),2) for j in success_estimates[i]]] for i in success_estimates]
removed_mean_list

[['Australia', [0.3, 0.03, -0.19, -0.16]],
 ['France', [0.01, 0.12, 0.32, -0.46]],
 ['Italy', [0.0]],
 ['Brazil', [-0.07, -0.07, 0.14]],
 ['USA', [-0.13, 0.17, -0.03]],
 ['England', [0.0]],
 ['Canada', [-0.03, 0.02]],
 ['Argentina', [0.0]],
 ['Greece', [-0.16, 0.05, 0.14, 0.38, -0.46, 0.05]],
 ['Morocco', [0.0]],
 ['Tunisia', [0.06, -0.06]],
 ['Egypt', [0.0]],
 ['Jamaica', [-0.05, -0.01, 0.05]],
 ['Switzerland', [-0.06, 0.07, 0.05, -0.28, 0.2]],
 ['Germany', [0.02, 0.06, -0.07]]]

## Reflexión sobre la estimación del éxito medio específico del país

Con base en el análisis anterior, vemos que las estimaciones de éxito promedio de los países varían ampliamente, desde el más bajo, Canadá = 0,275, hasta el más alto, Egipto = 0,99. Sin embargo, observe que la media de Egipto se calcula a partir de 1 estimación de éxito. ¿Confiamos en confiar en una sola estimación como indicador de la estimación promedio de éxito?

Dado que el proyecto de expansión global utilizará valiosos recursos de la empresa, decidimos que es mejor restringir nuestro análisis a países que tienen dos o más estimaciones de éxito. Para realizar esta tarea, utilizaremos una estructura de control en Python conocida como la declaración <b>if...elif...else</b>. La estructura general sigue.


```python
if test_expression_1:
    block1_statement(s)
elif test_expression_2:
    block2_statement2(s)
else:
    block3_statement(s)
```

Aquí, ```test_expression_1``` y ```test_expression_2``` deben evaluarse como ```True``` o ```False```, un tipo <b>booleano</b> de Python. El tipo booleano está asociado con variables que son ```Verdadero``` o ```Falso```.

Si ```test_expression_1``` es Verdadero, ```block1_statement(s)``` se ejecutará y las otras sentencias de bloque no. Si ```test_expression_1``` es False pero ```test_expression_2``` es True, entonces ```block2_statement2(s)``` se ejecutará y los demás no. Finalmente, si ```test_expression_1``` y ```test_expression_2``` son False, entonces se ejecutará ```block3_statement(s)``` de la sección else. Esta estructura condicional de una declaración if permite controlar el flujo del código de Python.

Usemos esto para filtrar los países que solo tienen una estimación de éxito.



## Seleccionar solo países de observación múltiple para el potencial de expansión global

Usaremos la declaración if anterior para eliminar países con menos de una estimación de éxito. Para facilitar la visualización del resultado, almacenaremos las estimaciones medias de cada país en un nuevo diccionario ```country_means```.


In [34]:
# lista con todos los nombres
country_name_list = list(success_estimates.keys())

# diccionario vacio para almacenar las estimaciones 
country_means = {}

# Loop para cada pais y extraer la media
for i in country_name_list:
    list_country_estimates = success_estimates[i] # l

    # si existe mas de una estimacion calcularemos la media en caso contrario no
    if len(success_estimates[i]) > 1:
        country_mean_value = sum(list_country_estimates) / len(list_country_estimates)
        country_means[i] =  country_mean_value # insertar el nombre del pais en el diccionario

In [36]:
success_estimates

{'Argentina': [0.22],
 'Australia': [0.6, 0.33, 0.11, 0.14],
 'Brazil': [0.22, 0.22, 0.43],
 'Canada': [0.25, 0.3],
 'Egypt': [0.99],
 'England': [0.45],
 'France': [0.66, 0.78, 0.98, 0.2],
 'Germany': [0.45, 0.49, 0.36],
 'Greece': [0.45, 0.66, 0.75, 0.99, 0.15, 0.66],
 'Italy': [0.6],
 'Jamaica': [0.61, 0.65, 0.71],
 'Morocco': [0.29],
 'Switzerland': [0.73, 0.86, 0.84, 0.51, 0.99],
 'Tunisia': [0.68, 0.56],
 'USA': [0.2, 0.5, 0.3]}

In [35]:
country_means

{'Australia': 0.29500000000000004,
 'Brazil': 0.29,
 'Canada': 0.275,
 'France': 0.655,
 'Germany': 0.4333333333333333,
 'Greece': 0.61,
 'Jamaica': 0.6566666666666666,
 'Switzerland': 0.7859999999999999,
 'Tunisia': 0.6200000000000001,
 'USA': 0.3333333333333333}

Démosle formato a nuestros resultados, modificando la salida de cadena a la pantalla para usar 2 decimales al imprimir el tipo flotante. Esto se logra utilizando la funcionalidad ```.format()``` del tipo de cadena. El ```{0:s}``` y ```{1:.2f}``` en la cadena indican al método ```.format()``` para formatear la primera variable que recibe como ingrese como una cadena y reemplace el marcador de posición ```{0:s}```, y para formatear la segunda variable que recibe como entrada como un flotante de 2 decimales y reemplace el ```{1:.2f}`` ` marcador de posición.

Con este formato, la variable ```country_key``` se mostrará como una cadena en lugar de ```{0:s}```, mientras que se mostrará la variable ```country_means[country_key]``` como un flotante de 2 decimales en lugar de ```{1:.2f}```. Este enfoque de formato de cadena avanzado es útil para mejorar la claridad de los resultados.


In [37]:
for country_key in country_means: 
    print("Pais: {0:s}, Promedio de estimacion: {1:.2f}".format(country_key, country_means[country_key]))

Pais: Australia, Promedio de estimacion: 0.30
Pais: France, Promedio de estimacion: 0.66
Pais: Brazil, Promedio de estimacion: 0.29
Pais: USA, Promedio de estimacion: 0.33
Pais: Canada, Promedio de estimacion: 0.28
Pais: Greece, Promedio de estimacion: 0.61
Pais: Tunisia, Promedio de estimacion: 0.62
Pais: Jamaica, Promedio de estimacion: 0.66
Pais: Switzerland, Promedio de estimacion: 0.79
Pais: Germany, Promedio de estimacion: 0.43


Al observar las medias de los países resultantes, notamos que el país con la mayor estimación de éxito promedio es Suiza con 0,79, mientras que la estimación de éxito promedio más baja es Canadá con 0,28.

### Ejercicio 8:

Después de revisar la política de la empresa sobre procedimientos estadísticos, observa que la empresa recomienda que todas las estimaciones (promedios, mínimos, máximos) deben tener al menos tres valores que contribuyan a la estadística de resumen. Escriba un ciclo for y use la estructura de declaración ```if``` para seleccionar e imprimir las estimaciones de éxito promedio para los países que cumplen con esta política. Si el país no cumple con la política, escriba el nombre del país y ``"*No cumple con la política de la empresa*"``. Cada país debe aparecer en una nueva línea.


In [39]:
# lista con los nombres de los paises
country_name_list = list(success_estimates.keys())

# diccionario vacio para almacenar los resultados
country_means = {}

# loop para calcular los promedios
for i in country_name_list:
    list_country_estimates = success_estimates[i] # 

    # si hay mas de dos estimaciones calcular el promedio
    if len(success_estimates[i]) > 2:
        country_mean_value = sum(list_country_estimates) / len(list_country_estimates)
        country_means[i] =  country_mean_value # insertar el valor al diccionario
        print("Pais: {0:s}, Promedio: {1:.2f}".format(i, country_mean_value))
        print("Pais: {0:s}, *cumple con la politica de la empresa*".format(i))

Pais: Australia, Promedio: 0.30
Pais: Australia, *cumple con la politica de la empresa*
Pais: France, Promedio: 0.66
Pais: France, *cumple con la politica de la empresa*
Pais: Brazil, Promedio: 0.29
Pais: Brazil, *cumple con la politica de la empresa*
Pais: USA, Promedio: 0.33
Pais: USA, *cumple con la politica de la empresa*
Pais: Greece, Promedio: 0.61
Pais: Greece, *cumple con la politica de la empresa*
Pais: Jamaica, Promedio: 0.66
Pais: Jamaica, *cumple con la politica de la empresa*
Pais: Switzerland, Promedio: 0.79
Pais: Switzerland, *cumple con la politica de la empresa*
Pais: Germany, Promedio: 0.43
Pais: Germany, *cumple con la politica de la empresa*


### Ejercicio 9:

¿Cuál es otro enfoque para mejorar el problema de una muestra para algunos países? Piense en términos de los factores que impulsan la confianza en las decisiones comerciales basadas en datos.

(a) Agrupe los países en regiones más grandes para garantizar que cada región tenga al menos una estimación

(b) Solo elimine un país si sus estimaciones son muy grandes o muy pequeñas en comparación con otras estimaciones

(c) Usar una estadística de resumen diferente para el análisis que no sea el valor promedio

(d) Revisar por qué algunos países solo tienen una estimación y ver si se pueden obtener más datos para estos países


**Respuesta.** (d).

La respuesta (a) suena como un buen enfoque, sin embargo, no logrará la tarea en cuestión. La tarea es encontrar un país específico para la expansión global, no una región. Por lo tanto, si se reagruparan los países en regiones, primero tendrían que redefinir el enunciado del problema.

La respuesta (b) es un método incorrecto para manejar este conjunto de datos en particular, ya que las estadísticas del país deben calcularse independientemente de otros países. Si las estimaciones de un país dependen de otro, esto podría complicar significativamente el análisis y probablemente requeriría una investigación más compleja y costosa.

Con respecto a la respuesta (c), el uso de una estadística de resumen diferente no resolverá el problema de tener una muestra para el cálculo estadístico. Nos gustaría tener más confianza en nuestra estimación estadística. El uso de una medida de éxito diferente, como la estimación mínima o máxima, no mejorará el problema del tamaño de la muestra única.

Es común volver a visitar la fuente del conjunto de datos para un problema a medida que se realiza un análisis iterativo. Por lo tanto, la respuesta (d) es un enfoque correcto para mejorar el problema del tamaño de una muestra. A medida que se obtienen nuevos conocimientos a lo largo del análisis, siempre se debe reflexionar sobre el proceso de recopilación de datos y determinar si alguna información nueva puede ayudar a que el análisis avance. En este caso, al observar que algunos países tienen una estimación, probablemente sería beneficioso determinar por qué algunos países tienen una cantidad tan pequeña de estimaciones y si existe un método simple y rentable para obtener estimaciones adicionales para estos países antes de avanzar en el analisis.


## Juntando todo

Hemos utilizado bucles for y estructuras de control para calcular estadísticas de resumen parcial para cada uno de los países. Pongamos todo junto para obtener una recomendación sobre qué país deberíamos elegir para expandir los servicios de vuelos de lujo.

### Ejercicio 10:

Escriba un código para imprimir el nombre de cada país y las estadísticas resumidas. Cada línea debe mostrar un país y las estadísticas de resumen correspondientes: Estimación mínima (flotante), Estimación promedio (flotante), Estimación máxima (flotante), Número de estimaciones (int), Cumple con la política de la empresa de al menos 3 estimaciones (bool). Por ejemplo, la línea para Francia aparecería como:

```
Pais: France , Min: 0.2 , Prom: 0.655 , Max: 0.98 , NumEst: 4 , MeetsPolicy: True
```

In [40]:
country_name_list = list(success_estimates.keys())
for i in country_name_list:
    min_stat = min(success_estimates[i])
    mean_stat = sum(success_estimates[i]) / len(success_estimates[i])
    max_stat = max(success_estimates[i])
    len_stat = len(success_estimates[i])
    meets_policy = len_stat > 2
    print('Pais:',i,', Min:',min_stat,', Prom:',mean_stat,', Max:',max_stat,', NumEst:',len_stat,', MeetsPolicy:',meets_policy)

Pais: Australia , Min: 0.11 , Prom: 0.29500000000000004 , Max: 0.6 , NumEst: 4 , MeetsPolicy: True
Pais: France , Min: 0.2 , Prom: 0.655 , Max: 0.98 , NumEst: 4 , MeetsPolicy: True
Pais: Italy , Min: 0.6 , Prom: 0.6 , Max: 0.6 , NumEst: 1 , MeetsPolicy: False
Pais: Brazil , Min: 0.22 , Prom: 0.29 , Max: 0.43 , NumEst: 3 , MeetsPolicy: True
Pais: USA , Min: 0.2 , Prom: 0.3333333333333333 , Max: 0.5 , NumEst: 3 , MeetsPolicy: True
Pais: England , Min: 0.45 , Prom: 0.45 , Max: 0.45 , NumEst: 1 , MeetsPolicy: False
Pais: Canada , Min: 0.25 , Prom: 0.275 , Max: 0.3 , NumEst: 2 , MeetsPolicy: False
Pais: Argentina , Min: 0.22 , Prom: 0.22 , Max: 0.22 , NumEst: 1 , MeetsPolicy: False
Pais: Greece , Min: 0.15 , Prom: 0.61 , Max: 0.99 , NumEst: 6 , MeetsPolicy: True
Pais: Morocco , Min: 0.29 , Prom: 0.29 , Max: 0.29 , NumEst: 1 , MeetsPolicy: False
Pais: Tunisia , Min: 0.56 , Prom: 0.6200000000000001 , Max: 0.68 , NumEst: 2 , MeetsPolicy: False
Pais: Egypt , Min: 0.99 , Prom: 0.99 , Max: 0.99 ,

## Conclusiones

Según el análisis, Suiza es el país con la mayor probabilidad de éxito para la expansión global con una tasa de éxito estimada de 0,79. La estadística resumida para Suiza se calculó con un número adecuado de estimaciones de acuerdo con la política de la empresa. Por lo tanto, se recomienda que la gerencia explore oportunidades en Suiza para servicios de vuelos de lujo.

Además, otros países que deben ser monitoreados de cerca para los servicios de vuelos de lujo son Jamaica y Francia, donde cada uno tuvo una estimación de éxito promedio de 0,66. Si hay recursos adicionales en el futuro para una mayor expansión del servicio de lujo, estos países pueden ser opciones adecuadas.


## Para llevar

En este caso, hemos aprendido los fundamentos de Python. A través de la identificación de oportunidades de expansión global para una compañía aérea, cubrimos tipos de datos fundamentales, estructuras de control y un útil flujo de trabajo de Python para analizar un conjunto de datos determinado. También aprendió sobre varias estadísticas resumidas y cuánta confianza puede tener para sacar conclusiones de ellas.

Sobre la base de este conocimiento, puede usar estas herramientas de Python como base y marco para crear proyectos más complejos y resolver problemas comerciales críticos. Python continúa siendo una herramienta excepcional para realizar análisis basados en datos y brindar información empresarial clave.
