# Interpretación y análisis exploratorio de datos

Utilizar Python como una herramienta de ciencia de datos

# Identificar oportunidades de expansión para aerolíneas comerciales

## Introducción

**Contexto.**
Identificar los mejores países para expandir los servicios de la compañía.

**Problema de negocios** <b>"¿En qué países debería de expandirse?"</b>

**Contexto analítico.** Los datos son estimaciones de probabilidad de éxito.

## Exploración de los datos

Estructura de los datos

In [1]:
# Por país
estimaciones =      {'Australia': [0.6, 0.33, 0.11, 0.14],
                     'France': [0.66, 0.78, 0.98, 0.2],
                     'Italy': [0.6],
                     'Brazil': [0.22, 0.22, 0.43],
                     'USA': [0.2, 0.5, 0.3],
                     'England': [0.45],
                     'Canada': [0.25, 0.3],
                     'Argentina': [0.22],
                     'Greece': [0.45, 0.66, 0.75, 0.99, 0.15, 0.66],
                     'Morocco': [0.29],
                     'Tunisia': [0.68, 0.56],
                     'Egypt': [0.99],
                     'Jamaica': [0.61, 0.65, 0.71],
                     'Switzerland': [0.73, 0.86, 0.84, 0.51, 0.99],
                     'Germany': [0.45, 0.49, 0.36]}

Imprimamos el objeto

In [2]:
print(estimaciones)

{'Australia': [0.6, 0.33, 0.11, 0.14], 'France': [0.66, 0.78, 0.98, 0.2], 'Italy': [0.6], 'Brazil': [0.22, 0.22, 0.43], 'USA': [0.2, 0.5, 0.3], 'England': [0.45], 'Canada': [0.25, 0.3], 'Argentina': [0.22], 'Greece': [0.45, 0.66, 0.75, 0.99, 0.15, 0.66], 'Morocco': [0.29], 'Tunisia': [0.68, 0.56], 'Egypt': [0.99], 'Jamaica': [0.61, 0.65, 0.71], 'Switzerland': [0.73, 0.86, 0.84, 0.51, 0.99], 'Germany': [0.45, 0.49, 0.36]}


Intuitivamente, la recomendación sería aquel país con estimaciones más altas. Pero hay países con más observaciones que otros.

## Interactuando con listas y diccionarios

Los métodos ```.keys()``` y ```.values()``` permiten acceder a los objetos de un diccionario.

In [5]:
# Las llaves del diccionario

estimaciones.keys()
list(estimaciones.keys())


['Australia',
 'France',
 'Italy',
 'Brazil',
 'USA',
 'England',
 'Canada',
 'Argentina',
 'Greece',
 'Morocco',
 'Tunisia',
 'Egypt',
 'Jamaica',
 'Switzerland',
 'Germany']

In [6]:
# ...y los valores
list(estimaciones.values())

[[0.6, 0.33, 0.11, 0.14],
 [0.66, 0.78, 0.98, 0.2],
 [0.6],
 [0.22, 0.22, 0.43],
 [0.2, 0.5, 0.3],
 [0.45],
 [0.25, 0.3],
 [0.22],
 [0.45, 0.66, 0.75, 0.99, 0.15, 0.66],
 [0.29],
 [0.68, 0.56],
 [0.99],
 [0.61, 0.65, 0.71],
 [0.73, 0.86, 0.84, 0.51, 0.99],
 [0.45, 0.49, 0.36]]

Con la palabra clave ```in```se puede verificar la presencia de un nombre dentro de las llaves del diccionario:

In [8]:
print("Morocco" in estimaciones)

print('Japan' in estimaciones)

True
False


Para acceder a los valores de una llave, escribirla entre ```[]```

In [9]:
estimaciones['Jamaica']

[0.61, 0.65, 0.71]

Este resultado puede almacenarse para usarse después:

In [11]:
jamaica_list = estimaciones['Jamaica']

Contenido del objeto con ```print()``` :

In [12]:
print(jamaica_list)

[0.61, 0.65, 0.71]


Acceder a los contenidos de la lista a través de los <i> índices </i> correspondientes:

In [13]:
print(jamaica_list[0])
print(jamaica_list[1])
print(jamaica_list[2])


0.61
0.65
0.71


Longitud de la lista a través de la función ```len()```

In [15]:
len(jamaica_list)

3

### Ejercicio 1:

Imprimir la longitud de France, Greece y Morocco:

**Respuesta.**

In [18]:
print(len(estimaciones['France']))

print(len(estimaciones['Greece']))

print(len(estimaciones['Morocco']))


4
6
1


### Ejercicio 2:

¿Cuál de los siguientes sería ideal para almacenar las estimaciones si estuvieran a nivel regional en vez de nacional?

(a) List

(b) Dictionary

(c) Float

(d) String

 

**Respuesta**
B

Now that we're familiar with using lists and know that lists are ordered data structures while dictionaries are unordered data structures, let's begin to compare success estimates across countries.

## Promediar estimaciones por país

Utilizar promedio aritmético

In [16]:
avg_jamaica = (0.61 + 0.65 + 0.71) / 3
print(avg_jamaica)

0.6566666666666666


Lo anterior se realizó manualmente, pero para más países sería una tarea tediosa, por eso es mejor utilizar funciones de Python pre-construidas.

Utilizar las funciones ```sum()```, ```min()```, and ```max()```:

In [18]:
avg_jamaica = sum(jamaica_list) / len(jamaica_list)
min_jamaica = min(jamaica_list)
max_jamaica = max(jamaica_list)

print("Country:","Jamaica",", Average:",avg_jamaica)


Country: Jamaica , Average: 0.6566666666666666


Mismo resultado, para simplificar se redondea con la función ```round()```

In [19]:
avg_jamaica = round(sum(jamaica_list) / len(jamaica_list),2)
min_jamaica = round(min(jamaica_list),2)
max_jamaica = round(max(jamaica_list),2)
print("Country:",'Jamaica',", Average:",avg_jamaica)


Country: Jamaica , Average: 0.66


0.66

### Ejercicio 3:

Escribir un código que calcule el promedio de las estimaciones para todos los países
```
Country: France , Average: 0.655
Country: Brazil , Average: 0.29
```

In [21]:
# Si para un solo país el procedimiento es el siguiente, construya un bucle que lo haga para todos
print(sum(estimaciones['France']) / len(estimaciones['France']))

for pais in estimaciones:
    print("Country:",pais,", Average:",sum(estimaciones[pais]) / len(estimaciones[pais]))

for i in estimaciones:
    print(i, sum(estimaciones[i]) / len(estimaciones[i]) )

    

0.655
Country: Australia , Average: 0.29500000000000004
Country: France , Average: 0.655
Country: Italy , Average: 0.6
Country: Brazil , Average: 0.29
Country: USA , Average: 0.3333333333333333
Country: England , Average: 0.45
Country: Canada , Average: 0.275
Country: Argentina , Average: 0.22
Country: Greece , Average: 0.61
Country: Morocco , Average: 0.29
Country: Tunisia , Average: 0.6200000000000001
Country: Egypt , Average: 0.99
Country: Jamaica , Average: 0.6566666666666666
Country: Switzerland , Average: 0.7859999999999999
Country: Germany , Average: 0.4333333333333333
Australia 0.29500000000000004
France 0.655
Italy 0.6
Brazil 0.29
USA 0.3333333333333333
England 0.45
Canada 0.275
Argentina 0.22
Greece 0.61
Morocco 0.29
Tunisia 0.6200000000000001
Egypt 0.99
Jamaica 0.6566666666666666
Switzerland 0.7859999999999999
Germany 0.4333333333333333


**Respuesta**

In [33]:
for i in estimaciones:
    print("Country:",i,", Average:",sum(estimaciones[i]) / len(estimaciones[i]))

Country: Australia , Average: 0.29500000000000004
Country: France , Average: 0.655
Country: Italy , Average: 0.6
Country: Brazil , Average: 0.29
Country: USA , Average: 0.3333333333333333
Country: England , Average: 0.45
Country: Canada , Average: 0.275
Country: Argentina , Average: 0.22
Country: Greece , Average: 0.61
Country: Morocco , Average: 0.29
Country: Tunisia , Average: 0.6200000000000001
Country: Egypt , Average: 0.99
Country: Jamaica , Average: 0.6566666666666666
Country: Switzerland , Average: 0.7859999999999999
Country: Germany , Average: 0.4333333333333333


### Ejercicio 4:

Escriba un bucle para calcular el mínimo y máximo de cada país.

**Respuesta.**

In [23]:
for pais in estimaciones:
    print('Country',pais,', Min: ', min(estimaciones[pais]))
    print('Country',pais,', Max: ', max(estimaciones[pais]))

Country Australia , Min:  0.11
Country Australia , Max:  0.6
Country France , Min:  0.2
Country France , Max:  0.98
Country Italy , Min:  0.6
Country Italy , Max:  0.6
Country Brazil , Min:  0.22
Country Brazil , Max:  0.43
Country USA , Min:  0.2
Country USA , Max:  0.5
Country England , Min:  0.45
Country England , Max:  0.45
Country Canada , Min:  0.25
Country Canada , Max:  0.3
Country Argentina , Min:  0.22
Country Argentina , Max:  0.22
Country Greece , Min:  0.15
Country Greece , Max:  0.99
Country Morocco , Min:  0.29
Country Morocco , Max:  0.29
Country Tunisia , Min:  0.56
Country Tunisia , Max:  0.68
Country Egypt , Min:  0.99
Country Egypt , Max:  0.99
Country Jamaica , Min:  0.61
Country Jamaica , Max:  0.71
Country Switzerland , Min:  0.51
Country Switzerland , Max:  0.99
Country Germany , Min:  0.36
Country Germany , Max:  0.49


### Ejercicio 5:

Escriba un bucle que genere la diferencia entre el máximo y mínimo de las estimaciones de todos los países

**Respuesta.**

In [26]:
for i in estimaciones:
    country_range = max(estimaciones[i]) - min(estimaciones[i])
    print('Country: ', i, ", Range: ", country_range)

# Visualizally analyzing the output, we see Greece has the largest range

Country:  Australia , Range:  0.49
Country:  France , Range:  0.78
Country:  Italy , Range:  0.0
Country:  Brazil , Range:  0.21
Country:  USA , Range:  0.3
Country:  England , Range:  0.0
Country:  Canada , Range:  0.04999999999999999
Country:  Argentina , Range:  0.0
Country:  Greece , Range:  0.84
Country:  Morocco , Range:  0.0
Country:  Tunisia , Range:  0.12
Country:  Egypt , Range:  0.0
Country:  Jamaica , Range:  0.09999999999999998
Country:  Switzerland , Range:  0.48
Country:  Germany , Range:  0.13


## List Comprehension

Permite construir listas eficientemente

In [28]:
key_name_list = [i for i in estimaciones] # Es un bucle que itera para cada elemento y los guarda en la lista
key_name_list


['Australia',
 'France',
 'Italy',
 'Brazil',
 'USA',
 'England',
 'Canada',
 'Argentina',
 'Greece',
 'Morocco',
 'Tunisia',
 'Egypt',
 'Jamaica',
 'Switzerland',
 'Germany']

Ahora iterar para los valores

In [29]:
value_name_list = [estimaciones[i] for i in estimaciones]
value_name_list

[[0.6, 0.33, 0.11, 0.14],
 [0.66, 0.78, 0.98, 0.2],
 [0.6],
 [0.22, 0.22, 0.43],
 [0.2, 0.5, 0.3],
 [0.45],
 [0.25, 0.3],
 [0.22],
 [0.45, 0.66, 0.75, 0.99, 0.15, 0.66],
 [0.29],
 [0.68, 0.56],
 [0.99],
 [0.61, 0.65, 0.71],
 [0.73, 0.86, 0.84, 0.51, 0.99],
 [0.45, 0.49, 0.36]]

Cada país se llama con i, y para acceder al valor: estimaciones[i]

In [30]:
# Número de estimaciones por cada país
[[i,len(estimaciones[i])] for i in estimaciones]

[['Australia', 4],
 ['France', 4],
 ['Italy', 1],
 ['Brazil', 3],
 ['USA', 3],
 ['England', 1],
 ['Canada', 2],
 ['Argentina', 1],
 ['Greece', 6],
 ['Morocco', 1],
 ['Tunisia', 2],
 ['Egypt', 1],
 ['Jamaica', 3],
 ['Switzerland', 5],
 ['Germany', 3]]

### Ejercicio 6:

Crear una lista donde cada elemento es una lista de 2 elementos [Country, value]. El valor debería ser la suma de cuadrados de las estimaciones del país. Por ejemplo, para Jamaica el resultado debería ser [Jamaica, 1.2987] puesto que 1.2987 = 0.61^2 + 0.65^2 + 0.71^2.

**Respuesta**:

In [32]:
# List comprehension anidado
sum_squares_list = [[i, sum([j**2 for j in estimaciones[i]])] for i in estimaciones]
sum_squares_list

[['Australia', 0.5005999999999999],
 ['France', 2.0444],
 ['Italy', 0.36],
 ['Brazil', 0.28169999999999995],
 ['USA', 0.38],
 ['England', 0.2025],
 ['Canada', 0.1525],
 ['Argentina', 0.0484],
 ['Greece', 2.6388],
 ['Morocco', 0.0841],
 ['Tunisia', 0.7760000000000001],
 ['Egypt', 0.9801],
 ['Jamaica', 1.2987],
 ['Switzerland', 3.2183],
 ['Germany', 0.5722]]

## Reflexionando sobre los promedios

Hay bastante variación, el promedio más bajo Canada = 0.275, y el más alto Egypt = 0.99. El problema es que Egypt tiene una sola observación. Lo mejor es restringir el análisis a aquellos países con más de una observación. Es posible hacerlo a través de un condicional

```python
if test_expression_1:
    block1_statement(s)
elif test_expression_2:
    block2_statement2(s)
else:
    block3_statement(s)
```

Utilicemos el condicional para filtrar los países.

## Filtrar con if

In [33]:
# Lista del nombre de todos los países
country_name_list = list(estimaciones.keys())

# Crear un diccionario vacío que contenga los países seleccionados
country_means = {}

# Bucle que itera para cada país
for i in country_name_list:
    list_country_estimates = estimaciones[i] # Lista de estimaciones

    # Si la estimación posee más de una observación, que calcule el promedio, de lo contrario que siga a la siguiente iteración
    if len(estimaciones[i]) > 1:
        country_mean_value = sum(list_country_estimates) / len(list_country_estimates)
        country_means[i] =  country_mean_value # Insertar el valor en el diccionario, utilizando el nombre del país como llave
        
country_means        

{'Australia': 0.29500000000000004,
 'France': 0.655,
 'Brazil': 0.29,
 'USA': 0.3333333333333333,
 'Canada': 0.275,
 'Greece': 0.61,
 'Tunisia': 0.6200000000000001,
 'Jamaica': 0.6566666666666666,
 'Switzerland': 0.7859999999999999,
 'Germany': 0.4333333333333333}

Switzerland lidera, mientras que Canada queda como el más bajo

### Ejercicio 7:

¿Cuál aproximación sería correcta para aminorar el problema de que algunos países solo tengan una observación? Tenga en cuenta la razón por la que se está realizando esta investigación.

(a) Agrupar países por regiones.

(b) Remover un país si sus estimaciones son muy grandes o pequeñas comparadas a los demás países.

(c) Utilizar un estadístico diferente al promedio.

(d) Consultar el por qué algunos países solo tienen una observación y tratar de conseguir los datos a través de otras fuentes.

**Respuesta** (d)

## Conclusiones

Switzerland posee la mayor probabilidad se éxito y por ende, es el país que debería de escogerse para el plan de expansión de la aerolínea.

Otros países que deberían de tenerse en cuenta con Jamaica y Francia.

## Aprendizaje

Python es una herramienta que sirve tanto para proyectos sencillos, como para los más complejos, tanto para los negocios, como para la academia o los retos públicos.