# Diccionarios, bucles y datos tabulares con `pandas`

La semana pasada aprendimos a usar listas y arrays de `numpy` para trabajar con datos tabulares. Esta semana cómo usar diccionarios para almacenar datos de manera estructurada y aprenderemos como usarlos junto a `pandas`, una librería de `Python` que nos permite trabajar con datos tabulares de manera más eficiente. Veremos también cómo usar bucles para automatizar tareas repetitivas.

## Diccionarios
Los diccionarios en `Python` nos permiten almacenar datos de manera estructurada. A diferencia de las listas, los diccionarios no tienen un orden definido, y en lugar de usar índices numéricos para acceder a los datos, usamos nombres para cada entrada del diccionario. Cada entrada de un diccionario se compone de un nombre (a veces conocido como llave) y un valor. Este valor puede ser cualquier tipo de dato, desde caracteres, números hasta otro diccionario.  
  
Abajo mostramos un ejemplo de un diccionario que contiene información sobre una persona. Cada entrada del diccionario contiene el nombre de la información contenida en la entrada y el valor de la misma. Aquí utilizamos llaves (`{}`) para definir el diccionario y separamos cada entrada con una coma. Nota que el nombre de la entrada es un conjunto de caracteres y está separado del valor por dos puntos (`:`).

In [19]:
mi_diccionario = {'nombre': 'Denisse',
                  'edad': 36,
                  'licencia': False,
                  'deportes': ['correr', 'bicleta']}

mi_diccionario

{'nombre': 'Denisse',
 'edad': 36,
 'licencia': False,
 'deportes': ['correr', 'bicleta']}

También podemos definir un diccionario utilizando la función `dict()`. Cada entrada del diccionario se separa por comas como en el caso anterior, pero nota que aquí el nombre de la entrada no es un caracter y está separado del valor de la entrada por un igual.

In [26]:
mi_diccionario2 = dict(nombre = 'Denisse',
                       edad = 36,
                       licencia = False)
mi_diccionario2

{'nombre': 'Denisse', 'edad': 36, 'licencia': False}

Podemos acceder a una entrada del diccionario usando el nombre de la entrada entre corchetes (`[]`). Recuerda que el nombre de la entrada debe ser de tipo caracter, sin importar si lo definimos con llaves o con la función `dict()`.   
  
Si el nombre de la entrada no existe en el diccionario, `Python` nos devolverá un error.

In [22]:
mi_diccionario['nombre']

'Denisse'

Alternativamente, podemos usar el método `get()` para acceder a una entrada del diccionario. Este método recibe como argumento el nombre de la entrada y devuelve el valor de la misma. Si la entrada no existe, simplemente no devuelve nada.

In [23]:
mi_diccionario.get('nombre')

'Denisse'

Si escribimos mal el nombre de la entrada, o si no existe, miremos que ocurre con los dos métodos diferentes.

In [24]:
mi_diccionario2['licenci']

NameError: name 'mi_diccionario2' is not defined

Esta opción nos devuelve un error porque la entrada `licenci` no existe en el diccionario.

In [27]:
mi_diccionario2.get('licenci')

En este caso, no obtenemos ningún error, simplemente no obtenemos ningún valor.

## Explorando y editando diccionarios
Podemos obtener una lista de los nombres de las entradas del diccionario con el método `keys()`. 

In [5]:
mi_diccionario.keys()

dict_keys(['nombre', 'edad', 'licencia', 'deportes'])

Mientras que el método `values()` nos devuelve una lista de los valores de cada entrada del diccionario.

In [6]:
mi_diccionario.values()

dict_values(['Denisse', 36, False, ['correr', 'bicleta']])

Si queremos cambiar una entrada del diccionario, simplemente asignamos un nuevo valor a la entrada. En este caso, cambiamos el valor de la entrada `edad` por el valor `50`.

In [9]:
#Asignamos nuevo valor a una entrada
mi_diccionario['edad'] = 50
#Vemos el resultado
mi_diccionario

{'nombre': 'Denisse',
 'edad': 50,
 'licencia': False,
 'deportes': ['correr', 'bicleta']}

Podemos utilizar el mismo método para aumentar una nueva entrada al diccionario. Simplemente usamos como nombre de la entrada, un nombre que no exista en el diccionario y asignamos un valor a la misma.

In [11]:
#Utilizamos la entrada "educacion" que no existe actualmente en  el diccionario y asignamos un valor
mi_diccionario['educacion'] = 'universidad'
#Vemos el resultado
mi_diccionario

{'nombre': 'Denisse',
 'edad': 50,
 'licencia': False,
 'deportes': ['correr', 'bicleta'],
 'educacion': 'universidad'}

Podemos remover entradas de un diccionario usando el método `pop()`. Este método recibe como argumento el nombre de la entrada que queremos remover y devuelve el valor de la misma.

In [None]:
mi_diccionario.pop('edad')

50

Verificamos el contenido del diccionario.

In [None]:
mi_diccionario

{'nombre': 'Denisse',
 'edad': 36,
 'licencia': False,
 'deportes': ['correr', 'bicleta']}

Si intentamos usar el método `pop()` para remover una entrada que no existe, obtenemos un error.

In [34]:
mi_diccionario.pop('apellido')

KeyError: 'apellido'

Obtenemos un error, pero el diccionario no se ve afectado.

In [35]:
mi_diccionario

{'nombre': 'Denisse',
 'edad': 36,
 'licencia': False,
 'deportes': ['correr', 'bicleta']}

## Usando bucles para acceder a los datos de un diccionario
Podemos usar un bucle `for` para acceder al nombre de cada entrada del diccionario. En este caso, el bucle itera sobre la lista de nombres de las entradas del diccionario.

In [12]:
for llave in mi_diccionario:
    print(llave)

nombre
edad
licencia
deportes
educacion


También podemos usar un bucle `for` para acceder al valor de cada entrada del diccionario. En este caso, el bucle itera sobre la lista de valores de las entradas del diccionario.

In [13]:
for valores in mi_diccionario.values():
    print(valores)

Denisse
50
False
['correr', 'bicleta']
universidad


Aquí accedemos al nombre de la entrada del diccionario y luego llamamos cada valor del diccionario usando el nombre de la entrada.

In [32]:
for llave in mi_diccionario:
    print(f'El nombre de la entrada es {llave}')
    print(mi_diccionario[llave])

El nombre de la entrada es nombre
Denisse
El nombre de la entrada es edad
36
El nombre de la entrada es licencia
False
El nombre de la entrada es deportes
['correr', 'bicleta']


Podemos también usar una condición `if` para acceder a los valores de las entradas del diccionario que cumplan con la condición. Haremos esto dentro de un bucle `for` para acceder a los valores de las entradas que cumplan con la condición.

In [29]:
#Solo imprimimos la entrada "deportes"
for llave in mi_diccionario:
    if llave == 'deportes':
        print(llave, mi_diccionario[llave])

deportes ['correr', 'bicleta']


## Particularidades sobre diccionarios

El nombre de cada entrada debe ser único dentro del diccionario. Si asignamos un nuevo valor a una entrada existente, obtenemos un error.

In [36]:
mi_diccionario2 = dict(nombre = 'Denisse',
                        edad = 36,
                        licencia = False,
                        nombre = 'Gerardo')
mi_diccionario2

SyntaxError: keyword argument repeated: nombre (3722636584.py, line 4)

Podemos usar nombres de entradas un poco diferentes para evitar este error.

In [37]:
mi_diccionario2 = dict(nombre1 = 'Denisse',
                          edad = 36,
                          licencia = False,
                          nombre2 = 'Gerardo')
mi_diccionario2

{'nombre1': 'Denisse', 'edad': 36, 'licencia': False, 'nombre2': 'Gerardo'}

Recuerda que los diccionarios pueden tener diccionarios dentro de una entrada. En este caso, el nombre de la entrada de un diccionario anidado (es decir contenido dentro de otro diccionario) puede ser la misma. Siguiendo el ejemplo anterior, vamos a utilizar el nombre de cada estudiante como el nombre de la entrada principal y luego cada diccionario anidado tendrá los mismos nombres para las entradas.

In [38]:
clase = {'Denisse': {'edad': 36, 'licencia': False},
         'Gerardo': {'edad': 28, 'licencia': True}}
clase

{'Denisse': {'edad': 36, 'licencia': False},
 'Gerardo': {'edad': 28, 'licencia': True}}

Podemos acceder a los valores de las entradas de los diccionarios anidados usando el nombre de la entrada principal y luego el nombre de la entrada del diccionario anidado.

In [39]:
clase['Gerardo']['edad']

28

In [40]:
clase['Denisse']['licencia']

False

## Datos tabulares con `pandas`
El primero paso es llamar a la librería `pandas`. Vamos a asignarle un nombre corto para facilitar su uso, aunque este segundo paso no es estrictamente necesario.

In [41]:
import pandas as pd

Podemos usar un diccionario para crear un data frame. Cada entrada del diccionario será una columna del data frame. El nombre de cada entrada será el nombre de la columna y el valor de cada entrada será una lista con los valores de la columna.  
  
Sin embargo, nota que los valores de todas las entradas deben ser listas y todas deben tener la misma cantidad de elementos.

In [42]:
pd.DataFrame({'nombres': ['Denisse', 'Gerardo', 'Angie'], 
            'edades': [36, 16, 25]})

Unnamed: 0,nombres,edades
0,Denisse,36
1,Gerardo,16
2,Angie,25


Si olvidamos dar los valores de las entradas como listas, obtendremos un error. A pesar que todos las entradas tienen el mismo número de elementos.

In [2]:
pd.DataFrame({'nombres': 'Denisse', 'Gerardo', 'Angie',
 'edades': 36, 16, 25})

SyntaxError: ':' expected after dictionary key (2572686297.py, line 1)

Si queremos podemos crear un diccionario y asignarlo a una variable, y luego podemos usar esa variable para crear el data frame.

In [46]:
midic = {'nombres': ['Denisse', 'Gerardo', 'Angie'],
 'edades': [36, 16, 25]}
midic

{'nombres': ['Denisse', 'Gerardo', 'Angie'], 'edades': [36, 16, 25]}

In [35]:
pd.DataFrame(midic)

Unnamed: 0,nombres,edades
0,Denisse,36
1,Gerardo,16
2,Angie,25


Como ven, el resultado es el mismo que si damos el diccionario como argumento de la función `pandas.DataFrame()`.  
  
Es posible definir elementos no existentes en un diccionario al asignarles el valor `NaN`. Este valor significa "Not a Number" y es un valor especial que se usa para indicar que no hay un valor definido. El paquete `numpy` tiene una función para crear este valor especial: `numpy.nan`, pero antes de usarla debemos importar el paquete `numpy`.

In [43]:
import numpy as np

Si queremos añadir una columna adicional a nuestro diccionario, podemos hacerlo simplemente asignando una lista de valores a una nueva entrada del diccionario como mostramos más arriba. Ahora supongamos que no tenemos información para una de las entradas de la columna. Podemos asignarle el valor `NaN` a esa entrada haciendo uso de la función `numpy.nan`.

In [47]:
midic['educacion'] = ['universidad', 'preparatoria', np.nan]

Si creamos un data frame con este diccionario, veremos que el valor `NaN` aparece en la columna `educacion` bajo `Angie`.

In [48]:
mi_df = pd.DataFrame(midic)
mi_df

Unnamed: 0,nombres,edades,educacion
0,Denisse,36,universidad
1,Gerardo,16,preparatoria
2,Angie,25,


La ventaja de usar `NaN` es que podemos usar funciones de `pandas` para trabajar con estos valores. Por ejemplo, podemos usar la función `isnull()` para verificar si un valor es `NaN` o no. Esta función devuelve `True` si el valor es `NaN` y `False` si no lo es.

In [68]:
mi_df['educacion'].isnull()

0    False
1    False
2     True
Name: educacion, dtype: bool

## Accediendo a los datos de un data frame
Podemos acceder a los datos de un data frame usando el nombre de la columna entre corchetes (`[]`), tal como lo vimos con diccionarios, y podemos usar un índice numérico para acceder a un valor específico de la columna.  
  
Por ejemplo, queremos acceder a la columna `nombres` del data frame `mi_df` y luego al segundo valor de la columna. 

In [70]:
mi_df['nombres'][1]

'Gerardo'

También es posible usar un rango de valores para acceder a varios valores de la columna.

In [None]:
mi_df['nombres'][1:3]

1    Gerardo
2      Angie
Name: nombres, dtype: object

Podemos usar el método `iloc()` para acceder a un valor específico de una columna usando su índice numérico. Podemos utilizar un índice único o un rango de valores o ambos. Los índices los debemos dar en el mismo orden que aprendimos con el array de `numpy`. Primero especificamos el índice de la fila y luego el índice de la columna.  
  
Abajo accedemos al valor de la segunda fila y las dos primeras columnas.

In [49]:
mi_df.iloc[1, 0:2]

nombres    Gerardo
edades          16
Name: 1, dtype: object

En este caso nos devuelve datos en tipo `pandas.Series`. Este tipo de datos es similar a una lista, pero muestra las columnas como filas. Mientras que si utilizamos rangos de valores para acceder a varias filas, obtenemos un data frame.

In [50]:
mi_df.iloc[1:2, 1:3]

Unnamed: 0,edades,educacion
1,16,preparatoria


## Leyendo datos de un archivo o de una URL
Podemos también leer datos de un archivo en nuestra máquina usando la función `read_csv()` de `pandas`. Esta función recibe como argumento la ruta del archivo que queremos leer. En este caso, el archivo `datos.csv` está en la misma carpeta que este archivo, por lo que podemos simplemente escribir el nombre del archivo.  

In [6]:
datos = pd.read_csv('prueba2.csv')
datos

Unnamed: 0,Nombre,Edad,Peso_kg,Altura_m
0,Ana,33,60,1.6
1,Manuel,38,80,1.82
2,Daniela,29,70,1.54
3,Jose,25,100,1.7
4,Sara,40,95,1.75


Es posible usar un array de `numpy` para crear un data frame. En este caso, cada fila del array será una fila del data frame y cada columna del array será una columna del data frame.  
  
Primero leemos datos como un array de `numpy`, y luego pasamos el array como argumento de la función `pandas.DataFrame()`.

In [7]:
array = np.loadtxt('prueba.csv', delimiter = ',')
array

array([[11.,  0., 19.,  8., 10.,  5.,  6.,  5.,  1.],
       [ 9., 17.,  1., 13., 10., 20., 15., 10., 19.],
       [14.,  4., 17., 13.,  4., 20., 19.,  4., 17.],
       [ 8.,  8., 16.,  9., 10., 20., 12.,  1., 19.],
       [13., 11., 20.,  1., 14.,  9., 12., 16.,  1.],
       [ 2.,  5., 20.,  5., 14.,  8., 11., 15.,  1.],
       [19., 14., 17., 12., 10., 10., 19., 18., 10.],
       [13., 10., 14., 13.,  7., 14.,  4.,  2., 14.],
       [10.,  6., 17.,  1.,  0.,  3., 16., 16.,  8.],
       [15., 11., 16., 16., 14., 17., 17., 12.,  3.],
       [12., 15., 16.,  3.,  9., 12., 15.,  3., 20.],
       [17., 18.,  4.,  6.,  3., 14., 18., 16., 17.],
       [ 2.,  3., 11.,  0.,  5., 20., 16.,  4.,  8.],
       [16.,  7., 13., 20., 10.,  1.,  8., 17.,  1.],
       [ 6., 18.,  8., 15., 14.,  4.,  7., 11.,  2.],
       [ 0.,  6.,  7., 20.,  9.,  9.,  4., 14., 13.],
       [18.,  7.,  7., 18., 16.,  0.,  4., 16., 10.],
       [18., 10., 13.,  2.,  1., 11., 18.,  1.,  9.]])

In [8]:
pd.DataFrame(array)

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,11.0,0.0,19.0,8.0,10.0,5.0,6.0,5.0,1.0
1,9.0,17.0,1.0,13.0,10.0,20.0,15.0,10.0,19.0
2,14.0,4.0,17.0,13.0,4.0,20.0,19.0,4.0,17.0
3,8.0,8.0,16.0,9.0,10.0,20.0,12.0,1.0,19.0
4,13.0,11.0,20.0,1.0,14.0,9.0,12.0,16.0,1.0
5,2.0,5.0,20.0,5.0,14.0,8.0,11.0,15.0,1.0
6,19.0,14.0,17.0,12.0,10.0,10.0,19.0,18.0,10.0
7,13.0,10.0,14.0,13.0,7.0,14.0,4.0,2.0,14.0
8,10.0,6.0,17.0,1.0,0.0,3.0,16.0,16.0,8.0
9,15.0,11.0,16.0,16.0,14.0,17.0,17.0,12.0,3.0


También es posible usar la función `read_csv()` para leer un archivo que está en una página web. En este caso, debemos escribir la dirección de la página web entre comillas.

In [57]:
datos_pib = pd.read_csv('https://raw.githubusercontent.com/swcarpentry/python-novice-gapminder/main/episodes/data/gapminder_gdp_americas.csv')
datos_pib

Unnamed: 0,continent,country,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
0,Americas,Argentina,5911.315053,6856.856212,7133.166023,8052.953021,9443.038526,10079.02674,8997.897412,9139.671389,9308.41871,10967.28195,8797.640716,12779.37964
1,Americas,Bolivia,2677.326347,2127.686326,2180.972546,2586.886053,2980.331339,3548.097832,3156.510452,2753.69149,2961.699694,3326.143191,3413.26269,3822.137084
2,Americas,Brazil,2108.944355,2487.365989,3336.585802,3429.864357,4985.711467,6660.118654,7030.835878,7807.095818,6950.283021,7957.980824,8131.212843,9065.800825
3,Americas,Canada,11367.16112,12489.95006,13462.48555,16076.58803,18970.57086,22090.88306,22898.79214,26626.51503,26342.88426,28954.92589,33328.96507,36319.23501
4,Americas,Chile,3939.978789,4315.622723,4519.094331,5106.654313,5494.024437,4756.763836,5095.665738,5547.063754,7596.125964,10118.05318,10778.78385,13171.63885
5,Americas,Colombia,2144.115096,2323.805581,2492.351109,2678.729839,3264.660041,3815.80787,4397.575659,4903.2191,5444.648617,6117.361746,5755.259962,7006.580419
6,Americas,Costa Rica,2627.009471,2990.010802,3460.937025,4161.727834,5118.146939,5926.876967,5262.734751,5629.915318,6160.416317,6677.045314,7723.447195,9645.06142
7,Americas,Cuba,5586.53878,6092.174359,5180.75591,5690.268015,5305.445256,6380.494966,7316.918107,7532.924763,5592.843963,5431.990415,6340.646683,8948.102923
8,Americas,Dominican Republic,1397.717137,1544.402995,1662.137359,1653.723003,2189.874499,2681.9889,2861.092386,2899.842175,3044.214214,3614.101285,4563.808154,6025.374752
9,Americas,Ecuador,3522.110717,3780.546651,4086.114078,4579.074215,5280.99471,6679.62326,7213.791267,6481.776993,7103.702595,7429.455877,5773.044512,6873.262326


Nota que podemos utilizar el método `iloc` sin problemas para acceder a los datos del data frame que creamos con la función `read_csv()`.

In [30]:
datos_pib.iloc[15:25, 0]

country
Mexico                 Americas
Nicaragua              Americas
Panama                 Americas
Paraguay               Americas
Peru                   Americas
Puerto Rico            Americas
Trinidad and Tobago    Americas
United States          Americas
Uruguay                Americas
Venezuela              Americas
Name: continent, dtype: object

Adicionalmente, tenemos la opción de usar el método `loc` que nos permite usar los nombres de las filas y columnas para acceder a los datos del data frame.  
  
En este caso las filas no tienen un nombre asignado, por lo que usamos el índice numérico de la fila.

In [33]:
datos_pib.loc[15:25, 'country']

15                 Mexico
16              Nicaragua
17                 Panama
18               Paraguay
19                   Peru
20            Puerto Rico
21    Trinidad and Tobago
22          United States
23                Uruguay
24              Venezuela
Name: country, dtype: object

Pero si, por ejemplo, las filas tuvieran a los países como nombres, entonces podríamos usar el método .loc para seleccionar las filas que queremos de la siguiente manera: `datos_pib.loc['Mexico':'Venezuela', :]`. En este caso, no pasamos `country` como nombre de la columna porque asumimos que esta información está siendo usada como índice de las filas.

## Bucles `for` y data frames
Podemos usar un bucle `for` para acceder a los nombres de las columnas del data frame. En este caso, el bucle itera sobre la lista de nombres de las columnas del data frame. Luego usamos una condición `if` para acceder a los valores de las columnas que cumplan con la condición. En este caso, queremos acceder a los valores de las columnas que tengan `1967` incluido en su nombre.

In [36]:
for col in datos_pib.columns:
    if '1967' in col:
        print(datos_pib[col])

0      8052.953021
1      2586.886053
2      3429.864357
3     16076.588030
4      5106.654313
5      2678.729839
6      4161.727834
7      5690.268015
8      1653.723003
9      4579.074215
10     4358.595393
11     3242.531147
12     1452.057666
13     2538.269358
14     6124.703451
15     5754.733883
16     4643.393534
17     4421.009084
18     2299.376311
19     5788.093330
20     6929.277714
21     5621.368472
22    19530.365570
23     5444.619620
24     9541.474188
Name: gdpPercap_1967, dtype: float64


## Explorando data frames
Podemos usar el método `describe()` para obtener un resumen de los datos del data frame. Este método nos devuelve un data frame con estadísticas descriptivas de cada columna del data frame original.

In [37]:
datos_pib.describe()

Unnamed: 0,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
count,25.0,25.0,25.0,25.0,25.0,25.0,25.0,25.0,25.0,25.0,25.0,25.0
mean,4079.062552,4616.043733,4901.54187,5668.253496,6491.334139,7352.007126,7506.737088,7793.400261,8044.934406,8889.300863,9287.677107,11003.031625
std,3001.727522,3312.381083,3421.740569,4160.88556,4754.404329,5355.602518,5530.490471,6665.039509,7047.089191,7874.225145,8895.817785,9713.209302
min,1397.717137,1544.402995,1662.137359,1452.057666,1654.456946,1874.298931,2011.159549,1823.015995,1456.309517,1341.726931,1270.364932,1201.637154
25%,2428.237769,2487.365989,2750.364446,3242.531147,4031.408271,4756.763836,4258.503604,4140.442097,4439.45084,4684.313807,4858.347495,5728.353514
50%,3048.3029,3780.546651,4086.114078,4643.393534,5305.445256,6281.290855,6434.501797,6360.943444,6618.74305,7113.692252,6994.774861,8948.102923
75%,3939.978789,4756.525781,5180.75591,5788.09333,6809.40669,7674.929108,8997.897412,7807.095818,8137.004775,9767.29753,8797.640716,11977.57496
max,13990.48208,14847.12712,16173.14586,19530.36557,21806.03594,24072.63213,25009.55914,29884.35041,32003.93224,35767.43303,39097.09955,42951.65309


El método `head()` nos devuelve las primeras cinco filas del data frame. Si queremos más filas, podemos pasar como argumento el número de filas que queremos bajo el parámetro `n`.

In [42]:
datos_pib.head()

Unnamed: 0,continent,country,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
0,Americas,Argentina,5911.315053,6856.856212,7133.166023,8052.953021,9443.038526,10079.02674,8997.897412,9139.671389,9308.41871,10967.28195,8797.640716,12779.37964
1,Americas,Bolivia,2677.326347,2127.686326,2180.972546,2586.886053,2980.331339,3548.097832,3156.510452,2753.69149,2961.699694,3326.143191,3413.26269,3822.137084
2,Americas,Brazil,2108.944355,2487.365989,3336.585802,3429.864357,4985.711467,6660.118654,7030.835878,7807.095818,6950.283021,7957.980824,8131.212843,9065.800825
3,Americas,Canada,11367.16112,12489.95006,13462.48555,16076.58803,18970.57086,22090.88306,22898.79214,26626.51503,26342.88426,28954.92589,33328.96507,36319.23501
4,Americas,Chile,3939.978789,4315.622723,4519.094331,5106.654313,5494.024437,4756.763836,5095.665738,5547.063754,7596.125964,10118.05318,10778.78385,13171.63885


El método `tail()` nos devuelve las últimas cinco filas del data frame. Si queremos más filas, podemos pasar como argumento el número de filas que queremos bajo el parámetro `n`.

In [46]:
datos_pib.tail()

Unnamed: 0,continent,country,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
20,Americas,Puerto Rico,3081.959785,3907.156189,5108.34463,6929.277714,9123.041742,9770.524921,10330.98915,12281.34191,14641.58711,16999.4333,18855.60618,19328.70901
21,Americas,Trinidad and Tobago,3023.271928,4100.3934,4997.523971,5621.368472,6619.551419,7899.554209,9119.528607,7388.597823,7370.990932,8792.573126,11460.60023,18008.50924
22,Americas,United States,13990.48208,14847.12712,16173.14586,19530.36557,21806.03594,24072.63213,25009.55914,29884.35041,32003.93224,35767.43303,39097.09955,42951.65309
23,Americas,Uruguay,5716.766744,6150.772969,5603.357717,5444.61962,5703.408898,6504.339663,6920.223051,7452.398969,8137.004775,9230.240708,7727.002004,10611.46299
24,Americas,Venezuela,7689.799761,9802.466526,8422.974165,9541.474188,10505.25966,13143.95095,11152.41011,9883.584648,10733.92631,10165.49518,8605.047831,11415.80569


Podemos usar el método `T` para transponer el data frame. En este caso, las filas se convierten en columnas y las columnas se convierten en filas.

In [47]:
datos_pib.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,15,16,17,18,19,20,21,22,23,24
continent,Americas,Americas,Americas,Americas,Americas,Americas,Americas,Americas,Americas,Americas,...,Americas,Americas,Americas,Americas,Americas,Americas,Americas,Americas,Americas,Americas
country,Argentina,Bolivia,Brazil,Canada,Chile,Colombia,Costa Rica,Cuba,Dominican Republic,Ecuador,...,Mexico,Nicaragua,Panama,Paraguay,Peru,Puerto Rico,Trinidad and Tobago,United States,Uruguay,Venezuela
gdpPercap_1952,5911.315053,2677.326347,2108.944355,11367.16112,3939.978789,2144.115096,2627.009471,5586.53878,1397.717137,3522.110717,...,3478.125529,3112.363948,2480.380334,1952.308701,3758.523437,3081.959785,3023.271928,13990.48208,5716.766744,7689.799761
gdpPercap_1957,6856.856212,2127.686326,2487.365989,12489.95006,4315.622723,2323.805581,2990.010802,6092.174359,1544.402995,3780.546651,...,4131.546641,3457.415947,2961.800905,2046.154706,4245.256698,3907.156189,4100.3934,14847.12712,6150.772969,9802.466526
gdpPercap_1962,7133.166023,2180.972546,3336.585802,13462.48555,4519.094331,2492.351109,3460.937025,5180.75591,1662.137359,4086.114078,...,4581.609385,3634.364406,3536.540301,2148.027146,4957.037982,5108.34463,4997.523971,16173.14586,5603.357717,8422.974165
gdpPercap_1967,8052.953021,2586.886053,3429.864357,16076.58803,5106.654313,2678.729839,4161.727834,5690.268015,1653.723003,4579.074215,...,5754.733883,4643.393534,4421.009084,2299.376311,5788.09333,6929.277714,5621.368472,19530.36557,5444.61962,9541.474188
gdpPercap_1972,9443.038526,2980.331339,4985.711467,18970.57086,5494.024437,3264.660041,5118.146939,5305.445256,2189.874499,5280.99471,...,6809.40669,4688.593267,5364.249663,2523.337977,5937.827283,9123.041742,6619.551419,21806.03594,5703.408898,10505.25966
gdpPercap_1977,10079.02674,3548.097832,6660.118654,22090.88306,4756.763836,3815.80787,5926.876967,6380.494966,2681.9889,6679.62326,...,7674.929108,5486.371089,5351.912144,3248.373311,6281.290855,9770.524921,7899.554209,24072.63213,6504.339663,13143.95095
gdpPercap_1982,8997.897412,3156.510452,7030.835878,22898.79214,5095.665738,4397.575659,5262.734751,7316.918107,2861.092386,7213.791267,...,9611.147541,3470.338156,7009.601598,4258.503604,6434.501797,10330.98915,9119.528607,25009.55914,6920.223051,11152.41011
gdpPercap_1987,9139.671389,2753.69149,7807.095818,26626.51503,5547.063754,4903.2191,5629.915318,7532.924763,2899.842175,6481.776993,...,8688.156003,2955.984375,7034.779161,3998.875695,6360.943444,12281.34191,7388.597823,29884.35041,7452.398969,9883.584648


## Usando condiciones para filtrar datos
Tal como vimos con arrays de `numpy`, podemos usar condiciones para filtrar datos de un data frame. En este caso, queremos obtener los datos para Ecuador.

In [60]:
datos_pib[datos_pib['country'] == 'Ecuador']

Unnamed: 0,continent,country,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
9,Americas,Ecuador,3522.110717,3780.546651,4086.114078,4579.074215,5280.99471,6679.62326,7213.791267,6481.776993,7103.702595,7429.455877,5773.044512,6873.262326


## Usando `glob` y `os` para interactuar con sistemas de archivos

In [51]:
#Solo importamos la función glob del paquete glob
from glob import glob
import os

Podemos verificar el directorio de trabajo actual usando la función `getcwd()` del paquete `os`.

In [64]:
os.getcwd()

'c:\\Users\\ldfierro\\Documents\\Scripts\\new-dimensions\\Python'

Mientras que la función `glob` nos permite usar caracteres comodín para buscar archivos en un directorio. En este caso, queremos buscar todos los archivos que tengan la extensión `.csv` en el directorio de trabajo actual.

In [52]:
glob('*.csv')

['mascara.csv', 'prueba.csv', 'prueba2.csv']

Podemos usar comodines para buscar carpetas y archivos. En este caso, queremos buscar todos los archivos que tengan la extensión `.csv` en la carpeta `datos` dentro de la carpeta `python-novice-gapminder-data`. Nota que usamos el caracter `*` para indicar que queremos buscar todas las carpetas en vez de especificar el nombre de la carpeta.
  
Además podemos usar los comodines con varias palabra clave, por ejemplo queremos buscar todos los archivos que tengan la extensión `.csv` y que tengan la palabra `gdp` en su nombre.

In [54]:
archivos_pib = glob('*/*/*gdp*.csv')
archivos_pib

['python-novice-gapminder-data\\data\\gapminder_gdp_africa.csv',
 'python-novice-gapminder-data\\data\\gapminder_gdp_americas.csv',
 'python-novice-gapminder-data\\data\\gapminder_gdp_asia.csv',
 'python-novice-gapminder-data\\data\\gapminder_gdp_europe.csv',
 'python-novice-gapminder-data\\data\\gapminder_gdp_oceania.csv']

Podemos usar los resultados de esta búsqueda para subir archivos sin necesidad de definir el nombre de cada archivo. Solo escogemos el archivo de nuestro interés usando el índice numérico. Por ejemplo, vamos a subir el archivo para África y para Asia.

In [64]:
pib_africa = pd.read_csv(archivos_pib[0])
pib_africa.head()

Unnamed: 0,country,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
0,Algeria,2449.008185,3013.976023,2550.81688,3246.991771,4182.663766,4910.416756,5745.160213,5681.358539,5023.216647,4797.295051,5288.040382,6223.367465
1,Angola,3520.610273,3827.940465,4269.276742,5522.776375,5473.288005,3008.647355,2756.953672,2430.208311,2627.845685,2277.140884,2773.287312,4797.231267
2,Benin,1062.7522,959.60108,949.499064,1035.831411,1085.796879,1029.161251,1277.897616,1225.85601,1191.207681,1232.975292,1372.877931,1441.284873
3,Botswana,851.241141,918.232535,983.653976,1214.709294,2263.611114,3214.857818,4551.14215,6205.88385,7954.111645,8647.142313,11003.60508,12569.85177
4,Burkina Faso,543.255241,617.183465,722.512021,794.82656,854.735976,743.387037,807.198586,912.063142,931.752773,946.294962,1037.645221,1217.032994


In [65]:
pib_asia = pd.read_csv(archivos_pib[2])
pib_asia.head()

Unnamed: 0,country,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
0,Afghanistan,779.445314,820.85303,853.10071,836.197138,739.981106,786.11336,978.011439,852.395945,649.341395,635.341351,726.734055,974.580338
1,Bahrain,9867.084765,11635.79945,12753.27514,14804.6727,18268.65839,19340.10196,19211.14731,18524.02406,19035.57917,20292.01679,23403.55927,29796.04834
2,Bangladesh,684.244172,661.637458,686.341554,721.186086,630.233627,659.877232,676.981866,751.979403,837.810164,972.770035,1136.39043,1391.253792
3,Cambodia,368.469286,434.038336,496.913648,523.432314,421.624026,524.972183,624.475478,683.895573,682.303175,734.28517,896.226015,1713.778686
4,China,400.448611,575.987001,487.674018,612.705693,676.900092,741.23747,962.421381,1378.904018,1655.784158,2289.234136,3119.280896,4959.114854


Podemos unir estos archivos en un solo data frame usando el método `concat()` de `pandas`. Este método recibe como argumento una lista de data frames que queremos unir. En este caso, queremos unir los data frames `africa` y `asia`.

In [66]:
pd.concat([pib_africa, pib_asia])

Unnamed: 0,country,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
0,Algeria,2449.008185,3013.976023,2550.816880,3246.991771,4182.663766,4910.416756,5745.160213,5681.358539,5023.216647,4797.295051,5288.040382,6223.367465
1,Angola,3520.610273,3827.940465,4269.276742,5522.776375,5473.288005,3008.647355,2756.953672,2430.208311,2627.845685,2277.140884,2773.287312,4797.231267
2,Benin,1062.752200,959.601080,949.499064,1035.831411,1085.796879,1029.161251,1277.897616,1225.856010,1191.207681,1232.975292,1372.877931,1441.284873
3,Botswana,851.241141,918.232535,983.653976,1214.709294,2263.611114,3214.857818,4551.142150,6205.883850,7954.111645,8647.142313,11003.605080,12569.851770
4,Burkina Faso,543.255241,617.183465,722.512021,794.826560,854.735976,743.387037,807.198586,912.063142,931.752773,946.294962,1037.645221,1217.032994
...,...,...,...,...,...,...,...,...,...,...,...,...,...
28,Taiwan,1206.947913,1507.861290,1822.879028,2643.858681,4062.523897,5596.519826,7426.354774,11054.561750,15215.657900,20206.820980,23235.423290,28718.276840
29,Thailand,757.797418,793.577415,1002.199172,1295.460660,1524.358936,1961.224635,2393.219781,2982.653773,4616.896545,5852.625497,5913.187529,7458.396327
30,Vietnam,605.066492,676.285448,772.049160,637.123289,699.501644,713.537120,707.235786,820.799445,989.023149,1385.896769,1764.456677,2441.576404
31,West Bank and Gaza,1515.592329,1827.067742,2198.956312,2649.715007,3133.409277,3682.831494,4336.032082,5107.197384,6017.654756,7110.667619,4515.487575,3025.349798


Nota que la unión de ambos data frames resulta en 85 filas. Podemos verificar que este es el resultado que esperamos, sumando el número de filas de cada data frame.  
  
Recuerda que podemos usar el método `shape` para obtener el número de filas y columnas de un data frame. En este caso, queremos obtener el número de filas, por lo que usamos el índice `0`.

In [None]:
pib_africa.shape[0]+pib_asia.shape[0]

85

Efectivamente deberíamos tener 85 filas en el data frame resultante.  
  
Podemos también usar el resultado de la búsqueda de archivos para crear un data frame con los archivos identificados de todos los continentes. Para esto podemos usar un bucle `for` para iterar sobre la lista de archivos y luego usar la función `read_csv()` para leer cada archivo.

In [57]:
for archivo in archivos_pib:
    datos = pd.read_csv(archivo)

#Veamos el contenido de la variable datos
datos

Unnamed: 0,country,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
0,Australia,10039.59564,10949.64959,12217.22686,14526.12465,16788.62948,18334.19751,19477.00928,21888.88903,23424.76683,26997.93657,30687.75473,34435.36744
1,New Zealand,10556.57566,12247.39532,13175.678,14463.91893,16046.03728,16233.7177,17632.4104,19007.19129,18363.32494,21050.41377,23189.80135,25185.00911


Pero esto no nos da el resultado que esperábamos. Recuerda que si simplemente asignamos un nuevo valor a una misma variable, esta va a ser reemplazada por el nuevo valor. Si queremos combinar varios data frames, podemos usar el método `concat()`, el cual acepta una lista de data frames como argumento.  
  
En este caso, creamos una lista de data frames usando un bucle `for` y luego pasamos la lista como argumento de la función `concat()`.

In [60]:
#Creamos una lista vacía para guardar los data frames
mi_lista = []

#Iteramos sobre los archivos en la lista archivos_pib
for archivo in archivos_pib:
    #Leemos el archivo y lo guardamos en la variable datos
    datos = pd.read_csv(archivo)
    #Agregamos el data frame a la lista que creamos al inicio usando la opción append
    mi_lista.append(datos)

#Veamos el contenido de la lista y el tipo de objeto
print(type(mi_lista), mi_lista)

<class 'list'> [                     country  gdpPercap_1952  gdpPercap_1957  gdpPercap_1962  \
0                    Algeria     2449.008185     3013.976023     2550.816880   
1                     Angola     3520.610273     3827.940465     4269.276742   
2                      Benin     1062.752200      959.601080      949.499064   
3                   Botswana      851.241141      918.232535      983.653976   
4               Burkina Faso      543.255241      617.183465      722.512021   
5                    Burundi      339.296459      379.564628      355.203227   
6                   Cameroon     1172.667655     1313.048099     1399.607441   
7   Central African Republic     1071.310713     1190.844328     1193.068753   
8                       Chad     1178.665927     1308.495577     1389.817618   
9                    Comoros     1102.990936     1211.148548     1406.648278   
10           Congo Dem. Rep.      780.542326      905.860230      896.314634   
11                Congo 

Vemos que definitivamente es una lista, y podemos usar esta información como argumento de la función `concat()`.

In [61]:
pib_mundo = pd.concat(mi_lista)
#Veamos solo los tres primeros elementos
pib_mundo.head(n = 3)

Unnamed: 0,country,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007,continent
0,Algeria,2449.008185,3013.976023,2550.81688,3246.991771,4182.663766,4910.416756,5745.160213,5681.358539,5023.216647,4797.295051,5288.040382,6223.367465,
1,Angola,3520.610273,3827.940465,4269.276742,5522.776375,5473.288005,3008.647355,2756.953672,2430.208311,2627.845685,2277.140884,2773.287312,4797.231267,
2,Benin,1062.7522,959.60108,949.499064,1035.831411,1085.796879,1029.161251,1277.897616,1225.85601,1191.207681,1232.975292,1372.877931,1441.284873,


Podemos verificar las dimensiones del data frame resultante usando el método `shape`. Recuerda que debe tener más de 85 filas que fue la unión de los data frames de África y Asia.

In [67]:
pib_mundo.shape

(142, 14)

## Guardando un data frame en un archivo
Podemos usar el método `to_csv()` para guardar un data frame en un archivo. Pero primero definiremos una variable con el nombre de la carpeta en la que queremos guardar nuestro archivo, y verificaremos que este directorio exista. Si no existe, lo crearemos usando la función `mkdir()` del paquete `os`.

In [62]:
#Definimos el nombre de nuestra carpeta
carpeta_final = 'Datos_Procesados'
#Verificamos si la carpeta existe, y si no, la creamos
os.makedirs(carpeta_final, exist_ok = True)

Con el paquete `os` podemos también crear rutas de archivos usando la función `path.join()`. Esta función recibe como argumento el nombre de la carpeta y el nombre del archivo que queremos crear.

In [63]:
os.path.join(carpeta_final, 'pib_mundo.csv')

'Datos_Procesados\\pib_mundo.csv'

Ahora podemos dar esta ruta para guardar nuestro data frame en un archivo de tipo `.csv` en la carpeta que definimos más arriba.

In [131]:
pib_mundo.to_csv(os.path.join(carpeta_final, 'pib_mundo.csv'))

## Agrupando datos por valores en una columna
Vamos a leer los datos del archivo que contienen datos del producto interno bruto (PIB) de todos los países. Este archivo está en la carpeta `datos` dentro de la carpeta `python-novice-gapminder-data`.

In [70]:
datos = pd.read_csv('python-novice-gapminder-data/data/gapminder_all.csv')
datos

Unnamed: 0,continent,country,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,...,pop_1962,pop_1967,pop_1972,pop_1977,pop_1982,pop_1987,pop_1992,pop_1997,pop_2002,pop_2007
0,Africa,Algeria,2449.008185,3013.976023,2550.816880,3246.991771,4182.663766,4910.416756,5745.160213,5681.358539,...,11000948.0,12760499.0,14760787.0,17152804.0,20033753.0,23254956.0,26298373.0,29072015.0,31287142,33333216
1,Africa,Angola,3520.610273,3827.940465,4269.276742,5522.776375,5473.288005,3008.647355,2756.953672,2430.208311,...,4826015.0,5247469.0,5894858.0,6162675.0,7016384.0,7874230.0,8735988.0,9875024.0,10866106,12420476
2,Africa,Benin,1062.752200,959.601080,949.499064,1035.831411,1085.796879,1029.161251,1277.897616,1225.856010,...,2151895.0,2427334.0,2761407.0,3168267.0,3641603.0,4243788.0,4981671.0,6066080.0,7026113,8078314
3,Africa,Botswana,851.241141,918.232535,983.653976,1214.709294,2263.611114,3214.857818,4551.142150,6205.883850,...,512764.0,553541.0,619351.0,781472.0,970347.0,1151184.0,1342614.0,1536536.0,1630347,1639131
4,Africa,Burkina Faso,543.255241,617.183465,722.512021,794.826560,854.735976,743.387037,807.198586,912.063142,...,4919632.0,5127935.0,5433886.0,5889574.0,6634596.0,7586551.0,8878303.0,10352843.0,12251209,14326203
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
137,Europe,Switzerland,14734.232750,17909.489730,20431.092700,22966.144320,27195.113040,26982.290520,28397.715120,30281.704590,...,5666000.0,6063000.0,6401400.0,6316424.0,6468126.0,6649942.0,6995447.0,7193761.0,7361757,7554661
138,Europe,Turkey,1969.100980,2218.754257,2322.869908,2826.356387,3450.696380,4269.122326,4241.356344,5089.043686,...,29788695.0,33411317.0,37492953.0,42404033.0,47328791.0,52881328.0,58179144.0,63047647.0,67308928,71158647
139,Europe,United Kingdom,9979.508487,11283.177950,12477.177070,14142.850890,15895.116410,17428.748460,18232.424520,21664.787670,...,53292000.0,54959000.0,56079000.0,56179000.0,56339704.0,56981620.0,57866349.0,58808266.0,59912431,60776238
140,Oceania,Australia,10039.595640,10949.649590,12217.226860,14526.124650,16788.629480,18334.197510,19477.009280,21888.889030,...,10794968.0,11872264.0,13177000.0,14074100.0,15184200.0,16257249.0,17481977.0,18565243.0,19546792,20434176


La opción `groupby()` nos permite agrupar los datos de un data frame por los valores de una columna. En este caso, queremos agrupar los datos por los valores de la columna `continent`.

In [72]:
datos.groupby('continent')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000207699CFDF0>

Pero esto solo nos indica que el data frame es un objeto de tipo `DataFrameGroupBy`. Así que vamos a definir una operación que queremos hacer con los datos agrupados. En este caso, queremos obtener el promedio de los valores de la columna `gdpPercap_1967` para cada continente.

In [74]:
cont_prom = datos.groupby('continent')['gdpPercap_1952'].mean()
cont_prom

continent
Africa       1252.572466
Americas     4079.062552
Asia         5195.484004
Europe       5661.057435
Oceania     10298.085650
Name: gdpPercap_1952, dtype: float64

Como vimos más arriba esto nos devuelve una serie de `pandas` con los valores promedio de la columna `gdpPercap_1967` para cada continente. Podemos verificar esto con la función `type`.

In [76]:
type(cont_prom)

pandas.core.series.Series

Podemos convertir esta serie en un data frame usando el método `to_frame()`. Este método recibe como argumento el nombre de la columna que queremos asignar al data frame.

In [78]:
cont_prom = cont_prom.to_frame()
cont_prom

Unnamed: 0_level_0,gdpPercap_1952
continent,Unnamed: 1_level_1
Africa,1252.572466
Americas,4079.062552
Asia,5195.484004
Europe,5661.057435
Oceania,10298.08565


Pero podemos notar que los nombres de las columnas están en dos niveles diferentes. El primer nivel es el nombre de la columna que definimos más arriba, mientras que el segundo nivel es el índice de las filas. Podemos verificar que esto es cierto usando el método `index` para verificar el nombre de las filas.

In [79]:
cont_prom.index

Index(['Africa', 'Americas', 'Asia', 'Europe', 'Oceania'], dtype='object', name='continent')

Si queremos que el continente aparezca como una columna en vez de un índice, podemos usar el método `reset_index()`. Este método nos devuelve un data frame con el índice de las filas como una columna.

In [80]:
cont_prom.reset_index() 

Unnamed: 0,continent,gdpPercap_1952
0,Africa,1252.572466
1,Americas,4079.062552
2,Asia,5195.484004
3,Europe,5661.057435
4,Oceania,10298.08565


Recuerda que si nos asignamos esto a una variable, nuestra variable seguirá teniendo a los continentes como índice. 

In [81]:
cont_prom

Unnamed: 0_level_0,gdpPercap_1952
continent,Unnamed: 1_level_1
Africa,1252.572466
Americas,4079.062552
Asia,5195.484004
Europe,5661.057435
Oceania,10298.08565


Para evitar tener que asignar el resultado a una variable, podemos usar el parámetro `inplace=True` para que el cambio se haga directamente en el data frame original.

In [82]:
cont_prom.reset_index(inplace = True) 

In [83]:
cont_prom

Unnamed: 0,continent,gdpPercap_1952
0,Africa,1252.572466
1,Americas,4079.062552
2,Asia,5195.484004
3,Europe,5661.057435
4,Oceania,10298.08565


En este caso, obtenemos el resultado que esperábamos, y si verificamos el índice de las columnas ahora nos devuelve un rango de valores.

In [84]:
cont_prom.index

RangeIndex(start=0, stop=5, step=1)

## Usando `apply()` para evitar bucles `for`
Podemos usar el método `apply()` para aplicar una función a cada fila o columna de un data frame. En este caso, queremos aplicar la función `max()` a cada fila del data frame.  
  
Primero vamos a seleccionar las cuatro primeras columnas de nuestro data frame original usando el método `iloc()`.

In [85]:
pib_inicio =  datos.iloc[:,0:4]
pib_inicio

Unnamed: 0,continent,country,gdpPercap_1952,gdpPercap_1957
0,Africa,Algeria,2449.008185,3013.976023
1,Africa,Angola,3520.610273,3827.940465
2,Africa,Benin,1062.752200,959.601080
3,Africa,Botswana,851.241141,918.232535
4,Africa,Burkina Faso,543.255241,617.183465
...,...,...,...,...
137,Europe,Switzerland,14734.232750,17909.489730
138,Europe,Turkey,1969.100980,2218.754257
139,Europe,United Kingdom,9979.508487,11283.177950
140,Oceania,Australia,10039.595640,10949.649590


Ahora usaremos el método `apply()` para aplicar la función `max()` para encontrar el valor PIB máximo de cada fila del data frame.  
  
El método `apply()` recibe como argumento la función que queremos aplicar. Básicamente extrae cada fila o columna del data frame y aplica la función que queramos. En este caso queremos aplicar la función `max()` a cada fila del data frame, por lo que debemos especificar el parámetro `axis = 1`.   
  
Puedes ver que estamos especificando `lambda x` al inicio del argumento dentro del método `apply()`. Esto es porque la función `max()` recibe como argumento una lista de valores, y la función `apply()` extrae cada fila del data frame y la convierte en una lista de valores. En términos simples, `lambda` es una función anónima que recibe como argumento una lista de valores y devuelve el valor máximo de la lista. Mientras que `x` es el nombre que le damos a la lista de valores que recibe la función `lambda`.

In [96]:
#Aquí calculamos el máximo valor de las columnas de PIB por cada una de las filas
pib_inicio.apply(lambda x: max(x.loc['gdpPercap_1952':'gdpPercap_1957']), axis = 1)

0       3013.976023
1       3827.940465
2       1062.752200
3        918.232535
4        617.183465
           ...     
137    17909.489730
138     2218.754257
139    11283.177950
140    10949.649590
141    12247.395320
Length: 142, dtype: float64

Esto nos devuelve una serie de `pandas` con el valor máximo de cada fila del data frame. Pero podemos asignar este resultado a una nueva columna del data frame original. En este caso, vamos a asignar el resultado a una nueva columna llamada `max_pib`.

In [97]:
pib_inicio['max_pib'] = pib_inicio.apply(lambda x: max(x.loc['gdpPercap_1952':'gdpPercap_1957']), axis = 1)
#Veamos el resultado
pib_inicio

Unnamed: 0,continent,country,gdpPercap_1952,gdpPercap_1957,max_pib
0,Africa,Algeria,2449.008185,3013.976023,3013.976023
1,Africa,Angola,3520.610273,3827.940465,3827.940465
2,Africa,Benin,1062.752200,959.601080,1062.752200
3,Africa,Botswana,851.241141,918.232535,918.232535
4,Africa,Burkina Faso,543.255241,617.183465,617.183465
...,...,...,...,...,...
137,Europe,Switzerland,14734.232750,17909.489730,17909.489730
138,Europe,Turkey,1969.100980,2218.754257,2218.754257
139,Europe,United Kingdom,9979.508487,11283.177950,11283.177950
140,Oceania,Australia,10039.595640,10949.649590,10949.649590


En respuesta a la pregunta si podemos unir data frames por columnas, sí es posible. Podemos usar el método `concat()` para unir dos data frames por columnas, pero debemos especificar el parámetro `axis = 1` para indicar que queremos unir los data frames por columnas y no por filas que es el default.  
  
Escojamos las columnas que incluyen información sobre población y las unimos a nuestro data frame arriba. Recuerden que estas columnas tienen un nombre que empieza con `pop`.

In [101]:
#Usamos la opción de startswith para identificar las columnas que empiezan con un valor
pob = datos.columns[datos.columns.str.startswith('pop')]
#Veamos el resultado
pob

Index(['pop_1952', 'pop_1957', 'pop_1962', 'pop_1967', 'pop_1972', 'pop_1977',
       'pop_1982', 'pop_1987', 'pop_1992', 'pop_1997', 'pop_2002', 'pop_2007'],
      dtype='object')

Usamos estos nombres de columnas para seleccionar las columnas que queremos unir a nuestro data frame de más arriba.

In [102]:
datos_pob = datos[pob]
datos_pob.head()

Unnamed: 0,pop_1952,pop_1957,pop_1962,pop_1967,pop_1972,pop_1977,pop_1982,pop_1987,pop_1992,pop_1997,pop_2002,pop_2007
0,9279525.0,10270856.0,11000948.0,12760499.0,14760787.0,17152804.0,20033753.0,23254956.0,26298373.0,29072015.0,31287142,33333216
1,4232095.0,4561361.0,4826015.0,5247469.0,5894858.0,6162675.0,7016384.0,7874230.0,8735988.0,9875024.0,10866106,12420476
2,1738315.0,1925173.0,2151895.0,2427334.0,2761407.0,3168267.0,3641603.0,4243788.0,4981671.0,6066080.0,7026113,8078314
3,442308.0,474639.0,512764.0,553541.0,619351.0,781472.0,970347.0,1151184.0,1342614.0,1536536.0,1630347,1639131
4,4469979.0,4713416.0,4919632.0,5127935.0,5433886.0,5889574.0,6634596.0,7586551.0,8878303.0,10352843.0,12251209,14326203


Ahora usamos el método `concat()` para unir los dos data frames por columnas. Recuerda que debemos especificar los data frames que queremos unir como una lista.

In [104]:
pd.concat([pib_inicio, datos_pob], axis = 1)

Unnamed: 0,continent,country,gdpPercap_1952,gdpPercap_1957,max_pib,pop_1952,pop_1957,pop_1962,pop_1967,pop_1972,pop_1977,pop_1982,pop_1987,pop_1992,pop_1997,pop_2002,pop_2007
0,Africa,Algeria,2449.008185,3013.976023,3013.976023,9279525.0,10270856.0,11000948.0,12760499.0,14760787.0,17152804.0,20033753.0,23254956.0,26298373.0,29072015.0,31287142,33333216
1,Africa,Angola,3520.610273,3827.940465,3827.940465,4232095.0,4561361.0,4826015.0,5247469.0,5894858.0,6162675.0,7016384.0,7874230.0,8735988.0,9875024.0,10866106,12420476
2,Africa,Benin,1062.752200,959.601080,1062.752200,1738315.0,1925173.0,2151895.0,2427334.0,2761407.0,3168267.0,3641603.0,4243788.0,4981671.0,6066080.0,7026113,8078314
3,Africa,Botswana,851.241141,918.232535,918.232535,442308.0,474639.0,512764.0,553541.0,619351.0,781472.0,970347.0,1151184.0,1342614.0,1536536.0,1630347,1639131
4,Africa,Burkina Faso,543.255241,617.183465,617.183465,4469979.0,4713416.0,4919632.0,5127935.0,5433886.0,5889574.0,6634596.0,7586551.0,8878303.0,10352843.0,12251209,14326203
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
137,Europe,Switzerland,14734.232750,17909.489730,17909.489730,4815000.0,5126000.0,5666000.0,6063000.0,6401400.0,6316424.0,6468126.0,6649942.0,6995447.0,7193761.0,7361757,7554661
138,Europe,Turkey,1969.100980,2218.754257,2218.754257,22235677.0,25670939.0,29788695.0,33411317.0,37492953.0,42404033.0,47328791.0,52881328.0,58179144.0,63047647.0,67308928,71158647
139,Europe,United Kingdom,9979.508487,11283.177950,11283.177950,50430000.0,51430000.0,53292000.0,54959000.0,56079000.0,56179000.0,56339704.0,56981620.0,57866349.0,58808266.0,59912431,60776238
140,Oceania,Australia,10039.595640,10949.649590,10949.649590,8691212.0,9712569.0,10794968.0,11872264.0,13177000.0,14074100.0,15184200.0,16257249.0,17481977.0,18565243.0,19546792,20434176


Nota que el orden de las columnas depende del orden de los data frames en nuestra lista. Mira que ocurre si cambiamos el orden de los data frames en la lista.

In [105]:
pd.concat([datos_pob, pib_inicio], axis = 1)

Unnamed: 0,pop_1952,pop_1957,pop_1962,pop_1967,pop_1972,pop_1977,pop_1982,pop_1987,pop_1992,pop_1997,pop_2002,pop_2007,continent,country,gdpPercap_1952,gdpPercap_1957,max_pib
0,9279525.0,10270856.0,11000948.0,12760499.0,14760787.0,17152804.0,20033753.0,23254956.0,26298373.0,29072015.0,31287142,33333216,Africa,Algeria,2449.008185,3013.976023,3013.976023
1,4232095.0,4561361.0,4826015.0,5247469.0,5894858.0,6162675.0,7016384.0,7874230.0,8735988.0,9875024.0,10866106,12420476,Africa,Angola,3520.610273,3827.940465,3827.940465
2,1738315.0,1925173.0,2151895.0,2427334.0,2761407.0,3168267.0,3641603.0,4243788.0,4981671.0,6066080.0,7026113,8078314,Africa,Benin,1062.752200,959.601080,1062.752200
3,442308.0,474639.0,512764.0,553541.0,619351.0,781472.0,970347.0,1151184.0,1342614.0,1536536.0,1630347,1639131,Africa,Botswana,851.241141,918.232535,918.232535
4,4469979.0,4713416.0,4919632.0,5127935.0,5433886.0,5889574.0,6634596.0,7586551.0,8878303.0,10352843.0,12251209,14326203,Africa,Burkina Faso,543.255241,617.183465,617.183465
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
137,4815000.0,5126000.0,5666000.0,6063000.0,6401400.0,6316424.0,6468126.0,6649942.0,6995447.0,7193761.0,7361757,7554661,Europe,Switzerland,14734.232750,17909.489730,17909.489730
138,22235677.0,25670939.0,29788695.0,33411317.0,37492953.0,42404033.0,47328791.0,52881328.0,58179144.0,63047647.0,67308928,71158647,Europe,Turkey,1969.100980,2218.754257,2218.754257
139,50430000.0,51430000.0,53292000.0,54959000.0,56079000.0,56179000.0,56339704.0,56981620.0,57866349.0,58808266.0,59912431,60776238,Europe,United Kingdom,9979.508487,11283.177950,11283.177950
140,8691212.0,9712569.0,10794968.0,11872264.0,13177000.0,14074100.0,15184200.0,16257249.0,17481977.0,18565243.0,19546792,20434176,Oceania,Australia,10039.595640,10949.649590,10949.649590


Con esto terminamos la tercera semana. Existen muchos más métodos y funciones que podemos usar con diccionarios y data frames, pero no tenemos tiempo para cubrirlos todos. Puedes revisar la documentación de `pandas` para aprender más sobre esta librería.