# Pandas DataFrames

Ahora trabajaremos con pandas DataFrames, una forma poderosa de trabajar con datos tabulares (similar a lo que podría usar en una hoja de cálculo como MS Excel) en Python. También aprendemos cómo leer datos de archivos en pandas DataFrames, incluidos archivos individuales y colecciones de muchos archivos.

## Objetivos de aprendizaje

- Selección de valores individuales de un dataframe de Pandas

- Selección de filas enteras o columnas enteras de dataframe

- Selección  un subconjunto de filas y columnas de un dataframe con una operación

- Selección un subconjunto de un dataframe por un criterio booleano

- Obtenga estadísticas descriptivas para subconjuntos de datos dentro de una tabla

- Use el paradigma dividir-aplicar-combinar para trabajar con datos

## Qué es Pandas

pandas (cuyo nombre oficial comienza con una "p" minúscula) es una biblioteca de Python para trabajar con datos en un formato tabular, como el que se encuentra en formatos de archivo como CSV, Microsoft Excel y Google Sheets. A diferencia de Excel o Sheets, pandas no es una interfaz gráfica de apuntar y hacer clic para trabajar con estos archivos; todo se hace a través del código de Python. Pero en comparación con otros formatos para trabajar con datos que hemos visto, como listas y diccionarios, pandas puede parecer más familiar y definitivamente se presta de forma más natural a grandes conjuntos de datos. De hecho, la declaración de la misión de pandas es: "... ser el bloque de construcción fundamental de alto nivel para realizar análisis prácticos de datos del mundo real en Python".

Las unidades principales de almacenamiento de datos de pandas con las que trabajará son DataFrames (esencialmente, tablas de datos organizadas como filas y columnas). Los DataFramess son en realidad colecciones de objetos de la serie pandas, que se pueden considerar como filas o columnas individuales (o vectores o matrices 1D).

Entre las cosas que hacen que  pandas sea tan atractivo se encuentran la poderosa interfaz para acceder a los registros individuales de la tabla, el manejo adecuado de los valores faltantes y las operaciones de bases de datos relacionales entre DataFrames. Además, las funciones y métodos de pandas están escritos para funcionar de manera intuitiva y eficiente con datos organizados en tablas. La mayoría de las operaciones están vectorizadas, lo que significa que se aplicarán automáticamente a todos los valores en un DataFrame o Serie sin necesidad de escribir bucles for para ejecutar la misma operación en un conjunto de celdas.

pandas está construido sobre la biblioteca NumPy. 



## Librerías de Python

pandas es un ejemplo de una biblioteca de Python. Una biblioteca es una colección de archivos (llamados módulos) que contiene funciones para uso de otros programas. Las bibliotecas proporcionan formas de ampliar la funcionalidad de Python de diferentes maneras. También pueden contener valores de datos (por ejemplo, constantes numéricas), conjuntos completos de datos de muestra y otras cosas. Se supone que los contenidos de una biblioteca están relacionados, aunque no hay una forma real de hacerlo cumplir.

## Uso de la libería pandas

Para usar una biblioteca en un cuaderno Jupyter en particular u otro programa de Python, debemos importarlo usando la declaración de importación, como esta:

In [1]:
import pandas

Una vez que se importa una biblioteca, podemos usar funciones y métodos de ella. Pero, para las funciones, tenemos que decirle a Python que la función se puede encontrar en una biblioteca particular que importamos. Por ejemplo, pandas tiene una función para importar datos de archivos CSV (valores separados por comas), llamada read_csv. Para ejecutar este comando, tendríamos que escribir:

In [2]:
pandas.read_csv()

TypeError: read_csv() missing 1 required positional argument: 'filepath_or_buffer'

Dado que algunos nombres de paquetes son largos, y agregar el nombre a cada función puede resultar en escribir mucho, Python también nos permite asignar un alias, un nombre más corto, a una biblioteca cuando la importamos. Por ejemplo, la convención para pandas es darle el alias pd así:

In [2]:
import pandas as pd
#pd.read_csv()

## Importar archivos con pandas

Como se señaló, podemos leer un archivo CSV y usarlo para crear dataframe de pandas, con la función pd.read_csv(). CSV es un formato de texto utilizado para almacenar datos tabulares, en el que cada línea del archivo corresponde a una fila en la tabla, y las columnas se separan con comas ("CSV" significa "valores separados por comas"). A menudo, la primera fila de un archivo CSV será el encabezado, que contiene etiquetas para cada columna.

Los datos de Gapminder están en formato CSV, así que vamos a cargar uno de los conjuntos de datos de Gapminder con el siguiente comando. Tenga en cuenta que cuando leemos en un DataFrame, debemos asignarlo a un nombre de variable para que podamos hacer referencia a él más adelante. Una convención cuando se trabaja con pandas es llamar al DataFrame df. Esto funciona bien si solo tiene un DataFrame con el que trabajar, aunque si está trabajando con varios DataFrames, es una buena idea darles nombres más significativos.

Los datos de Gapminder se almacenan en una subcarpeta llamada datos, por lo que como argumento para pd.read_csv() a continuación le damos el nombre de la carpeta seguido de una barra inclinada, luego el nombre del archivo:

In [55]:
df = pd.read_csv('C:/Users/Abraham/Desktop/gapminder_gdp_europe.csv')

Podemos ver el contenido del DataFrame df simplemente escribiendo su nombre y ejecutando la celda. Tenga en cuenta que no usamos la función `print()`. Aunque funciona, el resultado no tiene el mismo formato que la salida si solo usamos el nombre del marco de datos.

Es decir, ejecute este comando: `df`— not `print(df)` — en la celda de abajo.

In [56]:
df

Unnamed: 0,country,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
0,Albania,1601.056136,1942.284244,2312.888958,2760.196931,3313.422188,3533.00391,3630.880722,3738.932735,2497.437901,3193.054604,4604.211737,5937.029526
1,Austria,6137.076492,8842.59803,10750.72111,12834.6024,16661.6256,19749.4223,21597.08362,23687.82607,27042.01868,29095.92066,32417.60769,36126.4927
2,Belgium,8343.105127,9714.960623,10991.20676,13149.04119,16672.14356,19117.97448,20979.84589,22525.56308,25575.57069,27561.19663,30485.88375,33692.60508
3,Bosnia and Herzegovina,973.533195,1353.989176,1709.683679,2172.352423,2860.16975,3528.481305,4126.613157,4314.114757,2546.781445,4766.355904,6018.975239,7446.298803
4,Bulgaria,2444.286648,3008.670727,4254.337839,5577.0028,6597.494398,7612.240438,8224.191647,8239.854824,6302.623438,5970.38876,7696.777725,10680.79282
5,Croatia,3119.23652,4338.231617,5477.890018,6960.297861,9164.090127,11305.38517,13221.82184,13822.58394,8447.794873,9875.604515,11628.38895,14619.22272
6,Czech Republic,6876.14025,8256.343918,10136.86713,11399.44489,13108.4536,14800.16062,15377.22855,16310.4434,14297.02122,16048.51424,17596.21022,22833.30851
7,Denmark,9692.385245,11099.65935,13583.31351,15937.21123,18866.20721,20422.9015,21688.04048,25116.17581,26406.73985,29804.34567,32166.50006,35278.41874
8,Finland,6424.519071,7545.415386,9371.842561,10921.63626,14358.8759,15605.42283,18533.15761,21141.01223,20647.16499,23723.9502,28204.59057,33207.0844
9,France,7029.809327,8662.834898,10560.48553,12999.91766,16107.19171,18292.63514,20293.89746,22066.44214,24703.79615,25889.78487,28926.03234,30470.0167



Puedes observar que las filas están numeradas en negrita, comenzando con 0 como es la norma en Python. Esta columna en negrita que se encuentra más a la izquierda se denomina índice de DataFrame y proporciona una forma de acceder a los datos por filas. En la parte superior, puedes ver que las etiquetas de las columnas también están en negrita. pandas es bastante inteligente al detectar automáticamente cuándo la primera fila de un archivo CSV contiene información de encabezado (nombres de columna).

## Heads or Tails?

Es posible que queramos "echar un vistazo" al DataFrame sin imprimir todo, especialmente si es grande. Podemos ver las primeras 5 filas de un DataFrame con el método `.head()`:

In [5]:
df.head()

Unnamed: 0,country,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
0,Albania,1601.056136,1942.284244,2312.888958,2760.196931,3313.422188,3533.00391,3630.880722,3738.932735,2497.437901,3193.054604,4604.211737,5937.029526
1,Austria,6137.076492,8842.59803,10750.72111,12834.6024,16661.6256,19749.4223,21597.08362,23687.82607,27042.01868,29095.92066,32417.60769,36126.4927
2,Belgium,8343.105127,9714.960623,10991.20676,13149.04119,16672.14356,19117.97448,20979.84589,22525.56308,25575.57069,27561.19663,30485.88375,33692.60508
3,Bosnia and Herzegovina,973.533195,1353.989176,1709.683679,2172.352423,2860.16975,3528.481305,4126.613157,4314.114757,2546.781445,4766.355904,6018.975239,7446.298803
4,Bulgaria,2444.286648,3008.670727,4254.337839,5577.0028,6597.494398,7612.240438,8224.191647,8239.854824,6302.623438,5970.38876,7696.777725,10680.79282


…o las últimas 5 filas con `.tail()`:

In [6]:
df.tail()

Unnamed: 0,country,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
25,Spain,3834.034742,4564.80241,5693.843879,7993.512294,10638.75131,13236.92117,13926.16997,15764.98313,18603.06452,20445.29896,24835.47166,28821.0637
26,Sweden,8527.844662,9911.878226,12329.44192,15258.29697,17832.02464,18855.72521,20667.38125,23586.92927,23880.01683,25266.59499,29341.63093,33859.74835
27,Switzerland,14734.23275,17909.48973,20431.0927,22966.14432,27195.11304,26982.29052,28397.71512,30281.70459,31871.5303,32135.32301,34480.95771,37506.41907
28,Turkey,1969.10098,2218.754257,2322.869908,2826.356387,3450.69638,4269.122326,4241.356344,5089.043686,5678.348271,6601.429915,6508.085718,8458.276384
29,United Kingdom,9979.508487,11283.17795,12477.17707,14142.85089,15895.11641,17428.74846,18232.42452,21664.78767,22705.09254,26074.53136,29478.99919,33203.26128


También podemos ver una muestra aleatoria de filas del DataFrame con `.sample()`, dándole un argumento numérico para indicar el número de filas que queremos ver:

In [8]:
df.sample(5)

Unnamed: 0,country,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
4,Bulgaria,2444.286648,3008.670727,4254.337839,5577.0028,6597.494398,7612.240438,8224.191647,8239.854824,6302.623438,5970.38876,7696.777725,10680.79282
27,Switzerland,14734.23275,17909.48973,20431.0927,22966.14432,27195.11304,26982.29052,28397.71512,30281.70459,31871.5303,32135.32301,34480.95771,37506.41907
20,Portugal,3068.319867,3774.571743,4727.954889,6361.517993,9022.247417,10172.48572,11753.84291,13039.30876,16207.26663,17641.03156,19970.90787,20509.64777
13,Iceland,7267.688428,9244.001412,10350.15906,13319.89568,15798.06362,19654.96247,23269.6075,26923.20628,25144.39201,28061.09966,31163.20196,36180.78919
23,Slovak Republic,5074.659104,6093.26298,7481.107598,8412.902397,9674.167626,10922.66404,11348.54585,12037.26758,9498.467723,12126.23065,13638.77837,18678.31435


Es importante mencionar que los métodos `.head()` y `.tail()` también toman opcionalmente un argumento numérico, si desea ver un número de filas diferente al predeterminado de 5.

## Accediendo a los valores en un DataFrame

Una cosa que a menudo queremos hacer es acceder a una sola celda en un DataFrame, o un rango de celdas. Cada celda se define de forma única por una combinación de sus ubicaciones de fila y columna.

### Selecciona una columna usando `[]`

Si queremos seleccionar una columna completa de un DataFrame de pandas, solo damos el nombre del DataFrame seguido del nombre de la columna entre corchetes:


In [9]:
df['gdpPercap_1992']

0      2497.437901
1     27042.018680
2     25575.570690
3      2546.781445
4      6302.623438
5      8447.794873
6     14297.021220
7     26406.739850
8     20647.164990
9     24703.796150
10    26505.303170
11    17541.496340
12    10535.628550
13    25144.392010
14    17558.815550
15    22013.644860
16     7003.339037
17    26790.949610
18    33965.661150
19     7738.881247
20    16207.266630
21     6598.409903
22     9325.068238
23     9498.467723
24    14214.716810
25    18603.064520
26    23880.016830
27    31871.530300
28     5678.348271
29    22705.092540
Name: gdpPercap_1992, dtype: float64

Ten en cuenta que si solicitamos una sola columna, el resultado es una serie pandas, pero si solicitamos dos o más columnas, el resultado es un DataFrame. Imporatante: si solicitamos más de una columna, debemos proporcionar una lista de columnas dentro de los corchetes (por lo que hay dos conjuntos de corchetes anidados en el código a continuación):

In [10]:
df[['gdpPercap_1982', 'gdpPercap_1992']]

Unnamed: 0,gdpPercap_1982,gdpPercap_1992
0,3630.880722,2497.437901
1,21597.08362,27042.01868
2,20979.84589,25575.57069
3,4126.613157,2546.781445
4,8224.191647,6302.623438
5,13221.82184,8447.794873
6,15377.22855,14297.02122
7,21688.04048,26406.73985
8,18533.15761,20647.16499
9,20293.89746,24703.79615


### Indexación numérica utilizando `.iloc[]`

A menudo no queremos acceder a una columna completa, sino solo a filas específicas dentro de una columna (o rango de columnas). pandas proporciona dos formas de acceder a las ubicaciones de las celdas. Uno está usando las posiciones numéricas en el DataFrame, usando la convención de [fila, columna], siendo [0, 0] la celda superior izquierda en el DataFrame. Entonces, para un DataFrame de pandas con 3 filas y 3 columnas, los índices de cada celda son los que se muestran:

|   | col 0  | col 1  | col 2  | col 3  |
|---|--------|--------|--------|--------|
| 0 | [0, 0] | [0, 1] | [0, 2] | [0, 3] |
| 1 | [1, 0] | [1, 1] | [1, 2] | [1, 3] |
| 2 | [2, 0] | [2, 1] | [2, 2] | [2, 3] |
| 3 | [3, 0] | [3, 1] | [3, 2] | [3, 3] |

La indexación numérica de DataFrames se realiza con el método .iloc[]. Por ejemplo, para acceder al valor del PIB de Austria en 1952, que se encuentra en la segunda fila, tercera columna de nuestro DataFrame actual, usaríamos:

In [12]:
df.iloc[1, 2]

8842.59803

### Indexación basado en etiquetas usando `.loc[]`

- La otra forma de acceder a una ubicación en un DataFrame es por sus etiquetas de índice y columna, usando el método .`loc[]`. Como se señaló anteriormente, en el DataFrame que importamos, los índices son actualmente números, que se crearon automáticamente cuando importamos los datos. El método `.loc[]` no funciona con índices numéricos (para eso está iloc, y no se puede mezclar, digamos, un índice de fila numérico con una etiqueta de columna), pero en el conjunto de datos que importamos, la primera columna de este archivo CSV en realidad está destinado a ser su índice: mientras que todas las demás columnas son valores de datos (PIB, en tipo flotante), la primera columna identifica el país con el que está asociada cada fila de datos.

- pandas tiene un método para establecer una columna de índice, `.set_index()`, donde el argumento (entre paréntesis) sería el nombre de la columna a usar como índice. Así que aquí queremos ejecutar:

In [57]:
df

Unnamed: 0,country,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
0,Albania,1601.056136,1942.284244,2312.888958,2760.196931,3313.422188,3533.00391,3630.880722,3738.932735,2497.437901,3193.054604,4604.211737,5937.029526
1,Austria,6137.076492,8842.59803,10750.72111,12834.6024,16661.6256,19749.4223,21597.08362,23687.82607,27042.01868,29095.92066,32417.60769,36126.4927
2,Belgium,8343.105127,9714.960623,10991.20676,13149.04119,16672.14356,19117.97448,20979.84589,22525.56308,25575.57069,27561.19663,30485.88375,33692.60508
3,Bosnia and Herzegovina,973.533195,1353.989176,1709.683679,2172.352423,2860.16975,3528.481305,4126.613157,4314.114757,2546.781445,4766.355904,6018.975239,7446.298803
4,Bulgaria,2444.286648,3008.670727,4254.337839,5577.0028,6597.494398,7612.240438,8224.191647,8239.854824,6302.623438,5970.38876,7696.777725,10680.79282
5,Croatia,3119.23652,4338.231617,5477.890018,6960.297861,9164.090127,11305.38517,13221.82184,13822.58394,8447.794873,9875.604515,11628.38895,14619.22272
6,Czech Republic,6876.14025,8256.343918,10136.86713,11399.44489,13108.4536,14800.16062,15377.22855,16310.4434,14297.02122,16048.51424,17596.21022,22833.30851
7,Denmark,9692.385245,11099.65935,13583.31351,15937.21123,18866.20721,20422.9015,21688.04048,25116.17581,26406.73985,29804.34567,32166.50006,35278.41874
8,Finland,6424.519071,7545.415386,9371.842561,10921.63626,14358.8759,15605.42283,18533.15761,21141.01223,20647.16499,23723.9502,28204.59057,33207.0844
9,France,7029.809327,8662.834898,10560.48553,12999.91766,16107.19171,18292.63514,20293.89746,22066.44214,24703.79615,25889.78487,28926.03234,30470.0167


In [58]:
df = df.set_index('country')
df

Unnamed: 0_level_0,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Albania,1601.056136,1942.284244,2312.888958,2760.196931,3313.422188,3533.00391,3630.880722,3738.932735,2497.437901,3193.054604,4604.211737,5937.029526
Austria,6137.076492,8842.59803,10750.72111,12834.6024,16661.6256,19749.4223,21597.08362,23687.82607,27042.01868,29095.92066,32417.60769,36126.4927
Belgium,8343.105127,9714.960623,10991.20676,13149.04119,16672.14356,19117.97448,20979.84589,22525.56308,25575.57069,27561.19663,30485.88375,33692.60508
Bosnia and Herzegovina,973.533195,1353.989176,1709.683679,2172.352423,2860.16975,3528.481305,4126.613157,4314.114757,2546.781445,4766.355904,6018.975239,7446.298803
Bulgaria,2444.286648,3008.670727,4254.337839,5577.0028,6597.494398,7612.240438,8224.191647,8239.854824,6302.623438,5970.38876,7696.777725,10680.79282
Croatia,3119.23652,4338.231617,5477.890018,6960.297861,9164.090127,11305.38517,13221.82184,13822.58394,8447.794873,9875.604515,11628.38895,14619.22272
Czech Republic,6876.14025,8256.343918,10136.86713,11399.44489,13108.4536,14800.16062,15377.22855,16310.4434,14297.02122,16048.51424,17596.21022,22833.30851
Denmark,9692.385245,11099.65935,13583.31351,15937.21123,18866.20721,20422.9015,21688.04048,25116.17581,26406.73985,29804.34567,32166.50006,35278.41874
Finland,6424.519071,7545.415386,9371.842561,10921.63626,14358.8759,15605.42283,18533.15761,21141.01223,20647.16499,23723.9502,28204.59057,33207.0844
France,7029.809327,8662.834898,10560.48553,12999.91766,16107.19171,18292.63514,20293.89746,22066.44214,24703.79615,25889.78487,28926.03234,30470.0167


Tenga en cuenta que debemos asignar el resultado de esta operación nuevamente a `df` (usando `df` = ), de lo contrario, el cambio no modificará realmente `df`.

En la celda a continuación, use el método `.set_index()` para establecer el índice de df en el país y luego vuelva a ver el DataFrame para ver cómo ha cambiado.

Alternativamente, si supiéramos qué columna queríamos usar como índice antes de cargar el archivo de datos, podríamos haber incluido el argumento `index_col`= en el comando `pd.read_csv()`:

In [19]:
df = pd.read_csv('C:/Users/Abraham/Desktop/gapminder_gdp_europe.csv', index_col='country')

In [20]:
df

Unnamed: 0_level_0,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Albania,1601.056136,1942.284244,2312.888958,2760.196931,3313.422188,3533.00391,3630.880722,3738.932735,2497.437901,3193.054604,4604.211737,5937.029526
Austria,6137.076492,8842.59803,10750.72111,12834.6024,16661.6256,19749.4223,21597.08362,23687.82607,27042.01868,29095.92066,32417.60769,36126.4927
Belgium,8343.105127,9714.960623,10991.20676,13149.04119,16672.14356,19117.97448,20979.84589,22525.56308,25575.57069,27561.19663,30485.88375,33692.60508
Bosnia and Herzegovina,973.533195,1353.989176,1709.683679,2172.352423,2860.16975,3528.481305,4126.613157,4314.114757,2546.781445,4766.355904,6018.975239,7446.298803
Bulgaria,2444.286648,3008.670727,4254.337839,5577.0028,6597.494398,7612.240438,8224.191647,8239.854824,6302.623438,5970.38876,7696.777725,10680.79282
Croatia,3119.23652,4338.231617,5477.890018,6960.297861,9164.090127,11305.38517,13221.82184,13822.58394,8447.794873,9875.604515,11628.38895,14619.22272
Czech Republic,6876.14025,8256.343918,10136.86713,11399.44489,13108.4536,14800.16062,15377.22855,16310.4434,14297.02122,16048.51424,17596.21022,22833.30851
Denmark,9692.385245,11099.65935,13583.31351,15937.21123,18866.20721,20422.9015,21688.04048,25116.17581,26406.73985,29804.34567,32166.50006,35278.41874
Finland,6424.519071,7545.415386,9371.842561,10921.63626,14358.8759,15605.42283,18533.15761,21141.01223,20647.16499,23723.9502,28204.59057,33207.0844
France,7029.809327,8662.834898,10560.48553,12999.91766,16107.19171,18292.63514,20293.89746,22066.44214,24703.79615,25889.78487,28926.03234,30470.0167


Ahora que hemos definido el índice, podemos acceder al valor del PIB de Austria de 1952 por su índice y nombres de columna:

In [21]:
df.loc['Austria', 'gdpPercap_1952']

6137.076492

### Utilice : solo para referirse a todas las columnas o todas las filas.

Usando la notación de slicing de Python (que hemos usado anteriormente para cadenas y listas), podemos usar `:` con `.iloc[]` o `.loc[]`, para especificar un rango en un DataFrame.

Por ejemplo, para ver el PIB de Albania para cada año (columna) en el DataFrame, usaríamos:

In [22]:
df.loc["Albania", :]

gdpPercap_1952    1601.056136
gdpPercap_1957    1942.284244
gdpPercap_1962    2312.888958
gdpPercap_1967    2760.196931
gdpPercap_1972    3313.422188
gdpPercap_1977    3533.003910
gdpPercap_1982    3630.880722
gdpPercap_1987    3738.932735
gdpPercap_1992    2497.437901
gdpPercap_1997    3193.054604
gdpPercap_2002    4604.211737
gdpPercap_2007    5937.029526
Name: Albania, dtype: float64

Asimismo, podríamos ver el PIB de cada país (fila) en el año 1957 con:

In [23]:
df.loc[:, 'gdpPercap_1957']

country
Albania                    1942.284244
Austria                    8842.598030
Belgium                    9714.960623
Bosnia and Herzegovina     1353.989176
Bulgaria                   3008.670727
Croatia                    4338.231617
Czech Republic             8256.343918
Denmark                   11099.659350
Finland                    7545.415386
France                     8662.834898
Germany                   10187.826650
Greece                     4916.299889
Hungary                    6040.180011
Iceland                    9244.001412
Ireland                    5599.077872
Italy                      6248.656232
Montenegro                 3682.259903
Netherlands               11276.193440
Norway                    11653.973040
Poland                     4734.253019
Portugal                   3774.571743
Romania                    3943.370225
Serbia                     4981.090891
Slovak Republic            6093.262980
Slovenia                   5862.276629
Spain            

También puede simplemente especificar el índice de la fila; si no especifica nada para las columnas, pandas asume que desea todas las columnas:

In [24]:
df.loc["Albania"]

gdpPercap_1952    1601.056136
gdpPercap_1957    1942.284244
gdpPercap_1962    2312.888958
gdpPercap_1967    2760.196931
gdpPercap_1972    3313.422188
gdpPercap_1977    3533.003910
gdpPercap_1982    3630.880722
gdpPercap_1987    3738.932735
gdpPercap_1992    2497.437901
gdpPercap_1997    3193.054604
gdpPercap_2002    4604.211737
gdpPercap_2007    5937.029526
Name: Albania, dtype: float64

Sin embargo, dado que la sintaxis de `.iloc[]` y `.loc[]` es [filas, columnas], no puede omitir un índice de fila; necesitas usar: si quieres todas las filas.

### Slicing con DataFrames

La división con índices numéricos funciona de manera similar para DataFrames como vimos anteriormente para cadenas y listas, por ejemplo, el siguiente código imprimirá de la tercera a la quinta fila del DataFrame y de la quinta a la octava columna (recuerde, la indexación de Python comienza en 0 y el corte no incluye el índice "final"):

In [25]:
df.iloc[2:5, 4:8]

Unnamed: 0_level_0,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Belgium,16672.14356,19117.97448,20979.84589,22525.56308
Bosnia and Herzegovina,2860.16975,3528.481305,4126.613157,4314.114757
Bulgaria,6597.494398,7612.240438,8224.191647,8239.854824


El siguiente código se imprimirá desde la sexta hasta la penúltima fila del DataFrame y desde la novena hasta la última columna:

In [26]:
df.iloc[5:-1, 8:]

Unnamed: 0_level_0,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Croatia,8447.794873,9875.604515,11628.38895,14619.22272
Czech Republic,14297.02122,16048.51424,17596.21022,22833.30851
Denmark,26406.73985,29804.34567,32166.50006,35278.41874
Finland,20647.16499,23723.9502,28204.59057,33207.0844
France,24703.79615,25889.78487,28926.03234,30470.0167
Germany,26505.30317,27788.88416,30035.80198,32170.37442
Greece,17541.49634,18747.69814,22514.2548,27538.41188
Hungary,10535.62855,11712.7768,14843.93556,18008.94444
Iceland,25144.39201,28061.09966,31163.20196,36180.78919
Ireland,17558.81555,24521.94713,34077.04939,40675.99635


**Imporatante:**, sin embargo, cuando se utiliza la indexación basada en etiquetas con `.loc[]`, el comportamiento de corte de los pandas es un poco diferente. Específicamente, la salida incluye el último elemento del rango, mientras que la indexación numérica con `.iloc[]` no lo incluye.

Entonces, considerando que las primeras tres filas del DataFrame corresponden a los países Albania, Austria y Bélgica, y que las columnas 6 y 7 son para los años 1982 y 1987 respectivamente, compare el resultado de:

In [27]:
df.iloc[0:2, 6:7]

Unnamed: 0_level_0,gdpPercap_1982
country,Unnamed: 1_level_1
Albania,3630.880722
Austria,21597.08362


In [28]:
df.loc['Albania':'Belgium', 'gdpPercap_1982':'gdpPercap_1988']

Unnamed: 0_level_0,gdpPercap_1982,gdpPercap_1987
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Albania,3630.880722,3738.932735
Austria,21597.08362,23687.82607
Belgium,20979.84589,22525.56308


### Uso de listas para seleccionar secciones no contiguas de un DataFrame

Si bien el slicing puede ser muy útil, a veces es posible que deseemos extraer valores que no están uno al lado del otro en un DataFrame. Por ejemplo, ¿qué pasa si solo queremos valores de dos años específicos (1992 y 2002) para los países escandinavos (Dinamarca, Finlandia, Noruega y Suecia)? Ni estos años ni los países están en columnas/filas adyacentes en el DataFrame. Con `.loc[]`, podemos usar listas, en lugar de rangos separados por :, como selectores:

In [29]:
df.loc[['Denmark', 'Finland', 'Norway', 'Sweden'], ['gdpPercap_1992', 'gdpPercap_2002']]


Unnamed: 0_level_0,gdpPercap_1992,gdpPercap_2002
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Denmark,26406.73985,32166.50006
Finland,20647.16499,28204.59057
Norway,33965.66115,44683.97525
Sweden,23880.01683,29341.63093


De manera equivalente, podemos escribir el comando en varias líneas para que sea un poco más fácil de leer:

In [30]:
df.loc[['Denmark', 'Finland', 'Norway', 'Sweden'], 
       ['gdpPercap_1992', 'gdpPercap_2002']
      ]

Unnamed: 0_level_0,gdpPercap_1992,gdpPercap_2002
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Denmark,26406.73985,32166.50006
Finland,20647.16499,28204.59057
Norway,33965.66115,44683.97525
Sweden,23880.01683,29341.63093


También podríamos definir esas listas como variables y pasar las variables a `.loc[]`. Esto podría ser útil si se van a usar las listas más de una vez, así como para mayor claridad:

In [31]:
scand_countries = ['Denmark', 'Finland', 'Iceland', 'Norway', 'Sweden']
years = ['gdpPercap_1992', 'gdpPercap_2002']
df.loc[scand_countries, years]

Unnamed: 0_level_0,gdpPercap_1992,gdpPercap_2002
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Denmark,26406.73985,32166.50006
Finland,20647.16499,28204.59057
Iceland,25144.39201,31163.20196
Norway,33965.66115,44683.97525
Sweden,23880.01683,29341.63093


Podemos llevar esto un paso más allá y asignar la salida de una selección `.loc[]` como esta a un nuevo nombre de variable. Esto hace una copia de los datos seleccionados, almacenados en un nuevo DataFrame (o Serie, si solo seleccionamos una fila o columna) con su propio nombre. Esto nos permite referenciar y usar esa selección más tarde.

In [32]:
scand_data = df.loc[scand_countries, years]

### Operaciones matemáticas y estadística  en DataFrames

Anteriormente aprendimos sobre métodos para obtener valores estadísticos simples de una lista de Python, como .max() y .min(). pandas incluye estos y muchos más métodos también. Por ejemplo, podemos ver el PIB medio de Italia en todos los años (columnas) con:

In [34]:
df.loc['Italy'].mean()

16245.20900641667

In [35]:
df.loc[:, 'gdpPercap_1977'].max()

26982.29052

Otro método útil es `.describe()`, que imprime un rango de estadísticas descriptivas para el rango de datos que especifique. Sin ningún corte, proporciona información para cada columna:

In [36]:
df.describe()

Unnamed: 0,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
count,30.0,30.0,30.0,30.0,30.0,30.0,30.0,30.0,30.0,30.0,30.0,30.0
mean,5661.057435,6963.012816,8365.486814,10143.823757,12479.575246,14283.97911,15617.896551,17214.310727,17061.568084,19076.781802,21711.732422,25054.481636
std,3114.060493,3677.950146,4199.193906,4724.983889,5509.691411,5874.464896,6453.234827,7482.95796,9109.804361,10065.457716,11197.355517,11800.339811
min,973.533195,1353.989176,1709.683679,2172.352423,2860.16975,3528.481305,3630.880722,3738.932735,2497.437901,3193.054604,4604.211737,5937.029526
25%,3241.132406,4394.874315,5373.536612,6657.939047,9057.708095,10360.0303,11449.870115,12274.57068,8667.113214,9946.599306,11721.851483,14811.89821
50%,5142.469716,6066.721495,7515.733738,9366.067033,12326.37999,14225.754515,15322.82472,16215.485895,17550.155945,19596.49855,23674.86323,28054.06579
75%,7236.794919,9597.22082,10931.085347,13277.182057,16523.017127,19052.412163,20901.72973,23321.587723,25034.243045,27189.530312,30373.363307,33817.962533
max,14734.23275,17909.48973,20431.0927,22966.14432,27195.11304,26982.29052,28397.71512,31540.9748,33965.66115,41283.16433,44683.97525,49357.19017


### Evaluar celdas en función de las condiciones

pandas permite una manera fácil de identificar valores en un DataFrame que cumplen con una determinada condición, utilizando operadores como `<`, `>` y `==`. Por ejemplo, veamos qué países de una lista tenían un PIB superior a 10 000 en 1962 y 1992. El resultado se informa en booleanos (verdadero/falso) para cada celda.

In [37]:
countries = ['France', 'Germany', 'Italy', 'Spain', 'United Kingdom']
df.loc[countries, ['gdpPercap_1962', 'gdpPercap_1992']] > 10000

Unnamed: 0_level_0,gdpPercap_1962,gdpPercap_1992
country,Unnamed: 1_level_1,Unnamed: 2_level_1
France,True,True
Germany,True,True
Italy,False,True
Spain,False,True
United Kingdom,True,True


### Seleccionar valores o NaN usando una máscara booleana

Un DataFrame lleno de valores booleanos a veces se denomina máscara debido a cómo se puede usar. Una máscara elimina los valores que no son verdaderos y los reemplaza con `NaN`, un valor especial de Python que representa "no es un número". Esto puede ser útil porque pandas ignora los valores de NaN al realizar cálculos.

Creamos una máscara asignando la salida de una declaración condicional a un nombre de variable:

In [39]:
mask = scand_data > 30000

Luego podemos aplicar la máscara al DataFrame para obtener solo los valores que cumplen con el criterio:

In [40]:
scand_data[mask]

Unnamed: 0_level_0,gdpPercap_1992,gdpPercap_2002
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Denmark,,32166.50006
Finland,,
Iceland,,31163.20196
Norway,33965.66115,44683.97525
Sweden,,


Como ejemplo de cómo se podría usar esto, los pasos anteriores ahora nos permitirían encontrar el valor del PIB más bajo en cada año, que estaba por encima de 30,000:

In [41]:
scand_data[mask].min()

gdpPercap_1992    33965.66115
gdpPercap_2002    31163.20196
dtype: float64

### Split-Apply-Combine

Una tarea común en la ciencia de datos es dividir los datos en subgrupos significativos, aplicar una operación a cada subgrupo (por ejemplo, calcular la media) y luego combinar los resultados en un solo resultado, como una tabla o un nuevo DataFrame. Hadley Wickham describió este paradigma en un artículo de 2011 (http://dx.doi.org/10.18637/jss.v040.i01).

pandas proporciona métodos y operaciones de agrupación que son muy eficientes (vectorizados) para operaciones de división, aplicación y combinación.

Como ejemplo, digamos que quisiéramos comparar el PIB promedio de diferentes regiones de Europa, divididas en norte, sur, este y oeste. Para ello, primero tenemos que crear listas definiendo los países que pertenecen a cada una de estas regiones:

In [42]:
northern = ['Denmark', 'Finland', 'Iceland', 'Norway', 'Sweden']
southern = ['Greece', 'Italy', 'Portugal', 'Spain']
eastern = ['Albania', 'Bosnia and Herzegovina', 'Bulgaria', 'Croatia', 
            'Czech Republic', 'Hungary', 'Montenegro', 'Poland', 'Romania', 
            'Serbia', 'Slovak Republic', 'Slovenia']
western = ['Austria',  'Belgium', 'France', 'Germany', 'Ireland', 
            'Netherlands', 'Switzerland', 'United Kingdom']

A continuación, podemos crear una nueva columna simplemente usando .loc[] con las filas especificadas por una de las listas que acabamos de definir, un nombre de columna que aún no existe (en este caso, lo llamaremos "región") , luego asignando una etiqueta de región a esa combinación de filas y columnas. Tenemos que hacer esto por separado para cada región. Tenga en cuenta que cuando creamos por primera vez la nueva columna ("región"), pandas la llena con valores NaN en las filas que no estaban definidas por la asignación. Por ejemplo, en el código a continuación, la primera línea creará la columna "región" y la llenará con "norte" para cualquier fila en la lista del norte, y NaN para cualquier otra fila.

In [43]:
df.loc[northern, 'region'] = 'northern'
df.loc[southern, 'region'] = 'southern'
df.loc[eastern, 'region'] = 'eastern'
df.loc[western, 'region'] = 'western'

Miremos las dos últimas columnas de `df` para ver la columna de región que creamos:

In [44]:
df.iloc[:, -2:]

Unnamed: 0_level_0,gdpPercap_2007,region
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Albania,5937.029526,eastern
Austria,36126.4927,western
Belgium,33692.60508,western
Bosnia and Herzegovina,7446.298803,eastern
Bulgaria,10680.79282,eastern
Croatia,14619.22272,eastern
Czech Republic,22833.30851,eastern
Denmark,35278.41874,northern
Finland,33207.0844,northern
France,30470.0167,western


### Split

Ahora podemos usar esta columna de "región" para dividir los datos en grupos, usando un método de pandas llamado .`groupby()`

In [46]:
grouped_countries = df.groupby('region')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000230DD2F98E0>

Este paso no crea un nuevo DataFrame, crea un tipo especial de objeto pandas que apunta a una agrupación en el DataFrame original

### Apply

Ahora que hemos dividido los datos, podemos aplicar una función por separado a cada grupo. Aquí calcularemos el PIB medio para cada región, para cada año:

In [48]:
mean_gdp_by_region = grouped_countries.mean()
mean_gdp_by_region

Unnamed: 0_level_0,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
eastern,3580.884612,4519.684445,5611.534264,6911.825724,8465.695242,10007.911765,10900.209963,11375.852107,8250.514199,9395.008143,10864.013821,14100.916656
northern,8401.571825,9890.985483,11817.031712,14359.783322,17164.045376,19570.07228,22091.36443,25661.659678,26008.794966,29627.83097,33111.979754,37576.64617
southern,3841.112208,4876.082568,6170.64296,8222.632153,11163.775519,12965.22898,14371.479318,16033.013775,18591.368087,20377.26328,23822.183125,26359.710762
western,8439.962345,10434.519899,12191.949119,14232.125299,17359.111144,19305.504057,20693.785153,22798.712417,25344.134586,27914.214806,31703.386229,35080.387365


### Combine

El paso de combinación en realidad ocurrió con el paso de aplicación anteriormente: el resultado se combina automáticamente en una tabla de valores medios organizados por región. Pero dado que nuestro paso de aplicación (`.mean()`) guardó el resultado en una variable, podemos ver la tabla resultante como el resultado del paso de combinación:

In [49]:
mean_gdp_by_region

Unnamed: 0_level_0,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
eastern,3580.884612,4519.684445,5611.534264,6911.825724,8465.695242,10007.911765,10900.209963,11375.852107,8250.514199,9395.008143,10864.013821,14100.916656
northern,8401.571825,9890.985483,11817.031712,14359.783322,17164.045376,19570.07228,22091.36443,25661.659678,26008.794966,29627.83097,33111.979754,37576.64617
southern,3841.112208,4876.082568,6170.64296,8222.632153,11163.775519,12965.22898,14371.479318,16033.013775,18591.368087,20377.26328,23822.183125,26359.710762
western,8439.962345,10434.519899,12191.949119,14232.125299,17359.111144,19305.504057,20693.785153,22798.712417,25344.134586,27914.214806,31703.386229,35080.387365


### Chaining

En Python, el encadenamiento se refiere a combinar varias operaciones en un solo comando, utilizando una secuencia de métodos. Podemos realizar el procedimiento anterior de división, aplicación y combinación en un solo paso de la siguiente manera. Tenga en cuenta que debido a que no asignamos la salida a un nombre de variable, se muestra como salida pero no se guarda.

In [50]:
df.groupby('region').mean()

Unnamed: 0_level_0,gdpPercap_1952,gdpPercap_1957,gdpPercap_1962,gdpPercap_1967,gdpPercap_1972,gdpPercap_1977,gdpPercap_1982,gdpPercap_1987,gdpPercap_1992,gdpPercap_1997,gdpPercap_2002,gdpPercap_2007
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
eastern,3580.884612,4519.684445,5611.534264,6911.825724,8465.695242,10007.911765,10900.209963,11375.852107,8250.514199,9395.008143,10864.013821,14100.916656
northern,8401.571825,9890.985483,11817.031712,14359.783322,17164.045376,19570.07228,22091.36443,25661.659678,26008.794966,29627.83097,33111.979754,37576.64617
southern,3841.112208,4876.082568,6170.64296,8222.632153,11163.775519,12965.22898,14371.479318,16033.013775,18591.368087,20377.26328,23822.183125,26359.710762
western,8439.962345,10434.519899,12191.949119,14232.125299,17359.111144,19305.504057,20693.785153,22798.712417,25344.134586,27914.214806,31703.386229,35080.387365


## Ejercicios (para entregar en clase)

- Escribe una expresión para hallar el PIB per cápita de Serbia en 2007.
- ¿Las dos declaraciones a continuación producen el mismo resultado? (Sugerencia: es posible que desee utilizar el método .head() para recordar la estructura del DataFrame)

- Según esto, ¿qué regla rige lo que se incluye (o no) en los segmentos numéricos y los segmentos con nombre en Pandas?

    ~~~python
    print(df.iloc[0:2, 0:2])
    print(df.loc['Albania':'Belgium', 'gdpPercap_1952':'gdpPercap_1962'])
    ~~~
    
- Explique qué hace cada línea en el siguiente programa: ¿qué hay en df1, df2, etc.?
    ~~~python
    df1 = pd.read_csv('path/gapminder_all.csv', index_col='country')
    df2 = df1[df1['continent'] == 'Americas']
    df3 = df2.drop('Puerto Rico')
    df4 = df3.drop('continent', axis = 1)
    df4.to_csv('result.csv')    
    ~~~
- Explique en términos simples qué hacen i`dxmin` e `idxmax`. ¿Cuándo usarías estos métodos?
    ~~~python
    data = pd.read_csv('data/gapminder_gdp_europe.csv', index_col='country')
    data.idxmin()
    ~~~

- Del ejercicio anterior, los datos del PIB de Gapminder para Europa deben cargarse como datos. Usando este DataFrame, escriba una expresión para seleccionar cada uno de los siguientes:
    ~~~python
    GDP per capita for all countries in 1982
    GDP per capita for Denmark for all years
    GDP per capita for all countries for years after 1985
    ~~~    
 pandas es lo suficientemente inteligente como para reconocer el número al final de la etiqueta de la columna y no le da un error, aunque en realidad no existe ninguna columna llamada gdpPercap_1985. Esto es útil si se agregan nuevas columnas al archivo CSV más adelante.

    ~~~python
    GDP per capita for each country in 2007 as a multiple of GDP per capita for that country in 1952
    ~~~

#Resumen

- pandas DataFrames son una forma poderosa de almacenar y trabajar con datos tabulares (fila/columna)

- Las columnas y filas de pandas pueden tener nombres

- Los nombres de las filas de pandas se denominan índices, que son numéricos de forma predeterminada, pero se les pueden asignar otras etiquetas.

- Uso del método `.iloc[]` con un DataFrame para seleccionar valores por ubicación de número entero, usando el formato [fila, columna]

- Uso del método `.loc[]` con un DataFrame para seleccionar filas y/o columnas, usando segmentos con nombre

- Uso e : solo para referirse a todas las columnas o todas las filas

- El resultado del slicing se puede utilizar en otras operaciones.

- Utilice comparaciones para seleccionar datos en función del valor

- Seleccionar valores o `NaN` usando una máscara booleana

- use split-apply-combine para derivar análisis de agrupaciones dentro de un DataFrame