# Configuración y eliminación de índices
pandas te permite designar columnas como *índice*. Esto permite un código más limpio al crear subconjuntos (además de permitir una búsqueda más eficiente en algunas circunstancias).

En este capítulo, explorarás `temperatures`, un DataFrame de las temperaturas medias en ciudades de todo el mundo. `pandas` fue cargado como `pd`.

In [1]:
import pandas as pd

In [None]:
# Imprime temperatures
print(temperatures)

# Fija el índice de temperatures a city
temperatures_ind = temperatures.set_index("city")

# Imprime temperatures_ind
print(temperatures_ind)

# Restablece el índice de temperatures_ind, manteniendo su contenido
print(temperatures_ind.reset_index())

# Restablece el índice de temperatures_ind, eliminando su contenido
print(temperatures_ind.reset_index(drop = True))

```python
            date     city        country  avg_temp_c
0     2000-01-01  Abidjan  Côte D'Ivoire      27.293
1     2000-02-01  Abidjan  Côte D'Ivoire      27.685
2     2000-03-01  Abidjan  Côte D'Ivoire      29.061
3     2000-04-01  Abidjan  Côte D'Ivoire      28.162
4     2000-05-01  Abidjan  Côte D'Ivoire      27.547
...          ...      ...            ...         ...
16495 2013-05-01     Xian          China      18.979
16496 2013-06-01     Xian          China      23.522
16497 2013-07-01     Xian          China      25.251
16498 2013-08-01     Xian          China      24.528
16499 2013-09-01     Xian          China         NaN

[16500 rows x 4 columns]

------------------------------------------------------


              date        country  avg_temp_c
city                                         
Abidjan 2000-01-01  Côte D'Ivoire      27.293
Abidjan 2000-02-01  Côte D'Ivoire      27.685
Abidjan 2000-03-01  Côte D'Ivoire      29.061
Abidjan 2000-04-01  Côte D'Ivoire      28.162
Abidjan 2000-05-01  Côte D'Ivoire      27.547
...            ...            ...         ...
Xian    2013-05-01          China      18.979
Xian    2013-06-01          China      23.522
Xian    2013-07-01          China      25.251
Xian    2013-08-01          China      24.528
Xian    2013-09-01          China         NaN

[16500 rows x 3 columns]

-----------------------------------------------------

          city       date        country  avg_temp_c
0      Abidjan 2000-01-01  Côte D'Ivoire      27.293
1      Abidjan 2000-02-01  Côte D'Ivoire      27.685
2      Abidjan 2000-03-01  Côte D'Ivoire      29.061
3      Abidjan 2000-04-01  Côte D'Ivoire      28.162
4      Abidjan 2000-05-01  Côte D'Ivoire      27.547
...        ...        ...            ...         ...
16495     Xian 2013-05-01          China      18.979
16496     Xian 2013-06-01          China      23.522
16497     Xian 2013-07-01          China      25.251
16498     Xian 2013-08-01          China      24.528
16499     Xian 2013-09-01          China         NaN

[16500 rows x 4 columns]

----------------------------------------------------------
            date        country  avg_temp_c
0     2000-01-01  Côte D'Ivoire      27.293
1     2000-02-01  Côte D'Ivoire      27.685
2     2000-03-01  Côte D'Ivoire      29.061
3     2000-04-01  Côte D'Ivoire      28.162
4     2000-05-01  Côte D'Ivoire      27.547
...          ...            ...         ...
16495 2013-05-01          China      18.979
16496 2013-06-01          China      23.522
16497 2013-07-01          China      25.251
16498 2013-08-01          China      24.528
16499 2013-09-01          China         NaN


# Creando subconjuntos con .loc []
La característica clave de los índices es `.loc []`: un método de subconjuntos que acepta valores de índice. Cuando le pases un solo argumento, creará un subconjunto de filas.

El código para crear subconjuntos con `.loc []` puede ser más fácil de leer que el subconjunto estándar entre corchetes, lo que puede hacer que el mantenimiento del código sea menos oneroso.

`pandas` fue cargado como `pd`. `temperatures` y `temperatures_ind` están disponibles; este último está indexado por `city`.

In [None]:
# Haz una lista cities para hacer el filtrado
cities = ["Moscow", "Saint Petersburg"]

# Subdivide temperatures utilizando corchetes
print(temperatures[temperatures["city"].isin(cities)])

# Subdivide temperatures_ind usando .loc []
print(temperatures_ind.loc[cities])

```python
            date              city country  avg_temp_c
10725 2000-01-01            Moscow  Russia      -7.313
10726 2000-02-01            Moscow  Russia      -3.551
10727 2000-03-01            Moscow  Russia      -1.661
10728 2000-04-01            Moscow  Russia      10.096
10729 2000-05-01            Moscow  Russia      10.357
...          ...               ...     ...         ...
13360 2013-05-01  Saint Petersburg  Russia      12.355
13361 2013-06-01  Saint Petersburg  Russia      17.185
13362 2013-07-01  Saint Petersburg  Russia      17.234
13363 2013-08-01  Saint Petersburg  Russia      17.153
13364 2013-09-01  Saint Petersburg  Russia         NaN

[330 rows x 4 columns]

-------------------------------------------------------

                       date country  avg_temp_c
city                                           
Moscow           2000-01-01  Russia      -7.313
Moscow           2000-02-01  Russia      -3.551
Moscow           2000-03-01  Russia      -1.661
Moscow           2000-04-01  Russia      10.096
Moscow           2000-05-01  Russia      10.357
...                     ...     ...         ...
Saint Petersburg 2013-05-01  Russia      12.355
Saint Petersburg 2013-06-01  Russia      17.185
Saint Petersburg 2013-07-01  Russia      17.234
Saint Petersburg 2013-08-01  Russia      17.153
Saint Petersburg 2013-09-01  Russia         NaN

[330 rows x 3 columns]

# Configuración de índices multinivel
Los índices también pueden estar formados por varias columnas, formando un *índice multinivel* (a veces denominado *índice jerárquico*). Hay ventajas y desventajas al usarlos.

**La ventaja** es que los índices multinivel hacen que sea más natural razonar sobre las variables categóricas anidadas. Por ejemplo, en un ensayo clínico, es posible que tengas grupos de control y de tratamiento. Entonces, cada sujeto de prueba pertenece a uno u otro grupo, y podemos decir que un sujeto de prueba está anidado dentro del grupo de tratamiento. Del mismo modo, en el set de datos `temperature`, la ciudad está ubicada en el país, por lo que podemos decir que una ciudad está anidada dentro del país.

**El principal inconveniente** es que el código para manipular los índices es diferente del código para manipular las columnas, por lo que hay que aprender dos sintaxis y poner atención de cómo están estructurados los datos.

In [None]:
# Fija el índice de temperatures por country y city
temperatures_ind = temperatures.set_index(["country", "city"])

# Lista de tuplas, Brazil, Rio De Janeiro y Pakistan, Lahore
rows_to_keep = [("Brazil", "Rio de Janeiro"), ("Pakistan", "Lahore")]

# Subdivide con rows to keep
print(temperatures_ind.loc[rows_to_keep])

```python
                              date  avg_temp_c
country  city                                 
Brazil   Rio De Janeiro 2000-01-01      25.974
         Rio De Janeiro 2000-02-01      26.699
         Rio De Janeiro 2000-03-01      26.270
         Rio De Janeiro 2000-04-01      25.750
         Rio De Janeiro 2000-05-01      24.356
...                            ...         ...
Pakistan Lahore         2013-05-01      33.457
         Lahore         2013-06-01      34.456
         Lahore         2013-07-01      33.279
         Lahore         2013-08-01      31.511
         Lahore         2013-09-01         NaN

[330 rows x 2 columns]


# Ordenando por valores de índice
Anteriormente, cambiabas el orden de las filas de un DataFrame llamando a `.sort_values ()`. También es útil poder ordenar por elementos del índice. Para ello, necesitas usar `.sort_index()`.

`pandas` fue cargado como `pd.` `temperatures_ind` tiene un índice multinivel con `country` y `city`, y está disponible.

In [None]:
# Ordena temperatures_ind por valores de índice
print(temperatures_ind.sort_index())

# Ordena temperatures_ind por valores de índice a nivel city
print(temperatures_ind.sort_index(level = "city"))

# Ordena temperatures_ind por country y luego por ciudad descendente
print(temperatures_ind.sort_index(level = ["country", "city"], ascending = [False, False]))

```python
                         date  avg_temp_c
country     city                         
Afghanistan Kabul  2000-01-01       3.326
            Kabul  2000-02-01       3.454
            Kabul  2000-03-01       9.612
            Kabul  2000-04-01      17.925
            Kabul  2000-05-01      24.658
...                       ...         ...
Zimbabwe    Harare 2013-05-01      18.298
            Harare 2013-06-01      17.020
            Harare 2013-07-01      16.299
            Harare 2013-08-01      19.232
            Harare 2013-09-01         NaN

[16500 rows x 2 columns]

-------------------------------------------------------

                            date  avg_temp_c
country       city                          
Côte D'Ivoire Abidjan 2000-01-01      27.293
              Abidjan 2000-02-01      27.685
              Abidjan 2000-03-01      29.061
              Abidjan 2000-04-01      28.162
              Abidjan 2000-05-01      27.547
...                          ...         ...
China         Xian    2013-05-01      18.979
              Xian    2013-06-01      23.522
              Xian    2013-07-01      25.251
              Xian    2013-08-01      24.528
              Xian    2013-09-01         NaN

[16500 rows x 2 columns]

-------------------------------------------------------

                         date  avg_temp_c
country     city                         
Afghanistan Kabul  2000-01-01       3.326
            Kabul  2000-02-01       3.454
            Kabul  2000-03-01       9.612
            Kabul  2000-04-01      17.925
            Kabul  2000-05-01      24.658
...                       ...         ...
Zimbabwe    Harare 2013-05-01      18.298
            Harare 2013-06-01      17.020
            Harare 2013-07-01      16.299
            Harare 2013-08-01      19.232
            Harare 2013-09-01         NaN

[16500 rows x 2 columns]

# Subdividiendo con valores de índice
La segmentación permite seleccionar elementos consecutivos de un objeto mediante la sintaxis `inicio:fin`. Los `DataFrames` se pueden dividir por valores de índice o por número de fila/columna; comenzaremos con el primer caso. Esto implica subdividir con del método `.loc[]`.

En comparación con la segmentación de listas, hay algunas cosas que hay que recordar.

* Solo puedes subdividir con el índice si está ordenado (usando `.sort_index()`).
  
* Para subdividir en el nivel exterior, `inicio` y `fin` pueden ser carácteres (`strings`).
  
* Para subdividir en los niveles internos, `inicio` y `fin` deben ser `tuplas`.
  
* Si pasas un solo segmento a `.loc[]`, filtrará las filas.
  
`pandas` fue cargado como `pd`. `temperatures_ind` incluye `country` y `city` en el índice y está disponible.

In [None]:
# Ordena el índice de temperatures_ind
temperatures_srt = temperatures_ind.sort_index()

# Subdivide las filas de Pakistan a Russia
print(temperatures_srt.loc["Pakistan":"Russia"])

# Intenta subdividir las filas de Lahore a Moscow
print(temperatures_srt.loc["Lahore":"Moscow"])#Esto devuelve pura mierda

# Subdivide las filas de Pakistan, Lahore hasta Russia, Moscow
print(temperatures_srt.loc[("Pakistan", "Lahore"):("Russia", "Moscow")])

```python
                                date  avg_temp_c
country  city                                   
Pakistan Faisalabad       2000-01-01      12.792
         Faisalabad       2000-02-01      14.339
         Faisalabad       2000-03-01      20.309
         Faisalabad       2000-04-01      29.072
         Faisalabad       2000-05-01      34.845
...                              ...         ...
Russia   Saint Petersburg 2013-05-01      12.355
         Saint Petersburg 2013-06-01      17.185
         Saint Petersburg 2013-07-01      17.234
         Saint Petersburg 2013-08-01      17.153
         Saint Petersburg 2013-09-01         NaN

[1155 rows x 2 columns]

                         date  avg_temp_c
country city                             
Mexico  Mexico     2000-01-01      12.694
        Mexico     2000-02-01      14.677
        Mexico     2000-03-01      17.376
        Mexico     2000-04-01      18.294
        Mexico     2000-05-01      18.562
...                       ...         ...
Morocco Casablanca 2013-05-01      19.217
        Casablanca 2013-06-01      23.649
        Casablanca 2013-07-01      27.488
        Casablanca 2013-08-01      27.952
        Casablanca 2013-09-01         NaN

[330 rows x 2 columns]

                      date  avg_temp_c
country  city                         
Pakistan Lahore 2000-01-01      12.792
         Lahore 2000-02-01      14.339
         Lahore 2000-03-01      20.309
         Lahore 2000-04-01      29.072
         Lahore 2000-05-01      34.845
...                    ...         ...
Russia   Moscow 2013-05-01      16.152
         Moscow 2013-06-01      18.718
         Moscow 2013-07-01      18.136
         Moscow 2013-08-01      17.485
         Moscow 2013-09-01         NaN

[660 rows x 2 columns]

# Subdividiendo en ambas direcciones
Hemos estado subdividiendo los `DataFrames` por filas y por columnas, pero dado que los `DataFrames` son objetos bidimensionales, suele ser natural dividir ambas dimensiones a la vez. Es decir, al pasar dos argumentos a `.loc[]`, podemos crear subconjuntos por filas y columnas en una sola línea.

`pandas` fue cargado como `pd`. `temperatures_srt` está indexado por `country` y `city`, tiene un índice ordenado y está disponible.

In [None]:
# Selecciona las filas desde India, Hyderabad hasta Irak, Bagdad
print(temperatures_srt.loc[("India", "Hyderabad"):("Iraq", "Baghdad") :])

# Selecciona las columnas desde date hasta avg_temp_c
print(temperatures_srt.loc[:, "date" : "avg_temp_c"])

# Subdivide en ambas direcciones a la vez
print(temperatures_srt.loc[("India", "Hyderabad"):("Iraq", "Baghdad"), "date":"avg_temp_c"])

```python
                        date  avg_temp_c
country city                            
India   Hyderabad 2000-01-01      23.779
        Hyderabad 2000-02-01      25.826
        Hyderabad 2000-03-01      28.821
        Hyderabad 2000-04-01      32.698
        Hyderabad 2000-05-01      32.438
...                      ...         ...
Iraq    Baghdad   2013-05-01      28.673
        Baghdad   2013-06-01      33.803
        Baghdad   2013-07-01      36.392
        Baghdad   2013-08-01      35.463
        Baghdad   2013-09-01         NaN

[2145 rows x 2 columns]


                         date  avg_temp_c
country     city                         
Afghanistan Kabul  2000-01-01       3.326
            Kabul  2000-02-01       3.454
            Kabul  2000-03-01       9.612
            Kabul  2000-04-01      17.925
            Kabul  2000-05-01      24.658
...                       ...         ...
Zimbabwe    Harare 2013-05-01      18.298
            Harare 2013-06-01      17.020
            Harare 2013-07-01      16.299
            Harare 2013-08-01      19.232
            Harare 2013-09-01         NaN

[16500 rows x 2 columns]


                        date  avg_temp_c
country city                            
India   Hyderabad 2000-01-01      23.779
        Hyderabad 2000-02-01      25.826
        Hyderabad 2000-03-01      28.821
        Hyderabad 2000-04-01      32.698
        Hyderabad 2000-05-01      32.438
...                      ...         ...
Iraq    Baghdad   2013-05-01      28.673
        Baghdad   2013-06-01      33.803
        Baghdad   2013-07-01      36.392
        Baghdad   2013-08-01      35.463
        Baghdad   2013-09-01         NaN

[2145 rows x 2 columns]

# Segmentación de series temporales
La segmentación es particularmente útil para las series temporales, ya que es habitual querer filtrar los datos dentro de un intervalo de fechas. Agrega la columna `date` al índice y, a continuación, utiliza `.loc[]` para realizar la subdivisión. Es importante recordar mantener las fechas en formato `ISO 8601`, es decir, `"yyyy-mm-dd"` para año-mes-dia, `"yyyy-mm"` para año-mes, y `"yyyy"` para año.

Recuerda del capítulo 1 que puedes combinar varias condiciones booleanas mediante operadores lógicos, como `&`. Para hacerlo en una sola línea de código, tendrás que añadir paréntesis () alrededor de cada condición.

`pandas` fue cargado como `pd` y `temperatures`, sin índice, está disponible.

In [None]:
# Utiliza condiciones booleanas para seleccionar las filas de temperatures de 2010 y 2011
temperatures_bool = temperatures[(temperatures["date"] >= "2010") & (temperatures["date"] <= "2011-12-31")]
print(temperatures_bool)

# Fija el índice con `date` y ordena el índice
temperatures_ind = temperatures.set_index("date").sort_index()

# Utiliza `.loc[]` para crear un subconjunto de las filas de temperatures_ind de 2010 y 2011
print(temperatures_ind.loc["2010":"2011" :])

# Utiliza .loc[] para crear un subconjunto de temperatures_ind con las filas de agosto de 2010 a febrero de 2011
print(temperatures_ind.loc["2010-08":"2011-02" :])

```python
            date     city        country  avg_temp_c
120   2010-01-01  Abidjan  Côte D'Ivoire      28.270
121   2010-02-01  Abidjan  Côte D'Ivoire      29.262
122   2010-03-01  Abidjan  Côte D'Ivoire      29.596
123   2010-04-01  Abidjan  Côte D'Ivoire      29.068
124   2010-05-01  Abidjan  Côte D'Ivoire      28.258
...          ...      ...            ...         ...
16474 2011-08-01     Xian          China      23.069
16475 2011-09-01     Xian          China      16.775
16476 2011-10-01     Xian          China      12.587
16477 2011-11-01     Xian          China       7.543
16478 2011-12-01     Xian          China      -0.490

[2400 rows x 4 columns]


                  city    country  avg_temp_c
date                                         
2010-01-01  Faisalabad   Pakistan      11.810
2010-01-01   Melbourne  Australia      20.016
2010-01-01   Chongqing      China       7.921
2010-01-01   São Paulo     Brazil      23.738
2010-01-01   Guangzhou      China      14.136
...                ...        ...         ...
2011-12-01      Nagoya      Japan       6.476
2011-12-01   Hyderabad      India      23.613
2011-12-01        Cali   Colombia      21.559
2011-12-01        Lima       Peru      18.293
2011-12-01     Bangkok   Thailand      25.021

[2400 rows x 3 columns]


                city        country  avg_temp_c
date                                           
2010-08-01  Calcutta          India      30.226
2010-08-01      Pune          India      24.941
2010-08-01     Izmir         Turkey      28.352
2010-08-01   Tianjin          China      25.543
2010-08-01    Manila    Philippines      27.101
...              ...            ...         ...
2011-02-01     Kabul    Afghanistan       3.914
2011-02-01   Chicago  United States       0.276
2011-02-01    Aleppo          Syria       8.246
2011-02-01     Delhi          India      18.136
2011-02-01   Rangoon          Burma      26.631

[700 rows x 3 columns]

# Subdivisión por número de fila/columna
Las formas más comunes de crear subconjuntos de filas son las que hemos practicado anteriormente: con una condición booleana o mediante etiquetas de índice. Sin embargo, en ocasiones también es útil pasar números de fila.

Esto se hace usando `.iloc[]` y, al igual que `.loc[]`, se pueden necesitar dos argumentos para poder crear subconjuntos por filas y columnas.

`pandas` fue cargado como `pd`. `temperatures` (sin índice) está disponible.

In [None]:
# Obtén la fila 23, la segunda columna (índices 22, 1)
print(temperatures.iloc[22, 1])

# Subdivide para obtener las primeras 5 filas
print(temperatures.iloc[0:5 , : ])

# Subdivide para obtener las columnas 3 a 4
print(temperatures.iloc[: , 2:4])

# Subdivide en ambas direcciones a la vez
print(temperatures.iloc[0:5 , 2:4])

```python
Abidjan


        date     city        country  avg_temp_c
0 2000-01-01  Abidjan  Côte D'Ivoire      27.293
1 2000-02-01  Abidjan  Côte D'Ivoire      27.685
2 2000-03-01  Abidjan  Côte D'Ivoire      29.061
3 2000-04-01  Abidjan  Côte D'Ivoire      28.162
4 2000-05-01  Abidjan  Côte D'Ivoire      27.547


             country  avg_temp_c
0      Côte D'Ivoire      27.293
1      Côte D'Ivoire      27.685
2      Côte D'Ivoire      29.061
3      Côte D'Ivoire      28.162
4      Côte D'Ivoire      27.547
...              ...         ...
16495          China      18.979
16496          China      23.522
16497          China      25.251
16498          China      24.528
16499          China         NaN

[16500 rows x 2 columns]


         country  avg_temp_c
0  Côte D'Ivoire      27.293
1  Côte D'Ivoire      27.685
2  Côte D'Ivoire      29.061
3  Côte D'Ivoire      28.162
4  Côte D'Ivoire      27.547

# Temperatura de pivote por ciudad y año
Es interesante ver cómo cambian las temperaturas de cada ciudad a lo largo del tiempo; observando cada mes da como resultado una tabla grande, lo cual puede resultar difícil de apreciar. En cambio, veamos cómo cambian las temperaturas de un año a otro.

Puedes acceder a los componentes de una fecha (año, mes y día) utilizando el código del tipo `dataframe ["column"].dt.component`. Por ejemplo, el componente `month` nos da `dataframe ["column"].dt.month` y el componente year es `dataframe["column"].dt.year`.

Una vez que tengas la columna `year`, puedes crear una tabla dinámica con los datos agregados por `ciudad` y `año`, que explorarás en los próximos ejercicios.

`pandas` fue cargado como `pd`. `temperatures` está disponible.

In [None]:
# Agrega la columna year a temperatures
temperatures["year"] = temperatures["date"].dt.year

# Crea una tabla dinámica con avg_temp_c por country y city vs year
temp_by_country_city_vs_year = temperatures.pivot_table("avg_temp_c", index = ["country", "city"], columns = "year")

# Imprime el resultado
print(temp_by_country_city_vs_year)

```python
year                              2000    2001    2002    2003    2004  ...    2009    2010    2011    2012    2013
country       city                                                      ...                                        
Afghanistan   Kabul             15.823  15.848  15.715  15.133  16.128  ...  15.093  15.676  15.812  14.510  16.206
Angola        Luanda            24.410  24.427  24.791  24.867  24.216  ...  24.325  24.440  24.151  24.240  24.554
Australia     Melbourne         14.320  14.180  14.076  13.986  13.742  ...  14.647  14.232  14.191  14.269  14.742
              Sydney            17.567  17.854  17.734  17.592  17.870  ...  18.176  17.999  17.713  17.474  18.090
Bangladesh    Dhaka             25.905  25.931  26.095  25.927  26.136  ...  26.536  26.648  25.803  26.284  26.587
...                                ...     ...     ...     ...     ...  ...     ...     ...     ...     ...     ...
United States Chicago           11.090  11.703  11.532  10.482  10.943  ...  10.298  11.816  11.214  12.821  11.587
              Los Angeles       16.643  16.466  16.430  16.945  16.553  ...  16.677  15.887  15.875  17.090  18.121
              New York           9.969  10.931  11.252   9.836  10.389  ...  10.142  11.358  11.272  11.971  12.164
Vietnam       Ho Chi Minh City  27.589  27.832  28.065  27.828  27.687  ...  27.853  28.282  27.675  28.249  28.455
Zimbabwe      Harare            20.284  20.861  21.079  20.889  20.308  ...  20.524  21.166  20.782  20.523  19.756

[100 rows x 14 columns]

# Crear subconjuntos de tablas dinámicas
Una tabla dinámica es solo un `DataFrame` con índices ordenados, por lo que las técnicas que ya hemos aprendido se pueden utilizar para crear subconjuntos de ellas. En particular, la combinación de segmentación y `.loc[]` suele ser útil.

`pandas` fue cargado como `pd`. `temp_by_country_city_vs_year` está disponible

In [None]:
# Selecciona de Egypt a India
print(temp_by_country_city_vs_year.loc["Egypt" : "India"])

# Selecciona de Egypt, Cairo a India, Delhi
print(temp_by_country_city_vs_year.loc[("Egypt", "Cairo") : ("India", "Delhi")])

# Selecciona de Egypt, Cairo a India, Delhi, y de 2005 a 2010
print(temp_by_country_city_vs_year.loc[("Egypt", "Cairo") : ("India", "Delhi"), "2005" : "2010"])

```python
year                    2000    2001    2002    2003    2004  ...    2009    2010    2011    2012    2013
country  city                                                 ...                                        
Egypt    Alexandria   20.744  21.455  21.456  21.221  21.064  ...  21.671  22.460  21.181  21.553  21.439
         Cairo        21.486  22.331  22.414  22.171  22.082  ...  22.625  23.718  21.987  22.484  22.907
         Gizeh        21.486  22.331  22.414  22.171  22.082  ...  22.625  23.718  21.987  22.484  22.907
Ethiopia Addis Abeba  18.241  18.296  18.470  18.321  18.293  ...  18.765  18.298  18.607  18.449  19.539
France   Paris        11.740  11.371  11.871  11.909  11.339  ...  11.464  10.410  12.326  11.220  11.012
Germany  Berlin       10.964   9.690  10.264  10.066   9.823  ...  10.062   8.607  10.556   9.964  10.121
India    Ahmadabad    27.436  27.198  27.719  27.404  27.628  ...  28.096  28.018  27.290  27.027  27.609
         Bangalore    25.338  25.528  25.755  25.925  25.252  ...  25.726  25.705  25.362  26.042  26.611
         Bombay       27.204  27.244  27.629  27.578  27.319  ...  27.845  27.765  27.385  27.193  26.713
         Calcutta     26.491  26.515  26.704  26.561  26.634  ...  27.153  27.289  26.407  26.935  27.369
         Delhi        26.048  25.863  26.634  25.721  26.240  ...  26.554  26.520  25.630  25.889  26.709
         Hyderabad    27.232  27.555  27.665  27.845  27.229  ...  28.027  27.693  27.409  28.019  28.851
         Jaipur       26.430  26.023  27.032  26.027  26.642  ...  26.919  26.818  25.916  25.885  26.844
         Kanpur       25.354  25.326  26.117  25.409  25.587  ...  25.987  26.022  25.062  25.445  26.121
         Lakhnau      25.354  25.326  26.117  25.409  25.587  ...  25.987  26.022  25.062  25.445  26.121
         Madras       28.812  29.163  29.246  29.273  28.811  ...  29.417  29.047  29.063  29.778  30.412
         Nagpur       26.181  26.322  26.753  26.504  26.406  ...  27.139  26.927  26.005  26.328  27.112
         New Delhi    26.048  25.863  26.634  25.721  26.240  ...  26.554  26.520  25.630  25.889  26.709
         Pune         25.111  25.338  25.583  25.748  25.316  ...  25.868  25.749  25.161  25.297  25.848
         Surat        27.029  26.897  27.348  27.231  27.291  ...  27.820  27.682  27.017  26.889  27.438

[20 rows x 14 columns]



year                    2000    2001    2002    2003    2004  ...    2009    2010    2011    2012    2013
country  city                                                 ...                                        
Egypt    Cairo        21.486  22.331  22.414  22.171  22.082  ...  22.625  23.718  21.987  22.484  22.907
         Gizeh        21.486  22.331  22.414  22.171  22.082  ...  22.625  23.718  21.987  22.484  22.907
Ethiopia Addis Abeba  18.241  18.296  18.470  18.321  18.293  ...  18.765  18.298  18.607  18.449  19.539
France   Paris        11.740  11.371  11.871  11.909  11.339  ...  11.464  10.410  12.326  11.220  11.012
Germany  Berlin       10.964   9.690  10.264  10.066   9.823  ...  10.062   8.607  10.556   9.964  10.121
India    Ahmadabad    27.436  27.198  27.719  27.404  27.628  ...  28.096  28.018  27.290  27.027  27.609
         Bangalore    25.338  25.528  25.755  25.925  25.252  ...  25.726  25.705  25.362  26.042  26.611
         Bombay       27.204  27.244  27.629  27.578  27.319  ...  27.845  27.765  27.385  27.193  26.713
         Calcutta     26.491  26.515  26.704  26.561  26.634  ...  27.153  27.289  26.407  26.935  27.369
         Delhi        26.048  25.863  26.634  25.721  26.240  ...  26.554  26.520  25.630  25.889  26.709

[10 rows x 14 columns]



year                    2005    2006    2007    2008    2009    2010
country  city                                                       
Egypt    Cairo        22.006  22.050  22.361  22.644  22.625  23.718
         Gizeh        22.006  22.050  22.361  22.644  22.625  23.718
Ethiopia Addis Abeba  18.313  18.427  18.143  18.165  18.765  18.298
France   Paris        11.553  11.788  11.751  11.278  11.464  10.410
Germany  Berlin        9.919  10.545  10.883  10.658  10.062   8.607
India    Ahmadabad    26.828  27.283  27.511  27.049  28.096  28.018
         Bangalore    25.477  25.418  25.464  25.353  25.726  25.705
         Bombay       27.036  27.382  27.635  27.178  27.845  27.765
         Calcutta     26.729  26.986  26.585  26.522  27.153  27.289
         Delhi        25.716  26.366  26.146  25.675  26.554  26.520

# Calculando en una tabla dinámica
Las tablas dinámicas están repletas de estadísticas de resumen, pero son solo un primer paso para encontrar algo esclarecedor. A menudo tendrás que realizar cálculos adicionales sobre ellas. Una cosa común es encontrar las filas o columnas donde se encuentra el valor más alto o más bajo.

Recuerda del capítulo 1 que puedes subdividir fácilmente una serie o un DataFrame para encontrar filas de interés utilizando una condición lógica entre corchetes. Por ejemplo: series[series > value].

`pandas` fue cargado como `pd` y el `DataFrame` `temp_by_country_city_vs_year` está disponible

In [None]:
# Obtén la temperatura media mundial por year
mean_temp_by_year = temp_by_country_city_vs_year.mean(axis = "index")

# Filtra para encontrar el year que tuvo la temperatura media más alta
print(mean_temp_by_year[mean_temp_by_year == mean_temp_by_year.max()])

# Obtén la temperatura media por city
mean_temp_by_city = temp_by_country_city_vs_year.mean(axis = "columns")

# Filtra para encontrar la city que tuvo la temperatura media más baja
print(mean_temp_by_city[mean_temp_by_city == mean_temp_by_city.min()])

```python

year
2013    20.312
dtype: float64


country  city  
China    Harbin    4.877
dtype: float64