# 1.3. Segmentación e indexación de datos

## Índices explícitos

### Configuración y eliminación de índices

Pandas permite designar columnas como un *índice*. Esto facilita un código más limpio al tomar subconjuntos (además de proporcionar una búsqueda más eficiente en algunas circunstancias).

In [1]:
import pandas as pd

In [2]:
temperatures = pd.read_csv('../../../datasets/temperatures.csv')

temperatures.head()

Unnamed: 0,date,city,country,avg_temp_c
0,2000-01-01,Abidjan,Côte D'Ivoire,27.293
1,2000-02-01,Abidjan,Côte D'Ivoire,27.685
2,2000-03-01,Abidjan,Côte D'Ivoire,29.061
3,2000-04-01,Abidjan,Côte D'Ivoire,28.162
4,2000-05-01,Abidjan,Côte D'Ivoire,27.547


In [3]:
temperatures.shape

(16500, 4)

In [4]:
print(temperatures)

             date     city        country  avg_temp_c
0      2000-01-01  Abidjan  Côte D'Ivoire      27.293
1      2000-02-01  Abidjan  Côte D'Ivoire      27.685
2      2000-03-01  Abidjan  Côte D'Ivoire      29.061
3      2000-04-01  Abidjan  Côte D'Ivoire      28.162
4      2000-05-01  Abidjan  Côte D'Ivoire      27.547
...           ...      ...            ...         ...
16495  2013-05-01     Xian          China      18.979
16496  2013-06-01     Xian          China      23.522
16497  2013-07-01     Xian          China      25.251
16498  2013-08-01     Xian          China      24.528
16499  2013-09-01     Xian          China         NaN

[16500 rows x 4 columns]


**Instrucciones**

- Establece el índice de `temperatures` en `"city"`, asignándolo a `temperatures_ind`.
- *Observa `temperatures_ind`. ¿En qué se diferencia de `temperatures`?*

In [5]:
temperatures_ind = (
    temperatures
    .set_index("city")
)

In [6]:
print(temperatures_ind)

               date        country  avg_temp_c
city                                          
Abidjan  2000-01-01  Côte D'Ivoire      27.293
Abidjan  2000-02-01  Côte D'Ivoire      27.685
Abidjan  2000-03-01  Côte D'Ivoire      29.061
Abidjan  2000-04-01  Côte D'Ivoire      28.162
Abidjan  2000-05-01  Côte D'Ivoire      27.547
...             ...            ...         ...
Xian     2013-05-01          China      18.979
Xian     2013-06-01          China      23.522
Xian     2013-07-01          China      25.251
Xian     2013-08-01          China      24.528
Xian     2013-09-01          China         NaN

[16500 rows x 3 columns]


- Restablece el índice de `temperatures_ind`, conservando su contenido.

In [7]:
print(
    temperatures_ind
    .reset_index()
)

          city        date        country  avg_temp_c
0      Abidjan  2000-01-01  Côte D'Ivoire      27.293
1      Abidjan  2000-02-01  Côte D'Ivoire      27.685
2      Abidjan  2000-03-01  Côte D'Ivoire      29.061
3      Abidjan  2000-04-01  Côte D'Ivoire      28.162
4      Abidjan  2000-05-01  Côte D'Ivoire      27.547
...        ...         ...            ...         ...
16495     Xian  2013-05-01          China      18.979
16496     Xian  2013-06-01          China      23.522
16497     Xian  2013-07-01          China      25.251
16498     Xian  2013-08-01          China      24.528
16499     Xian  2013-09-01          China         NaN

[16500 rows x 4 columns]


- Restablece el índice de `temperatures_ind`, eliminando su contenido.

In [8]:
print(
    temperatures_ind
    .reset_index(drop=True)
)

             date        country  avg_temp_c
0      2000-01-01  Côte D'Ivoire      27.293
1      2000-02-01  Côte D'Ivoire      27.685
2      2000-03-01  Côte D'Ivoire      29.061
3      2000-04-01  Côte D'Ivoire      28.162
4      2000-05-01  Côte D'Ivoire      27.547
...           ...            ...         ...
16495  2013-05-01          China      18.979
16496  2013-06-01          China      23.522
16497  2013-07-01          China      25.251
16498  2013-08-01          China      24.528
16499  2013-09-01          China         NaN

[16500 rows x 3 columns]


## Subconjuntos con .loc[]

La característica más potente de los índices es `.loc[]`: un método de subsetting que acepta valores de índice. Cuando le pasas un solo argumento, tomará un subconjunto de filas.

El código para hacer subsetting con `.loc[]` puede ser más fácil de leer que el subsetting con corchetes `[]` estándar, lo que hace que tu código sea más fácil de mantener.

**Instrucciones**

- Crea una lista llamada `cities` que contenga `"Moscow"` y `"Saint Petersburg"`.
- Usa el subsetting con `[]` para filtrar `temperatures` por filas donde la columna `city` tome un valor dentro de la lista `cities`.


In [9]:
cities = ["Moscow", "Saint Petersburg"]

print(
    temperatures[temperatures["city"]
                 .isin(cities)]
    )


             date              city country  avg_temp_c
10725  2000-01-01            Moscow  Russia      -7.313
10726  2000-02-01            Moscow  Russia      -3.551
10727  2000-03-01            Moscow  Russia      -1.661
10728  2000-04-01            Moscow  Russia      10.096
10729  2000-05-01            Moscow  Russia      10.357
...           ...               ...     ...         ...
13360  2013-05-01  Saint Petersburg  Russia      12.355
13361  2013-06-01  Saint Petersburg  Russia      17.185
13362  2013-07-01  Saint Petersburg  Russia      17.234
13363  2013-08-01  Saint Petersburg  Russia      17.153
13364  2013-09-01  Saint Petersburg  Russia         NaN

[330 rows x 4 columns]


- Usa el subsetting con `.loc[]` para filtrar `temperatures_ind` por filas donde la ciudad esté en la lista `cities`.

In [10]:
temperatures_ind = (
    temperatures
    .set_index("city")
)

In [11]:
print(temperatures_ind.loc[cities])

                        date country  avg_temp_c
city                                            
Moscow            2000-01-01  Russia      -7.313
Moscow            2000-02-01  Russia      -3.551
Moscow            2000-03-01  Russia      -1.661
Moscow            2000-04-01  Russia      10.096
Moscow            2000-05-01  Russia      10.357
...                      ...     ...         ...
Saint Petersburg  2013-05-01  Russia      12.355
Saint Petersburg  2013-06-01  Russia      17.185
Saint Petersburg  2013-07-01  Russia      17.234
Saint Petersburg  2013-08-01  Russia      17.153
Saint Petersburg  2013-09-01  Russia         NaN

[330 rows x 3 columns]


### Configuración de índices multinivel

Los índices también pueden estar formados por múltiples columnas, creando un *índice multinivel* (a veces llamado *índice jerárquico*). Esto tiene ventajas y desventajas.

El beneficio es que los índices multinivel hacen que sea más natural razonar sobre variables categóricas anidadas. Por ejemplo, en un ensayo clínico, podrías tener grupos de control y tratamiento. Cada sujeto de prueba pertenece a uno de estos grupos, y podemos decir que un sujeto está anidado dentro del grupo de tratamiento. De manera similar, en el conjunto de datos de temperaturas, una ciudad se encuentra dentro de un país, por lo que podemos decir que una ciudad está anidada dentro del país.

La principal desventaja es que el código para manipular índices es diferente del código para manipular columnas, por lo que debes aprender dos sintaxis y llevar un control de cómo están representados los datos.

**Instrucciones**

- Establece el índice de `temperatures` en las columnas `"country"` y `"city"`, y asígnalo a `temperatures_ind`.
- Especifica dos pares de país/ciudad a mantener: `"Brazil"`/`"Rio De Janeiro"` y `"Pakistan"`/`"Lahore"`, asignándolos a `rows_to_keep`.
- Imprime y obtén un subconjunto de `temperatures_ind` para `rows_to_keep` utilizando `.loc[]`.

In [12]:
temperatures_ind = (
    temperatures
    .set_index(["country", "city"])
)

rows_to_keep = [
    ("Brazil", "Rio De Janeiro"),
    ("Pakistan", "Lahore")
]

print(
    temperatures_ind
    .loc[rows_to_keep]
)

                               date  avg_temp_c
country  city                                  
Brazil   Rio De Janeiro  2000-01-01      25.974
         Rio De Janeiro  2000-02-01      26.699
         Rio De Janeiro  2000-03-01      26.270
         Rio De Janeiro  2000-04-01      25.750
         Rio De Janeiro  2000-05-01      24.356
...                             ...         ...
Pakistan Lahore          2013-05-01      33.457
         Lahore          2013-06-01      34.456
         Lahore          2013-07-01      33.279
         Lahore          2013-08-01      31.511
         Lahore          2013-09-01         NaN

[330 rows x 2 columns]


### Ordenando por valores de índice

Anteriormente, cambiaste el orden de las filas en un DataFrame utilizando `.sort_values()`. También es útil poder ordenar por los elementos en el índice. Para esto, debes usar `.sort_index()`.

**Instrucciones**

- Ordena `temperatures_ind` por los valores del índice.


In [13]:
print(temperatures_ind.sort_index())


                          date  avg_temp_c
country     city                          
Afghanistan Kabul   2000-01-01       3.326
            Kabul   2000-02-01       3.454
            Kabul   2000-03-01       9.612
            Kabul   2000-04-01      17.925
            Kabul   2000-05-01      24.658
...                        ...         ...
Zimbabwe    Harare  2013-05-01      18.298
            Harare  2013-06-01      17.020
            Harare  2013-07-01      16.299
            Harare  2013-08-01      19.232
            Harare  2013-09-01         NaN

[16500 rows x 2 columns]


- Ordena `temperatures_ind` por los valores del índice en el nivel `"city"`.


In [14]:
print(temperatures_ind.sort_index(level="city"))


                             date  avg_temp_c
country       city                           
Côte D'Ivoire Abidjan  2000-01-01      27.293
              Abidjan  2000-02-01      27.685
              Abidjan  2000-03-01      29.061
              Abidjan  2000-04-01      28.162
              Abidjan  2000-05-01      27.547
...                           ...         ...
China         Xian     2013-05-01      18.979
              Xian     2013-06-01      23.522
              Xian     2013-07-01      25.251
              Xian     2013-08-01      24.528
              Xian     2013-09-01         NaN

[16500 rows x 2 columns]


- Ordena `temperatures_ind` primero en orden ascendente por `country` y luego en orden descendente por `city`.

In [15]:
print(
    temperatures_ind
    .sort_index(
        level=["country", "city"], 
        ascending=[True, False]
    )
)

                          date  avg_temp_c
country     city                          
Afghanistan Kabul   2000-01-01       3.326
            Kabul   2000-02-01       3.454
            Kabul   2000-03-01       9.612
            Kabul   2000-04-01      17.925
            Kabul   2000-05-01      24.658
...                        ...         ...
Zimbabwe    Harare  2013-05-01      18.298
            Harare  2013-06-01      17.020
            Harare  2013-07-01      16.299
            Harare  2013-08-01      19.232
            Harare  2013-09-01         NaN

[16500 rows x 2 columns]


## Corte y subsetting con `.loc` y `.iloc`

### Corte de valores de índice

El corte (*slicing*) te permite seleccionar elementos consecutivos de un objeto utilizando la sintaxis `primero:último`. Los DataFrames pueden cortarse por valores de índice o por número de fila/columna; comenzaremos con el primer caso. Esto implica realizar el corte dentro del método `.loc[]`.

En comparación con el corte de listas, hay algunos puntos a recordar:

- Solo puedes cortar un índice si el índice está ordenado (usando `.sort_index()`).
- Para cortar en el nivel exterior, `primero` y `último` pueden ser cadenas de texto.
- Para cortar en niveles internos, `primero` y `último` deben ser tuplas.
- Si pasas un solo rango a `.loc[]`, este cortará las filas.

**Instrucciones**

- Ordena el índice de `temperatures_ind`.
- Usa corte con `.loc[]` para obtener estos subconjuntos:
    - Desde `Pakistan` hasta `Russia`.


In [16]:
temperatures_ind

Unnamed: 0_level_0,Unnamed: 1_level_0,date,avg_temp_c
country,city,Unnamed: 2_level_1,Unnamed: 3_level_1
Côte D'Ivoire,Abidjan,2000-01-01,27.293
Côte D'Ivoire,Abidjan,2000-02-01,27.685
Côte D'Ivoire,Abidjan,2000-03-01,29.061
Côte D'Ivoire,Abidjan,2000-04-01,28.162
Côte D'Ivoire,Abidjan,2000-05-01,27.547
...,...,...,...
China,Xian,2013-05-01,18.979
China,Xian,2013-06-01,23.522
China,Xian,2013-07-01,25.251
China,Xian,2013-08-01,24.528


In [18]:
temperatures_srt = temperatures_ind.sort_index()



In [19]:
print(temperatures_srt.loc["Pakistan":"Russia"])

                                 date  avg_temp_c
country  city                                    
Pakistan Faisalabad        2000-01-01      12.792
         Faisalabad        2000-02-01      14.339
         Faisalabad        2000-03-01      20.309
         Faisalabad        2000-04-01      29.072
         Faisalabad        2000-05-01      34.845
...                               ...         ...
Russia   Saint Petersburg  2013-05-01      12.355
         Saint Petersburg  2013-06-01      17.185
         Saint Petersburg  2013-07-01      17.234
         Saint Petersburg  2013-08-01      17.153
         Saint Petersburg  2013-09-01         NaN

[1155 rows x 2 columns]


- Desde `Lahore` hasta `Moscow`. (*Esto devolverá un resultado sin sentido.*)
 

In [20]:
print(temperatures_srt.loc["Lahore":"Moscow"])

                          date  avg_temp_c
country city                              
Mexico  Mexico      2000-01-01      12.694
        Mexico      2000-02-01      14.677
        Mexico      2000-03-01      17.376
        Mexico      2000-04-01      18.294
        Mexico      2000-05-01      18.562
...                        ...         ...
Morocco Casablanca  2013-05-01      19.217
        Casablanca  2013-06-01      23.649
        Casablanca  2013-07-01      27.488
        Casablanca  2013-08-01      27.952
        Casablanca  2013-09-01         NaN

[330 rows x 2 columns]


   - Desde `Pakistan, Lahore` hasta `Russia, Moscow`.

In [21]:
print(temperatures_srt.loc[("Pakistan", "Lahore"): ("Russia", "Moscow")])

                       date  avg_temp_c
country  city                          
Pakistan Lahore  2000-01-01      12.792
         Lahore  2000-02-01      14.339
         Lahore  2000-03-01      20.309
         Lahore  2000-04-01      29.072
         Lahore  2000-05-01      34.845
...                     ...         ...
Russia   Moscow  2013-05-01      16.152
         Moscow  2013-06-01      18.718
         Moscow  2013-07-01      18.136
         Moscow  2013-08-01      17.485
         Moscow  2013-09-01         NaN

[660 rows x 2 columns]


### Corte en ambas direcciones

Has visto cómo cortar DataFrames por filas y por columnas, pero dado que los DataFrames son objetos bidimensionales, a menudo es natural cortar ambas dimensiones al mismo tiempo. Es decir, pasando dos argumentos a `.loc[]`, puedes obtener un subconjunto de filas y columnas en una sola operación.

`pandas` está cargado como `pd`. `temperatures_srt` está indexado por `country` y `city`, tiene un índice ordenado y está disponible.

**Instrucciones**

- Usa corte con `.loc[]` para obtener un subconjunto de filas desde `India, Hyderabad` hasta `Iraq, Baghdad`.


In [22]:
print(
    temperatures_srt
    .loc[
        ("India", "Hyderabad"): ("Iraq", "Baghdad")
    ]
)


                         date  avg_temp_c
country city                             
India   Hyderabad  2000-01-01      23.779
        Hyderabad  2000-02-01      25.826
        Hyderabad  2000-03-01      28.821
        Hyderabad  2000-04-01      32.698
        Hyderabad  2000-05-01      32.438
...                       ...         ...
Iraq    Baghdad    2013-05-01      28.673
        Baghdad    2013-06-01      33.803
        Baghdad    2013-07-01      36.392
        Baghdad    2013-08-01      35.463
        Baghdad    2013-09-01         NaN

[2145 rows x 2 columns]


- Usa corte con `.loc[]` para obtener un subconjunto de columnas desde `date` hasta `avg_temp_c`.


In [None]:
print(
    temperatures_srt
    .loc[
        :, "date":"avg_temp_c"
    ]
)

- Realiza un corte en ambas direcciones a la vez, desde `Hyderabad` hasta `Baghdad`, y desde `date` hasta `avg_temp_c`.

In [23]:
print(
    temperatures_srt
    .loc[
        ("India", "Hyderabad"): ("Iraq", "Baghdad"),
          "date":"avg_temp_c"
    ]
)

                         date  avg_temp_c
country city                             
India   Hyderabad  2000-01-01      23.779
        Hyderabad  2000-02-01      25.826
        Hyderabad  2000-03-01      28.821
        Hyderabad  2000-04-01      32.698
        Hyderabad  2000-05-01      32.438
...                       ...         ...
Iraq    Baghdad    2013-05-01      28.673
        Baghdad    2013-06-01      33.803
        Baghdad    2013-07-01      36.392
        Baghdad    2013-08-01      35.463
        Baghdad    2013-09-01         NaN

[2145 rows x 2 columns]


### Corte de series temporales

El corte (*slicing*) es especialmente útil para series temporales, ya que es común querer filtrar datos dentro de un rango de fechas. Para ello, agrega la columna `date` al índice y luego usa `.loc[]` para realizar el subsetting. Lo más importante es asegurarte de que tus fechas estén en formato ISO 8601, es decir:

- `"yyyy-mm-dd"` para año-mes-día,
- `"yyyy-mm"` para año-mes,
- `"yyyy"` para año.

Recuerda de 1.1 que puedes combinar múltiples condiciones booleanas utilizando operadores lógicos, como `&`. Para hacerlo en una sola línea de código, es necesario agregar paréntesis `()` alrededor de cada condición.

**Instrucciones**

- Usa condiciones booleanas, no `.isin()` ni `.loc[]`, y la fecha completa en formato `"yyyy-mm-dd"`, para obtener un subconjunto de `temperatures` con filas donde la columna `date` esté en los años 2010 y 2011, e imprime los resultados.


In [24]:
temperatures_bool = temperatures[(temperatures["date"] >= "2010-01-01") & (temperatures["date"] <= "2011-12-31")]
print(temperatures_bool)

             date     city        country  avg_temp_c
120    2010-01-01  Abidjan  Côte D'Ivoire      28.270
121    2010-02-01  Abidjan  Côte D'Ivoire      29.262
122    2010-03-01  Abidjan  Côte D'Ivoire      29.596
123    2010-04-01  Abidjan  Côte D'Ivoire      29.068
124    2010-05-01  Abidjan  Côte D'Ivoire      28.258
...           ...      ...            ...         ...
16474  2011-08-01     Xian          China      23.069
16475  2011-09-01     Xian          China      16.775
16476  2011-10-01     Xian          China      12.587
16477  2011-11-01     Xian          China       7.543
16478  2011-12-01     Xian          China      -0.490

[2400 rows x 4 columns]


- Establece el índice de `temperatures` en la columna `date` y ordénalo.

In [25]:
temperatures_ind = (
    temperatures
    .set_index("date")
    .sort_index()
)

- Usa `.loc[]` para obtener un subconjunto de `temperatures_ind` con filas en los años 2010 y 2011.

In [26]:
print(
    temperatures_ind
    .loc["2010-01-01":"2011-12-31"]
)

                  city    country  avg_temp_c
date                                         
2010-01-01  Faisalabad   Pakistan      11.810
2010-01-01   Melbourne  Australia      20.016
2010-01-01   Chongqing      China       7.921
2010-01-01   São Paulo     Brazil      23.738
2010-01-01   Guangzhou      China      14.136
...                ...        ...         ...
2011-12-01      Nagoya      Japan       6.476
2011-12-01   Hyderabad      India      23.613
2011-12-01        Cali   Colombia      21.559
2011-12-01        Lima       Peru      18.293
2011-12-01     Bangkok   Thailand      25.021

[2400 rows x 3 columns]


- Usa `.loc[]` para obtener un subconjunto de `temperatures_ind` con filas desde agosto de 2010 hasta febrero de 2011.

In [27]:
print(
    temperatures_ind
    .loc[
        "2010-08-01":"2011-02-29"
    ]
)

                city        country  avg_temp_c
date                                           
2010-08-01  Calcutta          India      30.226
2010-08-01      Pune          India      24.941
2010-08-01     Izmir         Turkey      28.352
2010-08-01   Tianjin          China      25.543
2010-08-01    Manila    Philippines      27.101
...              ...            ...         ...
2011-02-01     Kabul    Afghanistan       3.914
2011-02-01   Chicago  United States       0.276
2011-02-01    Aleppo          Syria       8.246
2011-02-01     Delhi          India      18.136
2011-02-01   Rangoon          Burma      26.631

[700 rows x 3 columns]


### Subsetting por número de fila/columna

Las formas más comunes de obtener subconjuntos de filas son las que hemos visto anteriormente: usando una condición booleana o mediante etiquetas de índice. Sin embargo, en algunas ocasiones también es útil seleccionar filas por su número de posición.

Para esto, se usa `.iloc[]`, y al igual que `.loc[]`, puede aceptar dos argumentos para permitir el subsetting tanto por filas como por columnas.

`pandas` está cargado como `pd`. `temperatures` (sin índice) está disponible.

**Instrucciones**

Usa `.iloc[]` en `temperatures` para obtener los siguientes subconjuntos:

- Obtén la fila 23 y la columna 2 (posiciones de índice 22 y 1).


In [28]:
print(
    temperatures
    .iloc[22, 1]
)


Abidjan


- Obtén las primeras 5 filas (posiciones de índice de 0 a 4).

In [29]:
print(
    temperatures
    .iloc[:5, :]
)

         date     city        country  avg_temp_c
0  2000-01-01  Abidjan  Côte D'Ivoire      27.293
1  2000-02-01  Abidjan  Côte D'Ivoire      27.685
2  2000-03-01  Abidjan  Côte D'Ivoire      29.061
3  2000-04-01  Abidjan  Côte D'Ivoire      28.162
4  2000-05-01  Abidjan  Côte D'Ivoire      27.547


- Obtén todas las filas y las columnas 3 y 4 (posiciones de índice de 2 a 3).

In [30]:
print(
    temperatures
    .iloc[:, 2:4]
)

             country  avg_temp_c
0      Côte D'Ivoire      27.293
1      Côte D'Ivoire      27.685
2      Côte D'Ivoire      29.061
3      Côte D'Ivoire      28.162
4      Côte D'Ivoire      27.547
...              ...         ...
16495          China      18.979
16496          China      23.522
16497          China      25.251
16498          China      24.528
16499          China         NaN

[16500 rows x 2 columns]


- Obtén las primeras 5 filas y las columnas 3 y 4.

In [31]:
print(
    temperatures
    .iloc[:5, 2:4]
)

         country  avg_temp_c
0  Côte D'Ivoire      27.293
1  Côte D'Ivoire      27.685
2  Côte D'Ivoire      29.061
3  Côte D'Ivoire      28.162
4  Côte D'Ivoire      27.547


## Trabajando con tablas dinámicas (*pivot tables*)

### Crear una tabla dinámica de temperaturas por ciudad y año

Es interesante observar cómo cambian las temperaturas de cada ciudad a lo largo del tiempo. Sin embargo, ver cada mes por separado genera una tabla muy grande, lo que puede dificultar su interpretación. En su lugar, analizaremos cómo cambian las temperaturas por año.

Puedes acceder a los componentes de una fecha (año, mes y día) usando el formato `dataframe["columna"].dt.componente`. Por ejemplo, para obtener el mes se usa `dataframe["columna"].dt.month`, y para obtener el año se usa `dataframe["columna"].dt.year`.

Una vez que tengas la columna del año, puedes crear una tabla dinámica (*pivot table*) con los datos agregados por ciudad y año, lo cual explorarás en los siguientes ejercicios.


**Instrucciones**

- Agrega una columna `year` a `temperatures`, obteniendo el componente `year` de la columna `date`.


In [32]:
temperatures["date"] = (
    pd
    .to_datetime(temperatures["date"])
) 

In [33]:
temperatures["year"] = (
    temperatures["date"]
    .dt.year
)

- Crea una tabla dinámica (*pivot table*) de la columna `avg_temp_c`, con `country` y `city` como filas, y `year` como columnas. Asígnala a `temp_by_country_city_vs_year` y *observa el resultado*.

In [34]:
temp_by_country_city_vs_year = (
    temperatures
    .pivot_table(
        values="avg_temp_c",
        index=["country", "city"], 
        columns="year"
    )
)

print(temp_by_country_city_vs_year)

year                                 2000       2001       2002       2003  \
country       city                                                           
Afghanistan   Kabul             15.822667  15.847917  15.714583  15.132583   
Angola        Luanda            24.410333  24.427083  24.790917  24.867167   
Australia     Melbourne         14.320083  14.180000  14.075833  13.985583   
              Sydney            17.567417  17.854500  17.733833  17.592333   
Bangladesh    Dhaka             25.905250  25.931250  26.095000  25.927417   
...                                   ...        ...        ...        ...   
United States Chicago           11.089667  11.703083  11.532083  10.481583   
              Los Angeles       16.643333  16.466250  16.430250  16.944667   
              New York           9.969083  10.931000  11.252167   9.836000   
Vietnam       Ho Chi Minh City  27.588917  27.831750  28.064750  27.827667   
Zimbabwe      Harare            20.283667  20.861000  21.079333 

### Subconjuntos en tablas dinámicas

Una tabla dinámica (*pivot table*) es simplemente un DataFrame con índices ordenados, por lo que puedes aplicar las técnicas que ya aprendiste para obtener subconjuntos. En particular, la combinación de `.loc[]` con cortes (*slicing*) suele ser muy útil.


**Instrucciones**

Usa `.loc[]` en `temp_by_country_city_vs_year` para obtener los siguientes subconjuntos:

- Desde `Egypt` hasta `India`.


In [35]:
(
    temp_by_country_city_vs_year
    .loc["Egypt": "India"]
)

Unnamed: 0_level_0,year,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013
country,city,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Egypt,Alexandria,20.7445,21.454583,21.456167,21.221417,21.064167,21.082333,21.148167,21.50775,21.739,21.6705,22.459583,21.1815,21.552583,21.4385
Egypt,Cairo,21.486167,22.330833,22.414083,22.1705,22.081917,22.0065,22.05,22.361,22.6445,22.625,23.71825,21.986917,22.48425,22.907
Egypt,Gizeh,21.486167,22.330833,22.414083,22.1705,22.081917,22.0065,22.05,22.361,22.6445,22.625,23.71825,21.986917,22.48425,22.907
Ethiopia,Addis Abeba,18.24125,18.296417,18.46975,18.320917,18.29275,18.312833,18.427083,18.142583,18.165,18.765333,18.29825,18.60675,18.448583,19.539
France,Paris,11.739667,11.37125,11.871333,11.9095,11.338833,11.552917,11.7885,11.750833,11.27825,11.464083,10.409833,12.32575,11.219917,11.011625
Germany,Berlin,10.963667,9.69025,10.264417,10.06575,9.822583,9.919083,10.545333,10.883167,10.65775,10.0625,8.606833,10.556417,9.964333,10.1215
India,Ahmadabad,27.436,27.198083,27.719083,27.403833,27.628333,26.828083,27.282833,27.511167,27.0485,28.095833,28.017833,27.290417,27.02725,27.608625
India,Bangalore,25.337917,25.528167,25.755333,25.92475,25.252083,25.4765,25.41825,25.464333,25.352583,25.72575,25.70525,25.362083,26.042333,26.6105
India,Bombay,27.203667,27.243667,27.628667,27.578417,27.31875,27.03575,27.3815,27.634667,27.17775,27.8445,27.765417,27.384917,27.1925,26.713
India,Calcutta,26.491333,26.515167,26.703917,26.561333,26.634333,26.729167,26.98625,26.584583,26.522333,27.15325,27.288833,26.406917,26.935083,27.36925


- Desde `Egypt, Cairo` hasta `India, Delhi`.

In [36]:
(
    temp_by_country_city_vs_year
    .loc[("Egypt", "Cairo"): ("India", "Delhi")]
)

Unnamed: 0_level_0,year,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013
country,city,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Egypt,Cairo,21.486167,22.330833,22.414083,22.1705,22.081917,22.0065,22.05,22.361,22.6445,22.625,23.71825,21.986917,22.48425,22.907
Egypt,Gizeh,21.486167,22.330833,22.414083,22.1705,22.081917,22.0065,22.05,22.361,22.6445,22.625,23.71825,21.986917,22.48425,22.907
Ethiopia,Addis Abeba,18.24125,18.296417,18.46975,18.320917,18.29275,18.312833,18.427083,18.142583,18.165,18.765333,18.29825,18.60675,18.448583,19.539
France,Paris,11.739667,11.37125,11.871333,11.9095,11.338833,11.552917,11.7885,11.750833,11.27825,11.464083,10.409833,12.32575,11.219917,11.011625
Germany,Berlin,10.963667,9.69025,10.264417,10.06575,9.822583,9.919083,10.545333,10.883167,10.65775,10.0625,8.606833,10.556417,9.964333,10.1215
India,Ahmadabad,27.436,27.198083,27.719083,27.403833,27.628333,26.828083,27.282833,27.511167,27.0485,28.095833,28.017833,27.290417,27.02725,27.608625
India,Bangalore,25.337917,25.528167,25.755333,25.92475,25.252083,25.4765,25.41825,25.464333,25.352583,25.72575,25.70525,25.362083,26.042333,26.6105
India,Bombay,27.203667,27.243667,27.628667,27.578417,27.31875,27.03575,27.3815,27.634667,27.17775,27.8445,27.765417,27.384917,27.1925,26.713
India,Calcutta,26.491333,26.515167,26.703917,26.561333,26.634333,26.729167,26.98625,26.584583,26.522333,27.15325,27.288833,26.406917,26.935083,27.36925
India,Delhi,26.048333,25.862917,26.634333,25.721083,26.239917,25.716083,26.365917,26.145667,25.675,26.55425,26.52025,25.6295,25.889417,26.70925


- Desde `Egypt, Cairo` hasta `India, Delhi`, y desde el año 2005 hasta 2010.

In [37]:
(
    temp_by_country_city_vs_year
    .loc[("Egypt", "Cairo"): ("India", "Delhi"), "2005":"2010"]
)

Unnamed: 0_level_0,year,2005,2006,2007,2008,2009,2010
country,city,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Egypt,Cairo,22.0065,22.05,22.361,22.6445,22.625,23.71825
Egypt,Gizeh,22.0065,22.05,22.361,22.6445,22.625,23.71825
Ethiopia,Addis Abeba,18.312833,18.427083,18.142583,18.165,18.765333,18.29825
France,Paris,11.552917,11.7885,11.750833,11.27825,11.464083,10.409833
Germany,Berlin,9.919083,10.545333,10.883167,10.65775,10.0625,8.606833
India,Ahmadabad,26.828083,27.282833,27.511167,27.0485,28.095833,28.017833
India,Bangalore,25.4765,25.41825,25.464333,25.352583,25.72575,25.70525
India,Bombay,27.03575,27.3815,27.634667,27.17775,27.8445,27.765417
India,Calcutta,26.729167,26.98625,26.584583,26.522333,27.15325,27.288833
India,Delhi,25.716083,26.365917,26.145667,25.675,26.55425,26.52025


### Cálculos en una tabla dinámica (*pivot table*)

Las tablas dinámicas contienen estadísticas resumidas, pero suelen ser solo el primer paso para encontrar información relevante. A menudo, es necesario realizar cálculos adicionales sobre ellas. Una operación común es identificar las filas o columnas donde ocurre el valor más alto o más bajo.

Recuerda de 1.1. que puedes obtener un subconjunto de una Serie o DataFrame utilizando una condición lógica dentro de corchetes. Por ejemplo: `serie[serie > valor]`.

`pandas` está cargado como `pd` y el DataFrame `temp_by_country_city_vs_year` está disponible. A continuación, se muestra un `.head()` de este DataFrame con solo algunas columnas de años:

| country | city | 2000 | 2001 | 2002 | … | 2013 |
|---------|------|------|------|------|---|------|
| Afghanistan | Kabul | 15.823 | 15.848 | 15.715 | … | 16.206 |
| Angola | Luanda | 24.410 | 24.427 | 24.791 | … | 24.554 |
| Australia | Melbourne | 14.320 | 14.180 | 14.076 | … | 14.742 |
|  | Sydney | 17.567 | 17.854 | 17.734 | … | 18.090 |
| Bangladesh | Dhaka | 25.905 | 25.931 | 26.095 | … | 26.587 |

**Instrucciones**

- Calcula la temperatura media para cada año y asígnala a `mean_temp_by_year`.
- Filtra `mean_temp_by_year` para obtener el año con la temperatura media más alta.


In [38]:
mean_temp_by_year = (
    temp_by_country_city_vs_year
    .mean(axis="index")
)

print(
    mean_temp_by_year[mean_temp_by_year == mean_temp_by_year.max()]
)

year
2013    20.312285
dtype: float64


- Calcula la temperatura media para cada ciudad (a través de las columnas) y asígnala a `mean_temp_by_city`.
- Filtra `mean_temp_by_city` para obtener la ciudad con la temperatura media más baja.

In [39]:
mean_temp_by_city = (
    temp_by_country_city_vs_year
    .mean(axis="columns")
)

print(
    mean_temp_by_city[mean_temp_by_city == mean_temp_by_city.min()]
)

country  city  
China    Harbin    4.876551
dtype: float64
