# 07 Segmentar e indexar Data Frames 
Los índices son nombres de filas y columnas sobrecargados. Aprende cómo pueden combinarse con la segmentación para obtener un potente subconjunto del DataFrame.

## Establecer y eliminar índices

pandas te permite designar columnas como índice. Esto permite un código más limpio al tomar subconjuntos (además de proporcionar una búsqueda más eficaz en algunas circunstancias).

En este capítulo, explorarás temperatures, un DataFrame de temperaturas medias en ciudades de todo el mundo.

pandas se carga como pd.

**Instrucciones**

- Mira en temperatures.
- Establece el índice de temperatures en "city", asignándolo a temperatures_ind.
- Mira en temperatures_ind. ¿En qué se diferencia de temperatures?
- Restablece el índice de temperatures_ind, manteniendo su contenido.
- Restablece el índice de temperatures_ind, eliminando su contenido.

In [1]:
import pandas as pd 

In [3]:
temperatures = pd.read_csv('./dataSets/GlobalLandTemperaturesByCity.csv')

In [4]:
temperatures.head()  # Display the first few rows of the DataFrame

Unnamed: 0,dt,AverageTemperature,AverageTemperatureUncertainty,City,Country,Latitude,Longitude
0,1743-11-01,6.068,1.737,Århus,Denmark,57.05N,10.33E
1,1743-12-01,,,Århus,Denmark,57.05N,10.33E
2,1744-01-01,,,Århus,Denmark,57.05N,10.33E
3,1744-02-01,,,Århus,Denmark,57.05N,10.33E
4,1744-03-01,,,Århus,Denmark,57.05N,10.33E


In [5]:
temperatures.shape

(8599212, 7)

In [6]:
temperatures_df = temperatures[['dt', 'AverageTemperature', 'City', 'Country']]

In [7]:
temperatures_ind = temperatures_df.set_index('City')
temperatures_ind

Unnamed: 0_level_0,dt,AverageTemperature,Country
City,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Århus,1743-11-01,6.068,Denmark
Århus,1743-12-01,,Denmark
Århus,1744-01-01,,Denmark
Århus,1744-02-01,,Denmark
Århus,1744-03-01,,Denmark
...,...,...,...
Zwolle,2013-05-01,11.464,Netherlands
Zwolle,2013-06-01,15.043,Netherlands
Zwolle,2013-07-01,18.775,Netherlands
Zwolle,2013-08-01,18.025,Netherlands


In [8]:
# Restableces el indice de la temperatures_ind
temperatures_ind.reset_index()

Unnamed: 0,City,dt,AverageTemperature,Country
0,Århus,1743-11-01,6.068,Denmark
1,Århus,1743-12-01,,Denmark
2,Århus,1744-01-01,,Denmark
3,Århus,1744-02-01,,Denmark
4,Århus,1744-03-01,,Denmark
...,...,...,...,...
8599207,Zwolle,2013-05-01,11.464,Netherlands
8599208,Zwolle,2013-06-01,15.043,Netherlands
8599209,Zwolle,2013-07-01,18.775,Netherlands
8599210,Zwolle,2013-08-01,18.025,Netherlands


In [9]:
temperatures_ind.reset_index(drop=True)  # Reset index without adding the old index as a column

Unnamed: 0,dt,AverageTemperature,Country
0,1743-11-01,6.068,Denmark
1,1743-12-01,,Denmark
2,1744-01-01,,Denmark
3,1744-02-01,,Denmark
4,1744-03-01,,Denmark
...,...,...,...
8599207,2013-05-01,11.464,Netherlands
8599208,2013-06-01,15.043,Netherlands
8599209,2013-07-01,18.775,Netherlands
8599210,2013-08-01,18.025,Netherlands


## Subconjunto con .loc[]

La función asesina de los índices es .loc[]: un método de subconjunto que acepta valores de índice. Si le pasas un único argumento, tomará un subconjunto de filas.

El código para el subconjunto que utiliza .loc[] puede ser más fácil de leer que el subconjunto estándar de corchetes, lo que puede hacer que tu código sea menos pesado de mantener.

pandas se carga como pd. temperatures y temperatures_ind están disponibles; este último está indexado por city.


**Instrucciones**

- Crea una lista llamada cities que contenga "Moscow" y "Saint Petersburg" en inglés.
- Utiliza el subconjunto [] para filtrar temperatures las filas en las que la columna city tome un valor de la lista cities.
- Utiliza el subconjunto .loc[] para filtrar temperatures_ind por las filas en las que la ciudad está en la lista cities.

In [None]:
# Crea una lista llamada cities que contenga "Moscow" y "Saint Petersburg" en inglés.
cities = ['Moscow', 'Saint Petersburg']
cities 

['Moscow', 'Saint Petersburg']

In [11]:
#Utiliza el subconjunto [] para filtrar temperatures las filas en las que la columna city tome un valor de la lista cities.
temperatures[temperatures['City'].isin(cities)]

Unnamed: 0,dt,AverageTemperature,AverageTemperatureUncertainty,City,Country,Latitude,Longitude
4950158,1743-11-01,-2.570,2.037,Moscow,Russia,55.45N,36.85E
4950159,1743-12-01,,,Moscow,Russia,55.45N,36.85E
4950160,1744-01-01,,,Moscow,Russia,55.45N,36.85E
4950161,1744-02-01,,,Moscow,Russia,55.45N,36.85E
4950162,1744-03-01,,,Moscow,Russia,55.45N,36.85E
...,...,...,...,...,...,...,...
6552140,2013-05-01,24.090,0.329,Saint Petersburg,United States,28.13N,82.73W
6552141,2013-06-01,27.560,0.373,Saint Petersburg,United States,28.13N,82.73W
6552142,2013-07-01,27.565,0.441,Saint Petersburg,United States,28.13N,82.73W
6552143,2013-08-01,28.483,0.387,Saint Petersburg,United States,28.13N,82.73W


In [12]:
#- Utiliza el subconjunto .loc[] para filtrar temperatures_ind por las filas en las que la ciudad está en la lista cities.
temperatures_ind.loc[cities]

Unnamed: 0_level_0,dt,AverageTemperature,Country
City,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Moscow,1743-11-01,-2.570,Russia
Moscow,1743-12-01,,Russia
Moscow,1744-01-01,,Russia
Moscow,1744-02-01,,Russia
Moscow,1744-03-01,,Russia
...,...,...,...
Saint Petersburg,2013-05-01,24.090,United States
Saint Petersburg,2013-06-01,27.560,United States
Saint Petersburg,2013-07-01,27.565,United States
Saint Petersburg,2013-08-01,28.483,United States


## Establecer índices multinivel

Los índices también pueden estar formados por varias columnas, formando un índice multinivel (a veces llamado índice jerárquico). Utilizarlos tiene su contrapartida.

La ventaja es que los índices multinivel hacen más natural razonar sobre variables categóricas anidadas. Por ejemplo, en un ensayo clínico, puedes tener grupos de control y de tratamiento. Entonces, cada sujeto de prueba pertenece a uno u otro grupo, y podemos decir que un sujeto de prueba está anidado dentro del grupo de tratamiento. Del mismo modo, en el conjunto de datos de temperatura, la ciudad está situada en el país, por lo que podemos decir que una ciudad está anidada dentro del país.

El principal inconveniente es que el código para manipular índices es distinto del código para manipular columnas, por lo que tienes que aprender dos sintaxis y estar al tanto de cómo se representan tus datos.

pandas se carga como pd. temperatures está disponible.

**Instrucciones**

- Establece el índice de temperatures en las columnas "country" y "city", y asígnalo a temperatures_ind.
- Especifica dos pares país/ciudad a conservar: "Brazil"/"Rio De Janeiro" y "Pakistan"/"Lahore", asignando a rows_to_keep.
- Imprime y subconjunta temperatures_ind para rows_to_keep utilizando .loc[].

In [16]:
temperatures_ind = temperatures_df.set_index(['Country','City'])

In [18]:
temperatures_ind.head()  # Display the first few rows of the DataFrame

Unnamed: 0_level_0,Unnamed: 1_level_0,dt,AverageTemperature
Country,City,Unnamed: 2_level_1,Unnamed: 3_level_1
Denmark,Århus,1743-11-01,6.068
Denmark,Århus,1743-12-01,
Denmark,Århus,1744-01-01,
Denmark,Århus,1744-02-01,
Denmark,Århus,1744-03-01,


In [20]:
#Tupla 
rows_to_keep = [('Brazil', 'Rio De Janeiro'),('Pakistan', 'Lahore')]

In [21]:
# Subconjunto de fila

temperatures_ind.loc[rows_to_keep]

Unnamed: 0_level_0,Unnamed: 1_level_0,dt,AverageTemperature
Country,City,Unnamed: 2_level_1,Unnamed: 3_level_1
Brazil,Rio De Janeiro,1832-01-01,25.320
Brazil,Rio De Janeiro,1832-02-01,26.584
Brazil,Rio De Janeiro,1832-03-01,25.419
Brazil,Rio De Janeiro,1832-04-01,23.405
Brazil,Rio De Janeiro,1832-05-01,22.773
...,...,...,...
Pakistan,Lahore,2013-05-01,33.457
Pakistan,Lahore,2013-06-01,34.456
Pakistan,Lahore,2013-07-01,33.279
Pakistan,Lahore,2013-08-01,31.511


# Crear y visualizar DataFrames
Aprende a visualizar el contenido de tus DataFrames, a tratar los valores de datos que faltan y a importar y exportar datos a archivos CSV.


## Visualizar Tus Datos

### ¿Qué tamaño de aguacate es el más popular?

Los aguacates son cada vez más populares y están deliciosos en guacamole y en tostadas. Hass Avocado Board hace un seguimiento de la oferta y la demanda de aguacate en toda la USA, incluidas las ventas de tres tamaños diferentes de aguacate. En este ejercicio, utilizarás un diagrama de barras para averiguar qué tamaño es el más popular.

Los gráficos de barras son estupendos para revelar las relaciones entre variables categóricas (tamaño) y numéricas (número vendido), pero a menudo tendrás que manipular primero los datos para obtener los números que necesitas para el gráfico.

pandas se ha importado como pd, y avocados está disponible.

**instrucciones**

- Imprime la cabecera del conjunto de datos avocados. ¿Qué columnas están disponibles?
- Para cada grupo de tamaño de aguacate, calcula el número total vendido, almacenándolo como nb_sold_by_size.
- Crea un diagrama de barras del número de aguacates vendidos por tamaño.
Muestra el gráfico.