# What do i need to know about the pandas index? part II

In [31]:
import pandas as pd

In [32]:
drinks = pd.read_csv('http://bit.ly/drinksbycountry')
drinks

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,Asia
1,Albania,89,132,54,4.9,Europe
2,Algeria,25,0,14,0.7,Africa
3,Andorra,245,138,312,12.4,Europe
4,Angola,217,57,45,5.9,Africa
...,...,...,...,...,...,...
188,Venezuela,333,100,3,7.7,South America
189,Vietnam,111,2,1,2.0,Asia
190,Yemen,6,0,0,0.1,Asia
191,Zambia,32,19,4,2.5,Africa


In [33]:
drinks.continent

0               Asia
1             Europe
2             Africa
3             Europe
4             Africa
           ...      
188    South America
189             Asia
190             Asia
191           Africa
192           Africa
Name: continent, Length: 193, dtype: object

In [34]:
drinks.set_index('country', inplace = True)
drinks

Unnamed: 0_level_0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Afghanistan,0,0,0,0.0,Asia
Albania,89,132,54,4.9,Europe
Algeria,25,0,14,0.7,Africa
Andorra,245,138,312,12.4,Europe
Angola,217,57,45,5.9,Africa
...,...,...,...,...,...
Venezuela,333,100,3,7.7,South America
Vietnam,111,2,1,2.0,Asia
Yemen,6,0,0,0.1,Asia
Zambia,32,19,4,2.5,Africa


- Al seleccionar una columna del data frame y hacer que nos muestre un head, nos arroja una tabla

In [35]:
drinks.continent.head()

country
Afghanistan      Asia
Albania        Europe
Algeria        Africa
Andorra        Europe
Angola         Africa
Name: continent, dtype: object

- Tabla en la que aparecen los nombres de los paises actuando como index, si contamos cada vez que aparece un valor por continente con la funcion .value_counts() ahora los continentes actual como index

In [36]:
drinks.continent.value_counts()

Africa           53
Europe           45
Asia             44
North America    23
Oceania          16
South America    12
Name: continent, dtype: int64

- Para poder ver los indices que maneja cualquier tabla resultado de filtros, selecciones y agrupaciones podemos usar el metodo .index

In [37]:
drinks.continent.value_counts().index

Index(['Africa', 'Europe', 'Asia', 'North America', 'Oceania',
       'South America'],
      dtype='object')

- Asi mismo tambien podemos acceder a los valores de la tabla con el método .values (este metodo es diferente de la funcion .value_counts( ) )

In [38]:
drinks.continent.value_counts().values

array([53, 45, 44, 23, 16, 12])

- En este punto de la tabla que tenemos por conteo de valores por continente  podemos hacer una consuta para saber el valor de un continente poniendo su nombre en una lista (ya sabemos que el filtro y la consuta de datos puede funcionar como una comparativa de booleanos donde acabará mostrando los True):

In [39]:
drinks.continent.value_counts()['Africa']

53

- A la tabla resultante tambien podemos clasificar los valores de manera ascendente:

In [40]:
drinks.continent.value_counts().sort_values()

South America    12
Oceania          16
North America    23
Asia             44
Europe           45
Africa           53
Name: continent, dtype: int64

- En caso de que lo que necesitamos es esta misma tabla pero ordenado en funcion de su nombre y no de su valor, y asumiendo que el nombre y el valor del index son el mismo, podemos ordenar por index:

In [41]:
drinks.continent.value_counts().sort_index()

Africa           53
Asia             44
Europe           45
North America    23
Oceania          16
South America    12
Name: continent, dtype: int64

### Construir una serie de pandas from scratch

- Podemos armar una serie de pandas tan solo con la funcion pd.Series() poniendo una lista como argumento y un nombre dentro de las opciones:

In [42]:
people = pd.Series([3000000, 85000], name = 'population')
people

0    3000000
1      85000
Name: population, dtype: int64

- Pero el index por defecto es numerado desde el cero en adelante con numeros enteros, asi que si deseamos tener un indice personalizado debemos agregarlo en las opciones de la serie:

In [43]:
people = pd.Series([3000000, 85000], index=['Albania', 'Andorra'], name = 'population')
people

Albania    3000000
Andorra      85000
Name: population, dtype: int64

- People ahora es una serie de pandas a la cual le podemos hacer operaciones, por elemplo multiplicarla con con la columna drinks.beer_servings, el resultado es que solo Albania y Andorra obtienen valores distintos de NaN porque la serie people solo tiene 2 valores numerico que provienen en la serie:

In [44]:
drinks.beer_servings * people

Afghanistan            NaN
Albania        267000000.0
Algeria                NaN
Andorra         20825000.0
Angola                 NaN
                  ...     
Venezuela              NaN
Vietnam                NaN
Yemen                  NaN
Zambia                 NaN
Zimbabwe               NaN
Length: 193, dtype: float64

- Podemos agregar la columna de population a nuestro df drinks con la funcion pd.concat() y como argumento una lista que tenga el nombre del df seguido del nombre de la serie que queremos agregar y ademas especificar en que direccion vamos a agregar la serie, para este caso cuando de trata de columbasa axis=1

In [45]:
pd.concat([drinks, people], axis=1).head()

Unnamed: 0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent,population
Afghanistan,0,0,0,0.0,Asia,
Albania,89,132,54,4.9,Europe,3000000.0
Algeria,25,0,14,0.7,Africa,
Andorra,245,138,312,12.4,Europe,85000.0
Angola,217,57,45,5.9,Africa,


- Una forma de agregar una columna al df es declararla como si exsistiera utilizando la notación corchetes:

In [46]:
drinks['people'] = people
drinks

Unnamed: 0_level_0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent,people
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Afghanistan,0,0,0,0.0,Asia,
Albania,89,132,54,4.9,Europe,3000000.0
Algeria,25,0,14,0.7,Africa,
Andorra,245,138,312,12.4,Europe,85000.0
Angola,217,57,45,5.9,Africa,
...,...,...,...,...,...,...
Venezuela,333,100,3,7.7,South America,
Vietnam,111,2,1,2.0,Asia,
Yemen,6,0,0,0.1,Asia,
Zambia,32,19,4,2.5,Africa,


- Hay que tener cuidado con esta asignacion, debido a que se declara que una columna va a ser parte del df que ya teniamos, esta columna se mantendra en el df hasta que sea removida