## Pandas - Series

In [7]:
import pandas as pd
import numpy as np

#### Empezaremos analizando "El Grupo de los Siete". El cual es un político formado por Canadá, Francia, Alemania, Italia, Japón, Reino Unido y Estados Unidos. Comenzaremos analizando la población y, para eso, usaremos un objeto pandas.Series.

In [8]:
# En millones
g7_pop = pd.Series([35.467, 63.951, 80.940, 60.665, 127.061, 64.511, 318.523])

In [9]:
g7_pop

0     35.467
1     63.951
2     80.940
3     60.665
4    127.061
5     64.511
6    318.523
dtype: float64

#### Alguien podría no saber que estamos representando la población en millones de habitantes. La Serie puede tener un nombre, para documentar mejor el propósito de la Serie:

In [11]:
g7_pop.name = 'g7 Población en millones'

In [12]:
g7_pop

0     35.467
1     63.951
2     80.940
3     60.665
4    127.061
5     64.511
6    318.523
Name: g7 Población en millones, dtype: float64

#### Las series son bastante similares a las matrices numpy:

In [13]:
g7_pop.dtype

dtype('float64')

In [14]:
g7_pop.values

array([ 35.467,  63.951,  80.94 ,  60.665, 127.061,  64.511, 318.523])

#### En realidad están respaldadas por matrices numpy:

In [15]:
type(g7_pop.values)

numpy.ndarray

#### Y se ven como simples listas de Python o Numpy Arrays. Pero en realidad son más similares a los dictados de Python.
Una Serie tiene un índice, que es similar al índice automático asignado a las listas de Python:

g7_pop

In [17]:
g7_pop[0]

35.467

In [19]:
g7_pop[3]

60.665

In [20]:
g7_pop.index

RangeIndex(start=0, stop=7, step=1)

In [21]:
l = ['a', 'b', 'c']

#### Pero, a diferencia de las listas, podemos definir explícitamente el índice:

In [22]:
g7_pop.index = [
    'Canada',
    'France',
    'Germany',
    'Italy',
    'Japan',
    'United Kingdom',
    'United States',
]

In [23]:
g7_pop

Canada             35.467
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: g7 Población en millones, dtype: float64

#### Podemos decir que las Series parecen "diccionarios ordenados". De hecho, podemos crear series a partir de diccionarios:

In [24]:
pd.Series({
    'Canada': 35.467,
    'France': 63.951,
    'Germany': 80.940,
    'Italy': 60.665,
    'Japan': 127.061,
    'United Kingdom': 64.511,
    'United States': 318.523
    
}, name='G7 Población en millones')

Canada             35.467
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: G7 Población en millones, dtype: float64

In [30]:
pd.Series([35.467, 63.957, 80.940, 60.665, 127.061, 64.511, 318.523],
         index=['Canada', 'France', 'Germany', 'Italy', 'Japan', 'United Kingdom', 'United States'],
         name='G7 Población en millones')

Canada             35.467
France             63.957
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: G7 Población en millones, dtype: float64

#### También puede crear Series a partir de otras series, especificando índices:

In [32]:
pd.Series(g7_pop, index=['France', 'Germany', 'Italy', 'Spain'])

France     63.951
Germany    80.940
Italy      60.665
Spain         NaN
Name: g7 Población en millones, dtype: float64

## Indexación

#### La indexación funciona de manera similar a las listas y diccionarios, usa el índice del elemento que está buscando:

In [33]:
g7_pop

Canada             35.467
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: g7 Población en millones, dtype: float64

In [37]:
g7_pop['Canada']

35.467

In [38]:
g7_pop['Japan']

127.061

#### También se pueden utilizar posiciones numéricas, con el atributo iloc:

In [39]:
g7_pop.iloc[0]

35.467

In [40]:
g7_pop.iloc[-1]

318.523

#### Seleccionar varios elementos a la vez:

In [44]:
g7_pop[['Italy', 'France']]

Italy     60.665
France    63.951
Name: g7 Población en millones, dtype: float64

#### (El resultado es otra Serie)

In [46]:
g7_pop.iloc[[0, 1]]

Canada    35.467
France    63.951
Name: g7 Población en millones, dtype: float64

#### Rebanar también funciona, pero importante, en Pandas, el límite superior también está incluido:

In [48]:
g7_pop['Canada': 'Italy']

Canada     35.467
France     63.951
Germany    80.940
Italy      60.665
Name: g7 Población en millones, dtype: float64

## Selección condicional (matrices booleanas)


#### Las mismas técnicas de matriz booleana que vimos aplicadas a matrices numpy se pueden usar para Pandas Series:

In [49]:
g7_pop

Canada             35.467
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: g7 Población en millones, dtype: float64

In [50]:
g7_pop > 70

Canada            False
France            False
Germany            True
Italy             False
Japan              True
United Kingdom    False
United States      True
Name: g7 Población en millones, dtype: bool

In [51]:
g7_pop[g7_pop > 70]

Germany           80.940
Japan            127.061
United States    318.523
Name: g7 Población en millones, dtype: float64

In [52]:
g7_pop.mean()

107.30257142857144

In [53]:
g7_pop[g7_pop > g7_pop.mean()]

Japan            127.061
United States    318.523
Name: g7 Población en millones, dtype: float64

In [54]:
g7_pop.std()

97.24996987121581

In [None]:
~ not
| or
& and


In [57]:
g7_pop[(g7_pop > g7_pop.mean() - g7_pop.std() / 2) | (g7_pop > g7_pop.mean() + g7_pop.std() / 2)]

France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: g7 Población en millones, dtype: float64

## Operaciones y métodos


#### Las series también admiten operaciones vectorizadas y funciones de agregación como Numpy:

In [58]:
g7_pop

Canada             35.467
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: g7 Población en millones, dtype: float64

In [59]:
g7_pop * 1_000_000

Canada             35467000.0
France             63951000.0
Germany            80940000.0
Italy              60665000.0
Japan             127061000.0
United Kingdom     64511000.0
United States     318523000.0
Name: g7 Población en millones, dtype: float64

In [60]:
g7_pop.mean()

107.30257142857144

In [61]:
np.log(g7_pop)

Canada            3.568603
France            4.158117
Germany           4.393708
Italy             4.105367
Japan             4.844667
United Kingdom    4.166836
United States     5.763695
Name: g7 Población en millones, dtype: float64

In [62]:
g7_pop['France': 'Italy'].mean()

68.51866666666666

## Matrices booleanas

#### (Funciona de la misma manera que numpy)

In [63]:
g7_pop

Canada             35.467
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: g7 Población en millones, dtype: float64

In [65]:
g7_pop > 80

Canada            False
France            False
Germany            True
Italy             False
Japan              True
United Kingdom    False
United States      True
Name: g7 Población en millones, dtype: bool

In [66]:
g7_pop[g7_pop > 80]

Germany           80.940
Japan            127.061
United States    318.523
Name: g7 Población en millones, dtype: float64

In [68]:
g7_pop[(g7_pop > 80) | (g7_pop < 40)]

Canada            35.467
Germany           80.940
Japan            127.061
United States    318.523
Name: g7 Población en millones, dtype: float64

In [69]:
g7_pop[(g7_pop > 80) & (g7_pop < 200)]

Germany     80.940
Japan      127.061
Name: g7 Población en millones, dtype: float64

## Modificando serie

In [70]:
g7_pop['Canada'] = 40.5

In [71]:
g7_pop

Canada             40.500
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     318.523
Name: g7 Población en millones, dtype: float64

In [72]:
g7_pop.iloc[-1] = 500

In [73]:
g7_pop

Canada             40.500
France             63.951
Germany            80.940
Italy              60.665
Japan             127.061
United Kingdom     64.511
United States     500.000
Name: g7 Población en millones, dtype: float64

In [74]:
g7_pop[g7_pop < 70]

Canada            40.500
France            63.951
Italy             60.665
United Kingdom    64.511
Name: g7 Población en millones, dtype: float64

In [75]:
g7_pop[g7_pop < 70] = 99.99

In [76]:
g7_pop

Canada             99.990
France             99.990
Germany            80.940
Italy              99.990
Japan             127.061
United Kingdom     99.990
United States     500.000
Name: g7 Población en millones, dtype: float64