<img src="https://user-images.githubusercontent.com/7065401/75165824-badf4680-5701-11ea-9c5b-5475b0a33abf.png"
    style="width:300px; float: right; margin: 0 40px 40px 40px;"></img>


![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

Es una librería de Python diseñada para facilitar el manejo y análisis de datos. Construida sobre NumPy, Pandas extiende sus capacidades, proporcionando estructuras de datos y funciones avanzadas que permiten una manipulación más flexible y eficiente de datos tabulares y de series temporales.

In [1]:
import numpy as np
import pandas as pd

### Release

In [2]:
pd.__version__

'2.2.2'

[ultima release](https://pypi.org/project/pandas/)

## Estructuras de Datos



Dos estrucutras de datos principales:

* Series
* DateFrame

## Pandas - Series

Vamos a analizar el G7, el cual es un partido político formado por Canadá, Francia, Alemania, Italia, Japón, Reino Unido y Estados Unidos. Comenzaremos analizando la población y para ello usaremos un objeto `pandas.Series`.

In [4]:
# En millones
g7_poblacion = pd.Series([35.467, 63.951, 80.940, 60.665, 127.061, 64.511, 318.523])

In [5]:
g7_poblacion

Unnamed: 0,0
0,35.467
1,63.951
2,80.94
3,60.665
4,127.061
5,64.511
6,318.523


La Serie puede tener un nombre, para documentar mejor el propósito de la Serie.

In [6]:
g7_poblacion.name = 'G7 Poblacion en millones'

In [7]:
g7_poblacion

Unnamed: 0,G7 Poblacion en millones
0,35.467
1,63.951
2,80.94
3,60.665
4,127.061
5,64.511
6,318.523


Son muy parecidas a los arrays en NumPy.

In [8]:
g7_poblacion.dtype

dtype('float64')

In [9]:
g7_poblacion.values

array([ 35.467,  63.951,  80.94 ,  60.665, 127.061,  64.511, 318.523])

De hecho se almacenan en numpy arrays

In [10]:
type(g7_poblacion.values)

numpy.ndarray

Si bien son parecidas a las listas en Python o a los Arrays de NumPy, son mas parecidas a los diccionarios de Python.


In [11]:
g7_poblacion

Unnamed: 0,G7 Poblacion en millones
0,35.467
1,63.951
2,80.94
3,60.665
4,127.061
5,64.511
6,318.523


In [12]:
g7_poblacion[0]

35.467

In [13]:
g7_poblacion[1]

63.951

In [14]:
g7_poblacion.index

RangeIndex(start=0, stop=7, step=1)

A diferencia de las listas en Python, podemos definir un valor a cada indice

In [15]:
g7_poblacion.index = [
    'Canada',
    'Francia',
    'Alemania',
    'Italia',
    'Japon',
    'Reino Unido',
    'Estados Unidos',
]

In [16]:
g7_poblacion

Unnamed: 0,G7 Poblacion en millones
Canada,35.467
Francia,63.951
Alemania,80.94
Italia,60.665
Japon,127.061
Reino Unido,64.511
Estados Unidos,318.523


In [17]:
g7_poblacion['Canada']

35.467

In [18]:
g7_poblacion['Francia']

63.951

A diferencia de los diccionarios en Python, las series son estructuras de datos ordenadas.

Creacion de series I

In [19]:
nueva_forma = pd.Series({
    'Canada': 35.467,
    'Francia': 63.951,
    'Alemenia': 80.94,
    'Italia': 60.665,
    'Japon': 127.061,
    'Reino Unido': 64.511,
    'Estados Unidos': 318.523
}, name='G7 Poblacion en millones')

In [20]:
nueva_forma

Unnamed: 0,G7 Poblacion en millones
Canada,35.467
Francia,63.951
Alemenia,80.94
Italia,60.665
Japon,127.061
Reino Unido,64.511
Estados Unidos,318.523


Creacion de Series II

In [21]:
pd.Series(
    [35.467, 63.951, 80.94, 60.665, 127.061, 64.511, 318.523],
    index=['Canada', 'Francia', 'Alemania', 'Italia', 'Japon', 'Reino Unido',
       'Estados Unidos'],
    name='G7 Poblacion en millones')

Unnamed: 0,G7 Poblacion en millones
Canada,35.467
Francia,63.951
Alemania,80.94
Italia,60.665
Japon,127.061
Reino Unido,64.511
Estados Unidos,318.523


Tambien se pueden crear series a partir de otras series, especificando los indices.

In [22]:
g_nuevo = pd.Series(g7_poblacion, index=['Francia', 'Japon', 'Italia'])

In [23]:
g_nuevo

Unnamed: 0,G7 Poblacion en millones
Francia,63.951
Japon,127.061
Italia,60.665


In [24]:
g_nuevo.name = "Nueva Serie"

In [None]:
g_nuevo

Francia     63.951
Japon      127.061
Italia      60.665
Name: Nueva Serie, dtype: float64

## Indexacion

La indexacion funciona de manera similar a las listas y los diccionarios.
Se usa el indice del elemento a buscar:

In [25]:
g7_poblacion

Unnamed: 0,G7 Poblacion en millones
Canada,35.467
Francia,63.951
Alemania,80.94
Italia,60.665
Japon,127.061
Reino Unido,64.511
Estados Unidos,318.523


In [26]:
g7_poblacion['Canada']

35.467

Con el atributo iloc accedemos a las posiciones con indices numericos:

In [None]:
g7_poblacion.iloc[0]

35.467

In [27]:
g7_poblacion.iloc[2]

80.94

Tambien es posible visualizar mas de un elemento a la vez (multiples indices)

In [28]:
g7_poblacion[['Japon', 'Alemania']]

Unnamed: 0,G7 Poblacion en millones
Japon,127.061
Alemania,80.94


El resultado es una nueva Serie.

In [None]:
g7_poblacion.iloc[[0, 3]]

Unnamed: 0,G7 Poblacion en millones
Canada,35.467
Italia,60.665


Slicing es soportado por las Series. A diferencia de las listas, el limite superior, se incluye en el resultado

In [29]:
g7_poblacion['Canada': 'Italia']

Unnamed: 0,G7 Poblacion en millones
Canada,35.467
Francia,63.951
Alemania,80.94
Italia,60.665


## Seleccion condicional

In [30]:
g7_poblacion

Unnamed: 0,G7 Poblacion en millones
Canada,35.467
Francia,63.951
Alemania,80.94
Italia,60.665
Japon,127.061
Reino Unido,64.511
Estados Unidos,318.523


In [31]:
g7_poblacion > 70

Unnamed: 0,G7 Poblacion en millones
Canada,False
Francia,False
Alemania,True
Italia,False
Japon,True
Reino Unido,False
Estados Unidos,True


In [35]:
5 > 10

False

In [36]:
5 < 10

True

In [37]:
5 == 10

False

In [38]:
5 == 5

True

In [33]:
g7_mayor70 = g7_poblacion[g7_poblacion > 70]

In [34]:
g7_mayor70

Unnamed: 0,G7 Poblacion en millones
Alemania,80.94
Japon,127.061
Estados Unidos,318.523


In [39]:
g7_poblacion.mean()

107.30257142857144

In [40]:
g7_poblacion > g7_poblacion.mean()

Unnamed: 0,G7 Poblacion en millones
Canada,False
Francia,False
Alemania,False
Italia,False
Japon,True
Reino Unido,False
Estados Unidos,True


In [None]:
g7_poblacion[g7_poblacion > g7_poblacion.mean()]

Japon             127.061
Estados Unidos    318.523
Name: G7 Poblacion en millones, dtype: float64

In [None]:
g7_poblacion.std()

97.24996987121581

Operadores Logicos

* ~ not
* | or
* & and

In [43]:
a = False

In [44]:
not a

True

In [45]:
True | True

True

In [46]:
False | True

True

In [47]:
False | False

False

In [48]:
True & True

True

In [49]:
False & True

False

In [52]:
(5>4) | (5<1)

True

In [53]:
(5>4) & (5<10)

True

In [None]:
g7_poblacion[(g7_poblacion > g7_poblacion.mean() - g7_poblacion.std() / 2) | (g7_poblacion > g7_poblacion.mean() + g7_poblacion.std() / 2)]

Francia            63.951
Alemania           80.940
Italia             60.665
Japon             127.061
Reino Unido        64.511
Estados Unidos    318.523
Name: G7 Poblacion en millones, dtype: float64

## Operaciones matematicas

In [54]:
g7_poblacion

Unnamed: 0,G7 Poblacion en millones
Canada,35.467
Francia,63.951
Alemania,80.94
Italia,60.665
Japon,127.061
Reino Unido,64.511
Estados Unidos,318.523


In [55]:
g7_poblacion * 1_000_000

Unnamed: 0,G7 Poblacion en millones
Canada,35467000.0
Francia,63951000.0
Alemania,80940000.0
Italia,60665000.0
Japon,127061000.0
Reino Unido,64511000.0
Estados Unidos,318523000.0


In [56]:
np.log(g7_poblacion)

Unnamed: 0,G7 Poblacion en millones
Canada,3.568603
Francia,4.158117
Alemania,4.393708
Italia,4.105367
Japon,4.844667
Reino Unido,4.166836
Estados Unidos,5.763695


## Modificando la serie

In [57]:
g7_poblacion['Argentina'] = 45

In [None]:
g7_poblacion

Canada             35.467
Francia            63.951
Alemania           80.940
Italia             60.665
Japon             127.061
Reino Unido        64.511
Estados Unidos    318.523
Argentina          45.000
Name: G7 Poblacion en millones, dtype: float64

In [58]:
g7_poblacion[g7_poblacion < g7_poblacion.mean()] = 99.9

In [None]:
g7_poblacion

Canada             99.900
Francia            99.900
Alemania           99.900
Italia             99.900
Japon              99.900
Reino Unido        99.900
Estados Unidos    318.523
Argentina          99.900
Name: G7 Poblacion en millones, dtype: float64

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)