# Librería Pandas - Python

Librería de Python que está construida como una extensión de NumPy para manipulación y análisis de datos.

* Permite representar, explorar y visualizar los datasets.
* Posee dos estructuras básicas:
    * Series
    * Dataframes

In [1]:
# Importamos Pandas
import pandas as pd

## Inicialización del tipo "Series"

In [17]:
# Creamos una serie de cuatro enteros, cuyos índices son [0,1,2,3]
X = pd.Series([10, 20, 14, 11])
X

0    10
1    20
2    14
3    11
dtype: int64

In [18]:
# Creamos una serie de cuatro enteros, cuyos índices son ['a', 'b', 'c', 'd']
Y = pd.Series([10, 20, 14, 11],index=['a', 'b', 'c', 'd'])
Y

a    10
b    20
c    14
d    11
dtype: int64

In [19]:
# Creamos una serie de cuatro enteros, cuyos índices son ['a', 'b', 'c', 'd'] a partir de un diccionario
Y_dict = {'a': 10, 'b': 20, 'c': 14, 'd': 11}
Z = pd.Series(Y_dict)
Z

a    10
b    20
c    14
d    11
dtype: int64

In [22]:
# Mostramos los valores de una serie y el tipo de datos asociado. Note que es un array NumPy
Y.values

array([10, 20, 14, 11], dtype=int64)

In [23]:
# Mostramos los índices de una serie y el tipo de datos asociado. Note que es un tipo Pandas
Y.index

Index(['a', 'b', 'c', 'd'], dtype='object')

## Seleccionando datos

In [24]:
# Seleccionando un único elemento a partir de un índice
Y['b']

20

In [25]:
# Igual que el anterior. Aquí queda claro que la etiqueta de un índice traduce a su posición entera
Y[1]

20

In [29]:
# Seleccionar los elementos de un conjunto de índices pasados como lista
Y[['a','b']]

a    10
b    20
dtype: int64

In [30]:
# Seleccionando con condicionales. Nótese que el identificador Y refiere a toda la serie
Y[(Y > 10) & (Y < 20)]

c    14
d    11
dtype: int64

## Operaciones básicas

In [33]:
# Sumar un valor a toda la serie. Nótese que el elemento a sumar debe ser del mismo tipo.
Y = Y + 5
Y

a    20
b    30
c    24
d    21
dtype: int64

In [36]:
# Generar una serie de booleanos a partir de la combrobación de condiciones en una serie
YB = Y > 25

In [37]:
YB

a    False
b     True
c    False
d    False
dtype: bool

In [38]:
# Retorna True si algun elemento es True
Y.any()

True

In [39]:
# Retorna True si todos los elementos son True
Y.all()

True

## Aplicando funciones a los elementos de una serie

In [40]:
def f(x):
    if x % 2 != 0:
        return x + 100
    else:
        return x

In [41]:
# Aplica la función f a todos los elementos de una serie. Es como un for, pero optimizado. ¿por qué?
Y.apply(f)

a     20
b     30
c     24
d    121
dtype: int64

In [44]:
# Copiar una serie en una nueva variable. ¿Cómo se crearía un ALIAS de una serie?
R = Y.copy()
R

a    20
b    30
c    24
d    21
dtype: int64

In [45]:
# Describiendo la serie estadísticamente
Y.describe()

count     4.00
mean     23.75
std       4.50
min      20.00
25%      20.75
50%      22.50
75%      25.50
max      30.00
dtype: float64

In [48]:
# Cambiar el tipo de datos de una serie
import numpy as np
R = R.astype(np.float64)
R

a    20.0
b    30.0
c    24.0
d    21.0
dtype: float64