In [1]:
# Cargar librerias 
import pandas as pd
import numpy as np

Una **Serie** es un conjunto unidimensional de estilos array, que contiene una secuencia de valores del mismo tipo, y un array asociado de etioquetas de datos, que corresponde a su índice.

In [2]:
obj = pd.Series([1,2,3,4,5,6])
obj

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

Se puede obtener la representación de en array y el objeto indice de la serie mediantre sus atributos **array** e **index**.

In [3]:
print(f'Array: {obj.array}')
print(f'Index: {obj.index}')

Array: <NumpyExtensionArray>
[np.int64(1), np.int64(2), np.int64(3), np.int64(4), np.int64(5), np.int64(6)]
Length: 6, dtype: int64
Index: RangeIndex(start=0, stop=6, step=1)


**Nota:** Cuando no esécificamos un índice para los datos, se crea uno predeterminado, formado por los enteros 0 a ***N***-1 (donde ***N*** es la lomgiyd de los datos)

Crear una **Serie** con un índice, que identifique cada punto de datos con una etiqueta.

In [4]:
obj2 = pd.Series([1,2,3,4], index=['a','b','c','d'])
obj2

a    1
b    2
c    3
d    4
dtype: int64

Se puede usar etiquetas en el índice al seleccionar varios valores sencillos o un conjunto de valores.

In [5]:
print(obj2['a'])
obj2['c'] = 10 
print(obj2['c'])
print(obj2[['c','a','d']])

# Se interpreta como una lista de índices

1
10
c    10
a     1
d     4
dtype: int64


Utilizar funciones NumPy u operaciones de estilo NumPy, como el filtro con un array booleano, la multiplicación de escalares o la aplicación de funciones mátematicas, permitirá conservar el vinculo **índice**-**valor**.

In [6]:
print(obj2[obj2 > 2])
print(obj2 * 2)
print(np.exp(obj2))

c    10
d     4
dtype: int64
a     2
b     4
c    20
d     8
dtype: int64
a        2.718282
b        7.389056
c    22026.465795
d       54.598150
dtype: float64


Una **Serie** es como un diccionario ordenado de longitud fija, dado que es una asiganación de valores de índice a valores de datos.

In [7]:
'a' in obj2

True

Si tenemos un diccionario Python, podemos crear una **Serie** a partir de él pasando el diccionario.

In [8]:
dic = {
    'a': [1,2,3,4,5],
    'b': [6,7,8.9,10]
}

serie = pd.Series(dic)
serie

a    [1, 2, 3, 4, 5]
b    [6, 7, 8.9, 10]
dtype: object

Una **Serie** se puede convertir de nuevo en un diccionario con su método *to_dict*.

In [9]:
dic_de_nuevo = serie.to_dict()
dic_de_nuevo

{'a': [1, 2, 3, 4, 5], 'b': [6, 7, 8.9, 10]}

Para detectar datos faltantes o nulos se deben emplear las funciones ***isna*** y ***notna*** de pandas.

In [10]:
print(f'Original\n{obj2}')
print(f'isna\n{pd.isna(obj2)}')
print(f'notna\n{pd.notna(obj2)}')

Original
a     1
b     2
c    10
d     4
dtype: int64
isna
a    False
b    False
c    False
d    False
dtype: bool
notna
a    True
b    True
c    True
d    True
dtype: bool


Hay muchas formas de construir un ***DataFrame***, auque una de las más habituales es apartir de un diccionario de listas o arrays NumPy de la misma longitud.

In [11]:
valor1 = np.arange(9)
valor2 = np.arange(9)
valor3 = ['said','jared', 'misra']

lista_valor1 = [np.random.choice(valor1) for _ in range(9)]
lista_valor2 = [np.random.choice(valor2) for _ in range(9)]
lista_valor3 = [np.random.choice(valor3) for _ in range(9)]

dic_2 = {
    'nombre': lista_valor3,
    'valor1': lista_valor1,
    'valor2': lista_valor2
}

frame = pd.DataFrame(dic_2)
frame

Unnamed: 0,nombre,valor1,valor2
0,said,0,2
1,jared,2,5
2,said,1,4
3,said,4,2
4,misra,2,3
5,said,1,7
6,misra,0,4
7,misra,2,5
8,jared,1,6


El objeto ***DataFrame*** resultante tendrá su índice asignado de manra automática como una ***Serie*** y las columnas se colocarán de acuerdo con el orden de las claves(dependeran del orden de inserción en el diccionario).

Para grande ***DataFrame***, el métod *head* selecciona solo los **5** primeras filas.

In [12]:
frame.head()

Unnamed: 0,nombre,valor1,valor2
0,said,0,2
1,jared,2,5
2,said,1,4
3,said,4,2
4,misra,2,3


De forma similar, *tail* devuelve los 5 últimos.

In [13]:
frame.tail()

Unnamed: 0,nombre,valor1,valor2
4,misra,2,3
5,said,1,7
6,misra,0,4
7,misra,2,5
8,jared,1,6


Si se especifica una secuencia de columnas, las columnas del ***DataFrame*** se dispondrán en ese orden.

In [14]:
pd.DataFrame(frame, columns=['valor1', 'nombre', 'valor2'])

Unnamed: 0,valor1,nombre,valor2
0,0,said,2
1,2,jared,5
2,1,said,4
3,4,said,2
4,2,misra,3
5,1,said,7
6,0,misra,4
7,2,misra,5
8,1,jared,6


Si se pasa una columna no contenida en el diccionario, aparecera con valores faltantes en el resultado.

In [15]:
frame2 = pd.DataFrame(frame, columns=['valor2','valor1','nombre','direccion'])
frame2

Unnamed: 0,valor2,valor1,nombre,direccion
0,2,0,said,
1,5,2,jared,
2,4,1,said,
3,2,4,said,
4,3,2,misra,
5,7,1,said,
6,4,0,misra,
7,5,2,misra,
8,6,1,jared,


Es posible recuperar una columna de un ***DataFrame*** como una ***Serie*** o bien mediante la notación de estilo diccionario o utilizando la notación de atributo de punto.

In [19]:
print(f'{frame2['nombre']}')
print(f'\n{frame2.valor1}')

0     said
1    jared
2     said
3     said
4    misra
5     said
6    misra
7    misra
8    jared
Name: nombre, dtype: object

0    0
1    2
2    1
3    4
4    2
5    1
6    0
7    2
8    1
Name: valor1, dtype: int64


El método *del* se puede emplear después ára eliminar columnas.

In [20]:
del frame2['direccion']
frame2

Unnamed: 0,valor2,valor1,nombre
0,2,0,said
1,5,2,jared
2,4,1,said
3,2,4,said
4,3,2,misra
5,7,1,said
6,4,0,misra
7,5,2,misra
8,6,1,jared


*reindex* reordena los datos segun el nuevo índice, introduciendo los valores faltantes si algunos valores de índice no estaban ya representados.

In [22]:
obj3 = obj2.reindex([9,8,7,6])
obj3

9   NaN
8   NaN
7   NaN
6   NaN
dtype: float64

Para ***Series*** ordenadas, como, por ejemplo, las ***Series*** temporales, quizas sea más interesante interpolar o rellenar con valores al reidexar. La opcióin *method*
los permite hacer esto, utilizando un método como *ffill* que rellena hacia adelantge los valores.

In [26]:
obj3 = pd.Series(['azul','verde','rojo'], index=[1,2,3])
obj3.reindex(np.arange(6), method='ffill')

0      NaN
1     azul
2    verde
3     rojo
4     rojo
5     rojo
dtype: object