In [115]:
# Cargar librerias 
import pandas as pd
import numpy as np

Una **Serie** es un conjunto unidimensional de estilos array, que contiene una secuencia de valores del mismo tipo, y un array asociado de etioquetas de datos, que corresponde a su índice.

In [2]:
obj = pd.Series([1,2,3,4,5,6])
obj

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

Se puede obtener la representación de en array y el objeto indice de la serie mediantre sus atributos **array** e **index**.

In [3]:
print(f'Array: {obj.array}')
print(f'Index: {obj.index}')

Array: <NumpyExtensionArray>
[np.int64(1), np.int64(2), np.int64(3), np.int64(4), np.int64(5), np.int64(6)]
Length: 6, dtype: int64
Index: RangeIndex(start=0, stop=6, step=1)


**Nota:** Cuando no esécificamos un índice para los datos, se crea uno predeterminado, formado por los enteros 0 a ***N***-1 (donde ***N*** es la lomgiyd de los datos)

Crear una **Serie** con un índice, que identifique cada punto de datos con una etiqueta.

In [4]:
obj2 = pd.Series([1,2,3,4], index=['a','b','c','d'])
obj2

a    1
b    2
c    3
d    4
dtype: int64

Se puede usar etiquetas en el índice al seleccionar varios valores sencillos o un conjunto de valores.

In [5]:
print(obj2['a'])
obj2['c'] = 10 
print(obj2['c'])
print(obj2[['c','a','d']])

# Se interpreta como una lista de índices

1
10
c    10
a     1
d     4
dtype: int64


Utilizar funciones NumPy u operaciones de estilo NumPy, como el filtro con un array booleano, la multiplicación de escalares o la aplicación de funciones mátematicas, permitirá conservar el vinculo **índice**-**valor**.

In [6]:
print(obj2[obj2 > 2])
print(obj2 * 2)
print(np.exp(obj2))

c    10
d     4
dtype: int64
a     2
b     4
c    20
d     8
dtype: int64
a        2.718282
b        7.389056
c    22026.465795
d       54.598150
dtype: float64


Una **Serie** es como un diccionario ordenado de longitud fija, dado que es una asiganación de valores de índice a valores de datos.

In [7]:
'a' in obj2

True

Si tenemos un diccionario Python, podemos crear una **Serie** a partir de él pasando el diccionario.

In [8]:
dic = {
    'a': [1,2,3,4,5],
    'b': [6,7,8.9,10]
}

serie = pd.Series(dic)
serie

a    [1, 2, 3, 4, 5]
b    [6, 7, 8.9, 10]
dtype: object

Una **Serie** se puede convertir de nuevo en un diccionario con su método *to_dict*.

In [9]:
dic_de_nuevo = serie.to_dict()
dic_de_nuevo

{'a': [1, 2, 3, 4, 5], 'b': [6, 7, 8.9, 10]}

Para detectar datos faltantes o nulos se deben emplear las funciones ***isna*** y ***notna*** de pandas.

In [10]:
print(f'Original\n{obj2}')
print(f'isna\n{pd.isna(obj2)}')
print(f'notna\n{pd.notna(obj2)}')

Original
a     1
b     2
c    10
d     4
dtype: int64
isna
a    False
b    False
c    False
d    False
dtype: bool
notna
a    True
b    True
c    True
d    True
dtype: bool


Hay muchas formas de construir un ***DataFrame***, auque una de las más habituales es apartir de un diccionario de listas o arrays NumPy de la misma longitud.

In [11]:
valor1 = np.arange(9)
valor2 = np.arange(9)
valor3 = ['said','jared', 'misra']

lista_valor1 = [np.random.choice(valor1) for _ in range(9)]
lista_valor2 = [np.random.choice(valor2) for _ in range(9)]
lista_valor3 = [np.random.choice(valor3) for _ in range(9)]

dic_2 = {
    'nombre': lista_valor3,
    'valor1': lista_valor1,
    'valor2': lista_valor2
}

frame = pd.DataFrame(dic_2)
frame

Unnamed: 0,nombre,valor1,valor2
0,misra,6,5
1,misra,8,4
2,misra,3,5
3,jared,1,2
4,misra,6,6
5,misra,8,1
6,misra,5,8
7,jared,7,0
8,jared,4,6


El objeto ***DataFrame*** resultante tendrá su índice asignado de manra automática como una ***Serie*** y las columnas se colocarán de acuerdo con el orden de las claves(dependeran del orden de inserción en el diccionario).

Para grande ***DataFrame***, el métod *head* selecciona solo los **5** primeras filas.

In [12]:
frame.head()

Unnamed: 0,nombre,valor1,valor2
0,misra,6,5
1,misra,8,4
2,misra,3,5
3,jared,1,2
4,misra,6,6


De forma similar, *tail* devuelve los 5 últimos.

In [13]:
frame.tail()

Unnamed: 0,nombre,valor1,valor2
4,misra,6,6
5,misra,8,1
6,misra,5,8
7,jared,7,0
8,jared,4,6


Si se especifica una secuencia de columnas, las columnas del ***DataFrame*** se dispondrán en ese orden.

In [14]:
pd.DataFrame(frame, columns=['valor1', 'nombre', 'valor2'])

Unnamed: 0,valor1,nombre,valor2
0,6,misra,5
1,8,misra,4
2,3,misra,5
3,1,jared,2
4,6,misra,6
5,8,misra,1
6,5,misra,8
7,7,jared,0
8,4,jared,6


Si se pasa una columna no contenida en el diccionario, aparecera con valores faltantes en el resultado.

In [15]:
frame2 = pd.DataFrame(frame, columns=['valor2','valor1','nombre','direccion'])
frame2

Unnamed: 0,valor2,valor1,nombre,direccion
0,5,6,misra,
1,4,8,misra,
2,5,3,misra,
3,2,1,jared,
4,6,6,misra,
5,1,8,misra,
6,8,5,misra,
7,0,7,jared,
8,6,4,jared,


Es posible recuperar una columna de un ***DataFrame*** como una ***Serie*** o bien mediante la notación de estilo diccionario o utilizando la notación de atributo de punto.

In [16]:
print(f'{frame2['nombre']}')
print(f'\n{frame2.valor1}')

0    misra
1    misra
2    misra
3    jared
4    misra
5    misra
6    misra
7    jared
8    jared
Name: nombre, dtype: object

0    6
1    8
2    3
3    1
4    6
5    8
6    5
7    7
8    4
Name: valor1, dtype: int64


El método *del* se puede emplear después ára eliminar columnas.

In [17]:
del frame2['direccion']
frame2

Unnamed: 0,valor2,valor1,nombre
0,5,6,misra
1,4,8,misra
2,5,3,misra
3,2,1,jared
4,6,6,misra
5,1,8,misra
6,8,5,misra
7,0,7,jared
8,6,4,jared


*reindex* reordena los datos segun el nuevo índice, introduciendo los valores faltantes si algunos valores de índice no estaban ya representados.

In [18]:
obj3 = obj2.reindex([9,8,7,6])
obj3

9   NaN
8   NaN
7   NaN
6   NaN
dtype: float64

Para ***Series*** ordenadas, como, por ejemplo, las ***Series*** temporales, quizas sea más interesante interpolar o rellenar con valores al reidexar. La opcióin *method*
los permite hacer esto, utilizando un método como *ffill* que rellena hacia adelantge los valores.

In [19]:
obj3 = pd.Series(['azul','verde','rojo'], index=[1,2,3])
obj3.reindex(np.arange(6), method='ffill')

0      NaN
1     azul
2    verde
3     rojo
4     rojo
5     rojo
dtype: object

*reindex* puede alterar el índice(fila), las columnas o ambas cosas. Cuando se pasa solo una secuencia, reindexa las filas en el resultado.

In [24]:
print(f'Frame original\n{frame}')
frame3 = frame.reindex([1,2,3,4,5,6,7,8,9,10])
print(f'Frame modificado\n{frame3}')

Frame original
  nombre  valor1  valor2
0  misra       6       5
1  misra       8       4
2  misra       3       5
3  jared       1       2
4  misra       6       6
5  misra       8       1
6  misra       5       8
7  jared       7       0
8  jared       4       6
Frame modificado
   nombre  valor1  valor2
1   misra     8.0     4.0
2   misra     3.0     5.0
3   jared     1.0     2.0
4   misra     6.0     6.0
5   misra     8.0     1.0
6   misra     5.0     8.0
7   jared     7.0     0.0
8   jared     4.0     6.0
9     NaN     NaN     NaN
10    NaN     NaN     NaN


Las columnas se pueden reindexar con la palabra clave *columns*.

In [None]:
state = ['Colorado','Nevada','Cansas']
frame3.reindex(columns=state)

#Otra opción
frame3.reindex(state, axis='columns')

Unnamed: 0,Colorado,Nevada,Cansas
1,,,
2,,,
3,,,
4,,,
5,,,
6,,,
7,,,
8,,,
9,,,
10,,,


El método *drop* devolvera un nuevo objeto con el valor 0 valores indicados barrados de un eje.

In [33]:
obj4 = pd.Series(np.arange(5), index=['a','b','c','d','e'])
new_obj4 = obj4.drop(['c'])
print(f'Original\n{obj4}')
print(f'New_obj4\n{new_obj4}')
print(obj4.drop(['d','c']))

Original
a    0
b    1
c    2
d    3
e    4
dtype: int64
New_obj4
a    0
b    1
d    3
e    4
dtype: int64
a    0
b    1
e    4
dtype: int64


Con objetos ***DataFrame***, los valores de índice se pueden borrar de cualquier eje.

Llamar a *drop* con una secuencia de etiquetas eliminará valores de las etiquetas de fila(eje 0).

In [35]:
frame.drop(index=[1,4,2])

Unnamed: 0,nombre,valor1,valor2
0,misra,6,5
3,jared,1,2
5,misra,8,1
6,misra,5,8
7,jared,7,0
8,jared,4,6


Para elimianr etiquetas de las columnas usamois sin embargo la palabra clave *columns*.

In [36]:
frame.drop(columns=['valor2'])

Unnamed: 0,nombre,valor1
0,misra,6
1,misra,8
2,misra,3
3,jared,1
4,misra,6
5,misra,8
6,misra,5
7,jared,7
8,jared,4


***loc*** selecciona una fila por su etiqueta.

In [58]:


frame4 = frame2.reindex(['rojo','azul','verde','amarillo','morado','naranja','blanco','negro','cafe'])
frame4.loc[['rojo','morado']]

Unnamed: 0,valor2,valor1,nombre
rojo,5,6,misra
morado,6,6,misra


Se puede combinar la selección de filas y columnas en ***loc*** separando las selecciones con una coma.

In [59]:
frame4.loc[['naranja'],['valor1']]

Unnamed: 0,valor1
naranja,8


Selecciones similares con enteros utilizando ***iloc***.

In [63]:
frame3.iloc[2]
frame3.iloc[[1,2]]
frame3.iloc[2,[1,2]]
frame3.iloc[[1,2],[0,2,1]]

Unnamed: 0,nombre,valor2,valor1
2,misra,5.0,3.0
3,jared,2.0,1.0


Sumar 2 ***DatFrame*** da como resultado valores ausentes en las ubicaciones que no se superponen.

In [68]:
frame + frame3

Unnamed: 0,nombre,valor1,valor2
0,,,
1,misramisra,16.0,8.0
2,misramisra,6.0,10.0
3,jaredjared,2.0,4.0
4,misramisra,12.0,12.0
5,misramisra,16.0,2.0
6,misramisra,10.0,16.0
7,jaredjared,14.0,0.0
8,jaredjared,8.0,12.0
9,,,


Utilizando el método ***add*** en, pasamos df2 y un argumento a *fill_value*, que sustituye el valor pasado por cualquier valor faltante en la operación.

In [71]:
df1 = frame.drop(columns=['nombre'])
df2 = frame3.drop(columns=['nombre'])
df1.add(df2, fill_value=0)

Unnamed: 0,valor1,valor2
0,6.0,5.0
1,16.0,8.0
2,6.0,10.0
3,2.0,4.0
4,12.0,12.0
5,16.0,2.0
6,10.0,16.0
7,14.0,0.0
8,8.0,12.0
9,,


Las *ufunes* de NumPyt trabajan tambien con objetos Pandas.

In [72]:
np.abs(df1)

Unnamed: 0,valor1,valor2
0,6,5
1,8,4
2,3,5
3,1,2
4,6,6
5,8,1
6,5,8
7,7,0
8,4,6


Otra función frecuente es aplicar una función de arrays unidimensionales a cada columna o fila. El método *appply* del objeto ***DataFrame*** hace exactamente eso.

In [73]:
def f1(x):
    return x.max() - x.min()

df1.apply(f1)

valor1    7
valor2    8
dtype: int64

Se invoca una vez por columna si se pasa axis='columns' a apply lo que ocurre es que la función se invoca una vez por fila.

In [74]:
df1.apply(f1, axis='columns')

0    1
1    4
2    2
3    1
4    0
5    7
6    3
7    7
8    2
dtype: int64

Un ***DataFrame***, se puede ordenar por el índice de cada eje.

In [None]:
df1.sort_index()
df1.sort_index(axis='columns')

Unnamed: 0,valor1,valor2
0,6,5
1,8,4
2,3,5
3,1,2
4,6,6
5,8,1
6,5,8
7,7,0
8,4,6


Los datos se colocan en orden ascendente de forma predeterminada, pero se puede organizar en orden decendente.

In [78]:
df1.sort_index(axis='columns', ascending=False)

Unnamed: 0,valor2,valor1
0,5,6
1,4,8
2,5,3
3,2,1
4,6,6
5,1,8
6,8,5
7,0,7
8,6,4


Para ordenar una serie de valores empleados se método *sort_value*.

In [80]:
obj.sort_values()

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

**Nota:** Los valores que puedan faltar se ordenan al final de la serie de forma predeterminada.

Para los valores ausentes se pueden organizar al principio con la opción *na_possition*.

In [81]:
obj.sort_values(na_position='first')

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

Al ordenar una ***DataFrame***, es posible emplear los datos de una o varias variables columnas como claves de ordenación. Para ello pasamos uno o varios nombres de columnas a *sort_values*.

In [83]:
df1.sort_values('valor2')

Unnamed: 0,valor1,valor2
7,7,0
5,8,1
3,1,2
1,8,4
2,3,5
0,6,5
4,6,6
8,4,6
6,5,8


Para ordenar por varias columnas, pasamos una lista de nombres.

In [84]:
df1.sort_values(['valor2', 'valor1'])

Unnamed: 0,valor1,valor2
7,7,0
5,8,1
3,1,2
1,8,4
2,3,5
0,6,5
8,4,6
4,6,6
6,5,8


La propiedad *dis_unique* del índice puede indicar si sus etiquetas son únicas o no.

In [85]:
df1.index.is_unique

True

Llamar al método *sum* del ***DataFrame*** devuelve una serie que contiene sumas de columna.

In [86]:
df1.sum()

valor1    48
valor2    37
dtype: int64

Sin embargo, pasar *axis='columns'* o *axis=1* suma en todas las columnas.

In [87]:
df1.sum(axis='columns')

0    11
1    12
2     8
3     3
4    12
5     9
6    13
7     7
8    10
dtype: int64

*idxmax* e *idxmin*, devuelven la estadística indirecta, como el valor de índice en el que se alcanza los valores mínimo o máximo.

In [91]:
print(f'idxmax\n{df1.idxmax()}')
print(f'idxmin\n{df1.idxmin()}')

idxmax
valor1    1
valor2    6
dtype: int64
idxmin
valor1    3
valor2    7
dtype: int64


*describe()*, produce varias estádisticas de reusmen de una sola vez.

In [93]:
df1.describe()

Unnamed: 0,valor1,valor2
count,9.0,9.0
mean,5.333333,4.111111
std,2.345208,2.619372
min,1.0,0.0
25%,4.0,2.0
50%,6.0,5.0
75%,7.0,6.0
max,8.0,8.0


En datos no númericos, *describe* produce estádisticas de resumenes alternativos.

In [94]:
obj = pd.Series(['a','b','c','d'] * 4)
obj.describe()

count     16
unique     4
top        a
freq       4
dtype: object

El método ***corr*** del objeto ***Series*** calcula la correlación de los valores superpuestos, no nulos y alineados por índice en dos ***Series***. De forma similar, ***cov*** calcula la covarianza.

In [None]:
# returns['col1'].corr(returns['col2'])
# returns['col1'].cov(returns['col2'])

Los métodos ***corr*** y ***cov*** del objeto ***DatFrame***, por otro lado, devuelven una correlación completa o una matriz de covarianza como un ***DataFrame***, respectivamente.

In [None]:
# returns.corr()
# returns.cov()

Útilizando el método ***corrwith*** de objeto ***DataFrame*** se puede calcular correlaciones por pares entre las columnas o filas de un ***DataFrame*** con otra ***Serie***
o ***DataFrame***. Pasar una ***Serie*** devuelve otra con el valor de correlacióin calculado por cada columna.

In [None]:
# returns.corrwith(returns['col1'])

Pasar un ***DataFrame*** calcula las correlaciones de las nombres de columna conicidentes. En este caso se han calculado las correlaciones de los cambios de porcentaje con volumen.

In [None]:
# returns.corrwith(volumne)
frame.corrwith(frame2)

nombre    NaN
valor1    NaN
valor2    NaN
dtype: object

Otra clasede métodos asociados extrae información acerca de los valores contenidos en una serie unidimensional.

In [102]:
uniques = obj.unique()
uniques

array(['a', 'b', 'c', 'd'], dtype=object)

***values_counts*** calcula una serie que contiene frecuencias de valores.

In [103]:
obj.value_counts()

a    4
b    4
c    4
d    4
Name: count, dtype: int64

***isin*** realiza una comprobación de la pertencia a un conjunto vectorizado y pude ser útil al filtrar un conjunto de datos para obtener un subconjunto de valores en una serie o una columna de un ***DataFrame***.

In [107]:
mask = obj.isin(['b','c'])
obj[mask]

1     b
2     c
5     b
6     c
9     b
10    c
13    b
14    c
dtype: object

Podemos calcular los recuentos de valores para un solo columna.

In [109]:
frame['valor1'].value_counts().sort_index()

valor1
1    1
3    1
4    1
5    1
6    2
7    1
8    2
Name: count, dtype: int64

Para calcular esto para todas las columas pasamos *pd.values_counts* al método *apply* del ***DataFrame***.

In [None]:
result = frame.apply(pd.value_counts).fillna(0)
result

Hay también un método ***DataFrame.values_counts()*** pero calcula los recuentos tenidos en cuenta cada fila de ***DataFrame*** como una tupla, para determinar el númerod e aparciones de cada fila diferente.

In [113]:
frame.value_counts()

nombre  valor1  valor2
jared   1       2         1
        4       6         1
        7       0         1
misra   3       5         1
        5       8         1
        6       5         1
                6         1
        8       1         1
                4         1
Name: count, dtype: int64