# Pandas

In [23]:
import numpy as np
import pandas as pd

In [2]:
# Crear una serie en Pandas
# Una serie es equivalente a una columna de una tabla sql.

s = pd.Series(
    ['Matemáticas', 'Historia','Economía', 'Programación', 'Inglés'],
    dtype='string'
)

print(s)

0     Matemáticas
1        Historia
2        Economía
3    Programación
4          Inglés
dtype: string


In [7]:
# También se pueden crear series como diccionarios.

s = pd.Series({
    'Matemáticas': 6.0,
    'Economía': 4.5,
    'Programación': 8.5
})

print(s)

Matemáticas     6.0
Economía        4.5
Programación    8.5
dtype: float64


In [5]:
# Con size, index y dtype podemos ver características de la serie

s = pd.Series([1,2,2,3,3,3,4,4,4,4])
print(s.size)
print(s.index)
print(s.dtype)

10
RangeIndex(start=0, stop=10, step=1)
int64


In [10]:
# Acceso a las series con índices
print(s[1:3]) # Obtener los elementos con índices 1 y 2.
print(s['Economía'])
print(s[['Programación','Matemáticas']])

Economía        4.5
Programación    8.5
dtype: float64
4.5
Programación    8.5
Matemáticas     6.0
dtype: float64


Hay funciones de pandas que permiten ver las características de las series:

- s.count()
- s.sum()
- s.cumsum()
- s.value_counts()
- s.min()
- s.max()
- s.mean()
- s.var()
- s.std()
- s.describe()

In [17]:
# En pandas se puede hacer aritmética con las series, usando operadores binarios

s = pd.Series([1,2,3,4])
print(s * 2) # Multiplica por 2 todos los elementos
print(s % 2) # Módulo 2 a todos los elementos

s = pd.Series(['a','b','c'])
print(s*5) # Pone cada letra 5 veces

0    2
1    4
2    6
3    8
dtype: int64
0    1
1    0
2    1
3    0
dtype: int64
0    aaaaa
1    bbbbb
2    ccccc
dtype: object


In [19]:
# La función s.apply(f) permite aplicarle una función a cada uno de los elementos
# de una serie. Esa función está definida en f

from math import log
s = pd.Series([1,2,3,4])
s.apply(log) # Le aplica un logoratimo a cada elemento del array.

s = pd.Series(['a','b','c'])
s.apply(str.upper) # Hace mayúscula cada elemento

0    A
1    B
2    C
dtype: object

In [20]:
# Filtrar una serie en pandas se puede filtrar usando la sintaxis s[condición].
# La condición debe ser una lista de valores booleanos, de la misma longitud
# que la serie

s = pd.Series({
    'Matemáticas': 6.0,
    'Economía': 4.5,
    'Programación': 8.5
})

print(s[s > 5])

Matemáticas     6.0
Programación    8.5
dtype: float64


In [22]:
# Se pueden ordenar series con las funciones sort_values() y sort_index()
print(s.sort_values())
print(s.sort_values(ascending=False))

Economía        4.5
Matemáticas     6.0
Programación    8.5
dtype: float64
Programación    8.5
Matemáticas     6.0
Economía        4.5
dtype: float64


In [27]:
# Se pueden eliminar datos nulos como los NaN o los None usando la función
# dropna()
s = pd.Series(['a', 'b', None, 'c', np.nan, 'd'])
print(s)
s.dropna() # Ahora ya no tiene el None ni el NaN

0       a
1       b
2    None
3       c
4     NaN
5       d
dtype: object


0    a
1    b
3    c
5    d
dtype: object