# Pandas

In [2]:
# Importamos la librería.
import pandas as pd

Pandas tiene dos estructuras de datos básicas.
 * Series
 * Dataframes

## Series

In [4]:
# Creamos una Serie a la que pasamos un primer array con el índice. Véase que si no
# ponemos un índice automáticamente crea una llave única e incremental.
ser = pd.Series(
    index=['Pablo', 'Juan', 'Pedro', 'Daniel', 'Enrique'],
    data=[100, 'Ninguno', 300, 'Texto', 5.3]
)
ser

Pablo          100
Juan       Ninguno
Pedro          300
Daniel       Texto
Enrique        5.3
dtype: object

In [5]:
# Obtenemos el índice.
ser.index

Index(['Pablo', 'Juan', 'Pedro', 'Daniel', 'Enrique'], dtype='object')

In [17]:
# Accedo al valor de un índice.
print(ser['Pedro'])

# También con loc.
print(ser.loc['Pedro'])

300
300


In [19]:
# A loc puedo pasarle un array y acceder a múltiples índices al mismo tiempo.
print(ser.loc[['Pedro', 'Pablo']])

print()

# O acceder a múltiples índices de la siguiente manera.
print(ser[[0, 1, 2]])

Pedro    300
Pablo    100
dtype: object

Pablo        100
Juan     Ninguno
Pedro        300
dtype: object


In [20]:
# Con loc no podremos pasar un array de índices numéricos, para ello hay que usar iloc.
print(ser.iloc[[0, 1, 2]])

Pablo        100
Juan     Ninguno
Pedro        300
dtype: object


In [21]:
# Consultar si existe un índice en una serie.
'Pablo' in ser

True

In [23]:
# Se pueden realizar operaciones (siempre que el tipo de dato lo permita).
ser * 3

Pablo                        300
Juan       NingunoNingunoNinguno
Pedro                        900
Daniel           TextoTextoTexto
Enrique                     15.9
dtype: object

## Dataframe
Podemos crear un dataframe a partir de un diccionario de Python.

In [5]:
d = {
    'invierno': pd.Series([100., 200., 300.], index=['manzana', 'pera', 'naranja']),
    'primavera': pd.Series([111., 222., 333., 4444.], index=['manzana', 'pera', 'cereza', 'uva'])
}

In [7]:
df = pd.DataFrame(d)
df

Unnamed: 0,invierno,primavera
cereza,,333.0
manzana,100.0,111.0
naranja,300.0,
pera,200.0,222.0
uva,,4444.0


In [8]:
df.index

Index(['cereza', 'manzana', 'naranja', 'pera', 'uva'], dtype='object')

In [9]:
df.columns

Index(['invierno', 'primavera'], dtype='object')

In [10]:
# Podemos crear un dataframe indicando los índices que quiero usar.
df2 = pd.DataFrame(
    d, index=['manzana', 'pera', 'cereza']
)
df2

Unnamed: 0,invierno,primavera
manzana,100.0,111.0
pera,200.0,222.0
cereza,,333.0


In [11]:
# Podemos crear un dataframe indicando las columnas que quiero usar.
df2 = pd.DataFrame(
    d,
    index=['manzana', 'pera', 'cereza'],
    columns=['invierno', 'primavera', 'verano']
)
df2

Unnamed: 0,invierno,primavera,verano
manzana,100.0,111.0,
pera,200.0,222.0,
cereza,,333.0,


### Crear Dataframe a partir de una lista de Diccionarios de python

In [12]:
data = [
    {'Pablo': 1, 'Juan': 2},
    {'Pedro': 5, 'Julia': 10, 'María': 20}
]

In [13]:
# Veamos cómo se asigna índices automáticamente.
pd.DataFrame(data)

Unnamed: 0,Pablo,Juan,Pedro,Julia,María
0,1.0,2.0,,,
1,,,5.0,10.0,20.0


In [19]:
# Podemos reemplazar los índices por específicos.
pd.DataFrame(
    data,
    index=['verde', 'rojo']
)

Unnamed: 0,Pablo,Juan,Pedro,Julia,María
verde,1.0,2.0,,,
rojo,,,5.0,10.0,20.0


In [18]:
# Podemos crear el dataframe solo con determinadas columnas.
pd.DataFrame(
    data,
    index=['verde', 'rojo'],
    columns=['Juan', 'Pedro']
)

Unnamed: 0,Juan,Pedro
verde,2.0,
rojo,,5.0


### Operaciones básicas con Dataframes

In [20]:
df

Unnamed: 0,invierno,primavera
cereza,,333.0
manzana,100.0,111.0
naranja,300.0,
pera,200.0,222.0
uva,,4444.0


In [22]:
# Obtener solo los datos de una columna del dataframe.
df['invierno']

cereza       NaN
manzana    100.0
naranja    300.0
pera       200.0
uva          NaN
Name: invierno, dtype: float64

In [23]:
# Generar una nueva columna a partir de la operación de otras dos.
df['verano'] = df['invierno'] *  df['primavera']
df

Unnamed: 0,invierno,primavera,verano
cereza,,333.0,
manzana,100.0,111.0,11100.0
naranja,300.0,,
pera,200.0,222.0,44400.0
uva,,4444.0,


In [24]:
# Generar una nueva columna a partir de una comparación.
df['infra'] = df['primavera'] < 4000
df

Unnamed: 0,invierno,primavera,verano,infra
cereza,,333.0,,True
manzana,100.0,111.0,11100.0,True
naranja,300.0,,,False
pera,200.0,222.0,44400.0,True
uva,,4444.0,,False


In [26]:
# Aislar una columna en un dataframe.
aislado = df.pop('infra')
aislado

cereza      True
manzana     True
naranja    False
pera        True
uva        False
Name: infra, dtype: bool

In [27]:
# No solo te devuelve sus datos, también saca la columna del dataframe.
df

Unnamed: 0,invierno,primavera,verano
cereza,,333.0,
manzana,100.0,111.0,11100.0
naranja,300.0,,
pera,200.0,222.0,44400.0
uva,,4444.0,


In [31]:
# Eliminar una columna de un dataframe.
del df['primavera_copia']
df

Unnamed: 0,invierno,primavera
cereza,,333.0
manzana,100.0,111.0
naranja,300.0,
pera,200.0,222.0
uva,,4444.0


In [32]:
# Insertar una columna nueva en el dataframe.
# 1. Posición.
# 2. Nombre.
# 3. Origen (puede ser una Serie o una columna de la misma u otra tabla).

df.insert(0, 'primavera_copia', df['primavera'])
df


Unnamed: 0,primavera_copia,invierno,primavera
cereza,333.0,,333.0
manzana,111.0,100.0,111.0
naranja,,300.0,
pera,222.0,200.0,222.0
uva,4444.0,,4444.0
