# Funcionamiento básico de Pandas

## Pasos previos

In [3]:
# Importamos las librerías de Python que necesitaremos en este notebook

import pandas as pd

## Estructuras de datos


### Series

In [None]:
# Creamos una serie solo con los valores, sin definir el índice
# Se creará un índice numérico por defecto (se muestra en la primera columna)

s = pd.Series([1, 6, 3, -4, 9])
s  # Simplemente para mostrar por pantalla el resultado

0    1
1    6
2    3
3   -4
4    9
dtype: int64

In [None]:
# Obtenemos los valores de la serie

s.values

array([ 1,  6,  3, -4,  9])

In [None]:
# Obetenemos los valores del índice

s.index

RangeIndex(start=0, stop=5, step=1)

In [None]:
# Podemos indicar explícitamente los valores del índice al crear la serie

s = pd.Series([1, 6, 3, -4, 9], index=['One', 'Two', 'Three', 'Four', 'Five'])
s

One      1
Two      6
Three    3
Four    -4
Five     9
dtype: int64

In [None]:
# Mostramos los valores del índice

s.index

Index(['Uno', 'Dos', 'Tres', 'Cuatro', 'Cinco'], dtype='object')

In [None]:
# Podemos usar etiquetas en el índice para seleccionar un valor concreto de la serie

s['Five']

9

In [None]:
# Lo mismo para asignar valores a un elemento concreto

s['Five'] = 6
s[['Three', 'One', 'Five']]  # Podemos seleccionar varios valores al mismo tiempo

Tres     3
Uno      1
Cinco    6
dtype: int64

In [None]:
# Comprobamos si una etiqueta es parte del índice

'Four' in s

True

In [None]:
# Se puede construir una serie a apartir de un diccionario de Python
# Las claves serán el índice

cities = {'Alicante': 335000, 'Villena': 34000, 'Elche': 230000, 'Bonete': 1100}
s = pd.Series(cities)
s

Alicante    335000
Villena      34000
Elche       230000
Bonete        1100
dtype: int64

In [None]:
# Se pueden cambiar los valores del índice mediante una asignación directa

obj.index = ['alicante', 'villena', 'elche', 'bonete']
obj

alicante    0.0
villena     1.0
elche       2.0
bonete      3.0
dtype: float64

### DataFrame

In [4]:
# Se puede construir un DataFrame a partir de un diccionario de listas (o NumPy arrays) de igual longitud
# Al igual que con las series, se creará un índice por defecto

data = {'city': ['Alicante', 'Alicante', 'Alicante', 'Villena', 'Villena'],
        'year': [2000, 2010, 2020, 2000, 2010],
        'population': [277000, 334000, 337000, 32000, 35000]}
df = pd.DataFrame(data)
df

Unnamed: 0,city,year,population
0,Alicante,2000,277000
1,Alicante,2010,334000
2,Alicante,2020,337000
3,Villena,2000,32000
4,Villena,2010,35000


In [None]:
# Para saber las dimensiones del DataFrame podemos acceder al atributo 'shape'

df.shape

(5, 3)

In [5]:
# Si especificamos una lista de columnas, el DataFrame se organizará en ese orden

pd.DataFrame(data, columns=['year', 'city', 'population'])

Unnamed: 0,year,city,population
0,2000,Alicante,277000
1,2010,Alicante,334000
2,2020,Alicante,337000
3,2000,Villena,32000
4,2010,Villena,35000


In [None]:
# Podemos saber las columnas que contiene

df.columns

Index(['city', 'year', 'population'], dtype='object')

In [None]:
# Y también el índice

df.index

RangeIndex(start=0, stop=5, step=1)

In [6]:
# Asignar etiquetas al índice, igual que con las series

df.index = ['one', 'two', 'three', 'four', 'five']
df

Unnamed: 0,city,year,population
one,Alicante,2000,277000
two,Alicante,2010,334000
three,Alicante,2020,337000
four,Villena,2000,32000
five,Villena,2010,35000


In [8]:
# Renombrar un índice o columna

df.rename(index={'one': 'ONE'}, columns={'year': 'YEAR'})

Unnamed: 0,city,YEAR,population
ONE,Alicante,2000,277000
two,Alicante,2010,334000
three,Alicante,2020,337000
four,Villena,2000,32000
five,Villena,2010,35000


In [None]:
# Una columna equivale a una serie y se puede extraer como en un diccionario

type(df['city'])

one      Alicante
two      Alicante
three    Alicante
four      Villena
five      Villena
Name: city, dtype: object

In [None]:
# También se puede sacar como atributo

df.year  # Solo funciona si el nombre de la columna es un nombre válido de variable en Python

one      2000
two      2010
three    2020
four     2000
five     2010
Name: year, dtype: int64

In [None]:
# Asignar valores a sus componentes

df['population'] = 0  # Cambiará todos los valores de la columna
df

Unnamed: 0,city,year,population
one,Alicante,2000,0
two,Alicante,2010,0
three,Alicante,2020,0
four,Villena,2000,0
five,Villena,2010,0


In [None]:
# Podemos añadir una nueva columna fácilmente

df['country'] = 'Spain'
df

Unnamed: 0,city,year,population,new,country
one,Alicante,2000,0,I am new!,Spain
two,Alicante,2010,0,I am new!,Spain
three,Alicante,2020,0,I am new!,Spain
four,Villena,2000,0,I am new!,Spain
five,Villena,2010,0,I am new!,Spain


In [None]:
# Podemos eliminar una columna igual de fácil

del df['population']
df

Unnamed: 0,city,year,new,country
one,Alicante,2000,I am new!,Spain
two,Alicante,2010,I am new!,Spain
three,Alicante,2020,I am new!,Spain
four,Villena,2000,I am new!,Spain
five,Villena,2010,I am new!,Spain


In [None]:
# También se puede crear un DataFrame a partir de un diccionario anidado

data2 = {'Villena': {2000: 32000, 2010: 35000},
       'Alicante': {2000: 277000, 2010: 334000, 2020: 337000}}
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,Villena,Alicante
2000,32000.0,277000
2010,35000.0,334000
2020,,337000


In [None]:
# Se le puede dar la vuelta (transponer)

df2.T

Unnamed: 0,2000,2010,2020
Villena,32000.0,35000.0,
Alicante,277000.0,334000.0,337000.0


In [None]:
# Se pueden sacar los valores de las columnas de un DataFrame, como se hacía con las series

df2.values

array([[ 32000., 277000.],
       [ 35000., 334000.],
       [    nan, 337000.]])

## Selección de filas y columnas

In [None]:
# Volvemos a generar los datos para hacer las siguientes pruebas

data = {'city': ['Alicante', 'Alicante', 'Alicante', 'Villena', 'Villena'],
        'year': [2000, 2010, 2020, 2000, 2010],
        'population': [277000, 334000, 337000, 32000, 35000]}
df = pd.DataFrame(data, index = ['one', 'two', 'three', 'four', 'five'])
df['country'] = 'Spain'

In [None]:
# El método 'head' muestra las 5 priemras filas por defecto (si no se pasa parámetro)

df.head(3)

Unnamed: 0,city,year,population,country
one,Alicante,2000,277000,Spain
two,Alicante,2010,334000,Spain
three,Alicante,2020,337000,Spain


In [None]:
# El método 'tail' muestra las 5 últimas filas por defecto

df.tail(2)

Unnamed: 0,city,year,population,country
four,Villena,2000,32000,Spain
five,Villena,2010,35000,Spain


In [None]:
# Los DataFrames pueden ser "troceados" como los arrays de NumPy o las listas de Python
# Sacamos un rango de filas usando sus índices

df[2:4]

Unnamed: 0,city,year,population,country
three,Alicante,2020,337000,Spain
four,Villena,2000,32000,Spain


In [None]:
# Lista de etiquetas para seleccionar varias columnas

df[['city', 'population']]

Unnamed: 0,city,population
one,Alicante,277000
two,Alicante,334000
three,Alicante,337000
four,Villena,32000
five,Villena,35000


In [None]:
# Los métodos 'iloc' y 'loc' permiten seleccionar un subconjunto de filas o columnas del DataFrame
# - 'iloc' usam posiciones específicas mediante valores enteros
# - 'loc' usa etiquetas y series booleanas

df.iloc[:3, 1:3]  # Obtenemos desde el inicio hasta la fila 3, la segunda y tercera columna

Unnamed: 0,year,population
one,2000,277000
two,2010,334000
three,2020,337000


In [None]:
# Podemos sacar filas salteadas

df.iloc[::2]  # Saca una de cada dos filas, empezando por la primera

Unnamed: 0,city,year,population,country
one,Alicante,2000,277000,Spain
three,Alicante,2020,337000,Spain
five,Villena,2010,35000,Spain


In [None]:
# Con índices negativos podemos devolver las últimas filas

df.iloc[-2:]

Unnamed: 0,city,year,population,country
four,Villena,2000,32000,Spain
five,Villena,2010,35000,Spain


In [None]:
# Podemos sacar una fila concreta a partir de su índice

df.iloc[2]

city          Alicante
year              2020
population      337000
country          Spain
Name: three, dtype: object

In [None]:
# Lo mismo de antes pero con 'loc', usando su etiqueta

df.loc['three']

city          Alicante
year              2020
population      337000
country          Spain
Name: three, dtype: object

In [None]:
# Con 'loc' podemos usar etiquetas para especificar un conjunto de filas y columnas a seleccionar

df.loc['two':'four', ['city', 'population']]

Unnamed: 0,city,population
two,Alicante,334000
three,Alicante,337000
four,Villena,32000


In [None]:
# Podemos usar una serie booleana para indicar el subconjunto de filas que queremos

df.loc[df['city'] == 'Villena', ['city', 'population']]

Unnamed: 0,city,population
four,Villena,32000
five,Villena,35000


In [None]:
# Podemos hacer lo mismo con 'iloc' pero usando los valores de la serie como un array
# Hay que usar índices para las columnas en lugar de etiquetas

df.iloc[(df['city'] == 'Villena').values, [0, 2]]

Unnamed: 0,city,population
four,Villena,32000
five,Villena,35000


## Ordenación

In [None]:
# Podemos ordenar filas y columnas usando el método 'sort_index'

df.sort_index(ascending=False)  # Ordenamos el índice de manera descendente

Unnamed: 0,city,year,population,country
two,Alicante,2010,334000,Spain
three,Alicante,2020,337000,Spain
one,Alicante,2000,277000,Spain
four,Villena,2000,32000,Spain
five,Villena,2010,35000,Spain


In [None]:
# Ordenamos por columnas

df.sort_index(axis=1)

Unnamed: 0,city,country,population,year
one,Alicante,Spain,277000,2000
two,Alicante,Spain,334000,2010
three,Alicante,Spain,337000,2020
four,Villena,Spain,32000,2000
five,Villena,Spain,35000,2010


In [None]:
# Una serie se puede ordenar por el valor de sus componentes

df['year'].sort_values()

one      2000
four     2000
two      2010
five     2010
three    2020
Name: year, dtype: int64

In [None]:
# Podemos ordenar por una columna específica (o varias si pasamos una lista)

df.sort_values(by=['year', 'city'])

Unnamed: 0,city,year,population,country
one,Alicante,2000,277000,Spain
four,Villena,2000,32000,Spain
two,Alicante,2010,334000,Spain
five,Villena,2010,35000,Spain
three,Alicante,2020,337000,Spain


# Referencias

* [Python for Data Analysis (2nd edition), capítulo 5](https://nbviewer.jupyter.org/github/pydata/pydata-book/blob/2nd-edition/ch05.ipynb)
* [Python Pandas Tutorial](https://www.javatpoint.com/python-pandas)