<a href="https://colab.research.google.com/github/d-tomas/data-mining/blob/main/notebooks/data_mining_2.1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Un poco de Pandas

## Pasos previos

In [None]:
# Importamos las librerías de Python que necesitaremos en este notebook

import pandas as pd

## Estructuras de datos


### Series

In [None]:
# Creamos una serie solo con los valores, sin definir el índice
# Se creará un índice numérico por defecto (se muestra en la primera columna)

s = pd.Series([1, 6, 3, -4, 9])
s  # Simplemente para mostrar por pantalla el resultado

In [None]:
# Obtenemos los valores de la serie

s.values

In [None]:
# Obetenemos los valores del índice

s.index

In [None]:
# Podemos indicar explícitamente los valores del índice al crear la serie

s = pd.Series([1, 6, 3, -4, 9], index=['One', 'Two', 'Three', 'Four', 'Five'])
s

In [None]:
# Mostramos los valores del índice

s.index

In [None]:
# Podemos usar etiquetas en el índice para seleccionar un valor concreto de la serie

s['Five']

In [None]:
# Lo mismo para asignar valores a un elemento concreto

s['Five'] = 6
s[['Three', 'One', 'Five']]  # Podemos seleccionar varios valores al mismo tiempo

In [None]:
# Comprobamos si una etiqueta es parte del índice

'Four' in s

In [None]:
# Se puede construir una serie a apartir de un diccionario de Python
# Las claves serán el índice

population = {'Alicante': 335000, 'Villena': 34000, 'Elche': 230000, 'Bonete': 1100}
s = pd.Series(population)
s

In [None]:
# Se pueden cambiar los valores del índice mediante una asignación directa

s.index = ['alicante', 'villena', 'elche', 'bonete']
s

### DataFrame

In [None]:
# Se puede construir un DataFrame a partir de un diccionario de listas (o NumPy arrays) de igual longitud
# Al igual que con las series, se creará un índice por defecto

data = {'city': ['Alicante', 'Alicante', 'Alicante', 'Villena', 'Villena'],
        'year': [2000, 2010, 2020, 2000, 2010],
        'population': [277000, 334000, 337000, 32000, 35000]}
df = pd.DataFrame(data)
df

In [None]:
# Para saber las dimensiones del DataFrame podemos acceder al atributo 'shape'

df.shape

In [None]:
# Si especificamos una lista de columnas, el DataFrame se organizará en ese orden

pd.DataFrame(data, columns=['year', 'city', 'population'])

In [None]:
# Podemos saber las columnas que contiene

df.columns

In [None]:
# Y también el índice

df.index

In [None]:
# Asignar etiquetas al índice, igual que con las series

df.index = ['one', 'two', 'three', 'four', 'five']
df

In [None]:
# Renombrar un índice o columna (si no asignamos el resultado se pierde)

df.rename(index={'one': 'ONE'}, columns={'year': 'YEAR'})

In [None]:
# Una columna equivale a una serie y se puede extraer como en un diccionario

df['city']

In [None]:
# Comprobamos el tipo de dato

type(df['city'])

In [None]:
# También se puede sacar como atributo

df.city  # Solo funciona si el nombre de la columna es un nombre válido de variable en Python

In [None]:
# Asignar valores a sus componentes

df['population'] = 0  # Cambiará todos los valores de la columna
df

In [None]:
# Podemos añadir una nueva columna fácilmente

df['country'] = 'Spain'
df

In [None]:
# Podemos eliminar una columna igual de fácil

del df['population']
df

In [None]:
# También se puede crear un DataFrame a partir de un diccionario anidado

data2 = {'Villena': {2000: 32000, 2010: 35000},
       'Alicante': {2000: 277000, 2010: 334000, 2020: 337000}}
df2 = pd.DataFrame(data2)
df2

In [None]:
# Se le puede dar la vuelta (transponer)

df2.T

In [None]:
# Se pueden sacar los valores de las columnas de un DataFrame, como se hacía con las series

df2.values

In [None]:
# Y también el índice

df2.index

## Selección de filas y columnas

In [None]:
# Volvemos a generar los datos para hacer las siguientes pruebas

data = {'city': ['Alicante', 'Alicante', 'Alicante', 'Villena', 'Villena'],
        'year': [2000, 2010, 2020, 2000, 2010],
        'population': [277000, 334000, 337000, 32000, 35000]}
df = pd.DataFrame(data, index = ['one', 'two', 'three', 'four', 'five'])
df['country'] = 'Spain'
df

In [None]:
# El método 'head' muestra las 5 primeras filas por defecto (si no se pasa parámetro)

df.head(3)

In [None]:
# El método 'tail' muestra las 5 últimas filas por defecto

df.tail(2)

In [None]:
# Los DataFrames pueden ser "troceados" como los arrays de NumPy o las listas de Python
# Sacamos un rango de filas usando sus índices

df[2:4]

In [None]:
# Podemos seleccionar varias columnas con una lista de etiquetas

df[['city', 'population']]

In [None]:
# Los métodos 'iloc' y 'loc' permiten seleccionar un subconjunto de filas o columnas del DataFrame
# - 'iloc' usam posiciones específicas mediante valores enteros
# - 'loc' usa etiquetas y series booleanas

df.iloc[:3, 1:3]  # Obtenemos desde el inicio hasta la fila 3, la segunda y tercera columna

In [None]:
# Podemos sacar filas salteadas

df.iloc[::2]  # Saca una de cada dos filas, empezando por la primera

In [None]:
# Con índices negativos podemos devolver las últimas filas
# Equivaldría a 'df.tail(2)'

df.iloc[-2:]

In [None]:
# Podemos sacar una fila concreta a partir de su índice

df.iloc[2]

In [None]:
# Lo mismo de antes pero con 'loc', usando su etiqueta

df.loc['three']

In [None]:
# Con 'loc' podemos usar etiquetas para especificar un conjunto de filas y columnas a seleccionar

df.loc['two':'four', ['city', 'population']]

In [None]:
# Podemos usar una serie booleana para indicar el subconjunto de filas que queremos

df.loc[df['city'] == 'Villena', ['city', 'population']]

In [None]:
# Podemos hacer lo mismo con 'iloc' pero usando los valores de la serie como un array
# Hay que usar índices para las columnas en lugar de etiquetas

df.iloc[(df['city'] == 'Villena').values, [0, 2]]

## Ordenación

In [None]:
# Podemos ordenar filas y columnas usando el método 'sort_index'

df.sort_index(ascending=False)  # Ordenamos el índice de manera descendente

In [None]:
# Ordenamos por columnas

df.sort_index(axis=1)  # También vale axis='columns'

In [None]:
# Una serie se puede ordenar por el valor de sus componentes

df['year'].sort_values()

In [None]:
# Podemos ordenar por una columna específica (o varias si pasamos una lista)

df.sort_values(by=['year', 'city'])

# Referencias

* [Python for Data Analysis (2nd edition), capítulo 5](https://nbviewer.jupyter.org/github/pydata/pydata-book/blob/2nd-edition/ch05.ipynb)
* [Python Pandas Tutorial](https://www.javatpoint.com/python-pandas)