# Operaciones

Los `DataFrames` ofrecen varias operaciones básicas, el listado completo se puede encontrar en la [documentación](https://pandas.pydata.org/docs/user_guide/basics.html). 

## Rango de fechas

In [11]:
pip install pandas


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.3.1[0m[39;49m -> [0m[32;49m25.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip3 install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


In [12]:
import pandas as pd
import numpy as np

# Rango de fechas para usar de índice en un dataframe
index = pd.date_range("5/3/2024", periods=20)

index

DatetimeIndex(['2024-05-03', '2024-05-04', '2024-05-05', '2024-05-06',
               '2024-05-07', '2024-05-08', '2024-05-09', '2024-05-10',
               '2024-05-11', '2024-05-12', '2024-05-13', '2024-05-14',
               '2024-05-15', '2024-05-16', '2024-05-17', '2024-05-18',
               '2024-05-19', '2024-05-20', '2024-05-21', '2024-05-22'],
              dtype='datetime64[ns]', freq='D')

## Consultas rápidas

In [3]:
# Lo utilizamos para rellenar un df con valores aleatorios
df = pd.DataFrame(np.random.randn(20, 4), index=index, columns=["A", "B", "C", "D"])

df

Unnamed: 0,A,B,C,D
2024-05-03,2.768202,1.159427,0.306276,-0.686732
2024-05-04,0.318458,-0.023547,0.689397,1.241755
2024-05-05,0.534813,-0.579046,1.214001,0.466684
2024-05-06,0.023698,0.261116,-0.943735,-1.015583
2024-05-07,-0.914729,0.639837,-0.225996,1.146219
2024-05-08,-1.347528,0.08401,0.365806,-0.144813
2024-05-09,0.671643,-0.253418,-0.303087,1.45751
2024-05-10,0.141857,0.400619,-0.973689,-0.354503
2024-05-11,-2.064211,-0.621434,0.414786,1.220787
2024-05-12,0.36644,0.12597,0.493397,0.968889


In [None]:
# Primeras filas (cabeza)
df.head()

In [None]:
# Primeras tres filas
df.head(3)

In [None]:
# Últimas filas (cola)
df.tail()

In [None]:
# Últimas tres filas
df.tail(3)

## Valores únicos

In [14]:
# Definimos un DataFrame con información de diferentes tipos
df = pd.DataFrame({
      'enteros': [100, 200, 300, 400],
    'decimales': [3.14, 2.72, 1.618, 3.14],
      'cadenas': ['hola','adiós','hola','adiós']})

df

Unnamed: 0,enteros,decimales,cadenas
0,100,3.14,hola
1,200,2.72,adiós
2,300,1.618,hola
3,400,3.14,adiós


In [15]:
# Array de valores únicos de una columna
df['cadenas'].unique()

array(['hola', 'adiós'], dtype=object)

In [16]:
# Contador de valores únicos de una columna
df['cadenas'].nunique()

2

In [4]:
# Dataframe con los de valores únicos y su contador de una columna
df['cadenas'].value_counts()

KeyError: 'cadenas'

## Aplicación de funciones

In [None]:
# Método interno de las Series columna
df['decimales'].sum()

In [None]:
# Aplicar una función predefinida
df['cadenas'].apply(len)

In [None]:
# Aplicar una función definida
def doblar(n):
    return n*2

df['enteros'].apply(doblar)

In [None]:
# Aplicar una función anónima
df['enteros'].apply(lambda n: n/3)

In [None]:
# Borrar permanentemente una columna
del df['decimales']

In [None]:
df

## Recuperar índices

In [6]:
# Índices de las columnas
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [5]:
# Índice de las filas
df.index

DatetimeIndex(['2024-05-03', '2024-05-04', '2024-05-05', '2024-05-06',
               '2024-05-07', '2024-05-08', '2024-05-09', '2024-05-10',
               '2024-05-11', '2024-05-12', '2024-05-13', '2024-05-14',
               '2024-05-15', '2024-05-16', '2024-05-17', '2024-05-18',
               '2024-05-19', '2024-05-20', '2024-05-21', '2024-05-22'],
              dtype='datetime64[ns]', freq='D')

## Aplicar ordenaciones

In [None]:
# Ordenar por columna (inplace=False por defecto)
df.sort_values(by='enteros')

In [None]:
# Ordenar por columna inversamente (inplace=False por defecto)
df.sort_values(by='enteros',ascending=False)