# Operaciones con dataframes

In [23]:
import pandas as pd
import numpy as np

#rango de fechas para usar el índice de un DATAFRAME
index = pd.date_range('7/15/2023', periods= 20)  # mes dia y año. periodos de 20 días
index

DatetimeIndex(['2023-07-15', '2023-07-16', '2023-07-17', '2023-07-18',
               '2023-07-19', '2023-07-20', '2023-07-21', '2023-07-22',
               '2023-07-23', '2023-07-24', '2023-07-25', '2023-07-26',
               '2023-07-27', '2023-07-28', '2023-07-29', '2023-07-30',
               '2023-07-31', '2023-08-01', '2023-08-02', '2023-08-03'],
              dtype='datetime64[ns]', freq='D')

In [24]:
df = pd.DataFrame(np.random.randn(20,4), index= index, columns= ['A', 'B', 'C', 'D']) # 20 números en 4 columnas
df

Unnamed: 0,A,B,C,D
2023-07-15,-0.461642,-0.238392,0.561323,-1.045905
2023-07-16,-0.682662,-0.131702,0.329624,-1.010306
2023-07-17,-0.515603,0.221219,0.430703,-0.838294
2023-07-18,1.380238,1.410995,1.729421,0.86022
2023-07-19,-1.161716,-0.164802,-0.106957,-1.708307
2023-07-20,1.544586,0.820278,0.717737,-0.423907
2023-07-21,-1.258184,0.646374,-0.675697,1.160905
2023-07-22,-0.714854,-2.427632,-1.582024,0.001624
2023-07-23,-0.432457,-0.294085,-0.107345,1.910614
2023-07-24,-0.134971,-0.148799,0.707677,-0.531754


In [25]:
# Primeras filas (head)
df.head(3) # dentro puedes poner un número y te muestra las que quieres, de serie son 5

Unnamed: 0,A,B,C,D
2023-07-15,-0.461642,-0.238392,0.561323,-1.045905
2023-07-16,-0.682662,-0.131702,0.329624,-1.010306
2023-07-17,-0.515603,0.221219,0.430703,-0.838294


In [26]:
df.tail(4)

Unnamed: 0,A,B,C,D
2023-07-31,1.659041,0.307937,-1.259877,1.139491
2023-08-01,-0.047063,1.943431,0.904632,-0.667405
2023-08-02,-2.20149,0.469261,0.809616,0.930367
2023-08-03,2.172881,2.006337,0.717381,-0.52697


## Valores únicos, un filtro

In [27]:
# definir un DataFrame con información diferente
df = pd.DataFrame({
    'enteros': [100, 200, 300, 400],
    'decimales': [3.14, 2.72, 1.618, 3.14],
    'cadenas': ['hola', 'adiós', 'hola', 'adiós']
})
df

Unnamed: 0,enteros,decimales,cadenas
0,100,3.14,hola
1,200,2.72,adiós
2,300,1.618,hola
3,400,3.14,adiós


In [28]:
# array con valores únicos de una columna
print(df['enteros'].unique())
print(df['decimales'].unique())
print(df['cadenas'].unique())

[100 200 300 400]
[3.14  2.72  1.618]
['hola' 'adiós']


In [29]:
# contador de valores únicos de una columna
print(df['enteros'].nunique()) # number unique
print(df['decimales'].nunique())
print(df['cadenas'].nunique())

4
3
2


In [30]:
# DataFrame con lso valores únicos y su contador
print(df['enteros'].value_counts())
print(df['decimales'].value_counts())
print(df['cadenas'].value_counts())

enteros
100    1
200    1
300    1
400    1
Name: count, dtype: int64
decimales
3.140    2
2.720    1
1.618    1
Name: count, dtype: int64
cadenas
hola     2
adiós    2
Name: count, dtype: int64


## Aplicación de funciones

Aplicar un método interno de las series a una columna

In [31]:
# Método interno de las Series a la columna
df['decimales'].sum()


np.float64(10.618)

In [32]:
# Aplicamos una función predefinida
df['cadenas'].apply(len) # devuelve posición y numero de caracteres de cada una de las palabras

0    4
1    5
2    4
3    5
Name: cadenas, dtype: int64

In [33]:
# Aplicar una función definida
def doblar(n):
    return n*2

df['enteros'].apply(doblar)

0    200
1    400
2    600
3    800
Name: enteros, dtype: int64

In [34]:
# Aplicar una función anónima
df['enteros'].apply(lambda n: n/3) # con lambda llamas al contexto de la función

0     33.333333
1     66.666667
2    100.000000
3    133.333333
Name: enteros, dtype: float64

In [35]:
# Borrar permanentemente una columna
del df['decimales']
df

Unnamed: 0,enteros,cadenas
0,100,hola
1,200,adiós
2,300,hola
3,400,adiós


## Recuperar índices

In [36]:
# Índices de las columnas
df.columns

Index(['enteros', 'cadenas'], dtype='object')

In [37]:
for column in df.columns:
    print(column)

enteros
cadenas


In [38]:
# Índices de las filas
df.index # te dice donde empieza, donde acaba y el paso que tiene

RangeIndex(start=0, stop=4, step=1)

In [39]:
for index in df.index:
    print(index)

0
1
2
3


## Aplicar ordenaciones

In [40]:
# Ordenar por una columna
df.sort_values(by='enteros')

Unnamed: 0,enteros,cadenas
0,100,hola
1,200,adiós
2,300,hola
3,400,adiós


In [41]:
# Ordenar de forma inversa
df.sort_values(by='enteros', ascending= False)

Unnamed: 0,enteros,cadenas
3,400,adiós
2,300,hola
1,200,adiós
0,100,hola


Estos dos cambios no son de forma permanente, para hacerlo con el inplace = True

In [44]:
# Orden permanente
df.sort_values(by='enteros', ascending= False, inplace= True)
df

Unnamed: 0,enteros,cadenas
3,400,adiós
2,300,hola
1,200,adiós
0,100,hola
