# Aprender pandas

In [2]:
import pandas as pd
import numpy as np

## Series: creación, manipulación y uso

### creacion de series por lista y diccionario

In [25]:
a = np.arange(1, 5)
d = {"uno": 1, "dos": 2, "tres": 3}

s1 = pd.Series(a)
s2 = pd.Series(d)

print(s1)
print(s2)

0    1
1    2
2    3
3    4
dtype: int32
uno     1
dos     2
tres    3
dtype: int64


### Acceder a elementos de series

In [35]:
print(s2["dos"])
print(s1.iloc[2])
print(s1[s1 <= 2])

2
3
0    1
1    2
dtype: int32


### Crear un valor por medio del indice

In [29]:
s2["diez"] = 10
s2

uno      1
dos      2
tres     3
diez    10
dtype: int64

### Operar series con valores escalares

In [31]:
print(s2**2)
print(s2+3)

uno       1
dos       4
tres      9
diez    100
dtype: int64
uno      4
dos      5
tres     6
diez    13
dtype: int64


### funciones de las series

In [33]:
print(s.min())
print(s.max())
print(s.mean())

1
10
4.0


In [21]:
# Aplicarle una funcion a cada elemento de mi serie:

s.apply(np.log)

uno     0.000000
dos     0.693147
tres    1.098612
diez    2.302585
dtype: float64

### Agrupar dos series o mas

In [36]:
e = ["juan", "ana", "carlos", "maria"]
p = pd.DataFrame({"edades": s, "nombres": e})
p

Unnamed: 0,edades,nombres
uno,1,juan
dos,2,ana
tres,3,carlos
diez,10,maria


## DataFrame: fundamentos y operaciones básicas

### Crear dataframe

In [50]:
data1 = [
    {"Nombre": "Ana" , "Edad": 21 , "Ciudad": "Buenos aires"},
    {"Nombre": "Josué" , "Edad": 19 , "Ciudad": "Bogotá"},
    {"Nombre": "Maria" , "Edad": 20 , "Ciudad": "San salvador"},
    {"Nombre": "Ana" , "Edad": 19 , "Ciudad": "Santiago"},
    {"Nombre": "Francisco" , "Edad": 21 , "Ciudad": "Buenos aires"},
]

df1 = pd.DataFrame(data1)
df1

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,21,Buenos aires
1,Josué,19,Bogotá
2,Maria,20,San salvador
3,Ana,19,Santiago
4,Francisco,21,Buenos aires


In [43]:
data2 = {
    "nombre": ["carlos", "sheily", "francisco"],
    "edad": [14, 22, 22],
    "ciudad": ["SS", "SS", "SS"]
}

df2 = pd.DataFrame(data2)
df2

Unnamed: 0,nombre,edad,ciudad
0,carlos,14,SS
1,sheily,22,SS
2,francisco,22,SS


### Columnas

#### Acceder a columna

In [45]:
nombres = df1["Nombre"]
nombres

0      Ana
1    Josué
2    Maria
Name: Nombre, dtype: object

In [None]:
nombres.iloc[:, [1, 2, 3]] #Seleccionar todos los registros de la columna 1, 2 y 3
nombres[["col1", "col2", "col3"]] # lo mismo

#### Crear columna

In [51]:
df1["Salario"] = [1200, 790, 800, 820, 2000]
df1

Unnamed: 0,Nombre,Edad,Ciudad,Salario
0,Ana,21,Buenos aires,1200
1,Josué,19,Bogotá,790
2,Maria,20,San salvador,800
3,Ana,19,Santiago,820
4,Francisco,21,Buenos aires,2000


#### Eliminar columna

In [52]:
df1.drop("Ciudad", axis = 1, inplace=True)
df1

Unnamed: 0,Nombre,Edad,Salario
0,Ana,21,1200
1,Josué,19,790
2,Maria,20,800
3,Ana,19,820
4,Francisco,21,2000


### Filas

#### Acceder a filas

In [49]:
primera_fila = df1.iloc[0]
primera_fila

Nombre      Ana
Edad         21
Salario    1200
Name: 0, dtype: object

In [55]:
fila_anas = df1.loc[df1["Nombre"] == "Ana"]
fila_anas

Unnamed: 0,Nombre,Edad,Salario
0,Ana,21,1200
3,Ana,19,820


#### Ordenar filas por alguna columna

In [56]:
df1.sort_values(by="Salario", ascending=True)

Unnamed: 0,Nombre,Edad,Salario
1,Josué,19,790
2,Maria,20,800
3,Ana,19,820
0,Ana,21,1200
4,Francisco,21,2000


#### Borrar filas con datos vacios

In [58]:
data = {
    "Nombre": ["Ana", "Manuel", "Victor", "Josue", "Carlos", "Eduardo", "Maria"],
    "Edad": [21, 23, 22, 20, None, 19, None],
    "Salario": [2000, 700, None, 340, None, 400, 2300]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Salario
0,Ana,21.0,2000.0
1,Manuel,23.0,700.0
2,Victor,22.0,
3,Josue,20.0,340.0
4,Carlos,,
5,Eduardo,19.0,400.0
6,Maria,,2300.0


In [60]:
df_limpio = df.dropna()
df_limpio

Unnamed: 0,Nombre,Edad,Salario
0,Ana,21.0,2000.0
1,Manuel,23.0,700.0
3,Josue,20.0,340.0
5,Eduardo,19.0,400.0


#### Modificar datos vacios con datos por defecto

In [63]:
df.fillna(value={"Edad": 20, "Salario": 0}, inplace=True)
df

Unnamed: 0,Nombre,Edad,Salario
0,Ana,21.0,2000.0
1,Manuel,23.0,700.0
2,Victor,22.0,0.0
3,Josue,20.0,340.0
4,Carlos,20.0,0.0
5,Eduardo,19.0,400.0
6,Maria,20.0,2300.0


## Trabajar con datos temporales en series y dataframes

### Crear series con datos temporales como indice

In [64]:
fechas = pd.date_range(start="2024-11-01", periods=6, freq="D")
valores = [10, 20, 30, 40, 50, 60]

serie_temporal = pd.Series(valores, index=fechas)
serie_temporal

2024-11-01    10
2024-11-02    20
2024-11-03    30
2024-11-04    40
2024-11-05    50
2024-11-06    60
Freq: D, dtype: int64

#### Acceder a valores de series por fechas

In [66]:
print(serie_temporal["2024-11-02"])
print(serie_temporal["2024-11-03":"2024-11-05"])
print(serie_temporal["2024-11-03":"2024-11-05":2])

20
2024-11-03    30
2024-11-04    40
2024-11-05    50
Freq: D, dtype: int64
2024-11-03    30
2024-11-05    50
Freq: 2D, dtype: int64


### Crear dataframes con valores temporales como indice

In [73]:
data = {
    "fecha": fechas,
    "valores": valores
}

df = pd.DataFrame(data)
df

Unnamed: 0,fecha,valores
0,2024-11-01,10
1,2024-11-02,20
2,2024-11-03,30
3,2024-11-04,40
4,2024-11-05,50
5,2024-11-06,60


In [74]:
df.set_index("fecha", inplace=True)
df

Unnamed: 0_level_0,valores
fecha,Unnamed: 1_level_1
2024-11-01,10
2024-11-02,20
2024-11-03,30
2024-11-04,40
2024-11-05,50
2024-11-06,60


#### Obtener promedio de cada mes

In [76]:
# Hacer un agrupamiento por mes y obtener la media:

media_mensual = df.resample("ME").mean()
media_mensual

# Si tuvieramos mas fechas, se veria la media de cada mes

Unnamed: 0_level_0,valores
fecha,Unnamed: 1_level_1
2024-11-30,35.0


#### Crear columnas con valores desplazados y diferenciaentre columna

In [86]:
df["valores desplazados"] = df["valores"].shift(1)
df["diferencia"] = df["valores"].diff()
df

Unnamed: 0_level_0,valores,valores desplazados,diferencia
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2024-11-01,10,,
2024-11-02,20,10.0,10.0
2024-11-03,30,20.0,10.0
2024-11-04,40,30.0,10.0
2024-11-05,50,40.0,10.0
2024-11-06,60,50.0,10.0


## Index object

In [12]:
data = {
    'Producto': ['Manzanas', 'Naranjas', 'Plátanos', 'Uvas', 'Peras'],
    'Precio': [100, 80, 60, 120, 90]
}
df = pd.DataFrame(data)
df.set_index('Producto', inplace=True)
df

Unnamed: 0_level_0,Precio
Producto,Unnamed: 1_level_1
Manzanas,100
Naranjas,80
Plátanos,60
Uvas,120
Peras,90


### Acceder a un elemento por el indice

In [13]:
precio_uvas = df.loc['Uvas']
print(precio_uvas)

Precio    120
Name: Uvas, dtype: int64


### Cambiar orden de los indices

In [6]:
nuevo_orden = ['Uvas', 'Manzanas', 'Naranjas', 'Peras', 'Plátanos', 'Melones']
df_reindexado = df.reindex(nuevo_orden)
print(df_reindexado)

          Precio
Producto        
Uvas       120.0
Manzanas   100.0
Naranjas    80.0
Peras       90.0
Plátanos    60.0
Melones      NaN


### Ver que indices se intersectan entre ambos elementos

In [7]:
index2 = pd.Index(['Manzanas', 'Peras', 'Melones'])
interseccion = df.index.intersection(index2)
print(index2)
print(interseccion)

Index(['Manzanas', 'Peras', 'Melones'], dtype='object')
Index(['Manzanas', 'Peras'], dtype='object')


In [14]:
df

Unnamed: 0_level_0,Precio
Producto,Unnamed: 1_level_1
Manzanas,100
Naranjas,80
Plátanos,60
Uvas,120
Peras,90


In [9]:
#### Eliminar filas o columnas

In [10]:
# Eliminar filas por indice
df.drop(index="Uvas", axis=0, inplace=True)

# Eliminar columna
df.drop("Precio", axis=1, inplace=True)

In [20]:
print(df.loc["Uvas", "Precio"])

120


In [1]:
data_prueba = {
    "col1" : [1, 2, 3],
    "col2" : [4, 5, 6],
    "col3" : [7, 8, 9]
}

In [3]:
df_prueba = pd.DataFrame(data_prueba)
df_prueba

Unnamed: 0,col1,col2,col3
0,1,4,7
1,2,5,8
2,3,6,9


In [5]:
df1_prueba = df_prueba.apply(np.sum, axis=1)
df1_prueba

0    12
1    15
2    18
dtype: int64

In [6]:
df2_prueba = df_prueba.apply(np.sum, axis=0)
df2_prueba

col1     6
col2    15
col3    24
dtype: int64