# PANDAS - DATAFRAMES

Los DataFames son objetos de Pandas que nos permiten guardar información estructurada en forma de tablas u hojas de cálculo.

Tienen **dos dimensiones**: filas y columnas.

Los DataFrames comparten muchas funciones con los índides, ya que cada columna de un DataFrame se la puede pensar como una serie.

## Ejercicio 1.0

Instalamos la versión pandas 2.2.2 y la instalamos

In [1]:
%pip install pandas==2.2.2

Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd
import numpy as np

## CREACIÓN 

### Ejercicio 1.1

Creación de un DataFrame a partir de listas.

In [3]:
#a partir de una listas se puede crear un DataFrame

lista_a0 = ["Sofia", "Garcia", 30, True]
lista_a2 = ["Veronica", "Gonzales", 20, False]
lista_a3 = ["Nicolas", "Perez", 40, True]
lista_a4 = ["Nadia", "Gutierrez", 15, False]

lista_nombres_encabezados = ["Nombre", "Apellido", "Edad", "Pago_matricula"]

In [4]:
#filas (cada uno de las listas de los alumnos), columnas
df_alumnos = pd.DataFrame(
    data=[lista_a0, lista_a2, lista_a3, lista_a4],
    columns=lista_nombres_encabezados
)
df_alumnos

Unnamed: 0,Nombre,Apellido,Edad,Pago_matricula
0,Sofia,Garcia,30,True
1,Veronica,Gonzales,20,False
2,Nicolas,Perez,40,True
3,Nadia,Gutierrez,15,False


### Ejercicio 1.2

Crear un DataFrame a partir de un diccionario

In [5]:
dict_empleados = {
    "Nombre": ["Sofia", "Veronica", "Nicolas", "Nadia"],
    "Apellido": ["Garcia", "Gonzales", "Perez", "Gutierrez"],
    "Departamento": ["IT", "Contable", "IyD", "Legales"],
    "Sueldo": [5000, 2000, 5000, 3000], 
    "Facturacion": [True, False, True, True], 
}

In [6]:
#la info entra como columnas
df_empleados = pd.DataFrame(dict_empleados)
df_empleados


Unnamed: 0,Nombre,Apellido,Departamento,Sueldo,Facturacion
0,Sofia,Garcia,IT,5000,True
1,Veronica,Gonzales,Contable,2000,False
2,Nicolas,Perez,IyD,5000,True
3,Nadia,Gutierrez,Legales,3000,True


### Ejercicio 1.3

Creación de DataFrame a partir de un array

In [7]:
rng = np.random.default_rng() #constructor

In [8]:
array_6x3 = rng.integers(1, 20, (6, 3)) #min, max, size
print(array_6x3)

[[14 11 19]
 [ 2 18  7]
 [11 14 13]
 [13  7  7]
 [10 15  5]
 [12  9 17]]


In [9]:
lista_nombre_columnas=["nro_clientes", "nro_pedidos", "nro_devoluciones"]

In [10]:
df_array = pd.DataFrame(
    data=array_6x3,
    columns=lista_nombre_columnas
)
df_array

Unnamed: 0,nro_clientes,nro_pedidos,nro_devoluciones
0,14,11,19
1,2,18,7
2,11,14,13
3,13,7,7
4,10,15,5
5,12,9,17


## INDICES

### Ejercicio 1.4

Así como en una serie, se pueden personalizar los índices

In [11]:
#DataFrame con info de vehículos a la venta en una concesionaria

lista_v0 = ["Fiat", "Uno", 1000, False]
lista_v1 = ["Fiat", "Palio", 2000, True]
lista_v2 = ["Ford", "Focus", 3000, True]
lista_v3 = ["Toyota", "Hilux", 8000, False]

lista_encabezados = ["Marca", "Modelo", "Precio", "Okm"]
lista_patentes = ["ASD123", "AF123AA", "TYP890", "AG677ER"]

In [12]:
df_concesionaria = pd.DataFrame(
    data=[lista_v0, lista_v1, lista_v2, lista_v3],
    columns=lista_encabezados,
    index=lista_patentes
)
df_concesionaria

Unnamed: 0,Marca,Modelo,Precio,Okm
ASD123,Fiat,Uno,1000,False
AF123AA,Fiat,Palio,2000,True
TYP890,Ford,Focus,3000,True
AG677ER,Toyota,Hilux,8000,False


### Ejercicio 1.5

Una vez que tenemos el DataFrame podemos indicar qué columna será el numero índice

In [13]:
dict_empleados = {
    "ID": ["A-123", "B-456", "C-789", "D-369"],
    "Nombre": ["Sofia", "Veronica", "Nicolas", "Nadia"],
    "Apellido": ["Garcia", "Gonzales", "Perez", "Gutierrez"],
    "Departamento": ["IT", "Contable", "IyD", "Legales"],
    "Sueldo": [5000, 2000, 5000, 3000], 
    "Facturacion": [True, False, True, True], 
}

In [14]:
df_empleados = pd.DataFrame(dict_empleados)
df_empleados

Unnamed: 0,ID,Nombre,Apellido,Departamento,Sueldo,Facturacion
0,A-123,Sofia,Garcia,IT,5000,True
1,B-456,Veronica,Gonzales,Contable,2000,False
2,C-789,Nicolas,Perez,IyD,5000,True
3,D-369,Nadia,Gutierrez,Legales,3000,True


In [15]:
df_empleados.set_index("ID")

Unnamed: 0_level_0,Nombre,Apellido,Departamento,Sueldo,Facturacion
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A-123,Sofia,Garcia,IT,5000,True
B-456,Veronica,Gonzales,Contable,2000,False
C-789,Nicolas,Perez,IyD,5000,True
D-369,Nadia,Gutierrez,Legales,3000,True


In [16]:
df_empleados #no se modificó el índice

Unnamed: 0,ID,Nombre,Apellido,Departamento,Sueldo,Facturacion
0,A-123,Sofia,Garcia,IT,5000,True
1,B-456,Veronica,Gonzales,Contable,2000,False
2,C-789,Nicolas,Perez,IyD,5000,True
3,D-369,Nadia,Gutierrez,Legales,3000,True


### Ejercicio 1.6

Si modificamos un DataFrame y queres que los cambios perdures se usa: `inplace`

In [17]:
df_empleados.set_index("ID", inplace=True)

In [18]:
df_empleados

Unnamed: 0_level_0,Nombre,Apellido,Departamento,Sueldo,Facturacion
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A-123,Sofia,Garcia,IT,5000,True
B-456,Veronica,Gonzales,Contable,2000,False
C-789,Nicolas,Perez,IyD,5000,True
D-369,Nadia,Gutierrez,Legales,3000,True


### Ejercicio 1.7

En los DataFrames podemos tener un índice basado en fechas

In [19]:
dias = pd.date_range(
    start="2024-01-01",
    end="2024-04-27"
)
dias

DatetimeIndex(['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04',
               '2024-01-05', '2024-01-06', '2024-01-07', '2024-01-08',
               '2024-01-09', '2024-01-10',
               ...
               '2024-04-18', '2024-04-19', '2024-04-20', '2024-04-21',
               '2024-04-22', '2024-04-23', '2024-04-24', '2024-04-25',
               '2024-04-26', '2024-04-27'],
              dtype='datetime64[ns]', length=118, freq='D')

In [20]:
df_resumen_ventas = pd.DataFrame(
    data= {
        "nro_ventas": rng.integers(1, 21, len(dias)),
        "costos_usd": rng.integers(100, 2001, len(dias)), 
        "ganancias": rng.random(len(dias)).round(2)
    },
    index=dias
)
df_resumen_ventas

Unnamed: 0,nro_ventas,costos_usd,ganancias
2024-01-01,18,1639,0.69
2024-01-02,3,1306,0.19
2024-01-03,17,1322,0.57
2024-01-04,16,380,0.06
2024-01-05,13,422,0.24
...,...,...,...
2024-04-23,6,1327,0.96
2024-04-24,15,1387,0.52
2024-04-25,4,529,0.47
2024-04-26,8,603,0.59


## FUNCIONES Y MÉTODOS

### Ejercicio 1.8

In [21]:
df_resumen_ventas.head() #trae los primeros cinco

Unnamed: 0,nro_ventas,costos_usd,ganancias
2024-01-01,18,1639,0.69
2024-01-02,3,1306,0.19
2024-01-03,17,1322,0.57
2024-01-04,16,380,0.06
2024-01-05,13,422,0.24


In [22]:
df_resumen_ventas.tail() #trea los últimos cinco

Unnamed: 0,nro_ventas,costos_usd,ganancias
2024-04-23,6,1327,0.96
2024-04-24,15,1387,0.52
2024-04-25,4,529,0.47
2024-04-26,8,603,0.59
2024-04-27,3,236,0.03


In [24]:
df_resumen_ventas.describe() #resumen estadístico

Unnamed: 0,nro_ventas,costos_usd,ganancias
count,118.0,118.0,118.0
mean,10.025424,1024.720339,0.519407
std,5.621178,496.626429,0.292365
min,1.0,105.0,0.01
25%,5.0,594.0,0.2425
50%,10.0,1091.5,0.56
75%,15.0,1349.75,0.7575
max,20.0,1997.0,0.99


El 75% de los días tuve 15 ventas o menos o solamente el 25% de los días tuve 15 ventas o más (tercer cuartil)

El 25% de los días tuve costos menores a 594 UDS o el 75% de los días tuve un costos mayores a 594 USD (primer cuartil)

In [25]:
df_resumen_ventas.info() #me permite ver si tengo un problema con mis tipos de datos

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 118 entries, 2024-01-01 to 2024-04-27
Freq: D
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   nro_ventas  118 non-null    int64  
 1   costos_usd  118 non-null    int64  
 2   ganancias   118 non-null    float64
dtypes: float64(1), int64(2)
memory usage: 3.7 KB


In [27]:
df_resumen_ventas.shape #indica la forma de la tabla

(118, 3)

### Ejercicio 1.9

Puedo ver a cada columna como una Series.

In [29]:
df_resumen_ventas.nro_ventas

2024-01-01    18
2024-01-02     3
2024-01-03    17
2024-01-04    16
2024-01-05    13
              ..
2024-04-23     6
2024-04-24    15
2024-04-25     4
2024-04-26     8
2024-04-27     3
Freq: D, Name: nro_ventas, Length: 118, dtype: int64

Me trae la columna como una series.

Entonces podemos utilizar el sistema de filtrado de las series en mi DataFrame.

In [31]:
#quiero saber que días tuve 15 ventas o más
df_resumen_ventas[df_resumen_ventas.nro_ventas >= 15]

Unnamed: 0,nro_ventas,costos_usd,ganancias
2024-01-01,18,1639,0.69
2024-01-03,17,1322,0.57
2024-01-04,16,380,0.06
2024-01-17,19,1226,0.58
2024-01-23,20,1184,0.16
2024-01-25,16,1085,0.18
2024-02-01,19,1284,0.16
2024-02-02,16,1088,0.01
2024-02-06,18,400,0.85
2024-02-08,15,584,0.93


Podemos hacer un criterio de filtado cruzado.

In [33]:
#días en donde las ventas dejaron una ganancia mayor o igual al 90% con costos menores a 500 usd
df_resumen_ventas[(df_resumen_ventas.ganancias >= 0.90) & (df_resumen_ventas.costos_usd < 500)]

Unnamed: 0,nro_ventas,costos_usd,ganancias
2024-02-29,8,442,0.92
2024-04-07,11,366,0.99
