# Pandas Dataframe

Un dataframe es similar a una hoja de cálculos donde cada fila representa un registro y cada columna es una característica o atributo de esos registros.

Cada una de estas filas de forma individual seria una Serie.

### Ejercicio 1.0

Instalación e importación

In [2]:
!pip install pandas==2.2.2

Collecting pandas==2.2.2
  Downloading pandas-2.2.2-cp311-cp311-win_amd64.whl.metadata (19 kB)
Downloading pandas-2.2.2-cp311-cp311-win_amd64.whl (11.6 MB)
   ---------------------------------------- 0.0/11.6 MB ? eta -:--:--
   ---------------------------------------- 0.0/11.6 MB 960.0 kB/s eta 0:00:13
   - -------------------------------------- 0.3/11.6 MB 3.8 MB/s eta 0:00:04
   -- ------------------------------------- 0.9/11.6 MB 6.8 MB/s eta 0:00:02
   ----- ---------------------------------- 1.7/11.6 MB 8.9 MB/s eta 0:00:02
   ------- -------------------------------- 2.3/11.6 MB 10.4 MB/s eta 0:00:01
   ---------- ----------------------------- 2.9/11.6 MB 11.8 MB/s eta 0:00:01
   ---------- ----------------------------- 3.0/11.6 MB 9.6 MB/s eta 0:00:01
   ----------- ---------------------------- 3.5/11.6 MB 10.1 MB/s eta 0:00:01
   ------------- -------------------------- 3.9/11.6 MB 9.8 MB/s eta 0:00:01
   -------------- ------------------------- 4.3/11.6 MB 9.4 MB/s eta 0:00:01

In [4]:
import pandas as pd
import numpy as np

### Ejercicio 1.1

Creación del Dataframe

In [5]:
#Podemos crear un dataframe a partir de listas

lista_p1 = ["Andrés", "Muñoz", 26, True]
lista_p2 = ["Esteban", "Domínguez", 43, False]
lista_p3 = ["María", "Chesti", 32, True]
lista_p4 = ["Marcela", "Kisfe", 19, False]

lista_encabezados = ["Nombre", "Apellido", "Edad", "Aprobado"]

df_personas = pd.DataFrame(data=[lista_p1, lista_p2, lista_p3, lista_p4], columns = lista_encabezados)
df_personas


Unnamed: 0,Nombre,Apellido,Edad,Aprobado
0,Andrés,Muñoz,26,True
1,Esteban,Domínguez,43,False
2,María,Chesti,32,True
3,Marcela,Kisfe,19,False


In [6]:
#Otra opción muy común es crear Dataframe a partir de un diccionario

diccionario_empleados = {
    "Nombre": ["Andrés", "Sofía", "Mercedes", "Pablo"],
    "Apellido": ["Muñoz", "Cerves", "García", "Alavés"],
    "Sueldo": [4500, 6000, 2300, 5300],
    "Facturación": [True, False, True, True]
}
diccionario_empleados

{'Nombre': ['Andrés', 'Sofía', 'Mercedes', 'Pablo'],
 'Apellido': ['Muñoz', 'Cerves', 'García', 'Alavés'],
 'Sueldo': [4500, 6000, 2300, 5300],
 'Facturación': [True, False, True, True]}

In [7]:
df_empleados = pd.DataFrame(diccionario_empleados)
df_empleados

Unnamed: 0,Nombre,Apellido,Sueldo,Facturación
0,Andrés,Muñoz,4500,True
1,Sofía,Cerves,6000,False
2,Mercedes,García,2300,True
3,Pablo,Alavés,5300,True


In [8]:
#Podemos importar los datos desde un array y crear dataframe

rng = np.random.default_rng()

In [10]:
array_6x3 = rng.integers(1, 20, (6,3))
print(array_6x3)

[[18  4 15]
 [13 11  1]
 [ 1  1 16]
 [15 11 11]
 [ 8  4 11]
 [15  8 19]]


In [11]:
lista_nombre_encabezados = ["clientes_uni", "cantidad_kg", "ingresos_mil_usd"]

df_resumen_ventas = pd.DataFrame(data = array_6x3, columns = lista_nombre_encabezados)
df_resumen_ventas

Unnamed: 0,clientes_uni,cantidad_kg,ingresos_mil_usd
0,18,4,15
1,13,11,1
2,1,1,16
3,15,11,11
4,8,4,11
5,15,8,19


### Ejercicio 1.2

Podemos trabajar con los índices tal como hicimos con las Series anteriormente

In [14]:
lista_patentes = ["12-AFS-2524", "45-LKS-1284", "94-KAN-9381", "84-UWA-9012"]

lista_v1 = ["Ford", "Focus", 3000, True]
lista_v2 = ["Toyota", "Hilux", 10000, True]
lista_v3 = ["Ford", "F-100", 2000, False]
lista_v4 = ["Renault", "Cactus", 3500, True]

lista_columnas_encabezados = ["Marca", "Modelo", "Valor", "0 KM"]

df_vehiculos = pd.DataFrame(data = [lista_v1, lista_v2, lista_v3, lista_v4], index = lista_patentes, columns = lista_columnas_encabezados)
df_vehiculos

Unnamed: 0,Marca,Modelo,Valor,0 KM
12-AFS-2524,Ford,Focus,3000,True
45-LKS-1284,Toyota,Hilux,10000,True
94-KAN-9381,Ford,F-100,2000,False
84-UWA-9012,Renault,Cactus,3500,True


In [15]:
#Otra opción es usar el método set index

diccionario_empleados = {
    "ID": ["F-001", "C-001", "F-002", "F-003", "F-004", "C-002"],
    "Nombre": ["Andrés", "Sofía", "Mercedes", "Pablo", "Claudia", "Miguel"],
    "Apellido": ["Muñoz", "Cerves", "García", "Alavés", "Pérez", "Solís"],
    "Sueldo": [4500, 6000, 2300, 5300, 4920, 5000],
    "Departamento": ["IT", "Sales", "IT", "IT", "HR", "Sales"],
    "Facturación": [True, True, False, True, True, False]
}

df_empleados = pd.DataFrame(diccionario_empleados)
df_empleados 
    

Unnamed: 0,ID,Nombre,Apellido,Sueldo,Departamento,Facturación
0,F-001,Andrés,Muñoz,4500,IT,True
1,C-001,Sofía,Cerves,6000,Sales,True
2,F-002,Mercedes,García,2300,IT,False
3,F-003,Pablo,Alavés,5300,IT,True
4,F-004,Claudia,Pérez,4920,HR,True
5,C-002,Miguel,Solís,5000,Sales,False


In [16]:
df_empleados.set_index("ID", inplace = True)
df_empleados

Unnamed: 0_level_0,Nombre,Apellido,Sueldo,Departamento,Facturación
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
F-001,Andrés,Muñoz,4500,IT,True
C-001,Sofía,Cerves,6000,Sales,True
F-002,Mercedes,García,2300,IT,False
F-003,Pablo,Alavés,5300,IT,True
F-004,Claudia,Pérez,4920,HR,True
C-002,Miguel,Solís,5000,Sales,False


In [17]:
#El índice puede ser fechas

dias = pd.date_range(start = "2024-01-01", end = "2024-04-17")

df_resumen_ventas = pd.DataFrame(
    data = {
        "nro_ventas": rng.integers(10, 50, len(dias)),
        "ganancia": rng.random(len(dias)).round(2),
        "ingresos_mil_usd": rng.integers(100, 2000, len(dias))
    },
    index = dias)
df_resumen_ventas

Unnamed: 0,nro_ventas,ganancia,ingresos_mil_usd
2024-01-01,33,0.36,1257
2024-01-02,48,0.95,1066
2024-01-03,32,0.15,627
2024-01-04,43,0.32,1704
2024-01-05,36,0.77,1788
...,...,...,...
2024-04-13,20,0.32,1913
2024-04-14,32,0.35,230
2024-04-15,22,0.29,1020
2024-04-16,46,0.71,1396


### Ejercicio 1.3

Repaso de métodos importantes que sirven para trabajar con dataframes

In [18]:
df_resumen_ventas.head(7) #Head nos trae los primeros N elementos

Unnamed: 0,nro_ventas,ganancia,ingresos_mil_usd
2024-01-01,33,0.36,1257
2024-01-02,48,0.95,1066
2024-01-03,32,0.15,627
2024-01-04,43,0.32,1704
2024-01-05,36,0.77,1788
2024-01-06,20,0.97,1555
2024-01-07,44,0.86,923


In [19]:
df_resumen_ventas.tail() #Tail trae los últimos N elementos. El valor por defecto es 5

Unnamed: 0,nro_ventas,ganancia,ingresos_mil_usd
2024-04-13,20,0.32,1913
2024-04-14,32,0.35,230
2024-04-15,22,0.29,1020
2024-04-16,46,0.71,1396
2024-04-17,31,0.67,270


In [20]:
df_resumen_ventas.describe() #Uso describe

Unnamed: 0,nro_ventas,ganancia,ingresos_mil_usd
count,108.0,108.0,108.0
mean,30.509259,0.535741,1042.111111
std,11.194538,0.273254,560.764837
min,10.0,0.01,102.0
25%,22.0,0.3375,511.75
50%,30.5,0.575,972.0
75%,40.0,0.76,1555.75
max,49.0,0.97,1960.0


In [21]:
df_resumen_ventas.shape #Tenemos 108 filas por 3 columnas

(108, 3)

In [22]:
df_resumen_ventas.nro_ventas #Aislo una columna -> Serie

2024-01-01    33
2024-01-02    48
2024-01-03    32
2024-01-04    43
2024-01-05    36
              ..
2024-04-13    20
2024-04-14    32
2024-04-15    22
2024-04-16    46
2024-04-17    31
Freq: D, Name: nro_ventas, Length: 108, dtype: int64

In [23]:
df_resumen_ventas[df_resumen_ventas.ingresos_mil_usd > 1800] #Puedo filtrar mi dataframe aplicandole una regla a una columna (Series)

Unnamed: 0,nro_ventas,ganancia,ingresos_mil_usd
2024-01-08,37,0.73,1953
2024-01-10,33,0.29,1842
2024-01-28,23,0.6,1817
2024-02-04,14,0.7,1949
2024-02-17,24,0.43,1960
2024-02-20,21,0.65,1803
2024-02-23,28,0.95,1915
2024-03-18,27,0.92,1848
2024-04-06,42,0.48,1887
2024-04-10,24,0.01,1948


In [24]:
df_resumen_ventas[(df_resumen_ventas.nro_ventas > 40) & (df_resumen_ventas.ingresos_mil_usd > 1500)] #Podemos concatenar diferentes reglas

Unnamed: 0,nro_ventas,ganancia,ingresos_mil_usd
2024-01-04,43,0.32,1704
2024-03-03,45,0.37,1633
2024-03-25,44,0.44,1662
2024-04-06,42,0.48,1887
2024-04-09,47,0.43,1677


In [25]:
df_resumen_ventas.iloc[0] #Obtenemos el primer elemento

nro_ventas            33.00
ganancia               0.36
ingresos_mil_usd    1257.00
Name: 2024-01-01 00:00:00, dtype: float64

In [26]:
df_resumen_ventas.iloc[3] #Obtenemos el cuarto elemento 

nro_ventas            43.00
ganancia               0.32
ingresos_mil_usd    1704.00
Name: 2024-01-04 00:00:00, dtype: float64

In [27]:
df_resumen_ventas.iloc[-1] #Último elemento

nro_ventas           31.00
ganancia              0.67
ingresos_mil_usd    270.00
Name: 2024-04-17 00:00:00, dtype: float64

In [28]:
df_resumen_ventas.iloc[4:10] #Filtrado desde la posición 4 (incluida) hasta la 10 (excluida)

Unnamed: 0,nro_ventas,ganancia,ingresos_mil_usd
2024-01-05,36,0.77,1788
2024-01-06,20,0.97,1555
2024-01-07,44,0.86,923
2024-01-08,37,0.73,1953
2024-01-09,10,0.23,1162
2024-01-10,33,0.29,1842


In [29]:
df_resumen_ventas.iloc[:9] #El filtrado termina en el 9no elemento

Unnamed: 0,nro_ventas,ganancia,ingresos_mil_usd
2024-01-01,33,0.36,1257
2024-01-02,48,0.95,1066
2024-01-03,32,0.15,627
2024-01-04,43,0.32,1704
2024-01-05,36,0.77,1788
2024-01-06,20,0.97,1555
2024-01-07,44,0.86,923
2024-01-08,37,0.73,1953
2024-01-09,10,0.23,1162


In [31]:
df_resumen_ventas.iloc[-15:] #El filtrado incia desde el -15 en adelante

Unnamed: 0,nro_ventas,ganancia,ingresos_mil_usd
2024-04-03,22,0.82,515
2024-04-04,32,0.41,483
2024-04-05,46,0.17,669
2024-04-06,42,0.48,1887
2024-04-07,30,0.79,1764
2024-04-08,18,0.73,650
2024-04-09,47,0.43,1677
2024-04-10,24,0.01,1948
2024-04-11,36,0.05,367
2024-04-12,37,0.37,1855


In [32]:
df_resumen_ventas.sort_values(by = "ganancia") #Ordenamos de menor a mayor nuestro dataframe en función de la ganancia

Unnamed: 0,nro_ventas,ganancia,ingresos_mil_usd
2024-02-11,47,0.01,1480
2024-04-10,24,0.01,1948
2024-03-17,47,0.02,648
2024-01-27,26,0.03,1686
2024-04-11,36,0.05,367
...,...,...,...
2024-02-23,28,0.95,1915
2024-01-11,29,0.96,522
2024-02-18,47,0.96,464
2024-02-09,22,0.97,857


In [33]:
df_resumen_ventas.sort_values(by = "ingresos_mil_usd", ascending = False) #Ordenamos de mayor a menor nuestro dataframe en función de ingresos_mil_usd

Unnamed: 0,nro_ventas,ganancia,ingresos_mil_usd
2024-02-17,24,0.43,1960
2024-01-08,37,0.73,1953
2024-02-04,14,0.70,1949
2024-04-10,24,0.01,1948
2024-02-23,28,0.95,1915
...,...,...,...
2024-02-16,24,0.61,232
2024-04-14,32,0.35,230
2024-02-26,21,0.27,191
2024-03-01,33,0.13,191


In [37]:
dict_concesionaria = {
    "Marca": ["Ford", "Toyota", "Audi", "Ford", "Ford", "Renault", "Chevrolet", "Ford", "Ford", "Volkswagen", "Honda", "BMW", "Mercedes-Benz", "Ford", "Ford"],
    "Modelo": ["Focus", "Hilux", "A3", "Mustang", "F-100", "Cactus", "Spark", "Escape", "Explorer", "Gol", "Civic", "X5", "Clase C", "Ranger", "Fusión"],
    "Precio": [3000, 10000, 10000, 20000, 2000, 3500, 4000, 18000, 25000, 6000, 8000, 15000, 12000, 22000, 17000],
    "0 KM": [True, True, True, True, False, True, False, True, False, True, True, True, False, True, False]
  }

df_concesionaria = pd.DataFrame(dict_concesionaria)
df_concesionaria

Unnamed: 0,Marca,Modelo,Precio,0 KM
0,Ford,Focus,3000,True
1,Toyota,Hilux,10000,True
2,Audi,A3,10000,True
3,Ford,Mustang,20000,True
4,Ford,F-100,2000,False
5,Renault,Cactus,3500,True
6,Chevrolet,Spark,4000,False
7,Ford,Escape,18000,True
8,Ford,Explorer,25000,False
9,Volkswagen,Gol,6000,True


In [40]:
#Podemos aplicar multiples condiciones que incluyan strings, booleanos e integers

df_concesionaria[(df_concesionaria.Marca == "Ford") & (df_concesionaria["Precio"] > 10000) & (df_concesionaria["0 KM"] == True)] #Podemos aplicar la búsqueda usando los corchetes y pasando el nombre de la columna 

Unnamed: 0,Marca,Modelo,Precio,0 KM
3,Ford,Mustang,20000,True
7,Ford,Escape,18000,True
13,Ford,Ranger,22000,True


### Ejercicio 1.4

Los dataframes son editables y podemos cambiarle aspectos como:

In [41]:
df_concesionaria

Unnamed: 0,Marca,Modelo,Precio,0 KM
0,Ford,Focus,3000,True
1,Toyota,Hilux,10000,True
2,Audi,A3,10000,True
3,Ford,Mustang,20000,True
4,Ford,F-100,2000,False
5,Renault,Cactus,3500,True
6,Chevrolet,Spark,4000,False
7,Ford,Escape,18000,True
8,Ford,Explorer,25000,False
9,Volkswagen,Gol,6000,True


In [42]:
#Si queremos renombrar una columna debemos aplicar 

nuevas_columnas = {
    "Marca": "MARCA",
    "Modelo": "NOMBRE",
    "Precio": "PRECIO_USD",
    "0 KM": "UNICO_DUENO"
}

df_concesionaria.rename(columns = nuevas_columnas, inplace = True)

In [43]:
df_concesionaria

Unnamed: 0,MARCA,NOMBRE,PRECIO_USD,UNICO_DUENO
0,Ford,Focus,3000,True
1,Toyota,Hilux,10000,True
2,Audi,A3,10000,True
3,Ford,Mustang,20000,True
4,Ford,F-100,2000,False
5,Renault,Cactus,3500,True
6,Chevrolet,Spark,4000,False
7,Ford,Escape,18000,True
8,Ford,Explorer,25000,False
9,Volkswagen,Gol,6000,True


In [44]:
#Podemos cambiar el nombre de una columna unicamente 

df_concesionaria.rename(columns = {"MARCA": "MODELO"}, inplace = True)

df_concesionaria

Unnamed: 0,MODELO,NOMBRE,PRECIO_USD,UNICO_DUENO
0,Ford,Focus,3000,True
1,Toyota,Hilux,10000,True
2,Audi,A3,10000,True
3,Ford,Mustang,20000,True
4,Ford,F-100,2000,False
5,Renault,Cactus,3500,True
6,Chevrolet,Spark,4000,False
7,Ford,Escape,18000,True
8,Ford,Explorer,25000,False
9,Volkswagen,Gol,6000,True


In [45]:
#Podemos aplicar / renombrar nuestro índice generado por defecto

df_concesionaria.index.rename(name = "ID", inplace = True)

df_concesionaria

Unnamed: 0_level_0,MODELO,NOMBRE,PRECIO_USD,UNICO_DUENO
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Ford,Focus,3000,True
1,Toyota,Hilux,10000,True
2,Audi,A3,10000,True
3,Ford,Mustang,20000,True
4,Ford,F-100,2000,False
5,Renault,Cactus,3500,True
6,Chevrolet,Spark,4000,False
7,Ford,Escape,18000,True
8,Ford,Explorer,25000,False
9,Volkswagen,Gol,6000,True


In [46]:
df_resumen_ventas.head()

Unnamed: 0,nro_ventas,ganancia,ingresos_mil_usd
2024-01-01,33,0.36,1257
2024-01-02,48,0.95,1066
2024-01-03,32,0.15,627
2024-01-04,43,0.32,1704
2024-01-05,36,0.77,1788


In [47]:
df_resumen_ventas.index.rename(name = "dia", inplace = True)
df_resumen_ventas.rename(columns = {"ganancia": "ganancia_%"}, inplace = True)
df_resumen_ventas

Unnamed: 0_level_0,nro_ventas,ganancia_%,ingresos_mil_usd
dia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2024-01-01,33,0.36,1257
2024-01-02,48,0.95,1066
2024-01-03,32,0.15,627
2024-01-04,43,0.32,1704
2024-01-05,36,0.77,1788
...,...,...,...
2024-04-13,20,0.32,1913
2024-04-14,32,0.35,230
2024-04-15,22,0.29,1020
2024-04-16,46,0.71,1396


### Ejercicio 1.5

Veremos como concatenar o agregar elementos a un dataframe

In [48]:
df_concesionaria.rename(columns = {"MODELO": "MARCA", "NOMBRE": "MODELO"}, inplace = True)
df_concesionaria #Tenemos nuestro dataframe

Unnamed: 0_level_0,MARCA,MODELO,PRECIO_USD,UNICO_DUENO
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Ford,Focus,3000,True
1,Toyota,Hilux,10000,True
2,Audi,A3,10000,True
3,Ford,Mustang,20000,True
4,Ford,F-100,2000,False
5,Renault,Cactus,3500,True
6,Chevrolet,Spark,4000,False
7,Ford,Escape,18000,True
8,Ford,Explorer,25000,False
9,Volkswagen,Gol,6000,True


In [49]:
df_concesionaria.shape #Que tiene la cantidad de 15 filtros y 4 columnas

(15, 4)

In [51]:
#Añado una nueva fila

nuevo_vehiculo = pd.DataFrame(data = [
    ["Fiat", "Sienna", 1000, False]
  ],
    columns = ["MARCA", "MODELO", "PRECIO_USD", "UNICO_DUENO"]
)
 
pd.concat([df_concesionaria, nuevo_vehiculo])


Unnamed: 0,MARCA,MODELO,PRECIO_USD,UNICO_DUENO
0,Ford,Focus,3000,True
1,Toyota,Hilux,10000,True
2,Audi,A3,10000,True
3,Ford,Mustang,20000,True
4,Ford,F-100,2000,False
5,Renault,Cactus,3500,True
6,Chevrolet,Spark,4000,False
7,Ford,Escape,18000,True
8,Ford,Explorer,25000,False
9,Volkswagen,Gol,6000,True


In [52]:
#Puedo "sobreescribir" para tener todos los vehículos en este dataframe

df_concesionaria = pd.concat([df_concesionaria, nuevo_vehiculo], ignore_index = True) #Ignoramos el índice para que nuevo_vehiculo tenga un índice que continue con los números previos

df_concesionaria

Unnamed: 0,MARCA,MODELO,PRECIO_USD,UNICO_DUENO
0,Ford,Focus,3000,True
1,Toyota,Hilux,10000,True
2,Audi,A3,10000,True
3,Ford,Mustang,20000,True
4,Ford,F-100,2000,False
5,Renault,Cactus,3500,True
6,Chevrolet,Spark,4000,False
7,Ford,Escape,18000,True
8,Ford,Explorer,25000,False
9,Volkswagen,Gol,6000,True


In [53]:
df_concesionaria.shape #Ahora tiene 16 filas

(16, 4)

In [55]:
#Podemos agregar varias filas a la vez

vehiculos_importados = pd.DataFrame(data = {
    "MARCA": ["Porche", "Bugati", "Chevrolet"],
    "MODELO": ["Cayen", "Veiron", "Camaro"],
    "PRECIO_USD": [31000, 900000, 100000],
    "UNICO_DUENO": [True, True, True]
   }
)

df_concesionaria = pd.concat([df_concesionaria, vehiculos_importados], ignore_index = True)

df_concesionaria

Unnamed: 0,MARCA,MODELO,PRECIO_USD,UNICO_DUENO
0,Ford,Focus,3000,True
1,Toyota,Hilux,10000,True
2,Audi,A3,10000,True
3,Ford,Mustang,20000,True
4,Ford,F-100,2000,False
5,Renault,Cactus,3500,True
6,Chevrolet,Spark,4000,False
7,Ford,Escape,18000,True
8,Ford,Explorer,25000,False
9,Volkswagen,Gol,6000,True


In [56]:
df_concesionaria.shape #Veamos como cambió la cantidad de filas y columnas

(19, 4)

In [57]:
#Tenemos que tener mucha precaución ya que si no coinciden las columnas con los valores se van a agregar generando nuevas columnas

vehiculos_importados = pd.DataFrame(data = {
    "fabricante": ["Porche", "Bugati", "Chevrolet"],
    "modelo": ["Cayen", "Veiron", "Camaro"], 
    "costo": [31000, 900000, 100000],
    "0km": [True, True, True]
   }
)

df_concesionaria_2 = pd.concat([df_concesionaria, vehiculos_importados], ignore_index = True)

df_concesionaria_2


Unnamed: 0,MARCA,MODELO,PRECIO_USD,UNICO_DUENO,fabricante,modelo,costo,0km
0,Ford,Focus,3000.0,True,,,,
1,Toyota,Hilux,10000.0,True,,,,
2,Audi,A3,10000.0,True,,,,
3,Ford,Mustang,20000.0,True,,,,
4,Ford,F-100,2000.0,False,,,,
5,Renault,Cactus,3500.0,True,,,,
6,Chevrolet,Spark,4000.0,False,,,,
7,Ford,Escape,18000.0,True,,,,
8,Ford,Explorer,25000.0,False,,,,
9,Volkswagen,Gol,6000.0,True,,,,


In [58]:
df_concesionaria_2.shape #Vemos que ahora se duplicaron la cantidad de columnas

(22, 8)

### Ejercicio 1.6

Con los dataframe hay otra opción muy usada y es el merge

In [59]:
df_empleados_cobro = pd.DataFrame({
    "ID": [101, 102, 103, 104],
    "Sueldo": [5000, 6000, 4500, 5500],
    "Facturación": [True, True, False, True],
    "Antigüedad": [3, 5, 2 , 8]
})

df_empleados_info = pd.DataFrame({
    "ID": [101, 102, 105, 106],
    "Edad": [31, 36, 29, 41],
    "Cargo": ["Analisa", "Gerente", "Analista", "Director"],
    "Nombre": ["Pedro", "Camila", "Mariano", "Federico"]
})

In [60]:
df_empleados_cobro

Unnamed: 0,ID,Sueldo,Facturación,Antigüedad
0,101,5000,True,3
1,102,6000,True,5
2,103,4500,False,2
3,104,5500,True,8


In [61]:
df_empleados_info

Unnamed: 0,ID,Edad,Cargo,Nombre
0,101,31,Analisa,Pedro
1,102,36,Gerente,Camila
2,105,29,Analista,Mariano
3,106,41,Director,Federico


In [62]:
#Left merge
df_left_merge = pd.merge(df_empleados_cobro, df_empleados_info, how = "left", on = "ID")
df_left_merge

Unnamed: 0,ID,Sueldo,Facturación,Antigüedad,Edad,Cargo,Nombre
0,101,5000,True,3,31.0,Analisa,Pedro
1,102,6000,True,5,36.0,Gerente,Camila
2,103,4500,False,2,,,
3,104,5500,True,8,,,


In [63]:
#Right merge (join sql)
df_right_merge = pd.merge(df_empleados_cobro, df_empleados_info, how = "right", on = "ID")
df_right_merge

Unnamed: 0,ID,Sueldo,Facturación,Antigüedad,Edad,Cargo,Nombre
0,101,5000.0,True,3.0,31,Analisa,Pedro
1,102,6000.0,True,5.0,36,Gerente,Camila
2,105,,,,29,Analista,Mariano
3,106,,,,41,Director,Federico


In [65]:
df_empleados = pd.DataFrame({
    "ID": [101, 102, 103, 104],
    "Sueldo": [5000, 6000, 4500, 5500],
    "Edad": [30, 35, 28, 40],
    "Cargo": ["Analista", "Gerente", "Analista", "Director"],
    "Facturación": [True, True, False, True],
    "Antigüedad": [3, 5, 2, 8], 
    "Departamento_ID": [1, 2, 4, 3]
})
df_departamentos = pd.DataFrame({
    "Departamento_ID": [1, 2, 3],
    "Nombre": ["Sales", "IT", "HR"],
    "Piso": [1, 2, 2],
    "Rotación_24hs": [True, True, False]
})

In [66]:
df_empleados

Unnamed: 0,ID,Sueldo,Edad,Cargo,Facturación,Antigüedad,Departamento_ID
0,101,5000,30,Analista,True,3,1
1,102,6000,35,Gerente,True,5,2
2,103,4500,28,Analista,False,2,4
3,104,5500,40,Director,True,8,3


In [67]:
df_departamentos

Unnamed: 0,Departamento_ID,Nombre,Piso,Rotación_24hs
0,1,Sales,1,True
1,2,IT,2,True
2,3,HR,2,False


In [69]:
#Inner merge
df_inner_merge = pd.merge(df_empleados, df_departamentos, how = "inner", on = "Departamento_ID")
df_inner_merge

Unnamed: 0,ID,Sueldo,Edad,Cargo,Facturación,Antigüedad,Departamento_ID,Nombre,Piso,Rotación_24hs
0,101,5000,30,Analista,True,3,1,Sales,1,True
1,102,6000,35,Gerente,True,5,2,IT,2,True
2,104,5500,40,Director,True,8,3,HR,2,False


In [70]:
#Outer merge
df_outer_merge = pd.merge(df_empleados, df_departamentos, how = "outer", on = "Departamento_ID")
df_outer_merge 

Unnamed: 0,ID,Sueldo,Edad,Cargo,Facturación,Antigüedad,Departamento_ID,Nombre,Piso,Rotación_24hs
0,101,5000,30,Analista,True,3,1,Sales,1.0,True
1,102,6000,35,Gerente,True,5,2,IT,2.0,True
2,104,5500,40,Director,True,8,3,HR,2.0,False
3,103,4500,28,Analista,False,2,4,,,


### Ejercicio 1.7

En Pandas podemos trabajar con los nulos, los cuales son valores faltantes o información perdida.

In [71]:
semana = pd.date_range(start = "2024-04-08", end = "2024-04-14")

df_resumen_ventas = pd.DataFrame(
    data = {
        "clientes": [10, np.nan, 12, 16, 20, np.nan, 14],
        "pedidos": [4, 2, 14, 10, 1, 10, 12],
        "ingresos": [np.nan, 20000, 4500, 7000, np.nan, 5900, 12000]
    },
    index = semana)

df_resumen_ventas

Unnamed: 0,clientes,pedidos,ingresos
2024-04-08,10.0,4,
2024-04-09,,2,20000.0
2024-04-10,12.0,14,4500.0
2024-04-11,16.0,10,7000.0
2024-04-12,20.0,1,
2024-04-13,,10,5900.0
2024-04-14,14.0,12,12000.0


In [72]:
#Vemos que valores son nulos
df_resumen_ventas.isnull()

Unnamed: 0,clientes,pedidos,ingresos
2024-04-08,False,False,True
2024-04-09,True,False,False
2024-04-10,False,False,False
2024-04-11,False,False,False
2024-04-12,False,False,True
2024-04-13,True,False,False
2024-04-14,False,False,False


In [73]:
#Calculo cuantas filas contienen nulos
df_resumen_ventas.isnull().sum()

clientes    2
pedidos     0
ingresos    2
dtype: int64

In [74]:
#Deja solo las filas sin nulos
df_resumen_ventas.dropna()

Unnamed: 0,clientes,pedidos,ingresos
2024-04-10,12.0,14,4500.0
2024-04-11,16.0,10,7000.0
2024-04-14,14.0,12,12000.0


In [75]:
#Deja solo las columnas sin nulos
df_resumen_ventas.dropna(axis = 1)

Unnamed: 0,pedidos
2024-04-08,4
2024-04-09,2
2024-04-10,14
2024-04-11,10
2024-04-12,1
2024-04-13,10
2024-04-14,12


In [76]:
#Rellenar los valores nulos con 0
df_resumen_ventas.fillna(0)

Unnamed: 0,clientes,pedidos,ingresos
2024-04-08,10.0,4,0.0
2024-04-09,0.0,2,20000.0
2024-04-10,12.0,14,4500.0
2024-04-11,16.0,10,7000.0
2024-04-12,20.0,1,0.0
2024-04-13,0.0,10,5900.0
2024-04-14,14.0,12,12000.0


In [77]:
df_resumen_ventas.median()

clientes      14.0
pedidos       10.0
ingresos    7000.0
dtype: float64

In [78]:
#Reemplaza la media con la media de cada columna
df_resumen_ventas.fillna(df_resumen_ventas.median())

Unnamed: 0,clientes,pedidos,ingresos
2024-04-08,10.0,4,7000.0
2024-04-09,14.0,2,20000.0
2024-04-10,12.0,14,4500.0
2024-04-11,16.0,10,7000.0
2024-04-12,20.0,1,7000.0
2024-04-13,14.0,10,5900.0
2024-04-14,14.0,12,12000.0


In [79]:
#Se puede interpolar, aunque solo es recomendable cuando matemáticamente la operación tiene sentido
df_resumen_ventas.interpolate()

Unnamed: 0,clientes,pedidos,ingresos
2024-04-08,10.0,4,
2024-04-09,11.0,2,20000.0
2024-04-10,12.0,14,4500.0
2024-04-11,16.0,10,7000.0
2024-04-12,20.0,1,6450.0
2024-04-13,17.0,10,5900.0
2024-04-14,14.0,12,12000.0
