# Instalacion de paquetes
Instalar pip a travès del notebook

In [32]:
!pip install pandas



# Importación de paquetes
Se deben importar los paquetes al inicio del archivo

In [33]:
import pandas as pd
import numpy as np

# Numpy
NumPy (Numerical Python) es una biblioteca de Python ampliamente utilizada en ciencia e ingeniería. Proporciona una estructura de datos fundamental llamada ndarray (un arreglo N-dimensional homogéneo) y muchas funciones matemáticas optimizadas para operar sobre estos arreglos.

In [34]:
# Crear un arreglo de NumPy a partir de una lista
a = np.array([1, 2, 3, 4, 5, 6])
a

array([1, 2, 3, 4, 5, 6])

In [35]:
# Arreglo multidimensional de NumPy
b = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8],
              [9, 10, 11, 12]])
b


array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [36]:
# Imprimir el arreglo
print(a)

[1 2 3 4 5 6]


In [37]:
# Mostrar la forma del arreglo
# Esto es útil para entender la estructura del arreglo
# y cómo se organizan los datos en él.
# Por ejemplo, un arreglo unidimensional tendrá una forma como (n,), 
# mientras que un arreglo bidimensional tendrá una forma como (m, n).
# Aquí, 'a' es un arreglo unidimensional con 6 elementos.
print(a.shape)

(6,)


In [38]:
# Mostrar el primer elemento del arreglo
# Esto es útil para acceder a un valor específico en el arreglo.
# En este caso, estamos accediendo al primer elemento del arreglo 'a'.
# Recuerda que los índices en Python comienzan desde 0, por lo que a[0] es el primer elemento.
print(a[0])

1


In [39]:
# Modificar el primer elemento del arreglo
# Esto es útil si necesitas actualizar un valor específico en el arreglo.
# En este caso, estamos cambiando el primer elemento de 'a' a 10.
# Recuerda que los arreglos de NumPy son mutables, lo que significa que puedes cambiar sus valores.
a[0] = 10
print(a)

[10  2  3  4  5  6]


In [40]:
# Mostrar los primeros 3 elementos del arreglo
# Esto es útil para ver una parte del arreglo sin imprimir todo el contenido.
# En este caso, estamos mostrando los primeros 3 elementos del arreglo 'a'.
# Recuerda que puedes usar el slicing para acceder a un rango de elementos en un arreglo.
print(a[:3])

[10  2  3]


In [41]:
# Mostrar la forma del arreglo b
# En este caso, 'b' es un arreglo bidimensional con 3 filas y 4 columnas.
print(b.shape)

(3, 4)


In [42]:
# Acceder a un elemento específico en el arreglo b
# Por ejemplo, para acceder al elemento en la primera fila y segunda columna de 'b', usamos b[0, 1].
# Recuerda que los índices en Python comienzan desde 0.
print(b[0, 1])

2


In [43]:
# Guardar el arreglo a en un archivo .npy
# El formato .npy es un formato binario de NumPy que permite guardar arreglos de manera eficiente.
np.save('data.npy', a)

In [44]:
# Cargar el arreglo desde el archivo .npy
array = np.load('data.npy')
array

array([10,  2,  3,  4,  5,  6])

# Pandas

### Carga de datos

In [45]:
# Series de Pandas
# Es una estructura unidimensional similar a un arreglo de NumPy, pero con etiquetas (índices) para cada elemento.
# Esto permite un acceso más intuitivo a los datos, especialmente cuando se trabaja con datos etiquetados.
# Aquí, estamos creando una Serie de Pandas con valores y etiquetas personalizadas.
data = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
data

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [46]:
# Definición de un DataFrame a partir de un diccionario
# Un DataFrame es una estructura bidimensional similar a una tabla, donde cada columna puede tener un tipo de dato diferente.
# Aquí, estamos creando un DataFrame con varias columnas y datos de diferentes tipos.
data = {
    'Nombre': ['Rodolfo', 'Eva', 'María', 'Rosa'],
    'Edad': [46, 43, 9, 37],
    'Ciudad': ['Punta Arenas', 'Santiago', 'Osorno', 'Osorno'],
    'Salario': [1400000, 1800000, None, 4500000],
    'Departamento': ['IT', 'Ventas', None, 'Recursos Humanos']
}
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento
0,Rodolfo,46,Punta Arenas,1400000.0,IT
1,Eva,43,Santiago,1800000.0,Ventas
2,María,9,Osorno,,
3,Rosa,37,Osorno,4500000.0,Recursos Humanos


In [47]:
# Mostrar información general del DataFrame
# Esto es útil para entender la estructura del DataFrame, 
# incluyendo el número de filas y columnas, los tipos de datos de cada columna, 
# y si hay valores nulos en alguna de las columnas.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Nombre        4 non-null      object 
 1   Edad          4 non-null      int64  
 2   Ciudad        4 non-null      object 
 3   Salario       3 non-null      float64
 4   Departamento  3 non-null      object 
dtypes: float64(1), int64(1), object(3)
memory usage: 292.0+ bytes


In [48]:
# Comprobar si hay valores nulos en el DataFrame
df.isnull()

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,True,True
3,False,False,False,False,False


In [49]:
# Contar el número de valores nulos en cada columna del DataFrame
df.isnull().sum()

Nombre          0
Edad            0
Ciudad          0
Salario         1
Departamento    1
dtype: int64

In [50]:
# Suma de los valores nulos por columna, ordenados de mayor a menor
# Notar como cada funcion ejecutada se puede encadenar para realizar operaciones más complejas.
df.isnull().sum().sort_values(ascending=False)

Departamento    1
Salario         1
Nombre          0
Ciudad          0
Edad            0
dtype: int64

In [51]:
# Eliminar filas con valores nulos
# Esto es útil para limpiar el DataFrame y asegurarse de que no haya datos faltantes en las filas.
# Aquí, estamos eliminando todas las filas que tienen al menos un valor nulo.
df_cleaned = df.dropna()
df_cleaned

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento
0,Rodolfo,46,Punta Arenas,1400000.0,IT
1,Eva,43,Santiago,1800000.0,Ventas
3,Rosa,37,Osorno,4500000.0,Recursos Humanos


In [52]:
# Si quisieramos eliminar las columnas con valores nulos, podríamos usar:
# df_cleaned = df.dropna(axis=1)
# Esto eliminaría todas las columnas que tienen al menos un valor nulo.
# Sin embargo, en este caso, hemos optado por eliminar las filas con valores nulos.
df_cleaned = df.dropna(axis=1)
df_cleaned

Unnamed: 0,Nombre,Edad,Ciudad
0,Rodolfo,46,Punta Arenas
1,Eva,43,Santiago
2,María,9,Osorno
3,Rosa,37,Osorno


In [53]:
# Acceder a un elemento específico en el DataFrame
# Por ejemplo, para acceder al nombre de la persona en la segunda fila, usamos df.loc[1, "Nombre"].
# Esto es útil para obtener un valor específico en el DataFrame utilizando etiquetas de fila y columna.
df.loc[1, "Nombre"]

'Eva'

In [54]:
# Acceder a un subconjunto del DataFrame
# Por ejemplo, para acceder a las primeras 2 filas y las columnas 1 y 2, usamos df.iloc[0:2, 1:3].
# Esto es útil para obtener una parte específica del DataFrame utilizando índices de fila y columna.
df.iloc[0:2, 1:3]

Unnamed: 0,Edad,Ciudad
0,46,Punta Arenas
1,43,Santiago


In [55]:
# Agregar una nueva columna al DataFrame
# Todos los valores de la nueva columna serán "Columna".
df["nueva_columna"] = "Columna"

In [56]:
# Operaciones aritméticas en DataFrames
# Por ejemplo, para calcular el salario anual a partir del salario mensual, 
# multiplicamos la columna "Salario" por 12.
df["Salario_anual"] = df["Salario"] * 12
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento,nueva_columna,Salario_anual
0,Rodolfo,46,Punta Arenas,1400000.0,IT,Columna,16800000.0
1,Eva,43,Santiago,1800000.0,Ventas,Columna,21600000.0
2,María,9,Osorno,,,Columna,
3,Rosa,37,Osorno,4500000.0,Recursos Humanos,Columna,54000000.0


In [57]:
# Convertir los nombres a minúsculas
df["Nombre"] = df["Nombre"].str.lower()
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento,nueva_columna,Salario_anual
0,rodolfo,46,Punta Arenas,1400000.0,IT,Columna,16800000.0
1,eva,43,Santiago,1800000.0,Ventas,Columna,21600000.0
2,maría,9,Osorno,,,Columna,
3,rosa,37,Osorno,4500000.0,Recursos Humanos,Columna,54000000.0


In [58]:
# Renombrar columnas del DataFrame
# Deben definir los nombres originales y los nuevos nombres en un diccionario.
# Aquí, estamos renombrando "nueva_columna" a "columna" y "Salario_anual" a "SA".
# Notar que el parámetro inplace=True modifica el DataFrame original en 
# lugar de crear una copia.
df.rename(columns={"nueva_columna": "columna", "Salario_anual": "SA"}, inplace=True)
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento,columna,SA
0,rodolfo,46,Punta Arenas,1400000.0,IT,Columna,16800000.0
1,eva,43,Santiago,1800000.0,Ventas,Columna,21600000.0
2,maría,9,Osorno,,,Columna,
3,rosa,37,Osorno,4500000.0,Recursos Humanos,Columna,54000000.0


In [59]:
# Modificar un valor específico en el DataFrame
df.loc[0, "Edad"] = 1
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento,columna,SA
0,rodolfo,1,Punta Arenas,1400000.0,IT,Columna,16800000.0
1,eva,43,Santiago,1800000.0,Ventas,Columna,21600000.0
2,maría,9,Osorno,,,Columna,
3,rosa,37,Osorno,4500000.0,Recursos Humanos,Columna,54000000.0


In [None]:
# Comprobar si hay duplicados en el DataFrame
# Se verifica si hay filas duplicadas basándose en las columnas 
# "nueva_columna" y "Ciudad".
# En este caso Osorno aparece dos veces, por lo que se considera un duplicado.
# Y dado que, se entregan 2 columnas, se realiza una operación AND entre ellas.
# Esto significa que ambas condiciones deben ser verdaderas 
# para que una fila se considere duplicada.
df.duplicated(subset=["columna", "Ciudad"])

0    False
1    False
2    False
3     True
dtype: bool

In [None]:
# Eliminar filas duplicadas basándose en la columna "Ciudad"
df.drop_duplicates(subset=["Ciudad"])

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento,nueva_columna,Salario_anual
0,rodolfo,1,Punta Arenas,1400000.0,IT,Columna,16800000.0
1,eva,43,Santiago,1800000.0,Ventas,Columna,21600000.0
2,maría,9,Osorno,,,Columna,


In [64]:
# Obtener los nombres de las columnas del DataFrame como una lista
# Dado que df.columns devuelve un objeto Index,
# convertirlo a una lista (cast) puede ser útil para ciertas operaciones o manipulaciones.
lista = list(df.columns)
lista

['Nombre', 'Edad', 'Ciudad', 'Salario', 'Departamento', 'columna', 'SA']

In [65]:
# Filtrar el DataFrame para obtener solo las filas donde la edad es mayor a 18
df[df["Edad"] > 18]

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento,columna,SA
1,eva,43,Santiago,1800000.0,Ventas,Columna,21600000.0
3,rosa,37,Osorno,4500000.0,Recursos Humanos,Columna,54000000.0


In [66]:
# Con la función apply, podemos aplicar una función a cada elemento de una columna.
# Aquí, estamos creando una nueva columna "es_adulto" 
# que será True si la edad es mayor a 18 y False en caso contrario.
# Notar el uso de lambda para definir una función anónima.
# lambda puede ser util para funciones simples que se usan una sola vez.
# El modo de uso de lambda es:
# lambda argumentos: expresión
# donde "argumentos" son los parámetros de la función y "expresión" es el valor que retorna.
# En este caso, x representa cada valor en la columna "Edad", 
# y la expresión x > 18 evalúa si cada edad es mayor a 18.
df["es_adulto"] = df["Edad"].apply(lambda x: x > 18)
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento,columna,SA,es_adulto
0,rodolfo,1,Punta Arenas,1400000.0,IT,Columna,16800000.0,False
1,eva,43,Santiago,1800000.0,Ventas,Columna,21600000.0,True
2,maría,9,Osorno,,,Columna,,False
3,rosa,37,Osorno,4500000.0,Recursos Humanos,Columna,54000000.0,True


In [69]:
# Crear una nueva columna "categoria" basada en la edad
# Si la edad es menor a 18, la categoría será "Joven", 
# de lo contrario, será "Adulto".
# Notar que también podemos definir un if-else dentro de una lambda.
# utilizando el formato:
# valor_si_verdadero if condicion else valor_si_falso
# Esto permite asignar diferentes valores basados en una condición.
df["categoria"] = df["Edad"].apply(lambda x: "Joven" if x < 18 else "Adulto")
df

Unnamed: 0,Nombre,Edad,Ciudad,Salario,Departamento,columna,SA,es_adulto,categoria
0,rodolfo,1,Punta Arenas,1400000.0,IT,Columna,16800000.0,False,Joven
1,eva,43,Santiago,1800000.0,Ventas,Columna,21600000.0,True,Adulto
2,maría,9,Osorno,,,Columna,,False,Joven
3,rosa,37,Osorno,4500000.0,Recursos Humanos,Columna,54000000.0,True,Adulto


In [70]:
# Agrupar el DataFrame por la columna "Ciudad" y calcular el salario promedio en cada ciudad
df.groupby("Ciudad")["Salario"].mean()

Ciudad
Osorno          4500000.0
Punta Arenas    1400000.0
Santiago        1800000.0
Name: Salario, dtype: float64

In [72]:
# Leer un archivo CSV en un DataFrame
# Asegurarse de que la ruta del archivo sea correcta.
# Existen distintos formatos de archivos para almacenar datos tabulares.
# CSV: Comma Separated Values (valores separados por comas)
# TSV: Tab Separated Values (valores separados por tabulaciones)
personas = pd.read_csv("personas.csv") # comma separated values
# En el caso de un archivo TSV, se debe especificar el separador:
# personas = pd.read_csv("personas.tsv", sep="\t") # tab separated values
personas

Unnamed: 0,id,nombre,edad,correo_electronico,ingresos
0,1,Juan Pérez,34,juan.perez@example.com,700000
1,2,Ana Gómez,28,ana.gomez@example.com,560000
2,3,Pedro Martínez,45,pedro.martinez@example.com,1200000
3,4,Laura Fernández,31,laura.fernandez@example.com,1000000
4,5,María López,29,maria.lopez@example.com,2300000
5,6,Carlos Sánchez,40,carlos.sanchez@example.com,1300000
6,7,Isabel Ruiz,37,,800000
7,8,Antonio Morales,50,antonio.morales@example.com,800000
8,9,Lucía Martínez,26,lucia.martinez@example.com,1100000
9,10,Roberto Castro,33,,450000


In [73]:
orden = pd.read_csv("orden.csv")
orden

Unnamed: 0,persona_id,producto_id,fecha_compra,cantidad,metodo_pago
0,1,10,2024-08-16,2,efectivo
1,4,17,2024-06-26,1,transferencia
2,12,9,2024-04-17,1,debito
3,3,6,2024-07-02,3,transferencia
4,16,1,2024-06-30,1,debito
5,6,4,2024-07-01,1,transferencia
6,11,23,2024-07-04,2,debito
7,7,5,2024-02-04,1,transferencia
8,8,16,2024-01-17,1,debito
9,14,8,2024-06-23,2,debito


Mas información sobre merge, join, concatenate, etc. en: https://pandas.pydata.org/docs/user_guide/merging.html

In [74]:
# Merge es una operación que combina dos DataFrames basándose en una o más columnas 
# comunes.
# Aquí, estamos combinando los DataFrames "personas" y "orden"
# utilizando la columna "id" de "personas" y la columna "persona_id" de "orden".
# El parámetro how="inner" indica que solo se incluirán las filas que tienen
# valores coincidentes en ambas tablas.
# Existen otros tipos de merge, como "left", "right" y "outer",
# que permiten diferentes formas de combinar los datos.
new_df = pd.merge(personas, orden, left_on=["id"], right_on=["persona_id"], how="inner")
new_df.head(5)

Unnamed: 0,id,nombre,edad,correo_electronico,ingresos,persona_id,producto_id,fecha_compra,cantidad,metodo_pago
0,1,Juan Pérez,34,juan.perez@example.com,700000,1,10,2024-08-16,2,efectivo
1,1,Juan Pérez,34,juan.perez@example.com,700000,1,21,2024-06-29,1,debito
2,1,Juan Pérez,34,juan.perez@example.com,700000,1,7,2024-06-24,1,transferencia
3,1,Juan Pérez,34,juan.perez@example.com,700000,1,11,2024-06-23,1,efectivo
4,1,Juan Pérez,34,juan.perez@example.com,700000,1,10,2024-08-16,2,debito


In [77]:
# Convertir la columna "fecha_compra" a tipo datetime
# Esto puede ser útil ya que, de no hacer esto, las fechas
# se tratarían como cadenas de texto y no se podrían realizar operaciones de fecha 
# y hora.
pd.to_datetime(orden["fecha_compra"])

0    2024-08-16
1    2024-06-26
2    2024-04-17
3    2024-07-02
4    2024-06-30
5    2024-07-01
6    2024-07-04
7    2024-02-04
8    2024-01-17
9    2024-06-23
10   2024-03-07
11   2024-04-19
12   2024-07-03
13   2024-06-29
14   2024-06-25
15   2024-06-24
16   2024-06-28
17   2024-06-27
18   2024-06-25
19   2024-06-24
20   2024-06-23
21   2024-06-22
22   2024-08-16
23   2024-06-26
24   2024-04-17
25   2024-07-02
26   2024-06-30
27   2024-07-01
28   2024-07-04
29   2024-02-04
30   2024-01-17
31   2024-06-23
32   2024-03-07
33   2024-04-19
34   2024-07-03
35   2024-06-29
36   2024-06-25
37   2024-06-24
38   2024-06-28
39   2024-06-27
40   2024-06-25
41   2024-06-24
42   2024-06-23
43   2024-06-22
Name: fecha_compra, dtype: datetime64[ns]

# Ejercicios
Algunos ejercicios a libre disposición para soltar la mano

## 1. Filtrado y seleccion de datos
- Selecciona todas las personas que tienen más de 30 años.

In [79]:
personas_mayores_30 = personas[personas["edad"] > 30]
personas_mayores_30

Unnamed: 0,id,nombre,edad,correo_electronico,ingresos
0,1,Juan Pérez,34,juan.perez@example.com,700000
2,3,Pedro Martínez,45,pedro.martinez@example.com,1200000
3,4,Laura Fernández,31,laura.fernandez@example.com,1000000
5,6,Carlos Sánchez,40,carlos.sanchez@example.com,1300000
6,7,Isabel Ruiz,37,,800000
7,8,Antonio Morales,50,antonio.morales@example.com,800000
9,10,Roberto Castro,33,,450000
10,11,Elena Díaz,39,elena.diaz@example.com,900000
11,12,David Gómez,42,david.gomez@example.com,800000
13,14,José Fernández,48,,2300000


- Encuentra todos los productos con un descuento superior a 10%.

In [80]:
productos = pd.read_csv("productos.csv")
productos

Unnamed: 0,id,producto,precio,descuento_efectivo
0,1,Computador Combo 1,850000,0.15
1,2,Computador Combo 2,650000,0.15
2,3,Cámara fotográfica,450000,0.15
3,4,Teclado mecánico,120000,0.1
4,5,Monitor,200000,
5,6,Tablet,250000,0.15
6,7,Impresora,150000,
7,8,Auriculares,80000,
8,9,Smartwatch,180000,
9,10,Router,100000,


- Filtrar productos con descuento superior a 10%

In [81]:
productos_descuento_10 = productos[productos["descuento_efectivo"] > 0.10]
productos_descuento_10

Unnamed: 0,id,producto,precio,descuento_efectivo
0,1,Computador Combo 1,850000,0.15
1,2,Computador Combo 2,650000,0.15
2,3,Cámara fotográfica,450000,0.15
5,6,Tablet,250000,0.15



- Filtra las órdenes realizadas con el método de pago "debito".

In [82]:
ordenes_debito = orden[orden["metodo_pago"] == "debito"]
ordenes_debito

Unnamed: 0,persona_id,producto_id,fecha_compra,cantidad,metodo_pago
2,12,9,2024-04-17,1,debito
4,16,1,2024-06-30,1,debito
6,11,23,2024-07-04,2,debito
8,8,16,2024-01-17,1,debito
9,14,8,2024-06-23,2,debito
10,9,20,2024-03-07,1,debito
13,1,21,2024-06-29,1,debito
16,6,18,2024-06-28,1,debito
18,9,22,2024-06-25,1,debito
22,1,10,2024-08-16,2,debito


In [83]:
ordenes_debito = pd.merge(ordenes_debito, productos, left_on="producto_id", right_on="id", how="inner")
ordenes_debito

Unnamed: 0,persona_id,producto_id,fecha_compra,cantidad,metodo_pago,id,producto,precio,descuento_efectivo
0,12,9,2024-04-17,1,debito,9,Smartwatch,180000,
1,16,1,2024-06-30,1,debito,1,Computador Combo 1,850000,0.15
2,11,23,2024-07-04,2,debito,23,Soporte para laptop,8500,
3,8,16,2024-01-17,1,debito,16,Webcam,60000,
4,14,8,2024-06-23,2,debito,8,Auriculares,80000,
5,9,20,2024-03-07,1,debito,20,Cargador portátil,25000,
6,1,21,2024-06-29,1,debito,21,Altavoces Bluetooth,95000,
7,6,18,2024-06-28,1,debito,18,Disco duro externo,70000,
8,9,22,2024-06-25,1,debito,22,Protector de pantalla,15000,
9,1,10,2024-08-16,2,debito,10,Router,100000,


In [84]:
ordenes_debito = pd.merge(ordenes_debito, personas, left_on="persona_id", right_on="id", how="inner")
ordenes_debito

Unnamed: 0,persona_id,producto_id,fecha_compra,cantidad,metodo_pago,id_x,producto,precio,descuento_efectivo,id_y,nombre,edad,correo_electronico,ingresos
0,12,9,2024-04-17,1,debito,9,Smartwatch,180000,,12,David Gómez,42,david.gomez@example.com,800000
1,16,1,2024-06-30,1,debito,1,Computador Combo 1,850000,0.15,16,Marcelo Sánchez,36,,600000
2,11,23,2024-07-04,2,debito,23,Soporte para laptop,8500,,11,Elena Díaz,39,elena.diaz@example.com,900000
3,8,16,2024-01-17,1,debito,16,Webcam,60000,,8,Antonio Morales,50,antonio.morales@example.com,800000
4,14,8,2024-06-23,2,debito,8,Auriculares,80000,,14,José Fernández,48,,2300000
5,9,20,2024-03-07,1,debito,20,Cargador portátil,25000,,9,Lucía Martínez,26,lucia.martinez@example.com,1100000
6,1,21,2024-06-29,1,debito,21,Altavoces Bluetooth,95000,,1,Juan Pérez,34,juan.perez@example.com,700000
7,6,18,2024-06-28,1,debito,18,Disco duro externo,70000,,6,Carlos Sánchez,40,carlos.sanchez@example.com,1300000
8,9,22,2024-06-25,1,debito,22,Protector de pantalla,15000,,9,Lucía Martínez,26,lucia.martinez@example.com,1100000
9,1,10,2024-08-16,2,debito,10,Router,100000,,1,Juan Pérez,34,juan.perez@example.com,700000


In [85]:
ordenes_debito["monto_orden"] = ordenes_debito["cantidad"] * ordenes_debito["precio"]
ordenes_debito

Unnamed: 0,persona_id,producto_id,fecha_compra,cantidad,metodo_pago,id_x,producto,precio,descuento_efectivo,id_y,nombre,edad,correo_electronico,ingresos,monto_orden
0,12,9,2024-04-17,1,debito,9,Smartwatch,180000,,12,David Gómez,42,david.gomez@example.com,800000,180000
1,16,1,2024-06-30,1,debito,1,Computador Combo 1,850000,0.15,16,Marcelo Sánchez,36,,600000,850000
2,11,23,2024-07-04,2,debito,23,Soporte para laptop,8500,,11,Elena Díaz,39,elena.diaz@example.com,900000,17000
3,8,16,2024-01-17,1,debito,16,Webcam,60000,,8,Antonio Morales,50,antonio.morales@example.com,800000,60000
4,14,8,2024-06-23,2,debito,8,Auriculares,80000,,14,José Fernández,48,,2300000,160000
5,9,20,2024-03-07,1,debito,20,Cargador portátil,25000,,9,Lucía Martínez,26,lucia.martinez@example.com,1100000,25000
6,1,21,2024-06-29,1,debito,21,Altavoces Bluetooth,95000,,1,Juan Pérez,34,juan.perez@example.com,700000,95000
7,6,18,2024-06-28,1,debito,18,Disco duro externo,70000,,6,Carlos Sánchez,40,carlos.sanchez@example.com,1300000,70000
8,9,22,2024-06-25,1,debito,22,Protector de pantalla,15000,,9,Lucía Martínez,26,lucia.martinez@example.com,1100000,15000
9,1,10,2024-08-16,2,debito,10,Router,100000,,1,Juan Pérez,34,juan.perez@example.com,700000,200000


In [86]:
ordenes_debito[["nombre", "fecha_compra", "producto", "cantidad", "monto_orden"]]

Unnamed: 0,nombre,fecha_compra,producto,cantidad,monto_orden
0,David Gómez,2024-04-17,Smartwatch,1,180000
1,Marcelo Sánchez,2024-06-30,Computador Combo 1,1,850000
2,Elena Díaz,2024-07-04,Soporte para laptop,2,17000
3,Antonio Morales,2024-01-17,Webcam,1,60000
4,José Fernández,2024-06-23,Auriculares,2,160000
5,Lucía Martínez,2024-03-07,Cargador portátil,1,25000
6,Juan Pérez,2024-06-29,Altavoces Bluetooth,1,95000
7,Carlos Sánchez,2024-06-28,Disco duro externo,1,70000
8,Lucía Martínez,2024-06-25,Protector de pantalla,1,15000
9,Juan Pérez,2024-08-16,Router,2,200000


## 2. Analisis de duplicados y llenado de nulos
- Rellena los valores nulos de correo electrónico con el formato {nombre}.{apellido}@example.com

In [88]:
personas = pd.read_csv("personas.csv")
personas

Unnamed: 0,id,nombre,edad,correo_electronico,ingresos
0,1,Juan Pérez,34,juan.perez@example.com,700000
1,2,Ana Gómez,28,ana.gomez@example.com,560000
2,3,Pedro Martínez,45,pedro.martinez@example.com,1200000
3,4,Laura Fernández,31,laura.fernandez@example.com,1000000
4,5,María López,29,maria.lopez@example.com,2300000
5,6,Carlos Sánchez,40,carlos.sanchez@example.com,1300000
6,7,Isabel Ruiz,37,,800000
7,8,Antonio Morales,50,antonio.morales@example.com,800000
8,9,Lucía Martínez,26,lucia.martinez@example.com,1100000
9,10,Roberto Castro,33,,450000


In [89]:
def generar_correo(row, placeholder):
    if pd.isnull(row['correo_electronico']):
        partes = row['nombre'].split()
        nombre = partes[0].lower()
        apellido = partes[-1].lower()
        return f"{nombre}.{apellido}@{placeholder}.com"
    else:
        return row['correo_electronico']

personas['correo_electronico'] = personas.apply(lambda row: generar_correo(row, "hotmail"), axis=1)
personas

Unnamed: 0,id,nombre,edad,correo_electronico,ingresos
0,1,Juan Pérez,34,juan.perez@example.com,700000
1,2,Ana Gómez,28,ana.gomez@example.com,560000
2,3,Pedro Martínez,45,pedro.martinez@example.com,1200000
3,4,Laura Fernández,31,laura.fernandez@example.com,1000000
4,5,María López,29,maria.lopez@example.com,2300000
5,6,Carlos Sánchez,40,carlos.sanchez@example.com,1300000
6,7,Isabel Ruiz,37,isabel.ruiz@hotmail.com,800000
7,8,Antonio Morales,50,antonio.morales@example.com,800000
8,9,Lucía Martínez,26,lucia.martinez@example.com,1100000
9,10,Roberto Castro,33,roberto.castro@hotmail.com,450000


- Adicionalmente se solicita quitar las tildes

In [90]:
import unicodedata

def quitar_tildes(texto):
    return ''.join(
        c for c in unicodedata.normalize('NFD', texto)
        if unicodedata.category(c) != 'Mn'
    )

def generar_correo(row, placeholder):
    if pd.isnull(row['correo_electronico']):
        partes = row['nombre'].split()
        nombre = quitar_tildes(partes[0].lower())
        apellido = quitar_tildes(partes[-1].lower())
        return f"{nombre}.{apellido}@{placeholder}.com"
    else:
        return row['correo_electronico']

personas['correo_electronico'] = personas.apply(lambda row: generar_correo(row, "hotmail"), axis=1)
personas

Unnamed: 0,id,nombre,edad,correo_electronico,ingresos
0,1,Juan Pérez,34,juan.perez@example.com,700000
1,2,Ana Gómez,28,ana.gomez@example.com,560000
2,3,Pedro Martínez,45,pedro.martinez@example.com,1200000
3,4,Laura Fernández,31,laura.fernandez@example.com,1000000
4,5,María López,29,maria.lopez@example.com,2300000
5,6,Carlos Sánchez,40,carlos.sanchez@example.com,1300000
6,7,Isabel Ruiz,37,isabel.ruiz@hotmail.com,800000
7,8,Antonio Morales,50,antonio.morales@example.com,800000
8,9,Lucía Martínez,26,lucia.martinez@example.com,1100000
9,10,Roberto Castro,33,roberto.castro@hotmail.com,450000


## 3. Agrupación y Resumen de Datos
- Agrupa las órdenes por persona_id y calcula la suma de la cantidad comprada para cada persona.

In [91]:
orden_por_persona = orden.groupby("persona_id")["cantidad"].sum().sort_values(ascending=False)
orden_por_persona

persona_id
3     12
1     10
5      8
2      4
6      4
14     4
8      4
9      4
11     4
4      2
7      2
12     2
16     2
Name: cantidad, dtype: int64

In [92]:
personas_orden = pd.merge(personas, orden_por_persona, left_on="id", right_on="persona_id", how="inner")
personas_orden

Unnamed: 0,id,nombre,edad,correo_electronico,ingresos,cantidad
0,1,Juan Pérez,34,juan.perez@example.com,700000,10
1,2,Ana Gómez,28,ana.gomez@example.com,560000,4
2,3,Pedro Martínez,45,pedro.martinez@example.com,1200000,12
3,4,Laura Fernández,31,laura.fernandez@example.com,1000000,2
4,5,María López,29,maria.lopez@example.com,2300000,8
5,6,Carlos Sánchez,40,carlos.sanchez@example.com,1300000,4
6,7,Isabel Ruiz,37,isabel.ruiz@hotmail.com,800000,2
7,8,Antonio Morales,50,antonio.morales@example.com,800000,4
8,9,Lucía Martínez,26,lucia.martinez@example.com,1100000,4
9,11,Elena Díaz,39,elena.diaz@example.com,900000,4


- Une el dataset de orden con productos para agregar la información de precios y descuentos a las órdenes.

- Agrupa las órdenes por producto y calcula el total de ingresos por cada producto (considerando el precio,la cantidad comprada y su descuento).

## 4. Análisis de Fechas
- Calcula el tiempo transcurrido desde la primera compra de cada persona hasta la última.

## 5. Analisis descriptivo
- Obtenga los estadisticos básicos para la edad, ingresos y montos
- Obtenga la correlacion entre ingresos de las personas y el monto total de lo que ha comprado.
