<a href="https://colab.research.google.com/github/NatSama2/Bootcamp-Analisis-de-Datos/blob/main/Modulo-4/ejercicios_pandas_ventas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## <font color='blue'>**Introducción a Pandas**</font>

La librería **pandas** proporciona estructuras de datos y funciones de alto nivel que permiten trabajar con datos estructurados de manera muy cómoda. Estas estructuras y funciones son, normalmente, de las más usadas en análisis de datos.

<img src='https://drive.google.com/uc?export=view&id=1cc63iaYdq6YzJDdUWyWDFZ4YzeB2lBa2' width="300" align="center" style="margin-right: 20px">

Los principales objetos ofrecidos por pandas son el **dataframe**, estructura tabular bidimensional, y la **serie**, ambas basadas en el array multidimensional de NumPy. Aun cuando NumPy ofrece una muy conveniente y eficiente estructura para el almacenamiento de datos, el `ndarray`, éste presenta importantes limitaciones cuando, durante un análisis, se hace necesaria más flexibilidad a la hora de aplicar etiquetas a nuestros datos, gestionar valores inexistentes, realizar agrupaciones por etiquetas, etc., limitaciones que son resueltas por las estructuras de más alto nivel ofrecidas por pandas.

La documentación oficial está disponible en el sitio we oficial de <a href="https://pandas.pydata.org/">pandas</a>.

Esta librería se importa habitualmente con el alias `pd`:

In [2]:
## pip install pandas
import pandas as pd

## <font color='blue'>**Estructuras de datos en pandas: Series**</font>

Las **series** son estructuras unidimensionales que contenienen un array de datos (de cualquier tipo soportado por NumPy) y un array de etiquetas que van asociadas a los datos, llamado índice (*index* en inglés):

In [3]:
ventas = pd.Series([15, 12, 21, 38], index = ["Ene", "Feb", "Mar", "Abr"])
ventas

Unnamed: 0,0
Ene,15
Feb,12
Mar,21
Abr,38


Los elementos de la serie pueden extraerse con el nombre de la serie y, entre corchetes, el índice (posición) del elemento o su etiqueta (si la tiene):

In [4]:
ventas[0]

  ventas[0]


np.int64(15)

In [5]:
ventas["Ene"]

np.int64(15)

In [6]:
ventas = pd.Series([15, 12, 21, 38])
ventas

Unnamed: 0,0
0,15
1,12
2,21
3,38


Las etiquetas que forman el índice no necesitan ser diferentes. Pueden ser de cualquier tipo (numérico, textos, tuplas, etc.) siempre que sea posible aplicar la función *hash* sobre ellas.

**Nota: La función hash devuelve el valor hash del objeto cedido como parámetro -si tiene uno-. Los valores hash son enteros. Los valores numéricos que, al ser comparados, devuelven el valor True tienen el mismo valor hash asociado, incluso si son de distinto tipo.**

La relación entre una etiqueta y un valor se mantendrá, salvo que lo modifiquemos explícitamente. Esto quiere decir que, filtrar una serie o eliminar un elemento de la serie, por ejemplo, no va a modificar las etiquetas asignadas a cada valor.

Los índices de las etiquetas son inmutables, es decir, aun cuando es posible asignar a una serie un nuevo conjunto de etiquetas a través del atributo *index*, intentar modificar un único valor del index v a devolver un error.

Al igual que ocurre con el array NumPy, una serie pandas solo puede contener datos de un mismo tipo. En la imagen anterior puede apreciarse el índice a la izquierda ("Ene", "Feb" y "Mar") y los datos a la derecha (15, 12 y 21). El tipo de la serie, accesible a través del atributo `dtype`, coincide con el tipo de los datos que contiene:

In [7]:
ventas.dtype

dtype('int64')

Podemos acceder a los objetos que contienen los índices y los valores a través de los atributos `index` y `values` de la serie, respectivamente:

In [8]:
ventas.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
ventas.values

array([15, 12, 21, 38])

La serie tiene un atributo `name`, atributo que también encontramos en el índice. Una vez los hemos fijado, se muestran junto con la estructura al imprimir la serie:

In [10]:
ventas.name

In [11]:
ventas

Unnamed: 0,0
0,15
1,12
2,21
3,38


In [12]:
ventas.index.name = "Meses"
ventas

Unnamed: 0_level_0,0
Meses,Unnamed: 1_level_1
0,15
1,12
2,21
3,38


El atributo `axes` da acceso a una lista con los ejes de la serie (solo contiene un elemento al tratarse de una estructura unidimensional):

In [13]:
ventas.axes

[RangeIndex(start=0, stop=4, step=1, name='Meses')]

El atributo `shape` nos devuelve el tamaño de la serie:

In [14]:
ventas.shape

(4,)

El listado completo de los atributos de las series lo pueden encontrar en la documentación oficial de pandas, <a href="https://pandas.pydata.org/pandas-docs/stable/reference/series.html">aquí</a>.

## <font color='blue'>**Estructuras de datos en pandas: Dataframes**</font>

Los **dataframes** son estructuras tabulares de datos orientadas a columnas,
con etiquetas tanto en filas como en columnas:

In [15]:
ventas = pd.DataFrame({
    "Entradas": [41, 32, 56, 18],
    "Salidas": [17, 54, 6, 78],
    "Valoración": [66, 54, 49, 66],
    "Límite": ["No", "Si", "No", "No"],
    "Cambio": [1.43, 1.16, -0.67, 0.77]
    },
    index = ["Ene", "Feb", "Mar", "Abr"]
    )
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio
Ene,41,17,66,No,1.43
Feb,32,54,54,Si,1.16
Mar,56,6,49,No,-0.67
Abr,18,78,66,No,0.77


Para crear el dataframe anterior hemos usado el constructor **pd.DataFrame** y le hemos pasado un diccionario y una lista: las claves del diccionario serán los nombres de las columnas, sus valores, los valores de las columnas, y los valores de la lista se convertirán en las etiquetas de filas.

Una columna solo puede contener un tipo de datos, pero cada columna del dataframe puede contener un tipo de datos diferente. Podemos acceder a los tipos de las columnas con el atributo `dtypes`:

In [16]:
print(type(ventas), '\n')
ventas.dtypes

<class 'pandas.core.frame.DataFrame'> 



Unnamed: 0,0
Entradas,int64
Salidas,int64
Valoración,int64
Límite,object
Cambio,float64


Las etiquetas de filas y de columnas -los índices- son accesibles a través de los atributos `index` y `columns`, respectivamente:

In [17]:
ventas.index

Index(['Ene', 'Feb', 'Mar', 'Abr'], dtype='object')

In [18]:
ventas.columns

Index(['Entradas', 'Salidas', 'Valoración', 'Límite', 'Cambio'], dtype='object')

In [19]:
# En ambos casos podemos extraer los valores aplicando la función 'list'
list(ventas.columns)

['Entradas', 'Salidas', 'Valoración', 'Límite', 'Cambio']

La nomenclatura usada por pandas puede resultar un tanto confusa en lo que se refiere a los índices: tanto la estructura que contiene las etiquetas de filas como la que contiene las etiquetas de columnas son objetos de tipo *Index* (mayúscula), pero, como se ha comentado, el índice de filas se denomina también *index* (minúsculas), y el de columna, *columns*.

Además, el nombre de "indice" se aplica normalmente a la referencia de un dato en una estructura según su posición. Por ejemplo, en la lista $m = ["a", "b"]$, el índice del primer elemento es el número o valor que, añadido entre corchetes tras el nombre de la lista, nos permite acceder al elemento. Así, el índice del elemento "a" en la lista mencionada es 0, y el índice del elemento "b" es 1, lo que no es del todo coherente con el concepto de "índice" de una estructura pandas cuando lo especificamos explícitamente.

Para evitar esta confusión, a lo largo de esta documentación hablaremos normalmente de _"índices"_ (en plural) para referirnos a estas dos estructuras (de filas y columnas), de _"índice"_ (en singular) para referirnos al índice de etiquetas del eje vertical, y de _"índice de columnas"_ y de _"índice de filas"_ siempre que sea necesario remarcar a cuál estamos refiriéndonos.

El __eje 0__ es el correspondiente al índice de filas (eje vertical) y el __eje 1__ al índice de columnas (eje horizontal). Como puede verse en los ejemplos anteriores, ambos índices son de tipo _"objeto"_ (ya se ha comentado que, concretamente, son objetos de tipo Index).

El atributo axes devuelve una lista con los ejes de la estructura (dos, al tratarse de una estructura bidimensional):

In [20]:
ventas.index.name = "Meses"
ventas.columns.name = "Métricas"
ventas

Métricas,Entradas,Salidas,Valoración,Límite,Cambio
Meses,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ene,41,17,66,No,1.43
Feb,32,54,54,Si,1.16
Mar,56,6,49,No,-0.67
Abr,18,78,66,No,0.77


De forma semejante a como ocurría con las series, el atributo `values` de un dataframe nos permite acceder a los valores del dataframe, con formato `array` NumPy 2d.

In [21]:
ventas.values

array([[41, 17, 66, 'No', 1.43],
       [32, 54, 54, 'Si', 1.16],
       [56, 6, 49, 'No', -0.67],
       [18, 78, 66, 'No', 0.77]], dtype=object)

Este array tendrá un tipo u otro en función de los tipos de las columnas del dataframe, acomodándose de forma que englobe a todos ellos.

Y un dataframe también tiene un atributo `shape` que nos informa de su dimensionalidad y del número de elementos en cada dimensión. Podemos ver en el siguiente ejemplo que el dataframe ventas tiene 4 filas y 5 columnas:

In [22]:
ventas.shape

(4, 5)

Información adicional sobre los dataframes en la página de la documentación oficial de pandas, <a href="https://pandas.pydata.org/pandas-docs/stable/reference/frame.html">aquí</a>.

# 🧾 Ejercicios con Pandas en Python: Análisis de Ventas

Este notebook contiene 20 ejercicios con sus respectivas soluciones utilizando la librería **Pandas** en Python, con un pequeño dataset de ventas. El objetivo es practicar tareas comunes de análisis de datos.

Primero, cargamos el dataset:


In [23]:
import pandas as pd

# Cargar el dataset
ventas = pd.read_csv('dataset_ventas.csv')
ventas

Unnamed: 0,Fecha,Vendedor,Producto,Unidades,PrecioUnitario,TotalVenta
0,2023-01-01,Ana,Laptop,3,1000,3000
1,2023-01-02,Luis,Tablet,5,500,2500
2,2023-01-03,Pedro,Laptop,2,1000,2000
3,2023-01-04,Ana,Monitor,1,300,300
4,2023-01-05,Luis,Tablet,4,500,2000
5,2023-01-06,Pedro,Laptop,6,1000,6000
6,2023-01-07,Ana,Monitor,3,300,900
7,2023-01-08,Luis,Tablet,2,500,1000
8,2023-01-09,Pedro,Monitor,1,300,300
9,2023-01-10,Ana,Laptop,7,1000,7000


### Ejercicio 1: 1. Mostrar las primeras 5 filas del DataFrame

In [24]:
ventas.head()

Unnamed: 0,Fecha,Vendedor,Producto,Unidades,PrecioUnitario,TotalVenta
0,2023-01-01,Ana,Laptop,3,1000,3000
1,2023-01-02,Luis,Tablet,5,500,2500
2,2023-01-03,Pedro,Laptop,2,1000,2000
3,2023-01-04,Ana,Monitor,1,300,300
4,2023-01-05,Luis,Tablet,4,500,2000


### Ejercicio 2: 2. Mostrar el tipo de datos de cada columna

In [25]:
ventas.dtypes

Unnamed: 0,0
Fecha,object
Vendedor,object
Producto,object
Unidades,int64
PrecioUnitario,int64
TotalVenta,int64


### Ejercicio 3: 3. Calcular el total de unidades vendidas

In [26]:
ventas['Unidades'].sum()

np.int64(34)

### Ejercicio 4: 4. Calcular el total de ventas (columna 'TotalVenta')

In [27]:
ventas['TotalVenta'].sum()

np.int64(25000)

### Ejercicio 5: 5. Mostrar todas las ventas realizadas por 'Ana'

In [28]:
ventas[ventas['Vendedor'] == 'Ana']

Unnamed: 0,Fecha,Vendedor,Producto,Unidades,PrecioUnitario,TotalVenta
0,2023-01-01,Ana,Laptop,3,1000,3000
3,2023-01-04,Ana,Monitor,1,300,300
6,2023-01-07,Ana,Monitor,3,300,900
9,2023-01-10,Ana,Laptop,7,1000,7000


### Ejercicio 6: 6. Obtener el número de ventas por producto

In [29]:
ventas['Producto'].value_counts()

Unnamed: 0_level_0,count
Producto,Unnamed: 1_level_1
Laptop,4
Tablet,3
Monitor,3


### Ejercicio 7: 7. Calcular la venta promedio por producto

In [30]:
ventas.groupby('Producto')['TotalVenta'].mean()

Unnamed: 0_level_0,TotalVenta
Producto,Unnamed: 1_level_1
Laptop,4500.0
Monitor,500.0
Tablet,1833.333333


### Ejercicio 8: 8. Ordenar las ventas de mayor a menor por 'TotalVenta'

In [31]:
ventas.sort_values(by='TotalVenta', ascending=False)

Unnamed: 0,Fecha,Vendedor,Producto,Unidades,PrecioUnitario,TotalVenta
9,2023-01-10,Ana,Laptop,7,1000,7000
5,2023-01-06,Pedro,Laptop,6,1000,6000
0,2023-01-01,Ana,Laptop,3,1000,3000
1,2023-01-02,Luis,Tablet,5,500,2500
4,2023-01-05,Luis,Tablet,4,500,2000
2,2023-01-03,Pedro,Laptop,2,1000,2000
7,2023-01-08,Luis,Tablet,2,500,1000
6,2023-01-07,Ana,Monitor,3,300,900
3,2023-01-04,Ana,Monitor,1,300,300
8,2023-01-09,Pedro,Monitor,1,300,300


### Ejercicio 9: 9. Agregar una columna con el IVA (19%) aplicado a cada venta

In [32]:
ventas['IVA'] = ventas['TotalVenta'] * 0.19
ventas

Unnamed: 0,Fecha,Vendedor,Producto,Unidades,PrecioUnitario,TotalVenta,IVA
0,2023-01-01,Ana,Laptop,3,1000,3000,570.0
1,2023-01-02,Luis,Tablet,5,500,2500,475.0
2,2023-01-03,Pedro,Laptop,2,1000,2000,380.0
3,2023-01-04,Ana,Monitor,1,300,300,57.0
4,2023-01-05,Luis,Tablet,4,500,2000,380.0
5,2023-01-06,Pedro,Laptop,6,1000,6000,1140.0
6,2023-01-07,Ana,Monitor,3,300,900,171.0
7,2023-01-08,Luis,Tablet,2,500,1000,190.0
8,2023-01-09,Pedro,Monitor,1,300,300,57.0
9,2023-01-10,Ana,Laptop,7,1000,7000,1330.0


### Ejercicio 10: 10. Filtrar las ventas donde se vendieron más de 3 unidades

In [33]:
ventas[ventas['Unidades'] > 3]

Unnamed: 0,Fecha,Vendedor,Producto,Unidades,PrecioUnitario,TotalVenta,IVA
1,2023-01-02,Luis,Tablet,5,500,2500,475.0
4,2023-01-05,Luis,Tablet,4,500,2000,380.0
5,2023-01-06,Pedro,Laptop,6,1000,6000,1140.0
9,2023-01-10,Ana,Laptop,7,1000,7000,1330.0


### Ejercicio 11: 11. Reemplazar 'Tablet' por 'Tableta' en la columna Producto

In [34]:
ventas['Producto'] = ventas['Producto'].replace('Tablet', 'Tableta')
ventas

Unnamed: 0,Fecha,Vendedor,Producto,Unidades,PrecioUnitario,TotalVenta,IVA
0,2023-01-01,Ana,Laptop,3,1000,3000,570.0
1,2023-01-02,Luis,Tableta,5,500,2500,475.0
2,2023-01-03,Pedro,Laptop,2,1000,2000,380.0
3,2023-01-04,Ana,Monitor,1,300,300,57.0
4,2023-01-05,Luis,Tableta,4,500,2000,380.0
5,2023-01-06,Pedro,Laptop,6,1000,6000,1140.0
6,2023-01-07,Ana,Monitor,3,300,900,171.0
7,2023-01-08,Luis,Tableta,2,500,1000,190.0
8,2023-01-09,Pedro,Monitor,1,300,300,57.0
9,2023-01-10,Ana,Laptop,7,1000,7000,1330.0


### Ejercicio 12: 12. Agrupar por Vendedor y obtener la suma total de ventas

In [35]:
ventas.groupby('Vendedor')['TotalVenta'].sum()

Unnamed: 0_level_0,TotalVenta
Vendedor,Unnamed: 1_level_1
Ana,11200
Luis,5500
Pedro,8300


### Ejercicio 13: 13. Crear una nueva columna 'Descuento' con 10% del TotalVenta si se vendieron más de 5 unidades

In [36]:
ventas['Descuento'] = ventas.apply(lambda row: row['TotalVenta'] * 0.10 if row['Unidades'] > 5 else 0, axis=1)
ventas

Unnamed: 0,Fecha,Vendedor,Producto,Unidades,PrecioUnitario,TotalVenta,IVA,Descuento
0,2023-01-01,Ana,Laptop,3,1000,3000,570.0,0.0
1,2023-01-02,Luis,Tableta,5,500,2500,475.0,0.0
2,2023-01-03,Pedro,Laptop,2,1000,2000,380.0,0.0
3,2023-01-04,Ana,Monitor,1,300,300,57.0,0.0
4,2023-01-05,Luis,Tableta,4,500,2000,380.0,0.0
5,2023-01-06,Pedro,Laptop,6,1000,6000,1140.0,600.0
6,2023-01-07,Ana,Monitor,3,300,900,171.0,0.0
7,2023-01-08,Luis,Tableta,2,500,1000,190.0,0.0
8,2023-01-09,Pedro,Monitor,1,300,300,57.0,0.0
9,2023-01-10,Ana,Laptop,7,1000,7000,1330.0,700.0


### Ejercicio 14: 14. Calcular el precio promedio unitario por producto

In [37]:
ventas.groupby('Producto')['PrecioUnitario'].mean()

Unnamed: 0_level_0,PrecioUnitario
Producto,Unnamed: 1_level_1
Laptop,1000.0
Monitor,300.0
Tableta,500.0


### Ejercicio 15: 15. Filtrar las ventas realizadas en los primeros 5 días

In [38]:
ventas['Fecha'] = pd.to_datetime(ventas['Fecha'])
ventas[ventas['Fecha'] <= '2023-01-05']

Unnamed: 0,Fecha,Vendedor,Producto,Unidades,PrecioUnitario,TotalVenta,IVA,Descuento
0,2023-01-01,Ana,Laptop,3,1000,3000,570.0,0.0
1,2023-01-02,Luis,Tableta,5,500,2500,475.0,0.0
2,2023-01-03,Pedro,Laptop,2,1000,2000,380.0,0.0
3,2023-01-04,Ana,Monitor,1,300,300,57.0,0.0
4,2023-01-05,Luis,Tableta,4,500,2000,380.0,0.0


### Ejercicio 16: 16. Calcular el total vendido por día

In [39]:
ventas.groupby('Fecha')['TotalVenta'].sum()

Unnamed: 0_level_0,TotalVenta
Fecha,Unnamed: 1_level_1
2023-01-01,3000
2023-01-02,2500
2023-01-03,2000
2023-01-04,300
2023-01-05,2000
2023-01-06,6000
2023-01-07,900
2023-01-08,1000
2023-01-09,300
2023-01-10,7000


### Ejercicio 17: 17. Contar cuántas veces vendió cada vendedor

In [40]:
ventas['Vendedor'].value_counts()

Unnamed: 0_level_0,count
Vendedor,Unnamed: 1_level_1
Ana,4
Luis,3
Pedro,3


### Ejercicio 18: 18. Mostrar los 3 productos más vendidos en total de unidades

In [41]:
ventas.groupby('Producto')['Unidades'].sum().sort_values(ascending=False).head(3)

Unnamed: 0_level_0,Unidades
Producto,Unnamed: 1_level_1
Laptop,18
Tableta,11
Monitor,5


### Ejercicio 19: 19. Mostrar solo las columnas Vendedor, Producto y TotalVenta

In [42]:
ventas[['Vendedor', 'Producto', 'TotalVenta']]

Unnamed: 0,Vendedor,Producto,TotalVenta
0,Ana,Laptop,3000
1,Luis,Tableta,2500
2,Pedro,Laptop,2000
3,Ana,Monitor,300
4,Luis,Tableta,2000
5,Pedro,Laptop,6000
6,Ana,Monitor,900
7,Luis,Tableta,1000
8,Pedro,Monitor,300
9,Ana,Laptop,7000


### Ejercicio 20: 20. Guardar el DataFrame modificado a un nuevo archivo CSV

In [43]:
ventas.to_csv('ventas_modificado.csv', index=False)

### Ejercicio 21: 21. Agrupar por producto y vendedor, y calcular la suma total vendida

In [44]:
ventas.groupby(['Producto', 'Vendedor'])['Unidades'].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unidades
Producto,Vendedor,Unnamed: 2_level_1
Laptop,Ana,10
Laptop,Pedro,8
Monitor,Ana,4
Monitor,Pedro,1
Tableta,Luis,11


### Ejercicio 22: 22. Crear una tabla dinámica con Producto como índice y Vendedor como columnas

In [45]:
ventas.pivot_table(index='Producto', columns='Vendedor', values='Unidades', aggfunc='sum', fill_value=0)

Vendedor,Ana,Luis,Pedro
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Laptop,10,0,8
Monitor,4,0,1
Tableta,0,11,0


### Ejercicio 23: 23. Extraer el mes de la columna Fecha

In [46]:
ventas['Mes'] = ventas['Fecha'].dt.month
ventas

Unnamed: 0,Fecha,Vendedor,Producto,Unidades,PrecioUnitario,TotalVenta,IVA,Descuento,Mes
0,2023-01-01,Ana,Laptop,3,1000,3000,570.0,0.0,1
1,2023-01-02,Luis,Tableta,5,500,2500,475.0,0.0,1
2,2023-01-03,Pedro,Laptop,2,1000,2000,380.0,0.0,1
3,2023-01-04,Ana,Monitor,1,300,300,57.0,0.0,1
4,2023-01-05,Luis,Tableta,4,500,2000,380.0,0.0,1
5,2023-01-06,Pedro,Laptop,6,1000,6000,1140.0,600.0,1
6,2023-01-07,Ana,Monitor,3,300,900,171.0,0.0,1
7,2023-01-08,Luis,Tableta,2,500,1000,190.0,0.0,1
8,2023-01-09,Pedro,Monitor,1,300,300,57.0,0.0,1
9,2023-01-10,Ana,Laptop,7,1000,7000,1330.0,700.0,1


### Ejercicio 24: 24. Calcular la venta promedio diaria

In [47]:
ventas.groupby('Fecha')['TotalVenta'].mean()

Unnamed: 0_level_0,TotalVenta
Fecha,Unnamed: 1_level_1
2023-01-01,3000.0
2023-01-02,2500.0
2023-01-03,2000.0
2023-01-04,300.0
2023-01-05,2000.0
2023-01-06,6000.0
2023-01-07,900.0
2023-01-08,1000.0
2023-01-09,300.0
2023-01-10,7000.0


In [48]:
ventas2 = pd.read_excel('BasedeVentas.xlsx')
ventas2

Unnamed: 0,Id,Fecha,Producto,Vendedor,País,Costos,Ventas
0,1,2023-10-13,a,Juan,Chile,10295,17501.5
1,2,2025-06-03,b,Pedro,Argentina,10837,18422.9
2,3,2023-06-05,c,Diego,Brasil,12656,21515.2
3,4,2023-05-12,d,Jose,Bolivia,17317,29438.9
4,5,2023-03-13,a,Angel,Chile,18956,32225.2
...,...,...,...,...,...,...,...
9995,9996,2023-05-09,d,Mariana,Bolivia,14435,24539.5
9996,9997,2024-01-02,a,Juan,Chile,10968,18645.6
9997,9998,2023-04-26,b,Pedro,Argentina,16587,28197.9
9998,9999,2025-02-05,c,Diego,Brasil,14097,23964.9


In [49]:
## Crear columna de Mes
ventas2['Mes'] = ventas2['Fecha'].dt.month

## Crear columna año
ventas2['Año'] = ventas2['Fecha'].dt.year

## Crear columna trimestre
ventas2['Trimestre'] = ventas2['Fecha'].dt.quarter

ventas2.head()

Unnamed: 0,Id,Fecha,Producto,Vendedor,País,Costos,Ventas,Mes,Año,Trimestre
0,1,2023-10-13,a,Juan,Chile,10295,17501.5,10,2023,4
1,2,2025-06-03,b,Pedro,Argentina,10837,18422.9,6,2025,2
2,3,2023-06-05,c,Diego,Brasil,12656,21515.2,6,2023,2
3,4,2023-05-12,d,Jose,Bolivia,17317,29438.9,5,2023,2
4,5,2023-03-13,a,Angel,Chile,18956,32225.2,3,2023,1


In [50]:
## Ventas diarias Base de venas 2
ventas2.groupby('Fecha')['Ventas'].mean()

Unnamed: 0_level_0,Ventas
Fecha,Unnamed: 1_level_1
2022-10-11,25580.580000
2022-10-12,25528.127273
2022-10-13,22820.490909
2022-10-14,27782.707692
2022-10-15,26844.275000
...,...
2025-07-03,27149.637500
2025-07-04,26916.230769
2025-07-05,25337.650000
2025-07-06,25629.461538


In [51]:
## Agrupar por año
ventas2.groupby(['Año', 'Trimestre', 'Mes'])['Ventas'].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Ventas
Año,Trimestre,Mes,Unnamed: 3_level_1
2022,4,10,25638.79907
2022,4,11,25332.188065
2022,4,12,26003.544109
2023,1,1,25290.43322
2023,1,2,25508.605902
2023,1,3,25186.787879
2023,2,4,24980.213783
2023,2,5,24936.583923
2023,2,6,25510.693919
2023,3,7,25746.409687


In [57]:
table = ventas2.pivot_table(values ='Ventas', index=['Trimestre','Mes'], columns ='Año', aggfunc = "mean", fill_value = 0)
print(table)

Año                    2022          2023          2024          2025
Trimestre Mes                                                        
1         1        0.000000  25290.433220  25394.855000  25217.882524
          2        0.000000  25508.605902  25485.741935  25474.288278
          3        0.000000  25186.787879  25252.292675  25629.616556
2         4        0.000000  24980.213783  25703.678233  25376.059375
          5        0.000000  24936.583923  25891.064931  25786.940845
          6        0.000000  25510.693919  25834.347810  25120.243448
3         7        0.000000  25746.409687  25243.620130  26201.626582
          8        0.000000  24927.856169  25865.639432      0.000000
          9        0.000000  24914.993403  25326.643871      0.000000
4         10   25638.799070  25534.204886  25689.087622      0.000000
          11   25332.188065  26047.700984  25127.550784      0.000000
          12   26003.544109  25550.646535  25628.096104      0.000000


In [59]:
table2 = ventas2.pivot_table(values ='Ventas', index=['Año','Mes'], columns ='Trimestre', aggfunc = "mean", fill_value = 0)
print(table2)

Trimestre             1             2             3             4
Año  Mes                                                         
2022 10        0.000000      0.000000      0.000000  25638.799070
     11        0.000000      0.000000      0.000000  25332.188065
     12        0.000000      0.000000      0.000000  26003.544109
2023 1     25290.433220      0.000000      0.000000      0.000000
     2     25508.605902      0.000000      0.000000      0.000000
     3     25186.787879      0.000000      0.000000      0.000000
     4         0.000000  24980.213783      0.000000      0.000000
     5         0.000000  24936.583923      0.000000      0.000000
     6         0.000000  25510.693919      0.000000      0.000000
     7         0.000000      0.000000  25746.409687      0.000000
     8         0.000000      0.000000  24927.856169      0.000000
     9         0.000000      0.000000  24914.993403      0.000000
     10        0.000000      0.000000      0.000000  25534.204886
     11   

### Ejercicio 25: 25. Encontrar la fecha con mayores ventas totales

In [52]:
ventas.groupby('Fecha')['TotalVenta'].sum().idxmax()

Timestamp('2023-01-10 00:00:00')

### Ejercicio 26: 26. Unir el DataFrame de ventas con uno nuevo que contenga metas de ventas por vendedor

In [81]:
ventas3 = pd.read_csv('dataset_ventas.csv')
ventas3

Unnamed: 0,Fecha,Vendedor,Producto,Unidades,PrecioUnitario,TotalVenta
0,2023-01-01,Ana,Laptop,3,1000,3000
1,2023-01-02,Luis,Tablet,5,500,2500
2,2023-01-03,Pedro,Laptop,2,1000,2000
3,2023-01-04,Ana,Monitor,1,300,300
4,2023-01-05,Luis,Tablet,4,500,2000
5,2023-01-06,Pedro,Laptop,6,1000,6000
6,2023-01-07,Ana,Monitor,3,300,900
7,2023-01-08,Luis,Tablet,2,500,1000
8,2023-01-09,Pedro,Monitor,1,300,300
9,2023-01-10,Ana,Laptop,7,1000,7000


In [61]:
ventas = ventas.merge(ventas3, on='Vendedor', how='left')
ventas

Unnamed: 0,Fecha_x,Vendedor,Producto_x,Unidades_x,PrecioUnitario_x,TotalVenta_x,IVA,Descuento,Mes,Fecha_y,Producto_y,Unidades_y,PrecioUnitario_y,TotalVenta_y
0,2023-01-01,Ana,Laptop,3,1000,3000,570.0,0.0,1,2023-01-01,Laptop,3,1000,3000
1,2023-01-01,Ana,Laptop,3,1000,3000,570.0,0.0,1,2023-01-04,Monitor,1,300,300
2,2023-01-01,Ana,Laptop,3,1000,3000,570.0,0.0,1,2023-01-07,Monitor,3,300,900
3,2023-01-01,Ana,Laptop,3,1000,3000,570.0,0.0,1,2023-01-10,Laptop,7,1000,7000
4,2023-01-02,Luis,Tableta,5,500,2500,475.0,0.0,1,2023-01-02,Tablet,5,500,2500
5,2023-01-02,Luis,Tableta,5,500,2500,475.0,0.0,1,2023-01-05,Tablet,4,500,2000
6,2023-01-02,Luis,Tableta,5,500,2500,475.0,0.0,1,2023-01-08,Tablet,2,500,1000
7,2023-01-03,Pedro,Laptop,2,1000,2000,380.0,0.0,1,2023-01-03,Laptop,2,1000,2000
8,2023-01-03,Pedro,Laptop,2,1000,2000,380.0,0.0,1,2023-01-06,Laptop,6,1000,6000
9,2023-01-03,Pedro,Laptop,2,1000,2000,380.0,0.0,1,2023-01-09,Monitor,1,300,300


In [68]:
#  Unir el DataFrame de ventas con uno nuevo que contenga metas de ventas por vendedor
metas = pd.DataFrame({'Vendedor':['Ana', 'Luis', 'Pedro'], 'Metas':[1000, 1500, 2000]})
metas

Unnamed: 0,Vendedor,Metas
0,Ana,1000
1,Luis,1500
2,Pedro,2000


### Ejercicio 27: 27. Crear una columna booleana que indique si la venta superó la meta diaria promedio del vendedor

In [82]:
metas = pd.DataFrame({
    'Vendedor': ['Ana', 'Luis', 'Pedro'],
    'Metas': [10000, 7000, 8000]
})

In [86]:
ventas3 = ventas3.merge(metas, on='Vendedor')

In [87]:
ventas3

Unnamed: 0,Fecha,Vendedor,Producto,Unidades,PrecioUnitario,TotalVenta,Metas
0,2023-01-01,Ana,Laptop,3,1000,3000,10000
1,2023-01-02,Luis,Tablet,5,500,2500,7000
2,2023-01-03,Pedro,Laptop,2,1000,2000,8000
3,2023-01-04,Ana,Monitor,1,300,300,10000
4,2023-01-05,Luis,Tablet,4,500,2000,7000
5,2023-01-06,Pedro,Laptop,6,1000,6000,8000
6,2023-01-07,Ana,Monitor,3,300,900,10000
7,2023-01-08,Luis,Tablet,2,500,1000,7000
8,2023-01-09,Pedro,Monitor,1,300,300,8000
9,2023-01-10,Ana,Laptop,7,1000,7000,10000


In [88]:
ventas3['Diario'] = ventas3['TotalVenta'] > ventas3['Metas']
ventas3

Unnamed: 0,Fecha,Vendedor,Producto,Unidades,PrecioUnitario,TotalVenta,Metas,Diario
0,2023-01-01,Ana,Laptop,3,1000,3000,10000,False
1,2023-01-02,Luis,Tablet,5,500,2500,7000,False
2,2023-01-03,Pedro,Laptop,2,1000,2000,8000,False
3,2023-01-04,Ana,Monitor,1,300,300,10000,False
4,2023-01-05,Luis,Tablet,4,500,2000,7000,False
5,2023-01-06,Pedro,Laptop,6,1000,6000,8000,False
6,2023-01-07,Ana,Monitor,3,300,900,10000,False
7,2023-01-08,Luis,Tablet,2,500,1000,7000,False
8,2023-01-09,Pedro,Monitor,1,300,300,8000,False
9,2023-01-10,Ana,Laptop,7,1000,7000,10000,False


### Ejercicio 28: 28. Ordenar el DataFrame por Vendedor y Fecha

### Ejercicio 29: 29. Crear una columna acumulativa de ventas por vendedor

### Ejercicio 30: 30. Eliminar ventas donde el total sea menor a 500

### Ejercicio 31: 31. Encontrar el promedio de unidades vendidas por producto y vendedor

### Ejercicio 32: 32. Identificar cuántos productos únicos vendió cada vendedor

### Ejercicio 33: 33. Crear un resumen estadístico del DataFrame solo para columnas numéricas

### Ejercicio 34: 34. Reordenar las columnas para que TotalVenta aparezca primero

### Ejercicio 35: 35. Usar .query para seleccionar ventas de Ana mayores a $2000

### Ejercicio 36: 36. Crear un ranking de ventas por vendedor

### Ejercicio 37: 37. Calcular la media móvil de 2 días del TotalVenta

### Ejercicio 38: 38. Encontrar el producto con menor precio unitario promedio

### Ejercicio 39: 39. Agrupar por mes y calcular el total vendido

### Ejercicio 40: 40. Crear una columna que indique si la venta fue un lunes

### Ejercicio 41: 41. Crear una columna con la desviación estándar del TotalVenta por vendedor

### Ejercicio 42: 42. Detectar ventas atípicas con z-score > 2

### Ejercicio 43: 43. Aplicar una función personalizada con apply para clasificar ventas en baja/media/alta

### Ejercicio 44: 44. Pivotar el DataFrame para tener fechas como columnas

### Ejercicio 45: 45. Derretir el DataFrame anterior con melt

### Ejercicio 46: 46. Crear un MultiIndex con Vendedor y Fecha

### Ejercicio 47: 47. Usar loc con MultiIndex para seleccionar datos de Pedro en una fecha específica

### Ejercicio 48: 48. Leer el CSV en fragmentos de 5 filas

### Ejercicio 49: 49. Calcular una agregación personalizada: suma + conteo en una sola función

### Ejercicio 50: 50. Guardar el resumen total por producto en un nuevo archivo CSV