<a href="https://colab.research.google.com/github/NatSama2/Bootcamp-Analisis-de-Datos/blob/main/Modulo-4/ejercicios_pandas_ventas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## <font color='blue'>**Introducción a Pandas**</font>

La librería **pandas** proporciona estructuras de datos y funciones de alto nivel que permiten trabajar con datos estructurados de manera muy cómoda. Estas estructuras y funciones son, normalmente, de las más usadas en análisis de datos.

<img src='https://drive.google.com/uc?export=view&id=1cc63iaYdq6YzJDdUWyWDFZ4YzeB2lBa2' width="300" align="center" style="margin-right: 20px">

Los principales objetos ofrecidos por pandas son el **dataframe**, estructura tabular bidimensional, y la **serie**, ambas basadas en el array multidimensional de NumPy. Aun cuando NumPy ofrece una muy conveniente y eficiente estructura para el almacenamiento de datos, el `ndarray`, éste presenta importantes limitaciones cuando, durante un análisis, se hace necesaria más flexibilidad a la hora de aplicar etiquetas a nuestros datos, gestionar valores inexistentes, realizar agrupaciones por etiquetas, etc., limitaciones que son resueltas por las estructuras de más alto nivel ofrecidas por pandas.

La documentación oficial está disponible en el sitio we oficial de <a href="https://pandas.pydata.org/">pandas</a>.

Esta librería se importa habitualmente con el alias `pd`:

In [None]:
import pandas as pd

## <font color='blue'>**Estructuras de datos en pandas: Series**</font>

Las **series** son estructuras unidimensionales que contenienen un array de datos (de cualquier tipo soportado por NumPy) y un array de etiquetas que van asociadas a los datos, llamado índice (*index* en inglés):

In [None]:
ventas = pd.Series([15, 12, 21, 38], index = ["Ene", "Feb", "Mar", "Abr"])
ventas

Ene    15
Feb    12
Mar    21
Abr    38
dtype: int64

Los elementos de la serie pueden extraerse con el nombre de la serie y, entre corchetes, el índice (posición) del elemento o su etiqueta (si la tiene):

In [None]:
ventas[0]

15

In [None]:
ventas["Ene"]

15

In [None]:
ventas = pd.Series([15, 12, 21, 38])
ventas

0    15
1    12
2    21
3    38
dtype: int64

Las etiquetas que forman el índice no necesitan ser diferentes. Pueden ser de cualquier tipo (numérico, textos, tuplas, etc.) siempre que sea posible aplicar la función *hash* sobre ellas.

**Nota: La función hash devuelve el valor hash del objeto cedido como parámetro -si tiene uno-. Los valores hash son enteros. Los valores numéricos que, al ser comparados, devuelven el valor True tienen el mismo valor hash asociado, incluso si son de distinto tipo.**

La relación entre una etiqueta y un valor se mantendrá, salvo que lo modifiquemos explícitamente. Esto quiere decir que, filtrar una serie o eliminar un elemento de la serie, por ejemplo, no va a modificar las etiquetas asignadas a cada valor.

Los índices de las etiquetas son inmutables, es decir, aun cuando es posible asignar a una serie un nuevo conjunto de etiquetas a través del atributo *index*, intentar modificar un único valor del index v a devolver un error.

Al igual que ocurre con el array NumPy, una serie pandas solo puede contener datos de un mismo tipo. En la imagen anterior puede apreciarse el índice a la izquierda ("Ene", "Feb" y "Mar") y los datos a la derecha (15, 12 y 21). El tipo de la serie, accesible a través del atributo `dtype`, coincide con el tipo de los datos que contiene:

In [None]:
ventas.dtype

dtype('int64')

Podemos acceder a los objetos que contienen los índices y los valores a través de los atributos `index` y `values` de la serie, respectivamente:

In [None]:
ventas.index

RangeIndex(start=0, stop=4, step=1)

In [None]:
ventas.values

array([15, 12, 21, 38])

La serie tiene un atributo `name`, atributo que también encontramos en el índice. Una vez los hemos fijado, se muestran junto con la estructura al imprimir la serie:

In [None]:
ventas.name

In [None]:
ventas

0    15
1    12
2    21
3    38
dtype: int64

In [None]:
ventas.index.name = "Meses"
ventas

Meses
0    15
1    12
2    21
3    38
dtype: int64

El atributo `axes` da acceso a una lista con los ejes de la serie (solo contiene un elemento al tratarse de una estructura unidimensional):

In [None]:
ventas.axes

[RangeIndex(start=0, stop=4, step=1, name='Meses')]

El atributo `shape` nos devuelve el tamaño de la serie:

In [None]:
ventas.shape

(4,)

El listado completo de los atributos de las series lo pueden encontrar en la documentación oficial de pandas, <a href="https://pandas.pydata.org/pandas-docs/stable/reference/series.html">aquí</a>.

## <font color='blue'>**Estructuras de datos en pandas: Dataframes**</font>

Los **dataframes** son estructuras tabulares de datos orientadas a columnas,
con etiquetas tanto en filas como en columnas:

In [None]:
ventas = pd.DataFrame({
    "Entradas": [41, 32, 56, 18],
    "Salidas": [17, 54, 6, 78],
    "Valoración": [66, 54, 49, 66],
    "Límite": ["No", "Si", "No", "No"],
    "Cambio": [1.43, 1.16, -0.67, 0.77]
    },
    index = ["Ene", "Feb", "Mar", "Abr"]
    )
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio
Ene,41,17,66,No,1.43
Feb,32,54,54,Si,1.16
Mar,56,6,49,No,-0.67
Abr,18,78,66,No,0.77


Para crear el dataframe anterior hemos usado el constructor **pd.DataFrame** y le hemos pasado un diccionario y una lista: las claves del diccionario serán los nombres de las columnas, sus valores, los valores de las columnas, y los valores de la lista se convertirán en las etiquetas de filas.

Una columna solo puede contener un tipo de datos, pero cada columna del dataframe puede contener un tipo de datos diferente. Podemos acceder a los tipos de las columnas con el atributo `dtypes`:

In [None]:
print(type(ventas), '\n')
ventas.dtypes

<class 'pandas.core.frame.DataFrame'> 



Entradas        int64
Salidas         int64
Valoración      int64
Límite         object
Cambio        float64
dtype: object

Las etiquetas de filas y de columnas -los índices- son accesibles a través de los atributos `index` y `columns`, respectivamente:

In [None]:
ventas.index

Index(['Ene', 'Feb', 'Mar', 'Abr'], dtype='object')

In [None]:
ventas.columns

Index(['Entradas', 'Salidas', 'Valoración', 'Límite', 'Cambio'], dtype='object')

In [None]:
# En ambos casos podemos extraer los valores aplicando la función 'list'
list(ventas.columns)

['Entradas', 'Salidas', 'Valoración', 'Límite', 'Cambio']

La nomenclatura usada por pandas puede resultar un tanto confusa en lo que se refiere a los índices: tanto la estructura que contiene las etiquetas de filas como la que contiene las etiquetas de columnas son objetos de tipo *Index* (mayúscula), pero, como se ha comentado, el índice de filas se denomina también *index* (minúsculas), y el de columna, *columns*.

Además, el nombre de "indice" se aplica normalmente a la referencia de un dato en una estructura según su posición. Por ejemplo, en la lista $m = ["a", "b"]$, el índice del primer elemento es el número o valor que, añadido entre corchetes tras el nombre de la lista, nos permite acceder al elemento. Así, el índice del elemento "a" en la lista mencionada es 0, y el índice del elemento "b" es 1, lo que no es del todo coherente con el concepto de "índice" de una estructura pandas cuando lo especificamos explícitamente.

Para evitar esta confusión, a lo largo de esta documentación hablaremos normalmente de _"índices"_ (en plural) para referirnos a estas dos estructuras (de filas y columnas), de _"índice"_ (en singular) para referirnos al índice de etiquetas del eje vertical, y de _"índice de columnas"_ y de _"índice de filas"_ siempre que sea necesario remarcar a cuál estamos refiriéndonos.

El __eje 0__ es el correspondiente al índice de filas (eje vertical) y el __eje 1__ al índice de columnas (eje horizontal). Como puede verse en los ejemplos anteriores, ambos índices son de tipo _"objeto"_ (ya se ha comentado que, concretamente, son objetos de tipo Index).

El atributo axes devuelve una lista con los ejes de la estructura (dos, al tratarse de una estructura bidimensional):

In [None]:
ventas.index.name = "Meses"
ventas.columns.name = "Métricas"
ventas

Métricas,Entradas,Salidas,Valoración,Límite,Cambio
Meses,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ene,41,17,66,No,1.43
Feb,32,54,54,Si,1.16
Mar,56,6,49,No,-0.67
Abr,18,78,66,No,0.77


De forma semejante a como ocurría con las series, el atributo `values` de un dataframe nos permite acceder a los valores del dataframe, con formato `array` NumPy 2d.

In [None]:
ventas.values

array([[41, 17, 66, 'No', 1.43],
       [32, 54, 54, 'Si', 1.16],
       [56, 6, 49, 'No', -0.67],
       [18, 78, 66, 'No', 0.77]], dtype=object)

Este array tendrá un tipo u otro en función de los tipos de las columnas del dataframe, acomodándose de forma que englobe a todos ellos.

Y un dataframe también tiene un atributo `shape` que nos informa de su dimensionalidad y del número de elementos en cada dimensión. Podemos ver en el siguiente ejemplo que el dataframe ventas tiene 4 filas y 5 columnas:

In [None]:
ventas.shape

(4, 5)

Información adicional sobre los dataframes en la página de la documentación oficial de pandas, <a href="https://pandas.pydata.org/pandas-docs/stable/reference/frame.html">aquí</a>.

# 🧾 Ejercicios con Pandas en Python: Análisis de Ventas

Este notebook contiene 20 ejercicios con sus respectivas soluciones utilizando la librería **Pandas** en Python, con un pequeño dataset de ventas. El objetivo es practicar tareas comunes de análisis de datos.

Primero, cargamos el dataset:


In [None]:
import pandas as pd

# Cargar el dataset
ventas = pd.read_csv('dataset_ventas.csv')
ventas

### Ejercicio 1: 1. Mostrar las primeras 5 filas del DataFrame

In [None]:
ventas.head()

### Ejercicio 2: 2. Mostrar el tipo de datos de cada columna

In [None]:
ventas.dtypes

### Ejercicio 3: 3. Calcular el total de unidades vendidas

In [None]:
ventas['Unidades'].sum()

### Ejercicio 4: 4. Calcular el total de ventas (columna 'TotalVenta')

In [None]:
ventas['TotalVenta'].sum()

### Ejercicio 5: 5. Mostrar todas las ventas realizadas por 'Ana'

In [None]:
ventas[ventas['Vendedor'] == 'Ana']

### Ejercicio 6: 6. Obtener el número de ventas por producto

In [None]:
ventas['Producto'].value_counts()

### Ejercicio 7: 7. Calcular la venta promedio por producto

In [None]:
ventas.groupby('Producto')['TotalVenta'].mean()

### Ejercicio 8: 8. Ordenar las ventas de mayor a menor por 'TotalVenta'

In [None]:
ventas.sort_values(by='TotalVenta', ascending=False)

### Ejercicio 9: 9. Agregar una columna con el IVA (19%) aplicado a cada venta

In [None]:
ventas['IVA'] = ventas['TotalVenta'] * 0.19
ventas

### Ejercicio 10: 10. Filtrar las ventas donde se vendieron más de 3 unidades

In [None]:
ventas[ventas['Unidades'] > 3]

### Ejercicio 11: 11. Reemplazar 'Tablet' por 'Tableta' en la columna Producto

In [None]:
ventas['Producto'] = ventas['Producto'].replace('Tablet', 'Tableta')
ventas

### Ejercicio 12: 12. Agrupar por Vendedor y obtener la suma total de ventas

In [None]:
ventas.groupby('Vendedor')['TotalVenta'].sum()

### Ejercicio 13: 13. Crear una nueva columna 'Descuento' con 10% del TotalVenta si se vendieron más de 5 unidades

In [None]:
ventas['Descuento'] = ventas.apply(lambda row: row['TotalVenta'] * 0.10 if row['Unidades'] > 5 else 0, axis=1)
ventas

### Ejercicio 14: 14. Calcular el precio promedio unitario por producto

In [None]:
ventas.groupby('Producto')['PrecioUnitario'].mean()

### Ejercicio 15: 15. Filtrar las ventas realizadas en los primeros 5 días

In [None]:
ventas['Fecha'] = pd.to_datetime(ventas['Fecha'])
ventas[ventas['Fecha'] <= '2023-01-05']

### Ejercicio 16: 16. Calcular el total vendido por día

In [None]:
ventas.groupby('Fecha')['TotalVenta'].sum()

### Ejercicio 17: 17. Contar cuántas veces vendió cada vendedor

In [None]:
ventas['Vendedor'].value_counts()

### Ejercicio 18: 18. Mostrar los 3 productos más vendidos en total de unidades

In [None]:
ventas.groupby('Producto')['Unidades'].sum().sort_values(ascending=False).head(3)

### Ejercicio 19: 19. Mostrar solo las columnas Vendedor, Producto y TotalVenta

In [None]:
ventas[['Vendedor', 'Producto', 'TotalVenta']]

### Ejercicio 20: 20. Guardar el DataFrame modificado a un nuevo archivo CSV

In [None]:
ventas.to_csv('ventas_modificado.csv', index=False)

### Ejercicio 21: 21. Agrupar por producto y vendedor, y calcular la suma total vendida

### Ejercicio 22: 22. Crear una tabla dinámica con Producto como índice y Vendedor como columnas

### Ejercicio 23: 23. Extraer el mes de la columna Fecha

### Ejercicio 24: 24. Calcular la venta promedio diaria

### Ejercicio 25: 25. Encontrar la fecha con mayores ventas totales

### Ejercicio 26: 26. Unir el DataFrame de ventas con uno nuevo que contenga metas de ventas por vendedor

### Ejercicio 27: 27. Crear una columna booleana que indique si la venta superó la meta diaria promedio del vendedor

### Ejercicio 28: 28. Ordenar el DataFrame por Vendedor y Fecha

### Ejercicio 29: 29. Crear una columna acumulativa de ventas por vendedor

### Ejercicio 30: 30. Eliminar ventas donde el total sea menor a 500

### Ejercicio 31: 31. Encontrar el promedio de unidades vendidas por producto y vendedor

### Ejercicio 32: 32. Identificar cuántos productos únicos vendió cada vendedor

### Ejercicio 33: 33. Crear un resumen estadístico del DataFrame solo para columnas numéricas

### Ejercicio 34: 34. Reordenar las columnas para que TotalVenta aparezca primero

### Ejercicio 35: 35. Usar .query para seleccionar ventas de Ana mayores a $2000

### Ejercicio 36: 36. Crear un ranking de ventas por vendedor

### Ejercicio 37: 37. Calcular la media móvil de 2 días del TotalVenta

### Ejercicio 38: 38. Encontrar el producto con menor precio unitario promedio

### Ejercicio 39: 39. Agrupar por mes y calcular el total vendido

### Ejercicio 40: 40. Crear una columna que indique si la venta fue un lunes

### Ejercicio 41: 41. Crear una columna con la desviación estándar del TotalVenta por vendedor

### Ejercicio 42: 42. Detectar ventas atípicas con z-score > 2

### Ejercicio 43: 43. Aplicar una función personalizada con apply para clasificar ventas en baja/media/alta

### Ejercicio 44: 44. Pivotar el DataFrame para tener fechas como columnas

### Ejercicio 45: 45. Derretir el DataFrame anterior con melt

### Ejercicio 46: 46. Crear un MultiIndex con Vendedor y Fecha

### Ejercicio 47: 47. Usar loc con MultiIndex para seleccionar datos de Pedro en una fecha específica

### Ejercicio 48: 48. Leer el CSV en fragmentos de 5 filas

### Ejercicio 49: 49. Calcular una agregación personalizada: suma + conteo en una sola función

### Ejercicio 50: 50. Guardar el resumen total por producto en un nuevo archivo CSV