# 1. Numpy y Pandas (limpieza, manipulación y transformación de datos)

## Numpy
* Es una librería fundamental para computación numérica en Python.
* Permite trabajar con arrays (vectores, matrices) de manera más eficicente que las listas nativas de Python.
* Se usa mucho para operaciones matemáticas, estadisticas y algebra lineal.
  Ejemplo: crear un array y calcular promedio

In [None]:
import numpy as np

arr = np.array([10,20,30,40])
print(arr.mean()) #promedio

## Pandas
* Es la librería más usada para análisis y manipulación de datos.
* se basa en dos estructuras principales:
  - Series -> columna de datos.
  - DataFrame -> tabla de datos (filas y columnas).

#### Funciones más importantes para la limpieza y manipulación:
1. Cargar datos: pd.read_csv(), pd.read_excel().
2. Exploración: .head(), .info(), .describe().
3. Selección: df['columna'], df.loc[], df.iloc[].
4. Filtrado: df[df['columna'] > 1000].
5. Manejo de valores nulos:
   * df.isnull().sum() -> contar nulos.
   * df.fillna(valor) -> reemplaza nulos.
   * df.dropna() -> eliminar filas con nulos.
6. Transformación:
   * Crear nuevas columnas: df['Nueva_columna] = ... .
   * Operaciones por grupo: df.groupby('Region)['TotalAmount'].sum().
   * Ordenar: df.sort_values(by='TotalAmount',ascending=False).

## Práctica
vamos a:
   * Cargar el dataset que creamos.
   * Explorar los datos.
   * Detectar y manejar valores nulos.
   * Hacer algunas transformaciones.

In [None]:
import pandas as pd
import numpy as np

# 1. Cargar el dataset
df = pd.read_excel('transacciones.xlsx')

In [None]:
# 2. Explorar los datos
print(df.head())    # primeras 10 filas
print(df.info())    # tipos de datos y nulos
print(df.describe())  # estadisticas numéricas

In [None]:
# 3. Detectar nulos
print(df.isnull().sum())

In [None]:
# 4. Manejo de nulos:

# llenar ToralAmount nulo con la media
df['TotalAmount'] = df['TotalAmount'].fillna(df['TotalAmount'].mean())

# Rellenar 'Region' con 'Desconocido'
df['Region'] = df['Region'].fillna('Desconocido')

# Rellenar 'Product' con 'Sin especificar'
df['Product'] = df['Product'].fillna('Sin especificar')

print(df.isnull().sum())

In [None]:
# 5. Crear nueva columna:

# precio promedio por unidad
df['UnitPrice'] = df['TotalAmount']/df['Quantity']

# Columna de validación: TotalAmount = Quantity * UnitPrice
df['CalcTotal'] = df['Quantity']*df['UnitPrice']
df['CheckTotal'] = np.isclose(df['CalcTotal'],df['TotalAmount'])

print(df.info())

In [None]:
# 6. Filtrar datos:

# las ventas donde la cantidad sea mayor a 5
ventas_cantidades_grandes = df[df['Quantity']>5]

# Transacciones con 'TotalAmount' mayores a 500
ventas_valores_grandes = df[df['TotalAmount']>500]

print('Ventas cantidades grandes\n',ventas_cantidades_grandes)
print('Ventas montos grandes\n',ventas_valores_grandes)

In [None]:
# 7. Agrupar datos:

# por región y calcular el total de ventas (suma de las ventas)
ventas_por_region = df.groupby('Region')['TotalAmount'].sum()

print('Ventas por region y valor total de ventas\n',ventas_por_region)

In [None]:
# 8. Agrupar y ordenar por producto (cantidad vendida total)
ventas_por_producto = df.groupby('Product')['Quantity'].sum().sort_values(ascending=False)

print('Ventas por Productos ordenados\n',ventas_por_producto)

## Ejercicio
con el dataset ventas.csv, realiza lo siguiente:
1. Explora los datos:
   * Revisa si hay valores nulos en Region y product.
   * Rellenalos con "Desconocido" y "Sin especificar".
2. Validación de cálculos:
   * Verifica que TotalAmount = Quantity * UnitPrice.
   * Crea una columna CheckTotal con True/False.
3. Filtros:
   * Filtra todas las ventas de la región "Norte" con monto mayor a 1000.
4. Agrupaciones:
   * Obten el top 3 de productos más vendidos por cantidad.
   * Calcula el ingreso total por región.
5. Análisis temporal:
   * Calcula la suma total de ventas por mes.
6. Extra Challenge:
   * ¿Cual es el día con mayor venta total?


In [None]:
# Excercise

# libraries
import numpy as np
import pandas as pd

In [None]:
# reading data
df = pd.read_csv('ventas.csv')


# Exploration
print(df.head())
print(df.info())
print(df.describe())

In [None]:
# checking null data
print(df.isnull().sum())

In [None]:
# Replace null data
df['Region'] = df['Region'].fillna("Desconocido")
df['Product'] = df['Product'].fillna("Sin especificar")

print(df.info())

In [None]:
# Checking data Amount = Quanity*UnitPrice
df['CheckTotal'] = np.isclose(df['TotalAmount'],df['Quantity']*df['UnitPrice'])

print(df.head(5))

In [None]:
#Filters
# group by region "Norte" and TotalAmount over 1000
norte_over_three_thousand = df[(df['Region']=='Norte') & (df['TotalAmount']>1000)]

print(norte_over_three_thousand)

In [None]:
# Groups
# top 3 most products sold by quantity
top_3_products_by_quantity = df.groupby('Product')['Quantity'].sum().sort_values(ascending=False).head(3)

print(top_3_products_by_quantity)

# Calculate total profits peer region
total_profits_peer_region = df.groupby('Product')['TotalAmount'].sum()

print(total_profits_peer_region)

In [None]:
# Temporal Analysis

# Calculate sum of total sales peer month
## transforming date in date type
df['Date']=pd.to_datetime(df['Date'])

## Calculating the sum of totals
sum_totals_peer_month = df.groupby(df['Date'].dt.month_name())['TotalAmount'].sum()


print(sum_totals_peer_month)



In [None]:
# Challenge
# day with more TotalAmount
day_with_more_TotalAmount = df.groupby(df['Date'].dt.day_name())['TotalAmount'].sum().sort_values(ascending=False).head(1)

print(day_with_more_TotalAmount)

# 2. Matplotlib y Seaborn (Visualización de datos)

## Matplotlib
* Es la librería base de visualización de datos en Python.
* Permite crear gráficos de líneas, barras, dispersión, histogramas, etc.
* Es muy flexible pero a veces requiere más código.

### Ejemplo

In [None]:
import matplotlib.pyplot as plt

plt.plot([1,2,3,4], [10,20,25,30])
plt.title('Ejemplo de línea')
plt.xlabel('Eje X')
plt.ylabel('Eje Y')
plt.show()

## Seaborn
* Está constituido sobre Matplotlib.
* Es más elegante y conciso.
* Incluye gráficos estadísticos listos (distribuciones, correlaciones, boxplots).

### Ejemplo

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

tips = sns.load_dataset('tips')
sns.barplot(x='day',y='total_bill',data=tips)
plt.show()

## Ejemplos prácticos con el dataset ```ventas.csv```

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv('ventas.csv')

#### Ejemplo 1: Ventas por Región (Grafico de Barras)

In [None]:
ventas_region = df.groupby('Region')['TotalAmount'].sum()

ventas_region.plot(kind='bar',figsize=(6,4), color='skyblue')
plt.title('Ventas totales por Región')
plt.ylabel('Monto total')
plt.show()

#### Ejemplo 2: Distribución de precios unitarios (histograma)

In [None]:
plt.hist(df['UnitPrice'],bins=20, color='purple',alpha=0.7)
plt.title("Distribución de Precios Unitarios")
plt.xlabel('Precio unitario')
plt.ylabel('Frecuencia')
plt.show()

#### Ejemplo 3: Ventas por producto (Seaborn)

In [None]:
sns.barplot(x='Product',y='TotalAmount',data=df,estimator=sum,ci=None)
plt.title('Ventas Totales por Producto')
plt.xticks(rotation=45)
plt.show()

#### Ejemplo 4: Relación entre cantidad y monto total (scatterplot)

In [None]:
sns.scatterplot(x='Quantity', y='TotalAmount',hue='Region', data=df,)
plt.title("Relación entre Cantidad y Monto")
plt.show()

## Ejercicio de Práctica
con el dataset ```ventas.csv```, realiza los siguientes gráficos:
1. Barras: Monto total de ventas por Región.
2. Linea temporal: Evolución de ventas diarias.
3. Boxplot: Distribución de precios unitarios (`UnitPrice`) por producto.
4. Scatterplot: Relación entre UnitPrice y TotalAmount.

- Bonus: Haz un heatmap de correlaciones entre `quantity`, `UnitPrice` y `TotalAmount`.

In [None]:
# Excersise

# Libraries
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# load data
df = pd.read_csv('ventas.csv')

In [None]:
# barplot: TotalAmount peer Región
sns.barplot(data=df, x='Region',y='TotalAmount',estimator=sum,errorbar=None)
plt.ylabel("Total Amount")
plt.title("Total Amount peer Región")
plt.show()

In [None]:
# temporal line: daily sales evolution
df['Date'] = pd.to_datetime(df['Date'])
daily_sales = df.groupby('Date')['TotalAmount'].sum().reset_index()
sns.lineplot(data=daily_sales, x='Date',y='TotalAmount')
plt.title("Daily Sales Evolution")
plt.ylabel('Total Amount')
plt.xlabel('Day')
plt.show()

In [None]:
# boxplot: unitary prices peer product distribution
sns.boxplot(data=df,x='Product',y='UnitPrice')
plt.title("Unitary Prices's Distribution Peer Product")
plt.ylabel('Unitary Price')
plt.show()

In [None]:
# Scatterplot: UnitPrice and TotalAmount Relation
sns.scatterplot(data=df, x='UnitPrice',y='TotalAmount')
plt.title("Unitary Prices and Total Amount Relation")
plt.xlabel("Unitary Price")
plt.ylabel("Total Amount")
plt.show()

In [None]:
# Bonus: correlation heatmap between Quantity, UnitPrice and TotalAmount
corr_matrix = df[['Quantity', 'UnitPrice', 'TotalAmount']].corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Heatmap')
plt.show()

# 3. Manejo de datos con fechas y horas (series de tiempo)
En ciencia de datos, trabajar con fechas y horas es fundamental proque muchos fenómenos son temporales (ventas diarias, clima, tráfico, etc.).
En Python, el manejo de fechas se hace principalmente con:
* `pandas.to_datetime()` -> convierte cadenas de texto a fechas.
* atributos de fecha (`.dt`) -> permiten extraer año, mes, día, hora, día de la semana, etc.
* Resampleo (`resample`) -> agrupa datos en intervalos de tiempo (diario, semanal, mensual).
* Series de tiempo -> se usan para analizar tendencias, estacionalidades y patrones.

## Ejemplo
cargamos el dataset `ventas_v2.csv`

In [None]:
import pandas as pd

df = pd.read_csv('ventas_v2.csv')

Convertir la columna "Date" a tipo fecha

In [None]:
df['Date']=pd.to_datetime(df['Date'])

#### Ejemplo 1: Extraer la información temporal

In [None]:
df['Year']= df['Date'].dt.year
df['Month']= df['Date'].dt.month
df['DayOfWeek'] = df['Date'].dt.day_name()

print(df[["Date","Year", "Month", "DayOfWeek"]].head())

#### Ejemplo 2: Ventas Diarias

In [None]:
ventas_diarias = df.groupby('Date')['TotalAmount'].sum()
print(ventas_diarias.head())

#### Ejemplo 3: Resampleo (agrupar por meses)

In [None]:
ventas_mensuales = df.resample("M", on='Date')["TotalAmount"].sum()
print(ventas_mensuales)

#### Ejemplo 5: Visualización de serie de tiempo

In [None]:
import matplotlib.pyplot as plt

ventas_diarias.plot(figsize=(10,4), marker="o")
plt.title("Evolución de ventas diarias")
plt.xlabel("Fecha")
plt.ylabel("Monto total")
plt.show()

## Ejercicio de práctica
Con tu dataset `ventas_v2.csv`, realiza lo siguiente:
1. Convierte la columna Date a formato fecha.
2. Calcula las ventas totales por día de la semana (ejemplo: lunes, martes,...).
3. Muestra las ventas mensuales (usando `resample`).
4. Grafíca en un line plot la evolución de las ventas diarias.
5. Bonus: Encuentra cuál fue el día con mayor venta total.


In [None]:
# Excercise

# Libraries
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# load the data
df = pd.read_csv('ventas_v2.csv')

In [None]:
# Trasform 'Date' column in date format
df['Date'] = pd.to_datetime(df['Date'])

In [None]:
# Calculate total sales peer weekday
total_sales_peer_day = df.groupby(df['Date'].dt.day_name())['TotalAmount'].sum()

print(total_sales_peer_day)

# ordering by day
weekday_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
total_sales_peer_day = df.groupby(pd.Categorical(df['Date'].dt.day_name(), categories=weekday_order, ordered=True))['TotalAmount'].sum()
print(total_sales_peer_day)

In [None]:
# Calculate monthly sales using resample
monthly_sales = df.resample("M",on='Date')['TotalAmount'].sum()

print(monthly_sales)

In [None]:
# Graphing a line plot daily sales evolution
daily_sales = df.groupby('Date')['TotalAmount'].sum()
sns.lineplot(data=daily_sales.reset_index(), x='Date', y='TotalAmount', marker='o')
plt.title("Daily Sales Evolution")
plt.xlabel("Date")
plt.ylabel("Total Amount")
plt.show()

In [None]:
# Bonus: what is the day that has more total sales?
day_with_more_sales = total_sales_peer_day.sort_values(ascending=False).head(1)

print(day_with_more_sales)

# other way
day_with_max_sales = df.groupby('Date')['TotalAmount'].sum().idxmax()
print(f"Day with highest sales: {day_with_max_sales}")

# 4. Lectura de diferentes formatos (CSV, Excel, SQL)
En Data Science, los datos pueden venir de múltiples fuentes. Python ofrece varias librerías para trabajar con ellos:

## 1. CSV (Comma Separate Values)
* Es el formato más común y ligero.
* Se trabaja con `pandas.read_csv('filename.csv')`.
* Muy usado para datasets pequeños y medianos.

## 2. Excel (.xlsx, .xls)
* Se trabaja con `pandas.read_excel('filename.xlsx/xls)`.
* Permite manejar hojas múltiples con el parámetro `sheet_name`.
* Necesita instalar librerías adicionales como `openpyxl`.

## 3. SQL (Bases de datos relacionales)
* Se trabaja con `pandas.read_sql('query',conexion)`.
* se conecta a bases de datos (PostgreSQL, MySQL, SQLite, etc.) usando `sqlalchemy` o `sqlite3`.
* Muy útil cuando los datos están en un servidor y cambian dinámicamente.


## Ejemplos

### Leer un CSV


In [None]:
import pandas as pd

# Leer archivos CSV
df_csv = pd.read_csv('ventas_v2.csv')

print(df_csv.head(3))

### Leer un Excel

In [None]:
# Leer archivo Excel (requiere openpyxl)
df_excel = pd.read_excel("transacciones.xlsx")

print(df_excel.head(5))

### Leer desde SQL (ejemplo SQLite)

In [None]:
import sqlite3

# Crear conexión con SQLite
conexion = sqlite3.connect("sales.db")

# Leer datos con una consulta SQL
df_sql = pd.read_sql("SELECT * FROM sales",conexion)

print(df_sql.head())

conexion.close()


## Ejercicio práctico
1. Lee el archivo `ventas_v2.csv`.
2. Guarda ese mismo dataset en formato Excel y vuelve a leerlo.
3. Crea una base de datos SQLite llamada `ventas.db` y guarda la tabla allí.
4. Haz una colsulta SQL que muestre solo las transacciones de la región Norte.

In [None]:
# Exercise

# Libraries
import pandas as pd
import sqlite3
from datetime import datetime, timedelta

In [None]:
# 1. read the csv file
df=pd.read_csv('ventas_v2.csv')
print(df.head(3))

In [None]:
# 2. Save the same file in excel format and read it
df.to_excel("ventas_v2_excel.xlsx",index=False,sheet_name='dataset')
df_excel=pd.read_excel('ventas_v2_excel.xlsx', sheet_name="dataset")
print(df_excel.head(3))

In [None]:
# 3. Create a sql database called 'ventas.db' and save the table

## Connect to SQLite database
conn = sqlite3.connect('ventas.db')

# Export to SQLite
df_excel.to_sql('ventas', conn, if_exists='replace', index=False)

# Close connection
conn.close()

In [None]:
# 4. SQL query where transaction were in North Region

connection = sqlite3.connect('ventas.db')

df_sql = pd.read_sql("SELECT * FROM ventas WHERE Region=='Norte'",connection)

print(df_sql.info())

# 4. Mini Proyecto
1. Cargar el dataset `supermarket_sales.csv`.
2. EDA básico:
   * Revisar valores nulos.
   * Estadísticas descriptivas.
   * Productos más vendidos.
   * Región con más ventas.
   * Tendencia de ventas mensuales.
3. Transformaciones:
   * Crear una columna `Year` a partir de `Date`.
   * Calcular ventas por categoría.
   * Exportar un CSV limpio para usar en Power BI.

- Herramientas sugeridas: `pandas`, `matplotlib` y `plotly`.

In [1]:
# Mini-Proyect

#Libraries
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [2]:
# 1. Load data
df = pd.read_csv("supermarket_sales.csv")
df['Date'] = pd.to_datetime(df['Date'],format='%Y-%m-%d')

In [None]:
# 2. EDA

## check the null data
print(df.isnull().sum())

In [None]:
# ## Descriptive Stadistics
print(df.describe())

In [None]:
## best-selling product

most_sold = df.groupby('Product')['TotalAmount'].sum().sort_values(ascending=False).head(1)

print(most_sold)

## Region with the most sales
best_region_sales = df.groupby('Region')['TotalAmount'].sum().sort_values(ascending=False).head(1)

print(best_region_sales)

In [None]:
## monthly sales trend
df['YearMonth'] = df['Date'].dt.to_period("M")
monthly_sales = df.groupby('YearMonth')['TotalAmount'].sum()

monthly_sales.plot(figsize=(10,5), kind='line', marker='o')
plt.title('Monthly Sales Trend')
plt.xlabel('Date - Month')
plt.ylabel('Total Amount')
plt.grid(True)
plt.show()

df.drop('YearMonth',axis=1)

In [3]:
# 3. Transformations

## Create a Year Column
df['Year'] = df['Date'].dt.year

print(df.head())

   TransactionID       Date Region     Store ProductCategory Product  \
0              1 2023-06-19    Sur  Tienda A         Lácteos   Leche   
1              2 2023-09-29   Este  Tienda C        Verduras    Papa   
2              3 2023-04-30  Norte  Tienda D          Snacks  Nachos   
3              4 2023-04-16  Oeste  Tienda D        Verduras    Papa   
4              5 2024-12-03  Oeste  Tienda B         Bebidas    Agua   

   Quantity  UnitPrice  TotalAmount  Year  
0         7      40.03       280.21  2023  
1        15      36.87       553.05  2023  
2         7      22.85       159.95  2023  
3        11      23.50       258.50  2023  
4         4       8.00        32.00  2024  


In [5]:
## Calculate sales by category
sales_by_category = df.groupby('ProductCategory')['TotalAmount'].sum()
print(sales_by_category)

ProductCategory
Bebidas     13638.50
Carnes      16624.55
Frutas      15892.40
Lácteos     17812.20
Snacks      15596.01
Verduras    13156.47
Name: TotalAmount, dtype: float64


In [6]:
## Export data to clean CSV file

df.to_csv('supermarket_sales_python.csv')