### Analisis con Pandas y Kaggle (Core)

El objetivo de esta actividad es poner en práctica todos los conocimientos adquiridos sobre Pandas a través del análisis completo de un dataset. Los estudiantes deben aplicar técnicas de carga, exploración, limpieza, transformación, y agregación de datos para extraer insights valiosos. La actividad no incluye visualización de datos, enfocándose únicamente en el análisis y manipulación de datos con Pandas.

**Instrucciones**

**Preparación del Entorno**

Asegúrate de tener instalado Pandas en tu entorno de trabajo.

Descarga el archivo dataset.csv desde Kaggle. Elige un dataset que te interese y que no incluya visualización de datos. Algunas sugerencias pueden ser datasets relacionados con ventas, compras, productos, etc.

In [1]:
import pandas as pd

# Especificar la ruta del archivo CSV
archivo_csv = '../data/Balaji_Fast_Food_Sales.csv'

# Cargar el archivo CSV en un DataFrame
try:
    df = pd.read_csv(archivo_csv)
    
    # Mostrar las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente
    print(df.head(10))

except FileNotFoundError:
    print(f"El archivo no fue encontrado en la ruta {archivo_csv}. Verifica que la ruta y el archivo sean correctos.")
except Exception as e:
    print(f"Ocurrió un error al intentar cargar el archivo: {e}")



   order_id        date        item_name  item_type  item_price  quantity  \
0         1  07-03-2022         Aalopuri   Fastfood          20        13   
1         2   8/23/2022          Vadapav   Fastfood          20        15   
2         3  11/20/2022          Vadapav   Fastfood          20         1   
3         4  02-03-2023  Sugarcane juice  Beverages          25         6   
4         5  10-02-2022  Sugarcane juice  Beverages          25         8   
5         6  11/14/2022          Vadapav   Fastfood          20        10   
6         7  05-03-2022  Sugarcane juice  Beverages          25         9   
7         8  12/22/2022         Panipuri   Fastfood          20        14   
8         9  06-10-2022         Panipuri   Fastfood          20         1   
9        10   9/16/2022         Panipuri   Fastfood          20         5   

   transaction_amount transaction_type received_by time_of_sale  
0                 260              NaN         Mr.        Night  
1                 30

In [2]:
print(df.info)
print(df.describe())

<bound method DataFrame.info of      order_id        date        item_name  item_type  item_price  quantity  \
0           1  07-03-2022         Aalopuri   Fastfood          20        13   
1           2   8/23/2022          Vadapav   Fastfood          20        15   
2           3  11/20/2022          Vadapav   Fastfood          20         1   
3           4  02-03-2023  Sugarcane juice  Beverages          25         6   
4           5  10-02-2022  Sugarcane juice  Beverages          25         8   
..        ...         ...              ...        ...         ...       ...   
995       996   3/19/2023          Frankie   Fastfood          50        10   
996       997   9/20/2022         Sandwich   Fastfood          60         7   
997       998   1/26/2023         Sandwich   Fastfood          60        13   
998       999   8/27/2022         Panipuri   Fastfood          20         5   
999      1000   5/29/2022         Aalopuri   Fastfood          20         3   

     transaction_am

**Exploración Inicial de los Datos**

Muestra las últimas 5 filas del DataFrame.

Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.

Genera estadísticas descriptivas del DataFrame utilizando el método describe().


In [3]:
# Mostrar las últimas 5 filas del DataFrame
print("Últimas 5 filas del DataFrame:")
print(df.tail())

# Obtener información general del DataFrame
print("\nInformación general del DataFrame:")
df.info()

# Generar estadísticas descriptivas del DataFrame
print("\nEstadísticas descriptivas del DataFrame:")
print(df.describe())

Últimas 5 filas del DataFrame:
     order_id       date item_name item_type  item_price  quantity  \
995       996  3/19/2023   Frankie  Fastfood          50        10   
996       997  9/20/2022  Sandwich  Fastfood          60         7   
997       998  1/26/2023  Sandwich  Fastfood          60        13   
998       999  8/27/2022  Panipuri  Fastfood          20         5   
999      1000  5/29/2022  Aalopuri  Fastfood          20         3   

     transaction_amount transaction_type received_by time_of_sale  
995                 500              NaN        Mrs.      Evening  
996                 420              NaN         Mr.      Evening  
997                 780              NaN         Mr.      Evening  
998                 100              NaN        Mrs.    Afternoon  
999                  60           Online        Mrs.     Midnight  

Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns)

**Limpieza de Datos**

Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.).

Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).

Elimina duplicados si los hay.

In [7]:
# Identificar valores faltantes
print("Valores faltantes por columna:")
print(df.isnull().sum())

Valores faltantes por columna:
order_id                   0
date                       0
item_name                  0
item_type                  0
item_price                 0
quantity                   0
transaction_amount         0
transaction_type         107
received_by                0
time_of_sale               0
Total_Income               0
Normalized_Price           0
Standardized_Quantity      0
Price_Category             0
dtype: int64


# Eliminar filas con valores nulos en la columna 'CustomerNo'
df.dropna(subset=['CustomerNo'], inplace=True)

# Si 'transaction_type' es numérico, puedes rellenar con un valor como 0 o la mediana
df['transaction_type'].fillna(0, inplace=True)

# Si es de tipo cadena, podrías rellenar con 'Desconocido' o un valor similar
df['transaction_type'].fillna('Desconocido', inplace=True)


**Transformación de Datos**

Crea nuevas columnas basadas en operaciones con las columnas existentes (por ejemplo, calcular ingresos a partir de ventas y precios).

Normaliza o estandariza columnas si es necesario.

Clasifica los datos en categorías relevantes.

In [8]:
# 1. Crear nuevas columnas basadas en operaciones
# Supongamos que queremos calcular el ingreso total (Precio * Cantidad)
df['Total_Income'] = df['item_price'] * df['quantity']

# 2. Normalizar o estandarizar columnas si es necesario
# Por ejemplo, normalizar la columna 'Price' entre 0 y 1
df['Normalized_Price'] = (df['item_price'] - df['item_price'].min()) / (df['item_price'].max() - df['item_price'].min())

# O estandarizar la columna 'Quantity' (z-score)
df['Standardized_Quantity'] = (df['quantity'] - df['quantity'].mean()) / df['quantity'].std()

# 3. Clasificar los datos en categorías relevantes
# Supongamos que queremos clasificar los precios en categorías
bins = [0, 10, 20, 50, 100, float('inf')]  # Definimos los límites de los bins
labels = ['Very Low', 'Low', 'Medium', 'High', 'Very High']  # Etiquetas para las categorías
df['Price_Category'] = pd.cut(df['item_price'], bins=bins, labels=labels)

# Mostrar el DataFrame resultante
print(df.head(10))  # Muestra las primeras 10 filas para verificar las nuevas columnas

   order_id        date        item_name  item_type  item_price  quantity  \
0         1  07-03-2022         Aalopuri   Fastfood          20        13   
1         2   8/23/2022          Vadapav   Fastfood          20        15   
2         3  11/20/2022          Vadapav   Fastfood          20         1   
3         4  02-03-2023  Sugarcane juice  Beverages          25         6   
4         5  10-02-2022  Sugarcane juice  Beverages          25         8   
5         6  11/14/2022          Vadapav   Fastfood          20        10   
6         7  05-03-2022  Sugarcane juice  Beverages          25         9   
7         8  12/22/2022         Panipuri   Fastfood          20        14   
8         9  06-10-2022         Panipuri   Fastfood          20         1   
9        10   9/16/2022         Panipuri   Fastfood          20         5   

   transaction_amount transaction_type received_by time_of_sale  Total_Income  \
0                 260              NaN         Mr.        Night        

**Análisis de Datos**

Realiza agrupaciones de datos utilizando groupby para obtener insights específicos (por ejemplo, ventas por producto, ventas por región, etc.).

Aplica funciones de agregación como sum, mean, count, min, max, std, y var.

Utiliza el método apply para realizar operaciones más complejas y personalizadas.


In [None]:

# 1. Agrupación de ventas por producto
ventas_por_producto = df.groupby('ProductName').agg({
    'Total_Income': 'sum',  # Sumar ingresos totales por producto
    'quantity': 'sum',       # Sumar la cantidad vendida por producto
    'item_price': 'mean'          # Calcular el precio promedio por producto
}).reset_index()

print("Ventas por Producto:")
print(ventas_por_producto.sort_values(by='Total_Income', ascending=False).head(10))  # Muestra los 10 productos con más ventas

# 2. Agrupación de ventas por región (suponiendo que hay una columna 'Country')
ventas_por_region = df.groupby('Country').agg({
    'Total_Income': 'sum',  # Sumar ingresos totales por región
    'quantity': 'sum'        # Sumar la cantidad vendida por región
}).reset_index()

print("\nVentas por Región:")
print(ventas_por_region.sort_values(by='Total_Income', ascending=False).head(10))  # Muestra las 10 regiones con más ventas

# 3. Aplicar funciones personalizadas con apply
def custom_stats(group):
    return pd.Series({
        'total_sales': group['Total_Income'].sum(),
        'average_price': group['item_price'].mean(),
        'total_quantity': group['quantity'].sum(),
        'max_price': group['item_price'].max(),
        'min_price': group['item_price'].min()
    })

# Agrupando por producto y aplicando la función personalizada
stats_por_producto = df.groupby('ProductName').apply(custom_stats).reset_index()

print("\nEstadísticas Personalizadas por Producto:")
print(stats_por_producto.sort_values(by='total_sales', ascending=False).head(10))  # Muestra los 10 productos con más estadísticas

**Documentación**
Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
Asegúrate de que el código sea legible y esté bien comentado.

In [9]:
print(df.info)
print(df.describe())

<bound method DataFrame.info of      order_id        date        item_name  item_type  item_price  quantity  \
0           1  07-03-2022         Aalopuri   Fastfood          20        13   
1           2   8/23/2022          Vadapav   Fastfood          20        15   
2           3  11/20/2022          Vadapav   Fastfood          20         1   
3           4  02-03-2023  Sugarcane juice  Beverages          25         6   
4           5  10-02-2022  Sugarcane juice  Beverages          25         8   
..        ...         ...              ...        ...         ...       ...   
995       996   3/19/2023          Frankie   Fastfood          50        10   
996       997   9/20/2022         Sandwich   Fastfood          60         7   
997       998   1/26/2023         Sandwich   Fastfood          60        13   
998       999   8/27/2022         Panipuri   Fastfood          20         5   
999      1000   5/29/2022         Aalopuri   Fastfood          20         3   

     transaction_am