## Analisis con Pandas y Kaggle (Core)
El objetivo de esta actividad es poner en práctica todos los conocimientos adquiridos sobre Pandas a través del análisis completo de un dataset. Los estudiantes deben aplicar técnicas de carga, exploración, limpieza, transformación, y agregación de datos para extraer insights valiosos. La actividad no incluye visualización de datos, enfocándose únicamente en el análisis y manipulación de datos con Pandas.

### Instrucciones
### Preparación del Entorno
    - Asegúrate de tener instalado Pandas en tu entorno de trabajo.
    - Descarga el archivo dataset.csv desde Kaggle. Elige un dataset que te interese y que no incluya visualización de datos. Algunas sugerencias pueden ser datasets relacionados con ventas, compras, productos, etc.
### Cargar los Datos
    - Carga el archivo CSV en un DataFrame de Pandas.
    - Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.

In [None]:
import pandas as pd

# Cargar datos desde un archivo CSV
df = pd.read_csv('../data/index.csv')

# Ver las primeras
print("Primeras filas del DataFrame:")
print(df.head(10))

### Exploración Inicial de los Datos
    - Muestra las últimas 5 filas del DataFrame.
    - Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
    - Genera estadísticas descriptivas del DataFrame utilizando el método describe().

In [None]:
print("Últimas filas del DataFrame:")
print(df.tail(5))
print('-----------------------------------------', end='\n')

print("Información del DataFrame:")
print(df.info())
print('-----------------------------------------', end='\n')

print("Estadísticas descriptivas del DataFrame:")
print(df.describe())
print('-----------------------------------------', end='\n')

### Limpieza de Datos
    - Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.).
    - Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).
    - Elimina duplicados si los hay.

In [None]:
# Identificar valores nulos en todo el DataFrame
print(df.isnull().sum())
print('-----------------------------------------', end='\n')

# Eliminar filas con datos faltantes
df = df.dropna()
print(df.isnull().sum())
print('-----------------------------------------', end='\n')

# Eliminar filas con datos duplicados
df = df.drop_duplicates()
print('-----------------------------------------', end='\n')




### Transformación de Datos
    - Crea nuevas columnas basadas en operaciones con las columnas existentes (por ejemplo, calcular ingresos a partir de ventas y precios).
    - Normaliza o estandariza columnas si es necesario.
    - Clasifica los datos en categorías relevantes.

In [None]:
# Nueva columna
print(df.head(3))
df['Hora'] = df['datetime'].str[11:19]  # Extrae la hora en formato 'HH:MM:SS'
print(df.head(3))
print('-----------------------------------------', end='\n')


# Agrupar en categorias ('cash_type' y sumar 'money')
grouped_df = df.groupby('cash_type')['money'].sum().reset_index()
# Imprimir el DataFrame agrupado
print(grouped_df)
print('-----------------------------------------', end='\n')

### Análisis de Datos
    - Realiza agrupaciones de datos utilizando groupby para obtener insights específicos (por ejemplo, ventas por producto, ventas por región, etc.).
    - Aplica funciones de agregación como sum, mean, count, min, max, std, y var.
    - Utiliza el método apply para realizar operaciones más complejas y personalizadas.

In [None]:
# Agrupar en categorias ('cash_type' y sumar 'money')
print(df.head(3))
grouped_df = df.groupby('coffee_name')['money'].sum().reset_index()
# Imprimir el DataFrame agrupado
print(grouped_df)
print('-----------------------------------------', end='\n')

# Promedio de costo por producto
grouped_df = df.groupby('coffee_name')['money'].mean().reset_index()
# Imprimir el DataFrame agrupado
print(grouped_df)
print('-----------------------------------------', end='\n')

# Agregar un descuento de producto
# Función para calcular el 10%
def calcular_descuento(monto):
    return monto * 0.10
# Aplicar la función a la columna 'money'
df['descuento'] = df['money'].apply(calcular_descuento)
print(df.head(3))
print('-----------------------------------------', end='\n')




### Documentación
    - Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
    - Asegúrate de que el código sea legible y esté bien comentado.