## **Pandas para Ciencia de Datos II / Analisis con Pandas (Core)**

#### **Descripción**
### **Analisis con Pandas y Kaggle (Core)**

El objetivo de esta actividad es poner en práctica todos los conocimientos adquiridos sobre Pandas a través del análisis completo de un dataset. Los estudiantes deben aplicar técnicas de carga, exploración, limpieza, transformación, y agregación de datos para extraer insights valiosos. La actividad no incluye visualización de datos, enfocándose únicamente en el análisis y manipulación de datos con Pandas.

### **Instructiones**

#### **1. Preparación del Entorno**

* Asegúrate de tener instalado Pandas en tu entorno de trabajo.
* Descarga el archivo dataset.csv desde Kaggle. Elige un dataset que te interese y que no incluya visualización de datos. Algunas sugerencias pueden ser datasets relacionados con ventas, compras, productos, etc.

#### **2. Cargar los Datos**

* Carga el archivo CSV en un DataFrame de Pandas.
* Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.

In [1]:
# Importando librerias
import numpy as np
import pandas as pd

# Cargando el dataset
path = ('../data/retail_sales_dataset.csv')
df = pd.read_csv(path)

# Visualizando los primeros 10 registros
df.head(10)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200


#### **3. Exploración Inicial de los Datos**

* Muestra las últimas 5 filas del DataFrame.
* Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
* Genera estadísticas descriptivas del DataFrame utilizando el método describe().

In [2]:
# Visualizando los ultimos 5 registros
df.tail()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150
999,1000,2023-04-12,CUST1000,Male,47,Electronics,4,30,120


In [3]:
# Informacion del dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    1000 non-null   int64 
 1   Date              1000 non-null   object
 2   Customer ID       1000 non-null   object
 3   Gender            1000 non-null   object
 4   Age               1000 non-null   int64 
 5   Product Category  1000 non-null   object
 6   Quantity          1000 non-null   int64 
 7   Price per Unit    1000 non-null   int64 
 8   Total Amount      1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB


In [4]:
# Resumen de estadisticas
df.describe()

Unnamed: 0,Transaction ID,Age,Quantity,Price per Unit,Total Amount
count,1000.0,1000.0,1000.0,1000.0,1000.0
mean,500.5,41.392,2.514,179.89,456.0
std,288.819436,13.68143,1.132734,189.681356,559.997632
min,1.0,18.0,1.0,25.0,25.0
25%,250.75,29.0,1.0,30.0,60.0
50%,500.5,42.0,3.0,50.0,135.0
75%,750.25,53.0,4.0,300.0,900.0
max,1000.0,64.0,4.0,500.0,2000.0


#### **4. Limpieza de Datos**

* Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.).
* Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).
* Elimina duplicados si los hay.

In [5]:
# Identificar valores nulos
qsna=df.shape[0]-df.isnull().sum(axis=0)
qna=df.isnull().sum(axis=0)
ppna=round(100*(df.isnull().sum(axis=0)/df.shape[0]),2)
aux= {'datos sin NAs en q': qsna, 'Na en q': qna ,'Na en %': ppna}
na=pd.DataFrame(data=aux)
na.sort_values(by='Na en %',ascending=False)

Unnamed: 0,datos sin NAs en q,Na en q,Na en %
Transaction ID,1000,0,0.0
Date,1000,0,0.0
Customer ID,1000,0,0.0
Gender,1000,0,0.0
Age,1000,0,0.0
Product Category,1000,0,0.0
Quantity,1000,0,0.0
Price per Unit,1000,0,0.0
Total Amount,1000,0,0.0


In [6]:
# Tipos de datos
df.dtypes

Transaction ID       int64
Date                object
Customer ID         object
Gender              object
Age                  int64
Product Category    object
Quantity             int64
Price per Unit       int64
Total Amount         int64
dtype: object

In [7]:
# Convertir los tipos de datos
df['Date'] = pd.to_datetime(df['Date'])  
df['Customer ID'] = df['Customer ID'].astype('string') 
df['Gender'] = df['Gender'].astype('category')  
df['Product Category'] = df['Product Category'].astype('category')  

df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Transaction ID    1000 non-null   int64         
 1   Date              1000 non-null   datetime64[ns]
 2   Customer ID       1000 non-null   string        
 3   Gender            1000 non-null   category      
 4   Age               1000 non-null   int64         
 5   Product Category  1000 non-null   category      
 6   Quantity          1000 non-null   int64         
 7   Price per Unit    1000 non-null   int64         
 8   Total Amount      1000 non-null   int64         
dtypes: category(2), datetime64[ns](1), int64(5), string(1)
memory usage: 57.0 KB


In [8]:
# Identificar duplicados
duplicados = df.duplicated()
# Contar el número de duplicados
num_duplicados = duplicados.sum()
print(f"Número de registros duplicados: {num_duplicados}")

Número de registros duplicados: 0


#### **5. Transformación de Datos**

* Crea nuevas columnas basadas en operaciones con las columnas existentes (por ejemplo, calcular ingresos a partir de ventas y precios).
* Normaliza o estandariza columnas si es necesario.
* Clasifica los datos en categorías relevantes.

In [9]:
# Añadimos una nueva coluna Age Group
df['Age Group'] = pd.cut(df['Age'], bins=[0, 18, 25, 35, 50, 65, 100], 
                         labels=["<18", "18-25", "26-35", "36-50", "51-65", "65+"])

In [10]:
# Normalizar la columna 'Price per Unit' and 'Total Amount'
max_Price_per_Uni = df['Price per Unit'].max()
min_Price_per_Uni = df['Price per Unit'].min()
df['Price per Unit_normalizado'] = df['Price per Unit'].apply(lambda x: (x - min_Price_per_Uni) / (max_Price_per_Uni - min_Price_per_Uni))

max_total = df['Price per Unit'].max()
min_total = df['Price per Unit'].min()
df['Total Amount_normalizado'] = df['Price per Unit'].apply(lambda x: (x - min_total) / (max_total - min_total))


In [11]:
# Clasificar los productos por rango de ventas
df['Clasificación'] = df['Total Amount'].apply(lambda x: 'Alta' if x > 150 else 'Baja')

In [12]:
df.head()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Age Group,Price per Unit_normalizado,Total Amount_normalizado,Clasificación
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,26-35,0.052632,0.052632,Baja
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,26-35,1.0,1.0,Alta
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,36-50,0.010526,0.010526,Baja
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,36-50,1.0,1.0,Alta
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,26-35,0.052632,0.052632,Baja


#### **6. Análisis de Datos**

* Realiza agrupaciones de datos utilizando groupby para obtener insights específicos (por ejemplo, ventas por producto, ventas por región, etc.).
* Aplica funciones de agregación como sum, mean, count, min, max, std, y var.
* Utiliza el método apply para realizar operaciones más complejas y personalizadas.


In [21]:
gastos_por_genero = df.groupby('Gender', observed=True).agg(
    total_sales=('Total Amount', 'sum'),
    average_sales=('Total Amount', 'mean'),
    total_quantity=('Quantity', 'sum'),
    count_transactions=('Transaction ID', 'count')
)

# Display the results
print(gastos_por_genero)

        total_sales  average_sales  total_quantity  count_transactions
Gender                                                                
Female       232840     456.549020            1298                 510
Male         223160     455.428571            1216                 490


In [20]:
Ventas_por_Producto = df.groupby('Product Category', observed=True).agg(
    total_sales=('Total Amount', 'sum'),
    average_sales=('Total Amount', 'mean'),
    total_quantity=('Quantity', 'sum'),
    count_transactions=('Transaction ID', 'count')
)

# Display the results
print(Ventas_por_Producto)

                  total_sales  average_sales  total_quantity  \
Product Category                                               
Beauty                 143515     467.475570             771   
Clothing               155580     443.247863             894   
Electronics            156905     458.786550             849   

                  count_transactions  
Product Category                      
Beauty                           307  
Clothing                         351  
Electronics                      342  


#### **7. Documentación**

* Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
* Asegúrate de que el código sea legible y esté bien comentado.

1. Exploramos los datos: Verificamos los datos del DataFrame.
2. Comprobamos los tipos de datos: Convertimos los datos que requieren transformación a fechas, categorías y cadenas.
3. Verificamos duplicados y valores nulos: Nos aseguramos de que no existan duplicados ni valores nulos en el DataFrame.
4. Agregamos columnas: Dado que tenemos la edad de los clientes, agregamos una columna para el Rango de Edad.
4. Normalizamos columnas: Las únicas columnas con un rango de valores alto son "Precio por Unidad" y "Monto Total", por lo que decidimos normalizar los datos de ambas columnas.
5. Añadimos una columna de Calificación: Categorizar las compras entre altas o bajas en base al gasto total por cliente.
6. Realizamos agrupaciones: Agrupamos los datos para visualizar mejor las estadísticas descriptivas. 7.1. Agrupamos los datos en base a Ventas por Producto y Ventas por Género.