## Analisis con Pandas y Kaggle (Core) 
# Elida Peña

El objetivo de esta actividad es poner en práctica todos los conocimientos adquiridos sobre Pandas a través del análisis completo de un dataset. Los estudiantes deben aplicar técnicas de carga, exploración, limpieza, transformación, y agregación de datos para extraer insights valiosos. La actividad no incluye visualización de datos, enfocándose únicamente en el análisis y manipulación de datos con Pandas.

**1.Preparación del Entorno**

* Asegúrate de tener instalado Pandas en tu entorno de trabajo.

* Descarga el archivo dataset.csv desde Kaggle. Elige un dataset que te interese y que no incluya visualización de datos. Algunas sugerencias pueden ser datasets relacionados con ventas, compras, productos, etc.

**2.Cargar los Datos**

* Carga el archivo CSV en un DataFrame de Pandas.

* Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.

In [1]:
#Importaciones de las librerías pandas, numpy y matplotlib
import pandas as pd

In [2]:
path = '../data/supermarket_sales - Sheet1.csv'
data_frame = pd.read_csv(path, sep=',', header=0)
data_frame.head(10)

Unnamed: 0,Invoice ID,Branch,City,Customer type,Gender,Product line,Unit price,Quantity,Tax 5%,Total,Date,Time,Payment,cogs,gross margin percentage,gross income,Rating
0,750-67-8428,A,Yangon,Member,Female,Health and beauty,74.69,7,26.1415,548.9715,1/5/2019,13:08,Ewallet,522.83,4.761905,26.1415,9.1
1,226-31-3081,C,Naypyitaw,Normal,Female,Electronic accessories,15.28,5,3.82,80.22,3/8/2019,10:29,Cash,76.4,4.761905,3.82,9.6
2,631-41-3108,A,Yangon,Normal,Male,Home and lifestyle,46.33,7,16.2155,340.5255,3/3/2019,13:23,Credit card,324.31,4.761905,16.2155,7.4
3,123-19-1176,A,Yangon,Member,Male,Health and beauty,58.22,8,23.288,489.048,1/27/2019,20:33,Ewallet,465.76,4.761905,23.288,8.4
4,373-73-7910,A,Yangon,Normal,Male,Sports and travel,86.31,7,30.2085,634.3785,2/8/2019,10:37,Ewallet,604.17,4.761905,30.2085,5.3
5,699-14-3026,C,Naypyitaw,Normal,Male,Electronic accessories,85.39,7,29.8865,627.6165,3/25/2019,18:30,Ewallet,597.73,4.761905,29.8865,4.1
6,355-53-5943,A,Yangon,Member,Female,Electronic accessories,68.84,6,20.652,433.692,2/25/2019,14:36,Ewallet,413.04,4.761905,20.652,5.8
7,315-22-5665,C,Naypyitaw,Normal,Female,Home and lifestyle,73.56,10,36.78,772.38,2/24/2019,11:38,Ewallet,735.6,4.761905,36.78,8.0
8,665-32-9167,A,Yangon,Member,Female,Health and beauty,36.26,2,3.626,76.146,1/10/2019,17:15,Credit card,72.52,4.761905,3.626,7.2
9,692-92-5582,B,Mandalay,Member,Female,Food and beverages,54.84,3,8.226,172.746,2/20/2019,13:27,Credit card,164.52,4.761905,8.226,5.9


**3.Exploración Inicial de los Datos**

* Muestra las últimas 5 filas del DataFrame.

* Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.

* Genera estadísticas descriptivas del DataFrame utilizando el método describe().

In [3]:
# Muestra las últimas 5 filas del DataFrame
print(data_frame.tail(5))

      Invoice ID Branch       City Customer type  Gender         Product line  \
995  233-67-5758      C  Naypyitaw        Normal    Male    Health and beauty   
996  303-96-2227      B   Mandalay        Normal  Female   Home and lifestyle   
997  727-02-1313      A     Yangon        Member    Male   Food and beverages   
998  347-56-2442      A     Yangon        Normal    Male   Home and lifestyle   
999  849-09-3807      A     Yangon        Member  Female  Fashion accessories   

     Unit price  Quantity   Tax 5%      Total       Date   Time  Payment  \
995       40.35         1   2.0175    42.3675  1/29/2019  13:46  Ewallet   
996       97.38        10  48.6900  1022.4900   3/2/2019  17:16  Ewallet   
997       31.84         1   1.5920    33.4320   2/9/2019  13:22     Cash   
998       65.82         1   3.2910    69.1110  2/22/2019  15:33     Cash   
999       88.34         7  30.9190   649.2990  2/18/2019  13:28     Cash   

       cogs  gross margin percentage  gross income  Rati

In [4]:
# Muestra información general sobre el DataFrame
data_frame.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 17 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Invoice ID               1000 non-null   object 
 1   Branch                   1000 non-null   object 
 2   City                     1000 non-null   object 
 3   Customer type            1000 non-null   object 
 4   Gender                   1000 non-null   object 
 5   Product line             1000 non-null   object 
 6   Unit price               1000 non-null   float64
 7   Quantity                 1000 non-null   int64  
 8   Tax 5%                   1000 non-null   float64
 9   Total                    1000 non-null   float64
 10  Date                     1000 non-null   object 
 11  Time                     1000 non-null   object 
 12  Payment                  1000 non-null   object 
 13  cogs                     1000 non-null   float64
 14  gross margin percentage  

In [5]:
# Generar estadísticas descriptivas del DataFrame
print(data_frame.describe())

        Unit price     Quantity       Tax 5%        Total        cogs  \
count  1000.000000  1000.000000  1000.000000  1000.000000  1000.00000   
mean     55.672130     5.510000    15.379369   322.966749   307.58738   
std      26.494628     2.923431    11.708825   245.885335   234.17651   
min      10.080000     1.000000     0.508500    10.678500    10.17000   
25%      32.875000     3.000000     5.924875   124.422375   118.49750   
50%      55.230000     5.000000    12.088000   253.848000   241.76000   
75%      77.935000     8.000000    22.445250   471.350250   448.90500   
max      99.960000    10.000000    49.650000  1042.650000   993.00000   

       gross margin percentage  gross income      Rating  
count              1000.000000   1000.000000  1000.00000  
mean                  4.761905     15.379369     6.97270  
std                   0.000000     11.708825     1.71858  
min                   4.761905      0.508500     4.00000  
25%                   4.761905      5.924875   

**4.Limpieza de Datos**

* Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.).

* Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).

* Elimina duplicados si los hay.

In [7]:
# Verificar valores nulos en el DataFrame
print(data_frame.isnull().sum())
# No hay valores nulos, nada que aplicar

Invoice ID                 0
Branch                     0
City                       0
Customer type              0
Gender                     0
Product line               0
Unit price                 0
Quantity                   0
Tax 5%                     0
Total                      0
Date                       0
Time                       0
Payment                    0
cogs                       0
gross margin percentage    0
gross income               0
Rating                     0
dtype: int64


In [8]:
# Verificar los tipos de datos actuales
print(data_frame.dtypes)

Invoice ID                  object
Branch                      object
City                        object
Customer type               object
Gender                      object
Product line                object
Unit price                 float64
Quantity                     int64
Tax 5%                     float64
Total                      float64
Date                        object
Time                        object
Payment                     object
cogs                       float64
gross margin percentage    float64
gross income               float64
Rating                     float64
dtype: object


In [10]:
# Convertir 'Date' a tipo datetime
data_frame['Date'] = pd.to_datetime(data_frame['Date'])

# Convertir 'Time' a tipo datetime usando el formato '%H:%M'
data_frame['Time'] = pd.to_datetime(data_frame['Time'], format='%H:%M').dt.time

# Convertir columnas categóricas a 'category'
data_frame['Branch'] = data_frame['Branch'].astype('category')
data_frame['City'] = data_frame['City'].astype('category')
data_frame['Customer type'] = data_frame['Customer type'].astype('category')
data_frame['Gender'] = data_frame['Gender'].astype('category')
data_frame['Product line'] = data_frame['Product line'].astype('category')
data_frame['Payment'] = data_frame['Payment'].astype('category')

# Verificar los tipos de datos después de la conversión
print(data_frame.dtypes)

Invoice ID                         object
Branch                           category
City                             category
Customer type                    category
Gender                           category
Product line                     category
Unit price                        float64
Quantity                            int64
Tax 5%                            float64
Total                             float64
Date                       datetime64[ns]
Time                               object
Payment                          category
cogs                              float64
gross margin percentage           float64
gross income                      float64
Rating                            float64
dtype: object


In [11]:
# Verificar el número de duplicados en el DataFrame
duplicates = data_frame.duplicated().sum()
print(f"Número de filas duplicadas: {duplicates}")
#No hay duplicados, nada que eliminar

Número de filas duplicadas: 0


**5.Transformación de Datos**
* Crea nuevas columnas basadas en operaciones con las columnas existentes (por ejemplo, calcular ingresos a partir de ventas y precios).

* Normaliza o estandariza columnas si es necesario.

* Clasifica los datos en categorías relevantes.

In [12]:
# Calcular el ingreso neto
data_frame['Net Income'] = data_frame['Total'] - data_frame['cogs']

# Calcular el precio antes de impuestos
data_frame['Price Before Tax'] = data_frame['Total'] - data_frame['Tax 5%']

# Calcular el precio promedio por unidad
data_frame['Average Price per Unit'] = data_frame['Total'] / data_frame['Quantity']

# Crear una columna para indicar si la venta es alta o baja
data_frame['Sale Type'] = data_frame['Total'].apply(lambda x: 'High' if x > 500 else 'Low')

# Mostrar algunas de las nuevas columnas para verificar
print(data_frame[['Total', 'cogs', 'Net Income', 'Price Before Tax', 'Average Price per Unit', 'Sale Type']].head())

      Total    cogs  Net Income  Price Before Tax  Average Price per Unit  \
0  548.9715  522.83     26.1415            522.83                 78.4245   
1   80.2200   76.40      3.8200             76.40                 16.0440   
2  340.5255  324.31     16.2155            324.31                 48.6465   
3  489.0480  465.76     23.2880            465.76                 61.1310   
4  634.3785  604.17     30.2085            604.17                 90.6255   

  Sale Type  
0      High  
1       Low  
2       Low  
3       Low  
4      High  


In [13]:
# Normalizar la columna 'Net Income'
data_frame['Net Income Normalized'] = (data_frame['Net Income'] - data_frame['Net Income'].min()) / (data_frame['Net Income'].max() - data_frame['Net Income'].min())

# Normalizar la columna 'Price Before Tax'
data_frame['Price Before Tax Normalized'] = (data_frame['Price Before Tax'] - data_frame['Price Before Tax'].min()) / (data_frame['Price Before Tax'].max() - data_frame['Price Before Tax'].min())

# Estandarizar la columna 'Net Income'
data_frame['Net Income Standardized'] = (data_frame['Net Income'] - data_frame['Net Income'].mean()) / data_frame['Net Income'].std()

# Estandarizar la columna 'Price Before Tax'
data_frame['Price Before Tax Standardized'] = (data_frame['Price Before Tax'] - data_frame['Price Before Tax'].mean()) / data_frame['Price Before Tax'].std()

# Mostrar algunas de las nuevas columnas para verificar
print(data_frame[['Net Income', 'Net Income Normalized', 'Net Income Standardized', 
                  'Price Before Tax', 'Price Before Tax Normalized', 'Price Before Tax Standardized']].head())


   Net Income  Net Income Normalized  Net Income Standardized  \
0     26.1415               0.521616                 0.919147   
1      3.8200               0.067387                -0.987236   
2     16.2155               0.319628                 0.071410   
3     23.2880               0.463549                 0.675442   
4     30.2085               0.604377                 1.266492   

   Price Before Tax  Price Before Tax Normalized  \
0            522.83                     0.521616   
1             76.40                     0.067387   
2            324.31                     0.319628   
3            465.76                     0.463549   
4            604.17                     0.604377   

   Price Before Tax Standardized  
0                       0.919147  
1                      -0.987236  
2                       0.071410  
3                       0.675442  
4                       1.266492  


In [14]:
# Clasificar 'Net Income' en categorías de 'Low', 'Medium', 'High'
data_frame['Income Category'] = pd.cut(
    data_frame['Net Income'],
    bins=[-float('inf'), 10, 50, float('inf')],  # Define los límites para las categorías
    labels=['Low', 'Medium', 'High']  # Etiquetas para cada categoría
)

# Mostrar las primeras filas para verificar
print(data_frame[['Net Income', 'Income Category']].head())

   Net Income Income Category
0     26.1415          Medium
1      3.8200             Low
2     16.2155          Medium
3     23.2880          Medium
4     30.2085          Medium


**6.Análisis de Datos**

* Realiza agrupaciones de datos utilizando groupby para obtener insights específicos (por ejemplo, ventas por producto, ventas por región, etc.).

* Aplica funciones de agregación como sum, mean, count, min, max, std, y var.

* Utiliza el método apply para realizar operaciones más complejas y personalizadas.

In [17]:
# Ventas Totales por Línea de Producto
sales_by_product = data_frame.groupby('Product line')['Total'].sum()
print("Ventas Totales por Línea de Producto:")
print(sales_by_product)

# Ingreso Promedio por Ciudad
average_income_by_city = data_frame.groupby('City')['Net Income'].mean()
print("\nIngreso Promedio por Ciudad:")
print(average_income_by_city)

# Número de Transacciones por Tipo de Cliente
transactions_by_customer_type = data_frame.groupby('Customer type')['Invoice ID'].count()
print("\nNúmero de Transacciones por Tipo de Cliente:")
print(transactions_by_customer_type)

# Rating Promedio por Método de Pago
average_rating_by_payment = data_frame.groupby('Payment')['Rating'].mean()
print("\nRating Promedio por Método de Pago:")
print(average_rating_by_payment)

Ventas Totales por Línea de Producto:
Product line
Electronic accessories    54337.5315
Fashion accessories       54305.8950
Food and beverages        56144.8440
Health and beauty         49193.7390
Home and lifestyle        53861.9130
Sports and travel         55122.8265
Name: Total, dtype: float64

Ingreso Promedio por Ciudad:
City
Mandalay     15.232024
Naypyitaw    16.052367
Yangon       14.874001
Name: Net Income, dtype: float64

Número de Transacciones por Tipo de Cliente:
Customer type
Member    501
Normal    499
Name: Invoice ID, dtype: int64

Rating Promedio por Método de Pago:
Payment
Cash           6.970058
Credit card    7.003215
Ewallet        6.947826
Name: Rating, dtype: float64


  sales_by_product = data_frame.groupby('Product line')['Total'].sum()
  average_income_by_city = data_frame.groupby('City')['Net Income'].mean()
  transactions_by_customer_type = data_frame.groupby('Customer type')['Invoice ID'].count()
  average_rating_by_payment = data_frame.groupby('Payment')['Rating'].mean()


In [18]:
# Agregaciones de Ventas por Línea de Producto
sales_aggregations = data_frame.groupby('Product line')['Total'].agg(['sum', 'mean', 'count', 'min', 'max', 'std', 'var'])
print("Agregaciones de Ventas por Línea de Producto:")
print(sales_aggregations)

# Agregaciones de Ingresos por Ciudad
income_aggregations = data_frame.groupby('City')['Net Income'].agg(['sum', 'mean', 'count', 'min', 'max', 'std', 'var'])
print("\nAgregaciones de Ingresos por Ciudad:")
print(income_aggregations)

# Agregaciones de Cantidad Vendida por Tipo de Cliente
quantity_aggregations = data_frame.groupby('Customer type')['Quantity'].agg(['sum', 'mean', 'count', 'min', 'max', 'std', 'var'])
print("\nAgregaciones de Cantidad Vendida por Tipo de Cliente:")
print(quantity_aggregations)

# Agregaciones de 'Rating' por método de pago
rating_aggregations = data_frame.groupby('Payment')['Rating'].agg(['sum', 'mean', 'count', 'min', 'max', 'std', 'var'])
print("\nAgregaciones de Ratings por Método de Pago:")
print(rating_aggregations)

Agregaciones de Ventas por Línea de Producto:
                               sum        mean  count      min        max  \
Product line                                                                
Electronic accessories  54337.5315  319.632538    170  26.7225   942.4485   
Fashion accessories     54305.8950  305.089298    178  12.6945  1042.6500   
Food and beverages      56144.8440  322.671517    174  22.6590  1034.4600   
Health and beauty       49193.7390  323.643020    152  18.6375   950.2500   
Home and lifestyle      53861.9130  336.636956    160  14.6790  1023.7500   
Sports and travel       55122.8265  332.065220    166  10.6785  1002.1200   

                               std           var  
Product line                                      
Electronic accessories  245.945626  60489.251154  
Fashion accessories     243.564130  59323.485271  
Food and beverages      247.157780  61086.968348  
Health and beauty       237.538815  56424.688638  
Home and lifestyle      254.600

  sales_aggregations = data_frame.groupby('Product line')['Total'].agg(['sum', 'mean', 'count', 'min', 'max', 'std', 'var'])
  income_aggregations = data_frame.groupby('City')['Net Income'].agg(['sum', 'mean', 'count', 'min', 'max', 'std', 'var'])
  quantity_aggregations = data_frame.groupby('Customer type')['Quantity'].agg(['sum', 'mean', 'count', 'min', 'max', 'std', 'var'])
  rating_aggregations = data_frame.groupby('Payment')['Rating'].agg(['sum', 'mean', 'count', 'min', 'max', 'std', 'var'])


In [19]:
# 1. Calcular un impuesto personalizado con una funcion para poder llamarlo en el siguiente codigo
def calculate_tax(total):
    return total * 0.10 if total > 500 else total * 0.05

data_frame['Custom Tax'] = data_frame['Total'].apply(calculate_tax)

# 2. Categorizar el rating con una funcion para poder llamarlo en el siguiente codigo
def categorize_rating(rating):
    if rating >= 8:
        return 'High'
    elif 5 <= rating < 8:
        return 'Medium'
    else:
        return 'Low'

data_frame['Rating Category'] = data_frame['Rating'].apply(categorize_rating)

# 3. Calcular el descuento basado en el tipo de cliente
def calculate_discount(row):
    return row['Total'] * 0.10 if row['Customer type'] == 'Member' else row['Total'] * 0.05

data_frame['Discount'] = data_frame.apply(calculate_discount, axis=1)

# Mostrar las primeras filas para verificar las nuevas columnas
print(data_frame[['Total', 'Custom Tax', 'Rating', 'Rating Category', 'Customer type', 'Discount']].head())


      Total  Custom Tax  Rating Rating Category Customer type   Discount
0  548.9715   54.897150     9.1            High        Member  54.897150
1   80.2200    4.011000     9.6            High        Normal   4.011000
2  340.5255   17.026275     7.4          Medium        Normal  17.026275
3  489.0480   24.452400     8.4            High        Member  48.904800
4  634.3785   63.437850     5.3          Medium        Normal  31.718925


**7.Documentación**

* Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.

* Asegúrate de que el código sea legible y esté bien comentado.