### Analisis con Pandas y Kaggle (Core)

El objetivo de esta actividad es poner en práctica todos los conocimientos adquiridos sobre Pandas a través del análisis completo de un dataset. Los estudiantes deben aplicar técnicas de carga, exploración, limpieza, transformación, y agregación de datos para extraer insights valiosos. La actividad no incluye visualización de datos, enfocándose únicamente en el análisis y manipulación de datos con Pandas.

**Instrucciones**

Preparación del Entorno

Asegúrate de tener instalado Pandas en tu entorno de trabajo.

Descarga el archivo dataset.csv desde Kaggle. Elige un dataset que te interese y que no incluya visualización de datos. Algunas sugerencias pueden ser datasets relacionados con ventas, compras, productos, etc.

**Cargar los Datos**

Carga el archivo CSV en un DataFrame de Pandas.

Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.

In [2]:
import pandas as pd
import numpy as np
import time

path = '../data/Sales_Transaction_v_4a.csv'
df = pd.read_csv(filepath_or_buffer=path, sep= ',', header=0)
df.head(10)


Unnamed: 0,TransactionNo,Date,ProductNo,ProductName,Price,Quantity,CustomerNo,Country
0,581482,12/9/2019,22485,Set Of 2 Wooden Market Crates,21.47,12,17490.0,United Kingdom
1,581475,12/9/2019,22596,Christmas Star Wish List Chalkboard,10.65,36,13069.0,United Kingdom
2,581475,12/9/2019,23235,Storage Tin Vintage Leaf,11.53,12,13069.0,United Kingdom
3,581475,12/9/2019,23272,Tree T-Light Holder Willie Winkie,10.65,12,13069.0,United Kingdom
4,581475,12/9/2019,23239,Set Of 4 Knick Knack Tins Poppies,11.94,6,13069.0,United Kingdom
5,581475,12/9/2019,21705,Bag 500g Swirly Marbles,10.65,24,13069.0,United Kingdom
6,581475,12/9/2019,22118,Joy Wooden Block Letters,11.53,18,13069.0,United Kingdom
7,581475,12/9/2019,22119,Peace Wooden Block Letters,12.25,12,13069.0,United Kingdom
8,581475,12/9/2019,22217,T-Light Holder Hanging Lace,10.65,12,13069.0,United Kingdom
9,581475,12/9/2019,22216,T-Light Holder White Lace,10.55,24,13069.0,United Kingdom


**Exploración Inicial de los Datos**

Muestra las últimas 5 filas del DataFrame.

Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.

Genera estadísticas descriptivas del DataFrame utilizando el método describe().

In [3]:
# Mostrar las últimas 5 filas
print(df.tail())

# Obtener información general del DataFrame
df.info()

# Generar estadísticas descriptivas
df.describe()


       TransactionNo       Date ProductNo                   ProductName  \
536345       C536548  12/1/2018     22168  Organiser Wood Antique White   
536346       C536548  12/1/2018     21218        Red Spotty Biscuit Tin   
536347       C536548  12/1/2018     20957  Porcelain Hanging Bell Small   
536348       C536548  12/1/2018     22580  Advent Calendar Gingham Sack   
536349       C536548  12/1/2018     22767    Triple Photo Frame Cornice   

        Price  Quantity  CustomerNo  Country  
536345  18.96        -2     12472.0  Germany  
536346  14.09        -3     12472.0  Germany  
536347  11.74        -1     12472.0  Germany  
536348  16.35        -4     12472.0  Germany  
536349  20.45        -2     12472.0  Germany  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 536350 entries, 0 to 536349
Data columns (total 8 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   TransactionNo  536350 non-null  object 
 1   Date           53

Unnamed: 0,Price,Quantity,CustomerNo
count,536350.0,536350.0,536295.0
mean,12.662182,9.919347,15227.893178
std,8.49045,216.6623,1716.582932
min,5.13,-80995.0,12004.0
25%,10.99,1.0,13807.0
50%,11.94,3.0,15152.0
75%,14.09,10.0,16729.0
max,660.62,80995.0,18287.0


**Limpieza de Datos**

Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.).

Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).

Elimina duplicados si los hay.

In [3]:
# Contar las filas 
total_filas = df.shape[0]
print("Total de filas",total_filas)

# Contar valores nulos en cada columna
nulos_por_columna1 = df.isnull().sum()

# Mostrar el resultado
print(nulos_por_columna1)

# Eliminar las filas que tengan un valor nulo en una columna específica
df.dropna(subset=['CustomerNo'], inplace=True)

# Contar valores nulos en cada columna
nulos_por_columna2 = df.isnull().sum()

# Mostrar el resultado
print(nulos_por_columna2)

Total de filas 536350
TransactionNo     0
Date              0
ProductNo         0
ProductName       0
Price             0
Quantity          0
CustomerNo       55
Country           0
dtype: int64
TransactionNo    0
Date             0
ProductNo        0
ProductName      0
Price            0
Quantity         0
CustomerNo       0
Country          0
dtype: int64


**Transformación de Datos**

Crea nuevas columnas basadas en operaciones con las columnas existentes (por ejemplo, calcular ingresos a partir de ventas y precios).

Normaliza o estandariza columnas si es necesario.

Clasifica los datos en categorías relevantes.

In [8]:
# Crear una nueva columna "Total Ve"
df['Total'] = df['Quantity'] * df['Price']
print(df.head())

# Calcular la suma total de la columna 'Total'
suma_total = df['Total'].sum()
print("Total ",suma_total)

# Aplicar una función para calcular el porcentaje
df['V_total'] = df.apply(lambda x: (x['Total'] / suma_total) * 100 if x['Total']>0 else 0, axis=1)
print(df.head())

  TransactionNo       Date ProductNo                          ProductName  \
0        581482  12/9/2019     22485        Set Of 2 Wooden Market Crates   
1        581475  12/9/2019     22596  Christmas Star Wish List Chalkboard   
2        581475  12/9/2019     23235             Storage Tin Vintage Leaf   
3        581475  12/9/2019     23272    Tree T-Light Holder Willie Winkie   
4        581475  12/9/2019     23239    Set Of 4 Knick Knack Tins Poppies   

   Price  Quantity  CustomerNo         Country   Total   V_total  
0  21.47        12     17490.0  United Kingdom  257.64  0.000427  
1  10.65        36     13069.0  United Kingdom  383.40  0.000636  
2  11.53        12     13069.0  United Kingdom  138.36  0.000229  
3  10.65        12     13069.0  United Kingdom  127.80  0.000212  
4  11.94         6     13069.0  United Kingdom   71.64  0.000119  
Total  60297855.14
  TransactionNo       Date ProductNo                          ProductName  \
0        581482  12/9/2019     22485   

**Análisis de Datos**

Realiza agrupaciones de datos utilizando groupby para obtener insights específicos (por ejemplo, ventas por producto, ventas por región, etc.).

Aplica funciones de agregación como sum, mean, count, min, max, std, y var.

Utiliza el método apply para realizar operaciones más complejas y personalizadas.

In [5]:
# Agrupar por país
agrupado_por_pais = df.groupby('Country')

# Contar el número de entradas por país
conteo_por_pais = agrupado_por_pais.size()

# Mostrar el resultado
print(conteo_por_pais)

# Calcular el promedio de precios por país
promedio_total_por_pais = agrupado_por_pais['Total'].mean()

# Calcular el total de ventas por país
total_ventas_por_pais = agrupado_por_pais['Total'].sum()

# Mostrar los resultados
print("Promedio de ventas por pais",promedio_total_por_pais)
print("Total de ventas por pais",total_ventas_por_pais)


 

Country
Australia                 1704
Austria                    887
Bahrain                     17
Belgium                   2539
Brazil                      31
Canada                     150
Channel Islands            629
Cyprus                     582
Czech Republic              28
Denmark                    416
EIRE                      8048
European Community          58
Finland                    692
France                   10526
Germany                  10675
Greece                      67
Hong Kong                  153
Iceland                    787
Israel                     358
Italy                      661
Japan                      371
Lebanon                     45
Lithuania                   34
Malta                      149
Netherlands               2330
Norway                     938
Poland                     174
Portugal                  1848
RSA                         57
Saudi Arabia                10
Singapore                  215
Spain                     2430


In [6]:
print(df.head())

  TransactionNo       Date ProductNo                          ProductName  \
0        581482  12/9/2019     22485        Set Of 2 Wooden Market Crates   
1        581475  12/9/2019     22596  Christmas Star Wish List Chalkboard   
2        581475  12/9/2019     23235             Storage Tin Vintage Leaf   
3        581475  12/9/2019     23272    Tree T-Light Holder Willie Winkie   
4        581475  12/9/2019     23239    Set Of 4 Knick Knack Tins Poppies   

   Price  Quantity  CustomerNo         Country   Total   V_total  
0  21.47        12     17490.0  United Kingdom  257.64  0.000427  
1  10.65        36     13069.0  United Kingdom  383.40  0.000636  
2  11.53        12     13069.0  United Kingdom  138.36  0.000229  
3  10.65        12     13069.0  United Kingdom  127.80  0.000212  
4  11.94         6     13069.0  United Kingdom   71.64  0.000119  


In [7]:
# Agrupar por país
#agrupado_por_pais = df.groupby('Country')

# Aplicar funciones de agregación
agrupado_por_pais.agg({ 'Total': ['sum', 'mean', 'count', 'min', 'max', 'std', 'var'] }).reset_index()


 

Unnamed: 0_level_0,Country,Total,Total,Total,Total,Total,Total,Total
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,mean,count,min,max,std,var
0,Australia,988756.35,580.256074,1704,-1461.0,12453.12,1002.627673,1005262.0
1,Austria,68548.3,77.28106,887,-512.64,4039.92,214.269789,45911.54
2,Bahrain,3226.86,189.815294,17,40.9,1106.88,282.049484,79551.91
3,Belgium,271346.98,106.871595,2539,-133.44,2877.76,139.874272,19564.81
4,Brazil,4652.27,150.073226,31,37.42,343.52,110.875851,12293.45
5,Canada,30490.91,203.272733,150,23.32,5715.36,518.835732,269190.5
6,Channel Islands,95783.19,152.278521,629,-37.92,4444.44,233.983089,54748.09
7,Cyprus,62231.93,106.927715,582,-51.14,3015.36,204.262702,41723.25
8,Czech Republic,6756.8,241.314286,28,-282.72,759.6,251.80014,63403.31
9,Denmark,100439.12,241.440192,416,-267.0,2897.92,308.441591,95136.22


**Documentación**


Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.

Asegúrate de que el código sea legible y esté bien comentado.