### Analisis con Pandas y Kaggle (Core)

El objetivo de esta actividad es poner en práctica todos los conocimientos adquiridos sobre Pandas a través del análisis completo de un dataset. Los estudiantes deben aplicar técnicas de carga, exploración, limpieza, transformación, y agregación de datos para extraer insights valiosos. La actividad no incluye visualización de datos, enfocándose únicamente en el análisis y manipulación de datos con Pandas.

Instrucciones


#### 1 Preparación del Entorno
- Asegúrate de tener instalado Pandas en tu entorno de trabajo.
- Descarga el archivo dataset.csv desde Kaggle. Elige un dataset que te interese y que no incluya visualización de datos. Algunas sugerencias pueden ser datasets relacionados con ventas, compras, productos, etc.


#### 2 Cargar los Datos
- Carga el archivo CSV en un DataFrame de Pandas.
- Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.


#### 3 Exploración Inicial de los Datos
- Muestra las últimas 5 filas del DataFrame.
- Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
- Genera estadísticas descriptivas del DataFrame utilizando el método describe().


In [2]:
'''Carga el archivo CSV en un DataFrame de Pandas.
Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.'''
import pandas as pd
df = pd.read_csv('data/digital_marketing_campaign_dataset.csv')
df.head(10)

Unnamed: 0,CustomerID,Age,Gender,Income,CampaignChannel,CampaignType,AdSpend,ClickThroughRate,ConversionRate,WebsiteVisits,PagesPerVisit,TimeOnSite,SocialShares,EmailOpens,EmailClicks,PreviousPurchases,LoyaltyPoints,AdvertisingPlatform,AdvertisingTool,Conversion
0,8000,56,Female,136912,Social Media,Awareness,6497.870068,0.043919,0.088031,0,2.399017,7.396803,19,6,9,4,688,IsConfid,ToolConfid,1
1,8001,69,Male,41760,Email,Retention,3898.668606,0.155725,0.182725,42,2.917138,5.352549,5,2,7,2,3459,IsConfid,ToolConfid,1
2,8002,46,Female,88456,PPC,Awareness,1546.429596,0.27749,0.076423,2,8.223619,13.794901,0,11,2,8,2337,IsConfid,ToolConfid,1
3,8003,32,Female,44085,PPC,Conversion,539.525936,0.137611,0.088004,47,4.540939,14.688363,89,2,2,0,2463,IsConfid,ToolConfid,1
4,8004,60,Female,83964,PPC,Conversion,1678.043573,0.252851,0.10994,0,2.046847,13.99337,6,6,6,8,4345,IsConfid,ToolConfid,1
5,8005,25,Female,42925,Social Media,Awareness,9579.388247,0.153795,0.161316,6,2.12585,7.752831,95,5,8,0,3316,IsConfid,ToolConfid,1
6,8006,38,Female,25615,Referral,Awareness,7302.899852,0.040975,0.060977,42,1.753995,10.698672,54,14,3,6,930,IsConfid,ToolConfid,1
7,8007,56,Female,57083,Social Media,Conversion,5324.283667,0.052878,0.188946,48,2.626015,2.987817,96,9,3,0,2983,IsConfid,ToolConfid,1
8,8008,36,Female,140788,Email,Retention,9421.250951,0.023536,0.112585,13,5.472843,14.287421,73,4,8,5,460,IsConfid,ToolConfid,1
9,8009,40,Male,130764,Social Media,Awareness,6229.193333,0.066641,0.169786,22,1.135665,4.613312,14,8,4,8,3789,IsConfid,ToolConfid,1


In [3]:
# Muestra las últimas 5 filas del DataFrame.
df.tail(5)

Unnamed: 0,CustomerID,Age,Gender,Income,CampaignChannel,CampaignType,AdSpend,ClickThroughRate,ConversionRate,WebsiteVisits,PagesPerVisit,TimeOnSite,SocialShares,EmailOpens,EmailClicks,PreviousPurchases,LoyaltyPoints,AdvertisingPlatform,AdvertisingTool,Conversion
7995,15995,21,Male,24849,Email,Awareness,8518.308575,0.243792,0.116773,23,9.693602,14.227794,70,13,6,7,286,IsConfid,ToolConfid,0
7996,15996,43,Female,44718,SEO,Retention,1424.613446,0.23674,0.190061,49,9.49901,3.501106,52,13,1,5,1502,IsConfid,ToolConfid,0
7997,15997,28,Female,125471,Referral,Consideration,4609.534635,0.056526,0.133826,35,2.853241,14.618323,38,16,0,3,738,IsConfid,ToolConfid,1
7998,15998,19,Female,107862,PPC,Consideration,9476.106354,0.023961,0.138386,49,1.002964,3.876623,86,1,5,7,2709,IsConfid,ToolConfid,1
7999,15999,31,Female,93002,Email,Awareness,7743.62707,0.18567,0.057228,15,6.964739,12.76366,2,18,9,9,341,IsConfid,ToolConfid,0


In [4]:
'''Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.'''
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8000 entries, 0 to 7999
Data columns (total 20 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   CustomerID           8000 non-null   int64  
 1   Age                  8000 non-null   int64  
 2   Gender               8000 non-null   object 
 3   Income               8000 non-null   int64  
 4   CampaignChannel      8000 non-null   object 
 5   CampaignType         8000 non-null   object 
 6   AdSpend              8000 non-null   float64
 7   ClickThroughRate     8000 non-null   float64
 8   ConversionRate       8000 non-null   float64
 9   WebsiteVisits        8000 non-null   int64  
 10  PagesPerVisit        8000 non-null   float64
 11  TimeOnSite           8000 non-null   float64
 12  SocialShares         8000 non-null   int64  
 13  EmailOpens           8000 non-null   int64  
 14  EmailClicks          8000 non-null   int64  
 15  PreviousPurchases    8000 non-null   i

In [5]:
'''Genera estadísticas descriptivas del DataFrame utilizando el método describe().'''
df.describe()

Unnamed: 0,CustomerID,Age,Income,AdSpend,ClickThroughRate,ConversionRate,WebsiteVisits,PagesPerVisit,TimeOnSite,SocialShares,EmailOpens,EmailClicks,PreviousPurchases,LoyaltyPoints,Conversion
count,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0
mean,11999.5,43.6255,84664.19675,5000.94483,0.154829,0.104389,24.751625,5.549299,7.727718,49.79975,9.476875,4.467375,4.4855,2490.2685,0.8765
std,2309.54541,14.902785,37580.387945,2838.038153,0.084007,0.054878,14.312269,2.607358,4.228218,28.901165,5.711111,2.856564,2.888093,1429.527162,0.329031
min,8000.0,18.0,20014.0,100.054813,0.010005,0.010018,0.0,1.000428,0.501669,0.0,0.0,0.0,0.0,0.0,0.0
25%,9999.75,31.0,51744.5,2523.221165,0.082635,0.05641,13.0,3.302479,4.06834,25.0,5.0,2.0,2.0,1254.75,1.0
50%,11999.5,43.0,84926.5,5013.440044,0.154505,0.104046,25.0,5.534257,7.682956,50.0,9.0,4.0,4.0,2497.0,1.0
75%,13999.25,56.0,116815.75,7407.989369,0.228207,0.152077,37.0,7.835756,11.481468,75.0,14.0,7.0,7.0,3702.25,1.0
max,15999.0,69.0,149986.0,9997.914781,0.299968,0.199995,49.0,9.999055,14.995311,99.0,19.0,9.0,9.0,4999.0,1.0



#### 4 Limpieza de Datos
- Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.).
- Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).
- Elimina duplicados si los hay.

In [21]:
'''Elimina duplicados si los hay.'''
duplicados = df.duplicated().sum()
print("Datos duplicados:", duplicados)

Datos duplicados: 0


In [23]:
'''Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.).'''
nulos = (df.isnull().sum())
print("Datos nulos:")
print(nulos)

Datos nulos:
CustomerID             0
Age                    0
Gender                 0
Income                 0
CampaignChannel        0
CampaignType           0
AdSpend                0
ClickThroughRate       0
ConversionRate         0
WebsiteVisits          0
PagesPerVisit          0
TimeOnSite             0
SocialShares           0
EmailOpens             0
EmailClicks            0
PreviousPurchases      0
LoyaltyPoints          0
AdvertisingPlatform    0
AdvertisingTool        0
Conversion             0
AgeCategory            0
dtype: int64


In [8]:
'''Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).'''
for column in df.columns:
    if df[column].dtype == 'object':
        df[column] = df[column].astype('string')

print(df.dtypes)

CustomerID                      int64
Age                             int64
Gender                 string[python]
Income                          int64
CampaignChannel        string[python]
CampaignType           string[python]
AdSpend                       float64
ClickThroughRate              float64
ConversionRate                float64
WebsiteVisits                   int64
PagesPerVisit                 float64
TimeOnSite                    float64
SocialShares                    int64
EmailOpens                      int64
EmailClicks                     int64
PreviousPurchases               int64
LoyaltyPoints                   int64
AdvertisingPlatform    string[python]
AdvertisingTool        string[python]
Conversion                      int64
dtype: object



#### 5 Transformación de Datos
- Crea nuevas columnas basadas en operaciones con las columnas existentes (por ejemplo, calcular ingresos a partir de ventas y precios).
- Normaliza o estandariza columnas si es necesario.
- Clasifica los datos en categorías relevantes.


#### 6 Análisis de Datos
- Realiza agrupaciones de datos utilizando groupby para obtener insights específicos (por ejemplo, ventas por producto, ventas por región, etc.).
- Aplica funciones de agregación como sum, mean, count, min, max, std, y var.
- Utiliza el método apply para realizar operaciones más complejas y personalizadas.


In [12]:
'''Crea nuevas columnas basadas en operaciones con las columnas existentes (por ejemplo, calcular ingresos a partir de ventas y precios).
Clasifica los datos en categorías relevantes.
Realiza agrupaciones de datos utilizando groupby para obtener insights específicos (por ejemplo, ventas por producto, ventas por región, etc.).
Aplica funciones de agregación como sum, mean, count, min, max, std, y var.'''
# Crea una columna de categorias por edad utilizando pd.qcut
df['AgeCategory'] = pd.qcut(df['Age'], q=7, labels=['18-30', '31-37', '38-44', '45-51', '52-58', '59-65', '66+'])

# Calcula el promedio de ingresos y conversion por categoria de edad 
age_analysis = df.groupby('AgeCategory').agg({
    'Income': 'mean',
    'ConversionRate': 'mean'
}).round(2)

print("\
Age Category Analysis:")
print(age_analysis)

#informacion adicional de las columnas
print("\
Age range details:")
age_ranges = pd.qcut(df['Age'], q=7)
print(age_ranges.value_counts().sort_index())

Age Category Analysis:
               Income  ConversionRate
AgeCategory                          
18-30        83909.40            0.10
31-37        84572.82            0.10
38-44        85292.62            0.11
45-51        84223.58            0.10
52-58        83993.48            0.10
59-65        84821.82            0.11
66+          85991.78            0.11
Age range details:
Age
(17.999, 25.0]    1193
(25.0, 33.0]      1190
(33.0, 40.0]      1138
(40.0, 47.0]      1112
(47.0, 55.0]      1221
(55.0, 62.0]      1065
(62.0, 69.0]      1081
Name: count, dtype: int64


  age_analysis = df.groupby('AgeCategory').agg({


In [35]:
# Clasificar tiempo en el sitio
df['Clasificación'] = df['TimeOnSite'].apply(lambda x: 'Alta' if x > 6 else 'Baja')
df['Clasificación']


0       Alta
1       Baja
2       Alta
3       Alta
4       Alta
        ... 
7995    Alta
7996    Baja
7997    Alta
7998    Baja
7999    Alta
Name: Clasificación, Length: 8000, dtype: object

In [20]:
# Gasto de publicidad por tipo de campana
gasto_p_tipodecampana = df.groupby('CampaignType')['AdSpend'].agg(['sum', 'mean']).round(2)
gasto_p_tipodecampana

Unnamed: 0_level_0,sum,mean
CampaignType,Unnamed: 1_level_1,Unnamed: 2_level_1
Awareness,10077845.83,5069.34
Consideration,9861273.67,4960.4
Conversion,10300076.98,4959.11
Retention,9768362.16,5017.14


In [11]:
unique =sorted(df['Age'].unique())
len(unique)

52

In [36]:
# Agrupar por tipo de campana y canal
grouped = df.groupby(['CampaignType', 'CampaignChannel'])

# Suma y promedio de WebsVisits por tipo de campana y canal
points_por_campana_y_canal = grouped['WebsiteVisits'].agg(['sum', 'mean']).round(2)
points_por_campana_y_canal

#La cantidad de visitas en el sitio por canal y por tipo de campana, esto nos da una vision de la efectividad de los tipo de campana  por cada canal.

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,mean
CampaignType,CampaignChannel,Unnamed: 2_level_1,Unnamed: 3_level_1
Awareness,Email,9307,24.62
Awareness,PPC,10555,25.62
Awareness,Referral,10393,24.11
Awareness,SEO,9178,23.53
Awareness,Social Media,9789,25.97
Consideration,Email,10497,26.05
Consideration,PPC,9748,24.13
Consideration,Referral,9979,24.52
Consideration,SEO,9957,26.98
Consideration,Social Media,10120,24.99



#### 7 Documentación
- Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
- Asegúrate de que el código sea legible y esté bien comentado.