# Data Exploration


In [2]:
import pandas as pd
import numpy as np

## Load data and Initial Exploration


### Accounts



The accounts table contains company-level information about potential or existing clients. Each row represents a company, including attributes such as sector, year of establishment, estimated annual revenue, number of employees, office location, and any parent company affiliation. This data provides demographic and firmographic context useful for understanding customer profiles and segmenting the market.

In [3]:
data_accounts = pd.read_csv('/Users/anadetorresjurado/code/MatthieuScarset/aisrm/raw_data/accounts.csv').copy()
data_accounts.head()

Unnamed: 0,account,sector,year_established,revenue,employees,office_location,subsidiary_of
0,Acme Corporation,technolgy,1996,1100.04,2822,United States,
1,Betasoloin,medical,1999,251.41,495,United States,
2,Betatech,medical,1986,647.18,1185,Kenya,
3,Bioholding,medical,2012,587.34,1356,Philipines,
4,Bioplex,medical,1991,326.82,1016,United States,


In [23]:
print('INFO')
data_accounts.info()

INFO
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85 entries, 0 to 84
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   account           85 non-null     object 
 1   sector            85 non-null     object 
 2   year_established  85 non-null     int64  
 3   revenue           85 non-null     float64
 4   employees         85 non-null     int64  
 5   office_location   85 non-null     object 
 6   subsidiary_of     15 non-null     object 
dtypes: float64(1), int64(2), object(4)
memory usage: 4.8+ KB


In [26]:
print('\nMissing Values')
data_accounts.isna().sum()


Missing Values


account              0
sector               0
year_established     0
revenue              0
employees            0
office_location      0
subsidiary_of       70
dtype: int64

In [28]:
print('\nUnique Values')
data_accounts.nunique()


Unique Values


account             85
sector              10
year_established    35
revenue             85
employees           85
office_location     15
subsidiary_of        7
dtype: int64

**🔍 Observaciones sobre `data_accounts`**

- ✅ **No hay valores nulos críticos**: solo la columna `subsidiary_of` tiene 70 valores nulos → puede interpretarse como “no es subsidiaria de otra empresa”.
- 🆔 **Cada `account` es único** → posible identificador primario.
- 🧠 **`sector` tiene 10 categorías distintas** → potencial variable categórica útil para segmentación.
- 📈 **`revenue` y `employees`** parecen ser variables numéricas continuas y únicas por empresa.
- 🕰️ `year_established` tiene 35 valores únicos → podrías agruparlo en rangos si hicieras análisis por antigüedad.
- 🌍 `office_location` tiene 15 valores únicos → se podría mapear por región o país si se desea agrupar.
- 🧬 `subsidiary_of` tiene solo 7 valores únicos → probablemente nombres de empresas matrices. Podría usarse para identificar grupos empresariales.


### Data Dictionary

The data_dictionary table provides metadata for the entire dataset. It includes the name of each table, the fields within them, and a brief description of each field’s meaning or purpose. This reference is useful to understand the role of each variable and ensure consistent interpretation during data exploration, preprocessing, and modeling.

In [6]:
data_dictionary = pd.read_csv('/Users/anadetorresjurado/code/MatthieuScarset/aisrm/raw_data/data_dictionary.csv').copy()
data_dictionary.head()

Unnamed: 0,Table,Field,Description
0,accounts,account,Company name
1,accounts,sector,Industry
2,accounts,year_established,Year Established
3,accounts,revenue,Annual revenue (in millions of USD)
4,accounts,employees,Number of employees


In [29]:
print('INFO')
data_dictionary.info()

INFO
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Table        21 non-null     object
 1   Field        21 non-null     object
 2   Description  21 non-null     object
dtypes: object(3)
memory usage: 632.0+ bytes


In [30]:
print('\nMissing Values')
data_dictionary.isna().sum()


Missing Values


Table          0
Field          0
Description    0
dtype: int64

In [31]:
print('\nUnique Values')
data_dictionary.nunique()


Unique Values


Table           4
Field          18
Description    19
dtype: int64

 **🔍 Observaciones sobre `data_dictionary`**

- ✅ No hay valores nulos → la tabla está completa.
- 📄 Contiene 21 filas, cada una describiendo un campo de una tabla.
- 📊 `Table` tiene 4 valores únicos → hay 4 tablas documentadas.
- 🏷️ `Field` tiene 18 valores únicos → es el número total de campos documentados.
- 📘 `Description` tiene 19 descripciones únicas → algunas pueden repetirse o estar muy relacionadas.
- 🧭 Esta tabla es puramente de referencia, no se usa para modelar directamente, pero es clave para:
  - Entender cada columna del dataset.
  - Generar documentación automática si fuera necesario.


### Products

The products table contains information about the company’s product catalog. Each row represents a unique product, including its name, product series (e.g., GTX, MG), and the corresponding sales price. This data can be used to analyze pricing strategies, evaluate deal values, and link product types to sales performance.

In [7]:
data_products = pd.read_csv('/Users/anadetorresjurado/code/MatthieuScarset/aisrm/raw_data/products.csv').copy()
data_products.head()

Unnamed: 0,product,series,sales_price
0,GTX Basic,GTX,550
1,GTX Pro,GTX,4821
2,MG Special,MG,55
3,MG Advanced,MG,3393
4,GTX Plus Pro,GTX,5482


In [35]:
print('INFO')
data_products.info()

INFO
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   product      7 non-null      object
 1   series       7 non-null      object
 2   sales_price  7 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 296.0+ bytes


In [38]:
print('\nMissing Values')
data_products.isna().sum()


Missing Values


product        0
series         0
sales_price    0
dtype: int64

In [32]:
print('\nUnique Values')
data_products.nunique()


Unique Values


product        7
series         3
sales_price    7
dtype: int64

**🔍 Observaciones sobre `data_products`**

- ✅ No hay valores nulos → la tabla está limpia.
- 🧪 Solo 7 productos en total → conjunto pequeño pero manejable.
- 🧬 `series` tiene 3 categorías (por ejemplo, GTX, MG…) → podrían representar líneas de producto.
- 💰 `sales_price` es numérico y tiene 7 valores únicos → cada producto tiene un precio distinto.
- 🔗 Esta tabla será útil para unir con el pipeline de ventas (`sales_pipeline`) y analizar:
  - ¿Qué productos se venden más?
  - ¿Qué series tienen más ingresos?
  - ¿El precio afecta la tasa de conversión?


### Sales Pipeline

The sales_pipeline table records individual sales opportunities from the company's CRM system. Each row represents a unique opportunity and includes details such as the sales agent, product involved, customer account, deal stage (e.g., Won, Lost), engagement and close dates, and the final deal value. This dataset is essential for analyzing sales performance, conversion timelines, and agent effectiveness.

In [10]:
data_sales_pipeline = pd.read_csv('/Users/anadetorresjurado/code/MatthieuScarset/aisrm/raw_data/sales_pipeline.csv').copy()
data_sales_pipeline.head()

Unnamed: 0,opportunity_id,sales_agent,product,account,deal_stage,engage_date,close_date,close_value
0,1C1I7A6R,Moses Frase,GTX Plus Basic,Cancity,Won,2016-10-20,2017-03-01,1054.0
1,Z063OYW0,Darcel Schlecht,GTXPro,Isdom,Won,2016-10-25,2017-03-11,4514.0
2,EC4QE1BX,Darcel Schlecht,MG Special,Cancity,Won,2016-10-25,2017-03-07,50.0
3,MV1LWRNH,Moses Frase,GTX Basic,Codehow,Won,2016-10-25,2017-03-09,588.0
4,PE84CX4O,Zane Levy,GTX Basic,Hatfan,Won,2016-10-25,2017-03-02,517.0


In [36]:
print('INFO')
data_sales_pipeline.info()

INFO
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8800 entries, 0 to 8799
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   opportunity_id  8800 non-null   object 
 1   sales_agent     8800 non-null   object 
 2   product         8800 non-null   object 
 3   account         7375 non-null   object 
 4   deal_stage      8800 non-null   object 
 5   engage_date     8300 non-null   object 
 6   close_date      6711 non-null   object 
 7   close_value     6711 non-null   float64
dtypes: float64(1), object(7)
memory usage: 550.1+ KB


In [39]:
print('\nMissing Values')
data_sales_pipeline.isna().sum()


Missing Values


opportunity_id       0
sales_agent          0
product              0
account           1425
deal_stage           0
engage_date        500
close_date        2089
close_value       2089
dtype: int64

In [33]:
print('\nUnique Values')
data_sales_pipeline.nunique()


Unique Values


opportunity_id    8800
sales_agent         30
product              7
account             85
deal_stage           4
engage_date        421
close_date         306
close_value       2051
dtype: int64

**🔍 Observaciones sobre `data_sales_pipeline`**

- ⚠️ **Hay valores nulos importantes**:
  - `account`: 1425 nulos → puede que algunas oportunidades no estén asignadas a una cuenta específica.
  - `engage_date`, `close_date`, `close_value`: alrededor de 2.000 nulos → puede indicar oportunidades en curso o incompletas (por ejemplo, no cerradas aún).

- 🆔 `opportunity_id` es único por fila → identificador claro de cada oportunidad de venta.

- 🧑‍💼 `sales_agent` tiene 30 valores → podrías analizar rendimiento individual o por manager (via unión con `sales_team`).

- 📦 `product` se puede unir con `data_products` → útil para ver precio, serie y relacionarlo con resultados.

- 🔄 `deal_stage` tiene 4 valores → variable categórica crítica para modelar el proceso comercial (`Won`, `Lost`, etc.).

- 📅 `engage_date` y `close_date` aún son strings (object), pero deben convertirse a `datetime` para análisis temporal:
  ```python
  data_sales_pipeline['engage_date'] = pd.to_datetime(data_sales_pipeline['engage_date'])
  data_sales_pipeline['close_date'] = pd.to_datetime(data_sales_pipeline['close_date'])


🧠 Ideas futuras:

Calcular duración de los ciclos de venta (close_date - engage_date)
Analizar tasa de conversión por agente, producto, serie, región…
Filtrar oportunidades incompletas si se quiere modelar solo ventas finalizadas

### Sales Team

The sales_team table provides organizational information about the company’s sales agents. Each row includes a sales agent’s name, their direct manager, and the regional office they are assigned to. This data can be used to analyze team structures, compare performance across regions, and identify managerial influence on sales outcomes.

In [11]:
data_sales_team = pd.read_csv('/Users/anadetorresjurado/code/MatthieuScarset/aisrm/raw_data/sales_teams.csv').copy()
data_sales_team.head()

Unnamed: 0,sales_agent,manager,regional_office
0,Anna Snelling,Dustin Brinkmann,Central
1,Cecily Lampkin,Dustin Brinkmann,Central
2,Versie Hillebrand,Dustin Brinkmann,Central
3,Lajuana Vencill,Dustin Brinkmann,Central
4,Moses Frase,Dustin Brinkmann,Central


In [37]:
print('INFO')
data_sales_team.info()

INFO
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   sales_agent      35 non-null     object
 1   manager          35 non-null     object
 2   regional_office  35 non-null     object
dtypes: object(3)
memory usage: 968.0+ bytes


In [40]:
print('\nMissing Values')
data_sales_team.isna().sum()


Missing Values


sales_agent        0
manager            0
regional_office    0
dtype: int64

In [34]:
print('\nUnique Values')
data_sales_team.nunique()


Unique Values


sales_agent        35
manager             6
regional_office     3
dtype: int64

**🔍 Observaciones sobre `data_sales_team`**

- ✅ No hay valores nulos → tabla perfectamente limpia.
- 👩‍💼 35 filas únicas, una por `sales_agent` → coincide con la dimensión esperada del equipo de ventas.
- 🧑‍💼 `manager` tiene solo 6 valores únicos → estructura jerárquica clara, ideal para analizar rendimiento por líder.
- 🌍 `regional_office` tiene 3 valores únicos → posibilidad de comparar por zona geográfica.
- 🔗 Esta tabla será útil para unirse con `sales_pipeline` vía `sales_agent` y así:
  - Evaluar qué manager o región cierra más tratos.
  - Detectar si hay disparidades de rendimiento entre equipos.


## Dataset Overview Summary


In [13]:
def summarize_datasets(datasets_dict):
    summary = []
    
    for name, df in datasets_dict.items():
        summary.append({
            'Dataset': name,
            'Rows' : df.shape[0],
            'Columns' : df.shape[1],
            'Missing Values' : df.isna().sum().sum(),
            'Duplicated Rows' : df.duplicated().sum()
        })
        
    return pd.DataFrame(summary)

In [15]:
datasets = {
    'Accounts': data_accounts,
    'Data Disctionary' : data_dictionary,
    'Products' : data_products,
    'Sales Pipeline' : data_sales_pipeline,
    'Sales team' : data_sales_team
}

summary_df = summarize_datasets(datasets)
summary_df

Unnamed: 0,Dataset,Rows,Columns,Missing Values,Duplicated Rows
0,Accounts,85,7,70,0
1,Data Disctionary,21,3,0,0
2,Products,7,3,0,0
3,Sales Pipeline,8800,8,6103,0
4,Sales team,35,3,0,0
