In [None]:
import pandas as pd

In [None]:
#load dataframe
url = 'https://raw.githubusercontent.com/data-bootcamp-v4/data/main/file1.csv'
customer_df = pd.read_csv(url)

In [42]:
# basics
customer_df.head()
customer_df.info()
customer_df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4008 entries, 0 to 4007
Data columns (total 11 columns):
 #   Column                     Non-Null Count  Dtype   
---  ------                     --------------  -----   
 0   Customer                   1071 non-null   object  
 1   ST                         1071 non-null   object  
 2   GENDER                     954 non-null    category
 3   Education                  1071 non-null   category
 4   Customer Lifetime Value    1068 non-null   float64 
 5   Income                     1071 non-null   float64 
 6   Monthly Premium Auto       1071 non-null   float64 
 7   Number of Open Complaints  1071 non-null   object  
 8   Policy Type                1071 non-null   category
 9   Vehicle Class              1071 non-null   category
 10  Total Claim Amount         1071 non-null   float64 
dtypes: category(4), float64(4), object(3)
memory usage: 235.7+ KB


Unnamed: 0,Customer Lifetime Value,Income,Monthly Premium Auto,Total Claim Amount
count,1068.0,1071.0,1071.0,1071.0
mean,793690.3,39295.701214,193.23436,404.986909
std,643478.4,30469.42706,1601.190369,293.02726
min,200435.1,0.0,61.0,0.382107
25%,403408.0,14072.0,68.0,202.157702
50%,588174.2,36234.0,83.0,354.729129
75%,896287.2,64631.0,109.5,532.8
max,5816655.0,99960.0,35354.0,2893.239678


In [None]:
# tuple with rows and columns
customer_df.shape

# solo filas
len(customer_df)
customer_df.shape[0]

# solo columnas
len(customer_df.columns)
customer_df.shape[1]

# Número de filas y columnas
rows, cols = customer_df.shape
print(f"El dataset tiene {rows} filas y {cols} columnas.")

In [None]:
# Check the data types of each column
customer_df.dtypes

In [None]:
# Convert 'GENDER', 'Education', 'Policy Type', and 'Vehicle Class' to category
customer_df['GENDER'] = customer_df['GENDER'].astype('category')
customer_df['Education'] = customer_df['Education'].astype('category')
customer_df['Policy Type'] = customer_df['Policy Type'].astype('category')
customer_df['Vehicle Class'] = customer_df['Vehicle Class'].astype('category')

In [None]:
# error no puede convertir a float con %
customer_df['Customer Lifetime Value'] = customer_df['Customer Lifetime Value'].astype('float64')

In [None]:
# Filter rows that contain the '%' symbol
rows_with_percent = customer_df[customer_df['Customer Lifetime Value'].str.contains('%', na=False)]
print(rows_with_percent)

In [None]:
# Remove %
customer_df['Customer Lifetime Value'] = customer_df['Customer Lifetime Value'].str.replace('%', '')

# Update
customer_df['Customer Lifetime Value'] = customer_df['Customer Lifetime Value'].astype('float64')

In [39]:
# Count the number of unique values in each column
unique_counts = customer_df.nunique()
print(unique_counts)

Customer                     1071
ST                              8
GENDER                          5
Education                       6
Customer Lifetime Value      1027
Income                        774
Monthly Premium Auto          132
Number of Open Complaints       6
Policy Type                     3
Vehicle Class                   6
Total Claim Amount            761
dtype: int64


In [None]:
# Get unique values for categorical columns
categorical_columns = ['GENDER', 'Education', 'Policy Type', 'Vehicle Class']

for col in categorical_columns:
    print(f"Unique values in {col} ({customer_df[col].dtype}): {customer_df[col].unique()}\n\n")

In [None]:
# Compute summary statistics such as mean, median, mode, standard deviation, and quartiles to understand the central tendency and distribution of the data for numerical columns. 

numerical_columns = ['Customer Lifetime Value', 'Income', 'Monthly Premium Auto', 'Total Claim Amount']

for col in numerical_columns:
    print(f"Statistics for {col}:")
    print(customer_df[col].describe())
    print("\n")

## Observaciones por columna (categóricas)

### 1. GENDER
- **Valores únicos**: `[NaN, 'F', 'M', 'Femal', 'Male', 'female']`
- **Categorías**: `['F', 'Femal', 'M', 'Male', 'female']`
- **Observaciones**:
  - Hay inconsistencias en los valores. Por ejemplo:
    - "F" y "Femal" probablemente representan lo mismo (femenino).
    - "M" y "Male" probablemente representan lo mismo (masculino).
    - "female" está en minúsculas, mientras que otros valores están en mayúsculas o con mayúscula inicial.
  - **Problema**: Esto sugiere que los datos no están estandarizados, lo que podría afectar análisis posteriores.
  - **Solución**: Podrías estandarizar los valores para que todos los géneros estén en un formato consistente (por ejemplo, "Female" y "Male").

---

### 2. Education
- **Valores únicos**: `['Master', 'Bachelor', 'High School or Below', 'College', 'Bachelors', 'Doctor', NaN]`
- **Categorías**: `['Bachelor', 'Bachelors', 'College', 'Doctor', 'High School or Below', 'Master']`
- **Observaciones**:
  - Hay inconsistencias en los valores. Por ejemplo:
    - "Bachelor" y "Bachelors" probablemente representan lo mismo (licenciatura).
  - **Problema**: Esto podría causar confusión al analizar los datos por nivel educativo.
  - **Solución**: Podrías unificar los valores (por ejemplo, cambiar "Bachelors" a "Bachelor").

---

### 3. Policy Type
- **Valores únicos**: `['Personal Auto', 'Corporate Auto', 'Special Auto', NaN]`
- **Categorías**: `['Corporate Auto', 'Personal Auto', 'Special Auto']`
- **Observaciones**:
  - Los valores están bien definidos y no hay inconsistencias.
  - **Problema**: La presencia de `NaN` (valores nulos) podría indicar datos faltantes.
  - **Solución**: Podrías investigar por qué hay valores nulos y decidir si imputarlos o eliminarlos.

---

### 4. Vehicle Class
- **Valores únicos**: `['Four-Door Car', 'Two-Door Car', 'SUV', 'Luxury SUV', 'Sports Car', 'Luxury Car', NaN]`
- **Categorías**: `['Four-Door Car', 'Luxury Car', 'Luxury SUV', 'SUV', 'Sports Car', 'Two-Door Car']`
- **Observaciones**:
  - Los valores están bien definidos, pero hay algunas categorías que podrían solaparse:
    - "Luxury SUV" y "Luxury Car" podrían considerarse subcategorías de "SUV" y "Car".
  - **Problema**: La presencia de `NaN` (valores nulos) podría indicar datos faltantes.
  - **Solución**: Podrías investigar por qué hay valores nulos y decidir si imputarlos o eliminarlos.

---

## Insights generales

### Inconsistencias en los datos
- Las columnas `GENDER` y `Education` tienen valores inconsistentes (por ejemplo, "F" vs. "Femal" o "Bachelor" vs. "Bachelors").
- Esto podría afectar análisis posteriores, como agrupaciones o segmentaciones.

### Valores nulos
- Las columnas `GENDER`, `Education`, `Policy Type`, y `Vehicle Class` tienen valores `NaN`.
- Es importante decidir cómo manejar estos valores nulos (eliminarlos, imputarlos, etc.).

### Categorías bien definidas
- Las columnas `Policy Type` y `Vehicle Class` tienen categorías claras y bien definidas, aunque podrían refinarse (por ejemplo, unificar "Luxury SUV" y "Luxury Car").

---

---

---

## Observaciones por columna (numéricas)

### 1. Customer Lifetime Value
- **Media:** 793,690.3  
- **Mediana:** 588,174.2  
- **Mínimo - Máximo:** 200,435.1 - 5,816,655  
- **Desviación estándar:** 643,478.4  
- **Conclusión:**  
  La media y la mediana indican que la distribución está sesgada hacia valores más altos. La gran diferencia entre el máximo y el mínimo, junto con la alta desviación estándar, sugiere la presencia de valores atípicos o una distribución sesgada positivamente.

### 2. Income (Ingresos)
- **Media:** 39,295.7  
- **Mediana:** 36,234  
- **Mínimo - Máximo:** 0 - 99,960  
- **Desviación estándar:** 30,469.4  
- **Conclusión:**  
  La distribución de ingresos es amplia, con valores que van desde 0 hasta casi 100,000. La mediana está por debajo de la media, lo que sugiere que hay valores altos que podrían estar sesgando la distribución. También hay ingresos de 0, lo que podría requerir mayor análisis.

### 3. Monthly Premium Auto (Pago Mensual del Seguro)
- **Media:** 193.2  
- **Mediana:** 83  
- **Mínimo - Máximo:** 61 - 35,354  
- **Desviación estándar:** 1,601.2  
- **Conclusión:**  
  La media es significativamente mayor que la mediana, lo que indica la presencia de valores extremadamente altos que están influyendo en la media. La gran desviación estándar y el máximo de 35,354 sugieren que algunos clientes tienen pagos inusualmente altos.

### 4. Total Claim Amount (Cantidad Total Reclamada)
- **Media:** 404.99  
- **Mediana:** 354.73  
- **Mínimo - Máximo:** 0.38 - 2,893.24  
- **Desviación estándar:** 293.03  
- **Conclusión:**  
  La media y la mediana son relativamente cercanas, lo que indica una distribución más equilibrada en comparación con otras variables. Sin embargo, hay valores extremadamente bajos y altos que podrían merecer un análisis más detallado.

## Observaciones Generales:
- Hay evidencia de valores atípicos en `Customer Lifetime Value` y `Monthly Premium Auto`, lo que sugiere la necesidad de visualizar la distribución de los datos (por ejemplo, con histogramas o boxplots).
- La variable `Income` presenta valores de 0, lo que puede requerir una evaluación adicional para determinar si representan datos faltantes o si algunos clientes realmente tienen ingresos de 0.
- `Total Claim Amount` parece tener una distribución más balanceada en comparación con las otras variables.

### Recomendaciones:
- Realizar un análisis de valores atípicos utilizando boxplots.
- Aplicar transformaciones como logaritmos en variables con distribuciones muy sesgadas.
- Explorar la correlación entre `Customer Lifetime Value` y `Income` para entender si los ingresos afectan el valor del cliente.



In [41]:
# The marketing team wants to know the top 5 less common customer locations. Create a pandas Series object that contains the customer locations and their frequencies, and then retrieve the top 5 less common locations in ascending order.
# Contar la frecuencia de cada ubicación
location_counts = customer_df['ST'].value_counts()

# Seleccionar los 5 menos comunes en orden ascendente
least_common_locations = location_counts.nsmallest(5)

# Mostrar el resultado
print(least_common_locations)

<class 'pandas.core.series.Series'>


In [51]:
# The sales team wants to know the total number of policies sold for each type of policy. Create a pandas Series object that contains the policy types and their total number of policies sold, and then retrieve the policy type with the highest number of policies sold.

policy_counts = customer_df['Policy Type'].value_counts()

# Obtener el tipo de póliza con más ventas
most_sold_policy = policy_counts.idxmax()

# Mostrar el resultado
print(f"El tipo de póliza más vendido es: {most_sold_policy}")

El tipo de póliza más vendido es: Personal Auto


In [57]:
# The sales team wants to know if customers with Personal Auto have a lower income than those with Corporate Auto. How does the average income compare between the two policy types?

# Filtrar los clientes con póliza "Personal Auto"
personal_auto_df = customer_df.loc[customer_df["Policy Type"] == "Personal Auto"]

# Filtrar los clientes con póliza "Corporate Auto"
corporate_auto_df = customer_df.loc[customer_df["Policy Type"] == "Corporate Auto"]

# Calcular la media de ingresos para cada tipo de póliza
avg_income_personal = personal_auto_df["Income"].mean()
avg_income_corporate = corporate_auto_df["Income"].mean()

# Imprimir los resultados
print(f"Ingreso promedio - Personal Auto: {avg_income_personal:.2f}")
print(f"Ingreso promedio - Corporate Auto: {avg_income_corporate:.2f}")

# Comparación
if avg_income_personal < avg_income_corporate:
    print("Los clientes con Personal Auto tienen un ingreso promedio más bajo que los de Corporate Auto.")
elif avg_income_personal > avg_income_corporate:
    print("Los clientes con Personal Auto tienen un ingreso promedio más alto que los de Corporate Auto.")
else:
    print("Los clientes con Personal Auto y Corporate Auto tienen el mismo ingreso promedio.")


Ingreso promedio - Personal Auto: 38180.70
Ingreso promedio - Corporate Auto: 41390.31
Los clientes con Personal Auto tienen un ingreso promedio más bajo que los de Corporate Auto.
