## **Paso 1: Alcance del proyecto y captura de datos**
 **Identificar y recopilar los datos que usaras para tu proyecto**
- Se obtienen los datos desde la plataforma Kaggle Datasets.
- Este conjunto de datos contiene información sobre las ventas de automóviles de un concesionario en el transcurso de un año (2022-2023).
- Es un archivo .CSV con  2.500.000 registros.
- Con base a este, se analizaran las ventas a lo largo del tiempo y el desempeño de los vendedores.

**Explicar para qué casos de uso final deseas preparar los datos, por ejemplo: tabla de análisis, 
aplicación de fondo base de datos de fuentes de verdad  etc.**
- Monitoreo de ventas y comisiones por fecha.
- Identificación de tendencias de ventas por marca y modelo de auto.
- Análisis de rendimiento de ventas por vendedor.
- Analisis y seguimiento de ventas por cliente. 


## Paso 2: Explorar y evaluar los datos, el EDA

In [408]:
# Importar la biblioteca Pandas
import pandas as pd


# Cargar datos desde un archivo CSV
df = pd.read_csv('car_sales_data.csv')

# Crea una copia del DataFrame original para realizar modificaciones
df_copia = df.copy()  


In [409]:
#total de registros
total_registro = len(df)
print('Total de registros data frame original:',total_registro)

Total de registros data frame original: 2500000


In [410]:
# Mostrar las primeras filas del archivo
print(df.head())


         Date      Salesperson   Customer Name Car Make  Car Model  Car Year  \
0  2022-08-01  Monica Moore MD     Mary Butler   Nissan     Altima      2018   
1  2023-03-15     Roberto Rose  Richard Pierce   Nissan      F-150      2016   
2  2023-04-29     Ashley Ramos    Sandra Moore     Ford      Civic      2016   
3  2022-09-04   Patrick Harris    Johnny Scott     Ford     Altima      2013   
4  2022-06-16       Eric Lopez   Vanessa Jones    Honda  Silverado      2022   

   Sale Price  Commission Rate  Commission Earned  
0       15983         0.070495            1126.73  
1       38474         0.134439            5172.40  
2       33340         0.114536            3818.63  
3       41937         0.092191            3866.20  
4       20256         0.113490            2298.85  


A manera de ejercicio se analiza el campo 'car year', con el fin de filtrar los registros y trabajar con una copia del dataframe donde la antiguedad de los autos sea mayor o igual al 2013. 

In [411]:
# contar valores del campo 'car year'
car_year_counts = df['Car Year'].value_counts()

# mostrar registros
print("Salesperson diferentes y sus recuentos:")
print(car_year_counts)

Salesperson diferentes y sus recuentos:
Car Year
2013    192970
2017    192663
2020    192657
2015    192595
2018    192549
2014    192491
2010    192462
2012    192454
2016    192267
2019    192225
2011    191800
2021    191636
2022    191231
Name: count, dtype: int64


Filtro por el campo 'Car Year' donde este sea mayor o igual al 2013, y seguire trabajando con dataframe : df_fil

In [412]:
# Filtrar el DataFrame por el campo 'Car Year', >= 2013
df_fil = df[df['Car Year'] >= 2013].copy()

#imprimir total de registro
total_registro = len(df_fil)
print('Total de registros data frame:',total_registro)


Total de registros data frame: 1923284


In [413]:
# información general sobre los datos
print('información general sobre los datos')
print(df_fil.info())

información general sobre los datos
<class 'pandas.core.frame.DataFrame'>
Index: 1923284 entries, 0 to 2499998
Data columns (total 9 columns):
 #   Column             Dtype  
---  ------             -----  
 0   Date               object 
 1   Salesperson        object 
 2   Customer Name      object 
 3   Car Make           object 
 4   Car Model          object 
 5   Car Year           int64  
 6   Sale Price         int64  
 7   Commission Rate    float64
 8   Commission Earned  float64
dtypes: float64(2), int64(2), object(5)
memory usage: 146.7+ MB
None


In [414]:
# valores únicos en cada columna
print(' valores únicos en cada columna')
print(df_fil.nunique())

 valores únicos en cada columna
Date                     366
Salesperson           459174
Customer Name         459321
Car Make                   5
Car Model                  5
Car Year                  10
Sale Price             40001
Commission Rate      1923284
Commission Earned     557670
dtype: int64


In [415]:
# descripción de los datos 
print(df_fil.describe())

           Car Year    Sale Price  Commission Rate  Commission Earned
count  1.923284e+06  1.923284e+06     1.923284e+06       1.923284e+06
mean   2.017494e+03  3.001149e+04     9.998906e-02       3.001011e+03
std    2.871169e+00  1.154463e+04     2.886664e-02       1.481442e+03
min    2.013000e+03  1.000000e+04     5.000014e-02       5.024000e+02
25%    2.015000e+03  2.002300e+04     7.498592e-02       1.821840e+03
50%    2.017000e+03  3.000200e+04     1.000030e-01       2.741320e+03
75%    2.020000e+03  4.002100e+04     1.249906e-01       3.978180e+03
max    2.022000e+03  5.000000e+04     1.500000e-01       7.493820e+03


In [416]:
# valores nulos en los campos
print('valores nulos')
print(df_fil.isnull().sum())

valores nulos
Date                 0
Salesperson          0
Customer Name        0
Car Make             0
Car Model            0
Car Year             0
Sale Price           0
Commission Rate      0
Commission Earned    0
dtype: int64


In [417]:
# registros duplicados
print('Registros duplicados')
duplicates = df_fil[df_fil.duplicated(keep=False)]
print(duplicates)

Registros duplicados
Empty DataFrame
Columns: [Date, Salesperson, Customer Name, Car Make, Car Model, Car Year, Sale Price, Commission Rate, Commission Earned]
Index: []


**Documentar los pasos necesarios para limpiar los datos, indicar que tipo de pasos se sugieren 
para la limpiez**

- Identificar y trata los valores faltantes en el DataFrame, eliminando filas con valores faltantes o imputar valores medios o medianos. (En este caso no hay valores faltantes)
- Identificar y eliminar las filas duplicadas del DataFrame(En este caso no hay filas duplicadas)
- Corregir o eliminar los datos inconsistentes, por ejemplo, datos negativos en una columna que debe de ser positiva.(En este caso no aplica).
- Convertir los tipos de datos que sean necesarios para el analisis ( en este caso cambiare el tipo de dato de la columna 'Date' , 'Sale Price' y 'Commission Earne
s.
 

In [418]:
# Convertir la columna 'Date' al tipo de datos fecha
df_fil['Date'] = pd.to_datetime(df_fil['Date'])

# Convertir la columna 'Sale Price' a valores numéricos
df_fil['Sale Price'] = pd.to_numeric(df_fil['Sale Price'])

# Convertir la columna 'Commission Earned' a int
df_fil['Commission Earned'] = df_fil['Commission Earned'].astype(int)


print(df_fil.info())
print(df_fil.head())

<class 'pandas.core.frame.DataFrame'>
Index: 1923284 entries, 0 to 2499998
Data columns (total 9 columns):
 #   Column             Dtype         
---  ------             -----         
 0   Date               datetime64[ns]
 1   Salesperson        object        
 2   Customer Name      object        
 3   Car Make           object        
 4   Car Model          object        
 5   Car Year           int64         
 6   Sale Price         int64         
 7   Commission Rate    float64       
 8   Commission Earned  int32         
dtypes: datetime64[ns](1), float64(1), int32(1), int64(2), object(4)
memory usage: 139.4+ MB
None
        Date      Salesperson   Customer Name Car Make  Car Model  Car Year  \
0 2022-08-01  Monica Moore MD     Mary Butler   Nissan     Altima      2018   
1 2023-03-15     Roberto Rose  Richard Pierce   Nissan      F-150      2016   
2 2023-04-29     Ashley Ramos    Sandra Moore     Ford      Civic      2016   
3 2022-09-04   Patrick Harris    Johnny Scott     

- Para el analisis necesito separar la fecha en año, mes y dia en columnas independientes.

In [419]:
# Insertar las columnas 'Year', 'Month' y 'Day'
df_fil.insert(1, 'Year', df_fil['Date'].dt.year)
df_fil.insert(2, 'Month', df_fil['Date'].dt.month)
df_fil.insert(3, 'Day', df_fil['Date'].dt.day)

# Imprimir el DataFrame con las nuevas columnas
print(df_fil)

              Date  Year  Month  Day       Salesperson   Customer Name  \
0       2022-08-01  2022      8    1   Monica Moore MD     Mary Butler   
1       2023-03-15  2023      3   15      Roberto Rose  Richard Pierce   
2       2023-04-29  2023      4   29      Ashley Ramos    Sandra Moore   
3       2022-09-04  2022      9    4    Patrick Harris    Johnny Scott   
4       2022-06-16  2022      6   16        Eric Lopez   Vanessa Jones   
...            ...   ...    ...  ...               ...             ...   
2499992 2023-04-27  2023      4   27     John Alvarado    Kyle Brennan   
2499994 2022-07-04  2022      7    4  Matthew Townsend     Nicole Clay   
2499995 2022-05-26  2022      5   26    Isabella Moore     Shirley Lee   
2499996 2022-10-03  2022     10    3     Kimberly Snow    Tara Rodgers   
2499998 2023-02-15  2023      2   15     Donald Barber     Ashley Diaz   

          Car Make  Car Model  Car Year  Sale Price  Commission Rate  \
0           Nissan     Altima      2018

- En este caso no necesito la columna 'Day' por lo que la elimino.
- Para este analisis no necesitare la taza de porcentaje de la comision por lo que elimino  el campo 'Commission Rate'


In [420]:
# Eliminar la columna 'Day'
df_fil.drop(columns=['Day'], inplace=True)

# Eliminar la columna 'Car Year'
df_fil.drop(columns=['Commission Rate'], inplace=True)

# Columnas actualizadas
print(df_fil.columns)


Index(['Date', 'Year', 'Month', 'Salesperson', 'Customer Name', 'Car Make',
       'Car Model', 'Car Year', 'Sale Price', 'Commission Earned'],
      dtype='object')


## Paso 3: Definir el modelo de datos
**Trazar el modelo de datos conceptual y explicar por qué se eligió ese modelo**
![modelo_conceptual](Modelo_conceptual_cars_sale.JPG)

Elegi este modelo de entidad-relación porque refleja claramente la estructura de los datos proporcionados y las relaciones entre ellos. La entidad Venta es el elemento central, que vincula vendedores, clientes y automóviles a cada venta específica. De esta manera, podemos rastrear qué vendedor realizó una venta, qué cliente compró el automóvil y qué automóvil se vendió en cada caso.


**Indique claramente los motivos de la elección de las herramientas y tecnologías para el
proyecto.**

-	**Python** es el lenguaje sugerido en el proyecto además es un lenguaje muy popular para el análisis de datos y uno de los más demandados en el medio.
-	**Pandas** al serla libreria  exclusiao de Python ayuda a que sus funciones para la manipulación de datos permita realizar la limpieza y transformación de datos de manera sencilla.
-	**Jupyter Notebook** proporciona un entorno interactivo que facilita la exploración y el análisis de datos paso a paso de datasets con gran volumen de datos. Además, permite documentar el proceso.
.


**Proponga con qué frecuencia deben actualizarse los datos y por qué.**

- 	Creería que en este caso los datos deben de ser actualizados mensualmente, ya que lo que se quiere analizar es el comportamiento de las ventas  y el desempeño de los vendedores mes a mes; normalmente en este tipo de negocio se revisan las ventas y demás, basado en los cierres mensuales  y de ahí en adelante, es decir trimestral , semestral y anual.


## Paso 5: Completar la redacción del proyecto

**¿Cuál es el objetivo del proyecto?**
##### optimizar las estrategias de ventas y comisiones para maximizar las ganancias. Esto incluiría identificar los vendedores más exitosos, las marcas y modelos de automóviles más populares y fidelización de clientes.
- Identificar tendencias de ventas a lo largo del tiempo, lo que ayudaría a la empresa a planificar y ajustar sus operaciones y estrategias.
- Evaluar el rendimiento individual de los vendedores, identificando fortalezas y áreas de mejora para cada uno de ellos.
- identificar las tendencias de compras de los clientes, para generar estrategias de marketing personalizadas y fidelizacion de los clientes.


#####  ¿Qué preguntas quieres hacer?
1. ¿Total de ventas por mes y por año? 

In [536]:
# ventas agrupadas año
ventas_total_año = df_fil.groupby(['Year'])['Sale Price'].sum().reset_index()
ventas_total_año.columns = ['año','total ventas']
# formato de miles
ventas_total_año['total ventas'] = ventas_total_año['total ventas'].apply('{:,.0f}'.format)

# ventas agrupadas por mes
ventas_total_mes = df_fil.groupby(['Year', 'Month'])['Sale Price'].sum().reset_index()
ventas_total_mes.columns = ['año','mes','total ventas']
# formato de miles
ventas_total_mes['total ventas'] = ventas_total_mes['total ventas'].apply('{:,.0f}'.format)

# mostrar registros
print("Total ventas por año:")
print(ventas_total_año)
print("Total ventas por mes:")
print(ventas_total_mes)


Total ventas por año:
    año    total ventas
0  2022  38,644,773,400
1  2023  19,075,845,172
Total ventas por mes:
     año  mes   total ventas
0   2022    5  4,897,311,108
1   2022    6  4,735,987,177
2   2022    7  4,887,465,211
3   2022    8  4,888,037,952
4   2022    9  4,717,438,167
5   2022   10  4,904,760,345
6   2022   11  4,707,538,526
7   2022   12  4,906,234,914
8   2023    1  4,881,490,501
9   2023    2  4,424,838,715
10  2023    3  4,884,073,854
11  2023    4  4,726,681,501
12  2023    5    158,760,601


2. ¿Total de comisiones pagadas por mes y por año? 

In [540]:
# comisiones pagadas por año
comision_total_año = df_fil.groupby(['Year'])['Commission Earned'].sum().reset_index()
comision_total_año.columns = ['año', 'comision total']

# formato de miles
comision_total_año['comision total'] = comision_total_año['comision total'].apply('{:,.0f}'.format)

# comisiones pagadas por mes 
comision_total_mes = df_fil.groupby(['Year', 'Month'])['Commission Earned'].sum().reset_index()
comision_total_mes.columns =['año','mes','comision total']
# formato de miles
comision_total_mes['comision total'] = comision_total_mes['comision total'].apply('{:,.0f}'.format)


# mostrar registros
print("total comisiones por año:")
print(comision_total_año)
print("total comisiones por mes:")
print(comision_total_mes)


total comisiones por año:
    año comision total
0  2022  3,863,648,584
1  2023  1,907,194,956
total comisiones por mes:
     año  mes comision total
0   2022    5    489,725,991
1   2022    6    473,865,311
2   2022    7    488,509,089
3   2022    8    488,898,225
4   2022    9    471,490,823
5   2022   10    489,728,218
6   2022   11    470,665,505
7   2022   12    490,765,422
8   2023    1    488,046,633
9   2023    2    442,488,782
10  2023    3    488,113,611
11  2023    4    472,711,347
12  2023    5     15,834,583


3. ¿Top 5 de los vendedores con mayores y menores ventas?

In [543]:
# Calcular el total de ventas por vendedor
ventas_vendedor = df_fil.groupby('Salesperson')['Sale Price'].sum().reset_index()
ventas_vendedor.columns = ['vendedor', 'total ventas']

# Contar el número de ventas por vendedor
cantidad_ventas_vendedor = df_fil['Salesperson'].value_counts().reset_index()
cantidad_ventas_vendedor.columns = ['vendedor', 'cantidad ventas']

# Unir las dos consultas en una sola tabla
resultados = pd.merge(cantidad_ventas_vendedor,ventas_vendedor, on='vendedor')

# ordenar ventas desc, obtener top5
top_5_mayores_ventas = resultados.sort_values(by='total ventas', ascending=False).head(5)
top_5_mayores_ventas['total ventas'] = top_5_mayores_ventas['total ventas'].apply(lambda x: '{:,.0f}'.format(x))

# ordenar ventas asc, obtener top 5
top_5_menores_ventas = resultados.sort_values(by='total ventas', ascending=True).head(5)
top_5_menores_ventas['total ventas'] = top_5_menores_ventas['total ventas'].apply(lambda x: '{:,.0f}'.format(x))

#mostrar registros
print("Top 5 vendedores con mayores ventas:")
print(top_5_mayores_ventas)

print("Top 5 vendedores con menores ventas:")
print(top_5_menores_ventas)


Top 5 vendedores con mayores ventas:
          vendedor  cantidad ventas total ventas
0    Michael Smith              950   28,404,114
1  Michael Johnson              759   22,261,785
2      David Smith              624   18,186,414
3      James Smith              601   18,109,892
4     Robert Smith              575   17,432,778
Top 5 vendedores con menores ventas:
                  vendedor  cantidad ventas total ventas
248631       Tanya Watkins                1       10,000
260450      Gina Welch PhD                1       10,000
382865  Marcus Christensen                1       10,000
270636   Margaret Delacruz                1       10,000
410827      Bethany Gamble                1       10,000


4. ¿ cual es la marca de auto mas vendida?

In [544]:
# ventas totales por marca de automóvil
ventas_marca = df_fil.groupby('Car Make')['Sale Price'].sum().reset_index()
ventas_marca.columns =['marca carro','total ventas']
# ventas por marca de automóvil
conteo_ventas_marca = df_fil['Car Make'].value_counts().reset_index()
conteo_ventas_marca.columns = ['marca carro','cantidad ventas']

# unir las dos consultas en una sola tabla
resultados = pd.merge(conteo_ventas_marca,ventas_marca,on= 'marca carro')

#aplicar formato de miles
resultados['total ventas'] = resultados['total ventas'].apply('{:,.0f}'.format)
resultados['cantidad ventas'] = resultados['cantidad ventas'].apply('{:,.0f}'.format)

# mostrar registros
print(resultados)


  marca carro cantidad ventas    total ventas
0   Chevrolet         385,416  11,565,329,928
1       Honda         385,009  11,560,211,682
2      Toyota         384,958  11,552,317,705
3        Ford         384,487  11,534,856,791
4      Nissan         383,414  11,507,902,466


5.¿Cuáles son los modelos de autos más vendidos?

In [548]:
# ventas totales por marca y modelo de automóvil
ventas_modelo = df_fil.groupby(['Car Make', 'Car Model'])['Sale Price'].sum().reset_index()
ventas_modelo.columns = ['marca carro','modelo carro','total ventas']

# cantidad de ventas por marca y modelo de automóvil
cantidad_ventas_modelo = df_fil.groupby(['Car Make', 'Car Model'])['Sale Price'].count().apply(lambda x: '{:,.0f}'.format(x)).reset_index()
cantidad_ventas_modelo.columns = ['marca carro','modelo carro','cantidad ventas']

# unir las dos consultas en una sola tabla
resultados = pd.merge(ventas_modelo,cantidad_ventas_modelo, on = ['marca carro','modelo carro'] )

# ordenar ventas asc, obtener top 5
top_10_modelo = resultados.sort_values(by='total ventas', ascending=False).head(10).reset_index(drop=True)

#formato miles
top_10_modelo['total ventas'] = top_10_modelo['total ventas'].apply(lambda x: '{:,.0f}'.format(x))

#mostrar registros
print("Top 10 de modelos de autos mas vendidos")
print(top_10_modelo)

Top 10 de modelos de autos mas vendidos
  marca carro modelo carro   total ventas cantidad ventas
0       Honda    Silverado  2,330,214,563          77,538
1   Chevrolet        Civic  2,323,884,339          77,501
2      Toyota      Corolla  2,319,012,502          77,223
3      Toyota        F-150  2,318,990,509          77,199
4   Chevrolet      Corolla  2,317,706,195          77,164
5   Chevrolet        F-150  2,315,270,571          77,185
6        Ford    Silverado  2,314,673,556          77,176
7      Nissan    Silverado  2,313,981,837          76,925
8        Ford      Corolla  2,313,967,927          77,042
9        Ford       Altima  2,311,783,209          76,886


6. Con el fin de realizar campañas de mercadeo y de fidelizacion ¿ cual es el cliente que mas compra y su preferencia en marca de carro?

In [558]:
# ventas totales por marca de automóvil
ventas_cliente = df_fil.groupby(['Customer Name','Car Make'])['Sale Price'].sum().reset_index()
ventas_cliente.columns = ['cliente','marca carro','total ventas']


top_10_ventas = ventas_cliente.sort_values(by='total ventas', ascending=False).head(10).reset_index()
#formato miles
top_10_ventas['total ventas'] = top_10_ventas['total ventas'].apply(lambda x: '{:,.0f}'.format(x))

# mostrar registros
print("Ventas ordenadas por marca de mayor a menor:")
print(top_10_ventas)


Ventas ordenadas por marca de mayor a menor:
    index            cliente marca carro total ventas
0  636552      Michael Smith      Toyota    6,243,706
1  636549      Michael Smith        Ford    5,718,565
2  636550      Michael Smith       Honda    5,005,433
3  636551      Michael Smith      Nissan    4,874,605
4  636548      Michael Smith   Chevrolet    4,778,797
5  634357    Michael Johnson      Toyota    4,380,208
6  634356    Michael Johnson      Nissan    4,240,848
7  183966  Christopher Smith        Ford    4,217,353
8  637213   Michael Williams      Toyota    4,183,123
9  235074        David Smith       Honda    4,149,083


###**Incluya una descripción de cómo abordaría el problema de manera diferente en los siguientes escenarios:**
    
**Si los datos se incrementaran en 100X**

- **Capacidad de procesamiento:** se necesitaría contar con un hardware más potente o utilizar servicios en la nube con los que puedan manejar grandes volúmenes de datos, como Amazon Web Services (AWS), Microsoft Azure, Google Cloud Platform (GCP).

- **Muestreo aleatorio:** Si el tamaño de los datos se vuelve demasiado grande para trabajar de manera eficiente en un entorno local, se puede considerar realizar un muestreo aleatorio de los datos para obtener una muestra representativa y más manejable para el análisis.

- **Uso de tecnologías Big Data:** Si el volumen de datos es masivo y supera la capacidad de manejo de una sola máquina, se podría considerar el uso de tecnologías Big Data como Apache Hadoop o Apache Spark, que están diseñadas para procesar y analizar grandes conjuntos de datos distribuidos en clústeres de máquinas.
