# Análisis de ventas 

### A partir de los datos de las ventas realizadas y de los datos de los clientes se lleva a cabo un análisis de las ventas.

In [1]:
import pandas as pd
import numpy as np

#### Datos de los clientes

In [59]:
clientes = pd.read_csv('Clientes.csv', sep=';')
clientes.head()

Unnamed: 0,Cliente,Nombre,Sexo,Zona
0,9001,Ana_1,F,Buenos Aires
1,9002,Juan_1,M,Capital Federal
2,9003,Pedro_1,M,Capital Federal
3,9004,Romina_1,F,Buenos Aires
4,9005,Ana_2,F,Buenos Aires


#### Datos de las ventas

In [60]:
ventas = pd.read_csv('Ventas.csv')
ventas.head()

Unnamed: 0,Cliente,Fecha,Importe,Estado
0,9452,01/01/2020,51356,Completado
1,9567,01/01/2020,96994,Completado
2,10551,01/01/2020,33280,Completado
3,9320,01/01/2020,18045,Completado
4,9043,01/01/2020,2286,Completado


#### Combinamos ambos datasets

In [73]:
data = ventas.merge(clientes, on='Cliente')
data.head()

Unnamed: 0,Cliente,Fecha,Importe,Estado,Nombre,Sexo,Zona
0,9452,01/01/2020,51356,Completado,Romina_113,F,Capital Federal
1,9452,23/01/2020,79480,Completado,Romina_113,F,Capital Federal
2,9452,01/02/2020,3701,Completado,Romina_113,F,Capital Federal
3,9452,24/03/2020,9367,Completado,Romina_113,F,Capital Federal
4,9452,12/07/2020,34220,Completado,Romina_113,F,Capital Federal


#### Pasamos la fecha a datetime

In [85]:
data['Fecha'] = pd.to_datetime(data['Fecha'],format='%d/%M/%Y', errors='Coerce')

In [86]:
data.Fecha.dtypes

dtype('<M8[ns]')

#### Exportamos el dataset a un csv

In [84]:
data.to_csv('ventas_clientes.csv', index=False)

## Analizamos compras realizadas por distintos clientes. 
#### Info disponible: fecha de compra, numero de cliente, precio, el estado de la compra (completado o en viaje), nombre de la persona, sexo y ubicacion.

In [49]:
data.Cliente.nunique() # Hay 1624 clientes

1624

In [50]:
data.Estado.value_counts() # Hay 27 en viaje

Completado    6833
En Viaje        27
Name: Estado, dtype: int64

In [92]:
data.Cliente.value_counts() # Cantidad de compras que hizo cada cliente

9359     12
9827     11
9869     10
9504     10
9136     10
         ..
9054      1
10033     1
9947      1
10232     1
9297      1
Name: Cliente, Length: 1624, dtype: int64

#### Clientes que más gastaron

In [51]:
clientes_caros = pd.DataFrame(data.Importe.groupby(by=data['Cliente']).sum())
clientes_caros = clientes_caros.sort_values(by='Importe', ascending=False)

In [87]:
clientes_caros['Porcentaje del total'] = (clientes_caros['Importe']*100)/(clientes_caros['Importe'].sum())

In [89]:
clientes_caros # Porcentaje que representa el importe gastado por cada cliente del total gastado por 
                # todos los clientes

Unnamed: 0_level_0,Importe,Porcentaje del total
Cliente,Unnamed: 1_level_1,Unnamed: 2_level_1
9869,624944,0.180226
10377,614929,0.177338
10373,607407,0.175168
9576,593188,0.171068
10168,586896,0.169253
...,...,...
9475,4924,0.001420
9338,4374,0.001261
9445,3494,0.001008
9078,1915,0.000552


In [56]:
data.Zona.value_counts() # La mayor cantidad de compras se da en capital, luego buenos aires, cordoba y sante fe

Capital Federal    4127
Buenos Aires       1696
Cordoba             715
Santa Fe            322
Name: Zona, dtype: int64

In [58]:
data.Sexo.value_counts() # Las compras se distribuyen proporcionalmente entre hombres y mujeres

F    3472
M    3388
Name: Sexo, dtype: int64