# <font color=#000080>Análisis de ventas 2

## <font color=#000080>Librerías

In [None]:
# Importar librerias - Instalacion en Simbolo del sistema "cmd" colocando: python -m pip install...
# pip install pandas
# pip install numpy
# pip install matplotlib
# pip install xlwings
# pip install lxml
#import pandas as pd
#import numpy as np
#import matplotlib.pyplot as plt
#import xlwings as xw
#import lxml as lx

In [1]:
# Análisis de datos
import pandas as pd
import numpy as np

# Direcciones
import os

# Gráficos
import matplotlib.pyplot as plt
import seaborn as sns

# Gestión de libros de Excel
#import xlwings as xw
#import lxml as lx

## <font color=#000080>Carga de datos
- El caracter r será usado cuando se copien y peguen direcciones en Windows con barras incliniadas a la izquierda (**\**)
- Se cargaron datos que no tienen un formato de tabla en el libro de excel

In [None]:
main_path = r'C:\Users\DELL\OneDrive\Formación\Python\Repositorios\Case_Analysis\Data'
df1 = pd.read_excel(io = os.path.join(main_path,'categoria-1.xlsx'),sheet_name = 'Computadoras')
df2 = pd.read_excel(io = os.path.join(main_path,'categoria-2.xlsx'),sheet_name = 'Consolas')
df3 = pd.read_excel(io = os.path.join(main_path,'categoria-1.xlsx'),sheet_name = 'Celulares')

## <font color=#000080>Visualización preliminar de datos

### Información general
Se debe evaluar la dimensión (filas y columas) del dataframe, asi como la ubicación y tipo de variables.

In [None]:
df1.head()

In [None]:
df2.head()

In [None]:
df3.head()

In [None]:
df1.info()

In [None]:
df2.info()

In [None]:
df3.info()

Todos los dataframes tienen el mismo **nombre y ubicación** de columnas

In [None]:
sum(df1.columns == df2.columns)

In [None]:
sum(df3.columns == df3.columns)

Existen columnas con el mismo nombre pero con diferente tipo de datos. Tómese en cuenta que el método de comprobación será válido si y solo si la ubicación de los dataframes es la misma.

In [None]:
df1.dtypes == df2.dtypes

In [None]:
df3.dtypes == df1.dtypes

¿Existen datos flatantes?

In [None]:
df3.isnull().values.any()

¿Cuál es la ubicación de los datos faltantes? <br>
Uso de filtros con pandas...

In [None]:
df3.isnull().sum()

### Información general para datos más abudantes

In [None]:
#df4 = pd.read_excel(io = os.path.join(main_path,'categoria-3.xlsx'),sheet_name = 'Consolas')

In [None]:
#df4.info(verbose = True, show_counts = True)

In [None]:
#df4.isnull().values.any()

Número de variables que tienen al menos un valor faltante (NaN)

In [None]:
#df4.isnull().sum().sum()

Lista de variables que contienen valores faltantes

In [None]:
#df4.columns[df4.isnull().any()]

## <font color=#000080>Tranformación de datos (Data wrangling)
De acuerdo con la sección de visualización preliminar de datos, se observó que los dos datsframes tienen las mismas características lo que permitiría trabajar con un solo objeto, es decir, un dataframe.
    
El orden de transformación de datos dependerá de las necesidades de análiss o requermientos del proyecto, lo importante es mantener la integridad de los datos sin comprometer la calidad información.
    
Para este caso se necesita que el dataframe resultante presente la siguiente caracterísiticas:
1. Eliminiar la columna "Total venta"
2. Juntar ambos dataframes
3. Tipos de variables adecuados
4. Calcula una nueva columna que contenga las ventas facturadas
5. Reemplazar el nivel de "Wii" por "Nintendo Wii", "SAMSUMG" por "SAMSUNG"
6. Reemplazar los valores faltantes (NaN) por "SAMSUNG" en la columna "Producto"
7. Verificar que la columna fecha tenga una notación consistente

In [None]:
print(df1.shape)
print(df2.shape)
print(df3.shape)

In [2]:
# Carga de datos
main_path = r'C:\Users\DELL\OneDrive\Formación\Python\Repositorios\Case_Analysis\Data'
df1 = pd.read_excel(io = os.path.join(main_path,'categoria-1.xlsx'),sheet_name = 'Computadoras')
df2 = pd.read_excel(io = os.path.join(main_path,'categoria-2.xlsx'),sheet_name = 'Consolas')
df3 = pd.read_excel(io = os.path.join(main_path,'categoria-1.xlsx'),sheet_name = 'Celulares')


# Requerimiento 1
df1 = df1.drop(['Total venta'], axis = 1)
df2 = df2.drop(['Total venta'], axis = 1)
df3 = df3.drop(['Total venta'], axis = 1)


# Requerimiento 2 y 3
df_cleaned = pd.concat([df1,df2,df3])

# Requerimiento 4
df_cleaned['Ventas facturadas'] = df_cleaned['Cantidad'] * df_cleaned['Precio Unitario']

# Requerimiento 5
detail = {'Producto' : {'Wii': 'Nintendo Wii','SAMSUMG': 'SAMSUNG'}}
df_cleaned = df_cleaned.replace(detail)

# Requerimiento 6
df_cleaned['Producto'] = df_cleaned['Producto'].fillna('SAMSUNG')

# Requerimiento 7
# El formato de fecha es dispuesto según el año, mes y día para todos los registros. Por tanto, no es necesario
# hacer tranformación para este requerimiento


# Comprobación de resultados
#df_cleaned['Producto'].value_counts(dropna = False)
#print(df_cleaned.tail())
#print('------------------------------------------------------------------------------------------')
#print(df_cleaned.info())

In [None]:
aux = df_cleaned['Fecha'].astype(str).str.split('-', expand = True)
print(aux)
aux[1].value_counts(dropna = False).sort_index()

In [None]:
aux[1].value_counts(dropna = False).sort_index()

## <font color=#000080>Análisis de datos
En esta etapa los datos se encuentran listos para ser analizados, podemos aplicar los métodos estadísticos que se vena convenientes o cualquier otra operación.

### Herramienta de descripción rápida

In [None]:
df_cleaned.describe()

In [None]:
df_cleaned.drop('Fecha', axis = 1).describe(include = 'object')

In [None]:
df_cleaned.drop('Fecha', axis = 1).describe(include = 'all')

### Análisis por agrupación de datos

In [3]:
df_cleaned.head()

Unnamed: 0,Fecha,Estado,Vendedor,Categoría,Producto,Cantidad,Precio Unitario,Ventas facturadas
0,2020-01-01,Florida,Rubén Rondón,Computadoras,SAMSUNG,200,340.0,68000.0
1,2020-01-01,Arizona,Elizabeth Smith,Computadoras,HP,230,600.0,138000.0
2,2020-01-01,Texas,Rubén Rondón,Computadoras,SAMSUNG,200,340.0,68000.0
3,2020-02-01,California,Mario Martínez,Computadoras,HP,2,650.0,1300.0
4,2020-03-01,Minnesota,Elizabeth Smith,Computadoras,MAC,60,1100.0,66000.0


Uso de la función groupby

In [4]:
table01 = df_cleaned.groupby(by = ['Categoría','Producto'],
                             as_index = False)[['Cantidad','Ventas facturadas']].sum()

table01 = table01.sort_values(by = ['Categoría','Ventas facturadas','Producto'],
                              ascending = False, ignore_index = True)

table01

Unnamed: 0,Categoría,Producto,Cantidad,Ventas facturadas
0,Consolas Videojuegos,PlayStation 2,1102,165288.98
1,Consolas Videojuegos,Game Boy,1305,117384.75
2,Consolas Videojuegos,Game Boy Advance,364,107456.62
3,Consolas Videojuegos,PlayStation 4,70,24499.3
4,Consolas Videojuegos,Nintendo Wii,178,17798.22
5,Consolas Videojuegos,PlayStation 3,70,9519.3
6,Consolas Videojuegos,Nintendo DS,75,7499.25
7,Computadoras,MAC,2145,2405500.0
8,Computadoras,SAMSUNG,2972,1026600.0
9,Computadoras,HP,1545,951200.0


In [5]:
table02 = df_cleaned.groupby(by = ['Estado','Producto'],
                             as_index = False)[['Cantidad','Ventas facturadas']].sum()

table02 = table02.sort_values(by = ['Estado','Ventas facturadas','Producto'],
                              ascending = False, ignore_index = True)

table02.head(10)

Unnamed: 0,Estado,Producto,Cantidad,Ventas facturadas
0,Texas,SAMSUNG,1596,501600.0
1,Texas,iphone,110,99899.5
2,Texas,Game Boy Advance,200,68000.0
3,Texas,Game Boy,519,46684.05
4,Texas,PlayStation 2,40,5999.6
5,Texas,HP,8,4800.0
6,Texas,Nintendo Wii,8,799.92
7,Nueva York,HP,230,138000.0
8,Nueva York,MAC,100,110000.0
9,Nueva York,SAMSUNG,135,40500.0


In [6]:
table03 = pd.pivot_table(data = df_cleaned, index = ['Categoría', 'Producto'],
                         values = ['Ventas facturadas'], aggfunc = sum).reset_index()

table03 = table03.sort_values(by = ['Categoría','Ventas facturadas'],
                              ascending = False, ignore_index = True)

table03

Unnamed: 0,Categoría,Producto,Ventas facturadas
0,Consolas Videojuegos,PlayStation 2,165288.98
1,Consolas Videojuegos,Game Boy,117384.75
2,Consolas Videojuegos,Game Boy Advance,107456.62
3,Consolas Videojuegos,PlayStation 4,24499.3
4,Consolas Videojuegos,Nintendo Wii,17798.22
5,Consolas Videojuegos,PlayStation 3,9519.3
6,Consolas Videojuegos,Nintendo DS,7499.25
7,Computadoras,MAC,2405500.0
8,Computadoras,SAMSUNG,1026600.0
9,Computadoras,HP,951200.0


In [7]:
df_cleaned['Vendedor'].value_counts()

Rubén Rondón       115
Elizabeth Smith     80
Mariana Báez        79
Mario Martínez      45
Name: Vendedor, dtype: int64

In [14]:
table04 = pd.pivot_table(data = df_cleaned, index = ['Categoría', 'Producto'], columns = ['Vendedor'],
                         values = ['Ventas facturadas'], aggfunc = sum).reset_index()

#table04 = table04.sort_values(by = ['Categoría','Ventas facturadas'],
#                              ascending = False, ignore_index = True)

table04

Unnamed: 0_level_0,Categoría,Producto,Ventas facturadas,Ventas facturadas,Ventas facturadas,Ventas facturadas
Vendedor,Unnamed: 1_level_1,Unnamed: 2_level_1,Elizabeth Smith,Mariana Báez,Mario Martínez,Rubén Rondón
0,Celulares inteligentes,SAMSUNG,2639.12,57000.0,,496799.86
1,Celulares inteligentes,iphone,30658.4,960300.0,2999.9,300869.5
2,Computadoras,HP,608600.0,156500.0,181300.0,4800.0
3,Computadoras,MAC,1266500.0,539000.0,69000.0,531000.0
4,Computadoras,SAMSUNG,127500.0,591600.0,32000.0,275500.0
5,Consolas Videojuegos,Game Boy,9894.5,,8635.2,98855.05
6,Consolas Videojuegos,Game Boy Advance,4797.92,,34298.9,68359.8
7,Consolas Videojuegos,Nintendo DS,,7499.25,,
8,Consolas Videojuegos,Nintendo Wii,9999.0,,2799.72,4999.5
9,Consolas Videojuegos,PlayStation 2,121191.92,,25798.28,18298.78
