# Proyecto del primer módulo.

Sean bienvenidos al nuevo startup del momento llamado DataSense Inc.; ustedes han sido contratados como analistas de datos en el área de tecnología. En esta área ya hay 4 analistas encargados de otras áreas de la empresa por lo cual a ti te fue asignada la labor de analizar los datos del departamento de ventas; al llegar en tu primer día caes en cuenta que los empleados están usando diversas herramientas para realizar el análisis. Algunos utilizan Excel, otros utilizan Google Sheets pero ambas opciones son ya sea licencias personales o licencias ilegales; por lo tanto, su jefe les ha dicho que busquen una herramienta que pueda trabajar, editar y manipular estos archivos ya que la herramienta será implementada en toda la empresa. Mientras los otros 4 analistas debaten entre utilizar Excel o Sheets tu recuerdas haber visto que Python puede ser utilizado para analizar estos tipos de archivos; por lo tanto instalas Anaconda y comienzas a trabajar con los archivos fundamentales.

## Parte 1
En esta parte solo puedes utilizar Python vanilla (y el paquete csv para abrir el archivo Business Data.csv); aquí vas a demostrar tus conocimientos de Python básico.

In [None]:
import csv

1. Carga el archivo csv a Python usando código vanilla (no importes más paquetes).

In [None]:
## A continuación un ejemplo de la clase de respuesta que espero

"""Hay partes del código que no son necesarias explicar, 
pueden obtener respuestas de otros lados pero es importante mantener legibilidad."""

archivo = []

with open('Business Data.csv', 'r', encoding = "utf-8-sig" ) as file:  ##Cuidado con el encoding, puede que en ciertas máquinas requiera un encoding distinto (utf-8, utf, o ni uno).
    my_reader = csv.reader(file, delimiter=',')
    for row in my_reader:
        archivo.append(row)
    

2. Ahora explora tu objeto. Como es una lista de listas podemos acceder a 2 índices distintos.
- ¿El primer índice nos da una columna del csv, o un reglón?
- ¿Cuales son los nombres de las columnas del archivo csv?
- Corre el comando len sobre tu lista de listas. ¿Que significa el resultado?
- ¿Cuál es la longitud de las listas dentro de este objeto?

In [None]:
print(archivo[0])

In [None]:
# 1. Es un renglón
# 2. Nombre, Edad, Sexo, Area, Posicion, Sueldo

In [None]:
len(archivo)
# 3. Significa que "archivo" tiene 36 listas

In [None]:
len(archivo[1])
# 4. Cada lista dentro de "archivo" tiene 6 elementos

3. ¿Cuál es el tipo de datos que hay en cada columna? ¿Hay alguna incongruencia?
- Inspecciona la primera observación e imprime el tipo de dato en cada columna.

In [None]:
#print(archivo[1])

for i in archivo[1]:
    print ('El elemento "{}" es de tipo {}'.format( i , type(i)))
    
# Cada columna tiene elemento de tipo String, pero la incongruencia es que "Edad" y "Sueldo" deberían ser tipo numérico

4. En nuestros datos hay algunas palabras que llevan acento; sin embargo, cuando estamos tratando con el usuario hay ocasiones en las que puede cometer errores con estos acentos o puede ser que escriba la palabra sin mayúscula.

- ¿Como se llama el proceso de transformar palabras para agruparlas?
- Crea una función que reciba como argumento una palabra con mayúscula y acentos y que regrese la palabra con puras minúsculas y sin acentos. Prueba la función con la palabra Esdrújula.

In [None]:
# 1. El proceso de transformar palabras para agruparlas se llama "normalizar"

In [None]:
def normalizar(palabra):
    replacements = (
        ("á", "a"),
        ("é", "e"),
        ("í", "i"),
        ("ó", "o"),
        ("ú", "u"),
    )
    for a, b in replacements:
        palabra = palabra.replace(a, b).replace(a.upper(), b.upper())
    return palabra.lower()

print(normalizar("Esdrújula"))

5. Realiza una transformación a tu lista para que ahora el primer índice nos de una columna en lugar de un renglón.

In [None]:
lista_2 = [[fila[i] for fila in archivo ] for i in range(len(archivo[0]))]
print(lista_2[0])

6. Una vez hecha la transformación, extrae la columna de nombres de tu data. ¿Que observas que puede dificultar el proceso de análisis de datos?

In [None]:
print(lista_2[0])
# Algunos individuos tienen 2 nombres + 1 apellido, otros tienen 1 nombre + 1 apellido, esto puede dificultar el análisis.

## Parte 2
Mientras sigues realizando pruebas en Python caes en cuenta de que esto es mucho más difícil de lo que recordabas; los objetos de listas no son los mejores para manipular estos datos y parece que el debate regresa a Excel y Sheets pero una busqueda en google te hace recordar que existen librerías gratuitas en Python que facilitan el análisis de datos. Decides instalar Numpy y Pandas y regresar a trabajar para ahora si poder realizar un análisis de tus datos.

### A partir de este punto ya podemos utilizar Numpy y Pandas, pero seguimos trabajando con el archivo Business Data.csv de forma exclusiva.


In [None]:
import numpy as np
import pandas as pd

7. Carga la base de datos anterior de un formato a un dataframe. Ya no tienes que utilizar la lista de listas.

In [None]:
df = pd.read_csv('./Business Data.csv')
df.head(3)

8. ¿Cuantos hombres hay en la empresa, cuantas mujeres?

In [None]:
df.groupby('Sexo').count()['Nombre']

9. ¿Cuantas áreas distintas hay en la empresa; cuantos empleados hay por área?

In [None]:
df.pivot_table(index = 'Area',
               values = 'Nombre',
               aggfunc = 'count').rename(columns={'Nombre':'Empleados'})   

10. ¿Como está la distribución de género en estas áreas, cuantos hombres y cuantas mujeres en cada área?

In [None]:
df.pivot_table(index = 'Area',
               columns = 'Sexo',
               values = 'Nombre',
               aggfunc = 'count').rename(columns={'F':'Mujeres', 'M': 'Hombres'})

11. ¿Cuantas posiciones distintas hay dentro del área de Tecnología, cuantas hay en el área de Ventas?

In [None]:
df.pivot_table(index = ['Area','Posición'],
               values = 'Nombre',
               aggfunc = 'count')   

In [None]:
df.pivot_table(index = 'Area',
               values = 'Posición',
               aggfunc = 'nunique')

12. Hay alguna posición que tengan en común ventas y tecnología (que tengan exactamente el mismo nombre). ¿En caso de que si haya, cual?

In [None]:
A = set(pd.unique(df['Posición'][df['Area']=='Tecnología']))
B = set(pd.unique(df['Posición'][df['Area']=='Ventas']))
print('Ambas áreas tienen la posición {} en común'.format(A.intersection(B)))

13. ¿Cuál es el primer nombre más común en la empresa, cual es el apellido más común?

In [None]:
primer_nombre = df['Nombre'].apply(lambda x: x.split()[0]).value_counts()
apellido = df['Nombre'].apply(lambda x: x.split()[-1]).value_counts()

print('El primer nombre más común en la empresa es "{}", mientras que el apellido más común es "{}"'.format(primer_nombre.index[0], apellido.index[0]))

14. Revisa nuevamente el tipo de dato que hay en cada columna; si no corresponde, entonces transformalo al que sí corresponde.

In [None]:
df.dtypes
# Si corresponden, "Edad" y "Sueldo" ya son de tipo numérico

15. ¿Cual es la edad promedio en la empresa, cual es el sueldo promedio?

In [None]:
print('La edad promedio en la empresa es {} años.\n'.format(df.Edad.mean()))
print('El sueldo promedio es de ${} pesos.'.format(df.Sueldo.mean()))

16. Ahora calcula el sueldo promedio por sexo.
- ¿Cuál sexo tiene mayor sueldo y cual es la diferencia entre los sueldos?

In [None]:
mujer = df.Sexo == 'F'
hombre = df.Sexo == 'M'

sueldo_hombre = df[(hombre)].Sueldo.mean()
sueldo_mujer = df[(mujer)].Sueldo.mean()

if sueldo_hombre > sueldo_mujer:
    print ('Ganan más los hombres, en promedio ${}'.format(sueldo_hombre))
else:
    print('Ganan más las mujeres, en promedio ${}'.format(sueldo_mujer))
        
print('Son ${} más de diferencia'.format(abs(sueldo_mujer - sueldo_hombre)))

17. Calcula el sueldo promedio por área y el sueldo promedio por posición.

In [None]:
df.pivot_table(index = 'Area',
               values = 'Sueldo',
               aggfunc = 'mean')

In [None]:
df.pivot_table(index = ['Area','Posición'],
               values = 'Sueldo',
               aggfunc = 'mean').sort_values(by = 'Sueldo', ascending = False)

18. ¿En base a la información anterior, que posición dirías que tiene el menor sueldo promedio de la empresa?

In [None]:
print('La posición de "Vendedor" es la que tiene el menor sueldo promedio de la empresa')

19. El sueldo mostrado en la base de datos es el sueldo bruto (sin quitar impuestos) mensual; calcula 3 columnas adicionales en donde muestres
   - El sueldo bruto anual (suma 1/2 mes de sueldo como aguinaldo a los empleados)
   - Considerando las siguientes tasas de impuestos, calcula el sueldo neto anual (sueldo descontando impuestos, te recomiendo crear una función).
   - Una vez hecho lo anterior, crea una nueva columna de sueldo neto mensual.
   
   
   s < 100,000  10%
   
   100,000 < s <= 125,000 12%
   
   125,000 < s <= 150,000 14%
   
   150,000 < s <= 175,000 16%
   
   175,000 < s <= 200,000 17%
   
   200,000 < s <= 250,000 19%
   
   250,000 < s <= 300,000 21%
   
   300,000 < s <= 350,000 23%
   
   350,000 < s <= 400,000 25%
   
   s > 400,000 30%

In [None]:
df['Sueldo_bruto_anual'] = df['Sueldo'] * 12.5
df.head()

In [None]:
def sueldoNetoAnual(Sueldo_bruto_anual):
    
    Sueldo_neto_anual = Sueldo_bruto_anual
    
    if Sueldo_bruto_anual < 100000:
        Sueldo_neto_anual = Sueldo_bruto_anual *.9
        
    elif 100000 < Sueldo_bruto_anual <= 125000:
        Sueldo_neto_anual = Sueldo_bruto_anual *.88
        
    elif 125000 < Sueldo_bruto_anual <= 150000:
        Sueldo_neto_anual = Sueldo_bruto_anual *.86
    
    elif 150000 < Sueldo_bruto_anual <= 175000:
        Sueldo_neto_anual = Sueldo_bruto_anual *.84
    
    elif 175000 < Sueldo_bruto_anual <= 200000:
        Sueldo_neto_anual = Sueldo_bruto_anual *.83
    
    elif 200000 < Sueldo_bruto_anual <= 250000:
        Sueldo_neto_anual = Sueldo_bruto_anual *.81
    
    elif 250000 < Sueldo_bruto_anual <= 300000:
        Sueldo_neto_anual = Sueldo_bruto_anual *.79
    
    elif 300000 < Sueldo_bruto_anual <= 350000:
        Sueldo_neto_anual = Sueldo_bruto_anual *.77
    
    elif 350000 < Sueldo_bruto_anual <= 400000:
        Sueldo_neto_anual = Sueldo_bruto_anual *.75
    
    elif Sueldo_bruto_anual > 400000:
        Sueldo_neto_anual = Sueldo_bruto_anual *.70
        
    return Sueldo_neto_anual

df['SueldoNeto_anual'] = df['Sueldo_bruto_anual'].apply(sueldoNetoAnual)
df.head()

In [None]:
df['Sueldo_neto_mensual'] = df['SueldoNeto_anual']/12.5
df.head()

20. Ahora que tenemos los salarios netos (lo que el empleado termina recibiendo de forma mensual). ¿Como cambió el sueldo promedio por área, subió o bajó?

In [None]:
df.pivot_table(index = 'Area',
               values = ['Sueldo','Sueldo_neto_mensual'],
               aggfunc = 'mean')

# El sueldo promedio bajó por los impuestos

In [None]:
df_bs = df
df_bs.head()

## Parte 3
Después de realizar tu análisis te comienzas a sentir con más tranquilidad; has podido calcular varios estadísticos relevantes para los empleados pero quieres poner tus habilidades a prueba. Vas con la gente encargada de la base de datos y les pides los archivos csv del departamento de ventas y decides realizar tu primer análisis exploratorio de datos de la empresa.

## A partir de este punto va a ser necesario usar los archivos csv restantes.

Los datos de transacciones representan todas las compras realizadas por los clientes en el último mes; en este caso tenemos los archivos Customer, Invoice, Product, Purchases y SellersID para que ustedes puedan tener información específica acerca de las compras.

In [None]:
import numpy as np
import pandas as pd

df_cust = pd.read_csv('./Customer.csv')
df_cust.head(3)

In [None]:
df_inv = pd.read_csv('./Invoice.csv')
df_inv.head(3)

In [None]:
df_prod = pd.read_csv('./Product.csv')
df_prod.head(3)

In [None]:
df_pur = pd.read_csv('./Purchases.csv')
df_pur.head(3)

In [None]:
df_sel = pd.read_csv('./SellersID.csv')
df_sel.rename(columns = {'id':'Vendedor'}, inplace = True)
df_sel.head(3)

In [None]:
df = pd.merge(df_cust, df_sel)
df.head()

In [None]:
df = pd.merge(df,df_pur)
df.head()

In [None]:
df = pd.merge(df , df_inv)
df.head()

In [None]:
df = pd.merge(df , df_prod)
df.head()

In [None]:
df.insert(12, 'Total' , df['Cantidad'] * df['Precio'])
df.head()

21. ¿Cuantos clientes tiene la empresa en total; cuantos clientes tiene asignado cada vendedor?

In [None]:
print('La empresa tiene {} clientes en total'.format(df['Cliente'].nunique()))

In [None]:
df.pivot_table(index = 'Vendedor',
               values = 'Cliente',
               aggfunc = 'nunique')

22. ¿Cuál es el número total de transacciones? Muestra cuantas compras ha realizado cada cliente.

In [None]:
print('La empresa tiene {} facturas realizadas'.format(df['Factura'].nunique()))
df.pivot_table(index = 'Cliente',
               values = 'Factura',
               aggfunc = 'nunique')

23. ¿Cuanto dinero ha gastado cada cliente en total?

In [None]:
df.pivot_table(index = 'Cliente',
               values = 'Total',
               aggfunc = 'sum')

In [None]:
#df.groupby('Cliente').sum()['Total']

24. ¿Cuantas unidades se ha vendido de cada tipo de producto? 

In [None]:
df.pivot_table(index = 'Producto',
               values = 'Cantidad',
               aggfunc = 'sum')

25. ¿Cuanto dinero (bruto) ha ganado cada vendedor? Recordemos que aquí no estamos considerando el porcentaje de costo de producción.

In [None]:
rank = df.pivot_table(index = 'Vendedor',
                      values = 'Total',
                      aggfunc = 'sum').sort_values(by = 'Total',ascending = False)
rank

26. ¿Quien fue el mejor vendor, quien fue el peor?

In [None]:
print('El mejor vendedor fué: {} \n\n'.format(rank.head(1)))
print('Mientras que el peor fué: {}'.format(rank.tail(1)))

27. Asumamos que la única fuente de ingresos de la empresa son estas ventas, muestra la contribución que hace cada uno de los vendedores a los ingresos totales como porcentajes. ¿Cuanto contribuye el peor vendedor, cuanto contribuye el mejor?

In [None]:
Ganancia_total = df['Total'].sum()
contribuye = ((rank * 100)/Ganancia_total).sort_values(by='Total',ascending = False).rename(columns={'Total':'Porcentaje'})
contribuye

In [None]:
df['Ganancia Neta'] = df['Total'] * df ['Porcentaje de Ganancia']
df.head()

28. Con todos los datos anteriores, ahora podemos realizar un cálculo que nos muestre el estado de nuestra empresa. 

- ¿Considerando como gastos únicos los mostrados en Product.csv (costo de producción) y el sueldo neto, cuanto dinero está generando la empresa?

- ¿La empresa está ganando o perdiendo dinero?

In [None]:
Ganancia_Neta = df['Ganancia Neta'].sum()
Gasto_sueldos = df_bs['Sueldo_neto_mensual'].sum()

Status = Ganancia_Neta - Gasto_sueldos

if Status > 0:
    print('La empresa está ganando: ${}'.format(Status))
elif Status == 0:
    print('La empresa está en punto de equilibrio')
else:
    print('La empresa está perdiendo: ${}'.format(Status))

29. ¿Asumamos que corremos al vendedor de menor desempeño y perdemos sus ventas, cuanto cambia la ganancia o la perdida mensual?

In [None]:
df = df.drop(df[df['Nombre']=='Tadeo Gutierrez'].index)
df_bs = df_bs.drop(df_bs[df_bs['Nombre']=='Tadeo Gutierrez'].index)

In [None]:
Ganancia_Neta = df['Ganancia Neta'].sum()
Gasto_sueldos = df_bs['Sueldo_neto_mensual'].sum()

Status = Ganancia_Neta - Gasto_sueldos

if Status > 0:
    print('La empresa está ganando: ${}'.format(Status))
elif Status == 0:
    print('La empresa está en punto de equilibrio')
else:
    print('La empresa está perdiendo: ${}'.format(Status))

30. ¿Este resultado les llamó la atención? Expliquen por qué y sugieran un cambio que realizarían si es que aplica.

**R:** Si llamó mi atención el cambio, pues es fácil darse cuenta que el vendedor V0005 Tadeo Gutierrez genera más ingreso a la empresa de lo que cuesta mantenerlo, es de destacar que sólo tiene 4 clientes. Por lo tanto, correrlo no es una opción viable para la empresa, en cambio, se podría buscar la manera para que prospecte o venda más.

# Parte 4
Después de cruzar tantas tablas y combinarlas una con otra vas con tu jefe y le presentas estos resultados; al inicio toma tu palabra con mucho escepticismo ya que no está muy familiarizado con Python pero al ver los resultados que presentas y al saber que la herramienta es gratuita menciona que está muy abierto a la posibilidad de implementar Python como la herramienta central del departamento de analistas. Te sientes satisfecho con tu labor aunque piensas que a lo mejor después le tienes que comentar que aunque Python es gratuito y poderoso alguna otra herramienta estadística o de BI nunca le ha hecho daño a nadie. Regresas a tu lugar de trabajo y antes de que te des cuenta te pones a pensar acerca del funcionamiento de tu base de datos; tomas una hoja de papel y te pones a escribir.

### Sección Teórica

La siguiente sección son una colección de preguntas teóricas; es decir, no tienes que programar para ello pero es necesario tener conocimiento de fondo. Toda la sección involucra temáticas de la semana de webscrapping y modelo de datos con un mayor énfasis en la parte de modelo de datos.

31. Analizando los datos que tenemos; plantea cuales son las entidades existentes.

In [None]:
df_final = pd.merge(df_bs, df)
df_final.head(3)
# Vendedor, Cliente , Factura, Producto

32. Escribe las propiedades correspondientes de cada entidad.

* Vendedor : Id, nombre, edad, sexo, cliente, Area, Posición

* Cliente : vendedor, factura 

* Factura: Numero, productos, cantidades, precios y totales

* Producto: Ganancia, precio, identificador

33. De las entidades anteriores, define cuales son las llaves primarias o foraneas presentes.

34. Ahora recuerda las relaciones; identifica las relaciones one to one, one to many y many to many en esta base de datos.

35. Con las propiedades derivadas; escribe el tipo de datos correspondiente a cada propiedad.

36. Dada la estructura de nuestros datos, que esquema recomendarías para almacenar la data. ¿SQL o No-SQL? Justifica tu respuesta.

**R:** Recomendaría SQL, ya que la información se presenta completa y ordenada, es más fácil trabajar estos datos en dicho formato pues se pueden representar y trabajar similar a una tabla de excel.

37. Con todo esto en mente; menciona alguna propiedad importante que puedes agregar a esta base de datos para sacarle más jugo a la data y menciona la entidad a la que pertenece.

**R:** Agregaría la fecha de compra a la entidad de Cliente

38. Con esa propiedad menciona al menos una métrica relevante que puedes calcular y como esta puede terminar ayudando al negocio.

**R:** Se puede calcular la frecuencia de compra del cliente, para poder analizar el comportamiento del mercado y el flujo de productos