# Proyecto minería de Datos

Objetivo de obtener los siguiente indicadores: 

1. Construir un catalogo completo con toda la información complementaria y sin duplicados, Anexar ambos archivos de catalogo. Solo las de tipo de proceso 1.

2. Identificar aquellas piezas donde el costo es mas elevado que el precio al publico.

3. Ver cuantas piezas requiere cada sistema.

4. Ver cuantas piezas son importadas por cada país.

5. Conocer los responsables que no tengan una pieza asignada.

6. Conocer el tiempo de procesamiento por maquina.

## Glosario

- df     -> DataFrame
- concat -> Concatenar o Anexar.
- merge  -> Buscar o combinar consultas. 
- nan    -> Not a number. 


In [106]:
# Cargando Librerías
import numpy as np 
import pandas as pd

In [107]:
# Carga de Archivos.
# Los archivos de tipo CSV están codificados en base al formato ISO-8859-1.

df_catalago = pd.read_csv("./Data/BD_CATALOGO.csv",sep=",",encoding='ISO-8859-1')
df_catalago2 = pd.read_csv("./Data/BD_CATALOGO_2.csv",sep=",",encoding='ISO-8859-1')
df_finanzas = pd.read_csv("./Data/BD_FINANZAS.csv",sep=",",encoding='ISO-8859-1')
df_region = pd.read_csv("./Data/BD_REGION.csv",sep=",",encoding='ISO-8859-1')
df_responsables = pd.read_csv("./Data/BD_RESPONSABLES.csv",sep=",",encoding='ISO-8859-1')
df_sistemas = pd.read_csv("./Data/BD_SISTEMAS.csv",sep=",",encoding='ISO-8859-1')

## 1. Construir un catalogo completo con toda la información complementaria y sin duplicados, Anexar ambos archivos de catalogo. Solo las de tipo de proceso 1.

In [108]:
# Anexar el catalogo completo.
df_catalogo_completo =pd.concat([df_catalago,df_catalago2],ignore_index=True)
df_catalogo_completo

Unnamed: 0,id pieza,nombreee,SISTEMMAA,repsomnsnañbe,id piezas hermnaa,PAISSS,tiempo procesamiento promedio,demanda,tipo proceso,codigo maquinaa
0,1,Válvula de control de flujo,1,1,43,1,662,6353067,1,A33335
1,2,Bomba centrífuga,2,2,14,2,494,8398096,1,A301435
2,3,Motor de corriente continua,3,3,34,3,677,7945222,1,A440087
3,4,Sensor de temperatura,4,4,21,4,685,1134768,1,A39538
4,5,Engranaje planetario,5,5,17,5,276,7205370,1,V495138
...,...,...,...,...,...,...,...,...,...,...
193,41,Elemento de filtro hidráulico,26,41,29,6,55,6225437,1,S259784
194,42,Regulador de presión,20,42,9,1,210,9484466,1,D43567
195,43,Compresor de gas,27,43,28,1,470,6128747,1,A51555
196,44,Sensor de nivel,16,44,32,1,291,5021131,2,A95101


In [109]:
# Eliminar duplicados
# El método inplace, sobrescribe los datos sobre el mismo data frame.
df_catalogo_completo.drop_duplicates(inplace=True)

# Filtrado por tipo de proceso 1. 
df_catalogo_completo = df_catalogo_completo[df_catalogo_completo['tipo proceso'] == 1]

In [110]:

df_catalogo_completo

Unnamed: 0,id pieza,nombreee,SISTEMMAA,repsomnsnañbe,id piezas hermnaa,PAISSS,tiempo procesamiento promedio,demanda,tipo proceso,codigo maquinaa
0,1,Válvula de control de flujo,1,1,43,1,662,6353067,1,A33335
1,2,Bomba centrífuga,2,2,14,2,494,8398096,1,A301435
2,3,Motor de corriente continua,3,3,34,3,677,7945222,1,A440087
3,4,Sensor de temperatura,4,4,21,4,685,1134768,1,A39538
4,5,Engranaje planetario,5,5,17,5,276,7205370,1,V495138
5,6,Compresor de aire,6,6,20,6,181,9389166,1,V405703
6,7,Filtro de aire,7,7,37,7,537,8973529,1,V183148
7,8,Válvula solenoide,8,8,42,8,551,6031700,1,V161669
8,9,Tornillo sin fin,5,9,16,9,56,9300568,1,V499753
9,10,Rodamiento de bolas,9,10,7,10,627,694796,1,V307036


## 2. - Identificar aquellas piezas donde el costo es mas elevado que el precio al publico.

In [111]:
df_finanzas.head()

Unnamed: 0,ID_PIEZA,COSTO,PRECIO
0,1,4171,3587
1,2,3499,7538
2,3,5677,7620
3,4,3793,4600
4,5,5332,6422


In [112]:
# Comprobando que ambas partes compartan el mismo tipo de datos donde se va a hacer la merge. 
# En este caso se utiliza ID_PIEZA (df_finanzas) con id pieza (df_catalogo_completo)
df_finanzas.dtypes

ID_PIEZA    int64
COSTO       int64
PRECIO      int64
dtype: object

In [113]:
df_catalogo_completo.dtypes

id pieza                          int64
nombreee                         object
SISTEMMAA                         int64
repsomnsnañbe                     int64
id piezas hermnaa                 int64
PAISSS                            int64
tiempo procesamiento promedio     int64
demanda                           int64
tipo proceso                      int64
codigo maquinaa                  object
dtype: object

In [114]:
# Merge al data frame catalogo completo con el df de finanzas. 
# Por default es inner join. -> para mas info ir a notas en la parte de merge.
df_catalogo_completo = df_catalogo_completo.merge(df_finanzas, left_on='id pieza',right_on='ID_PIEZA')

In [115]:
df_catalogo_completo.head(5)

Unnamed: 0,id pieza,nombreee,SISTEMMAA,repsomnsnañbe,id piezas hermnaa,PAISSS,tiempo procesamiento promedio,demanda,tipo proceso,codigo maquinaa,ID_PIEZA,COSTO,PRECIO
0,1,Válvula de control de flujo,1,1,43,1,662,6353067,1,A33335,1,4171,3587
1,2,Bomba centrífuga,2,2,14,2,494,8398096,1,A301435,2,3499,7538
2,3,Motor de corriente continua,3,3,34,3,677,7945222,1,A440087,3,5677,7620
3,4,Sensor de temperatura,4,4,21,4,685,1134768,1,A39538,4,3793,4600
4,5,Engranaje planetario,5,5,17,5,276,7205370,1,V495138,5,5332,6422


In [116]:
# Productos de los cuales tienen un costo mayor al precio de venta. 
df_costo_mayor = df_catalogo_completo[df_catalogo_completo['COSTO']> df_catalogo_completo['PRECIO']]

## 3. Ver cuantas piezas requiere cada sistema.

In [117]:
# Merge con df_sistemas para extraer la información necesaria. 
df_catalogo_completo = df_catalogo_completo.merge(df_sistemas,left_on='SISTEMMAA',right_on='ID_SISTEMA')

In [118]:
# Agregando la columna count, para hacer el conteo de valores. 
df_catalogo_completo['count'] = 1 
df_catalogo_completo.head(10)

Unnamed: 0,id pieza,nombreee,SISTEMMAA,repsomnsnañbe,id piezas hermnaa,PAISSS,tiempo procesamiento promedio,demanda,tipo proceso,codigo maquinaa,ID_PIEZA,COSTO,PRECIO,ID_SISTEMA,SISTEMA_DESC,count
0,1,Válvula de control de flujo,1,1,43,1,662,6353067,1,A33335,1,4171,3587,1,Sistema de control de procesos,1
1,2,Bomba centrífuga,2,2,14,2,494,8398096,1,A301435,2,3499,7538,2,Sistema de bombeo,1
2,16,Bomba de pistón,2,16,28,3,438,3920212,1,D329046,16,3570,7302,2,Sistema de bombeo,1
3,29,Bomba de diafragma,2,29,43,12,307,3718128,1,F117194,29,1443,2351,2,Sistema de bombeo,1
4,3,Motor de corriente continua,3,3,34,3,677,7945222,1,A440087,3,5677,7620,3,Sistema de motores eléctricos,1
5,19,Motor de corriente alterna,3,19,37,1,671,8148173,1,E253731,19,4368,6768,3,Sistema de motores eléctricos,1
6,28,Motor lineal,3,28,10,12,226,5156632,1,F19161,28,2557,2511,3,Sistema de motores eléctricos,1
7,33,Motor paso a paso,3,33,33,1,592,5168176,1,S213370,33,5371,2004,3,Sistema de motores eléctricos,1
8,4,Sensor de temperatura,4,4,21,4,685,1134768,1,A39538,4,3793,4600,4,Sistema de medición y control de temperatura,1
9,38,Sonda de temperatura,4,38,36,6,6,2325963,1,F367782,38,3831,4592,4,Sistema de medición y control de temperatura,1


In [119]:
# Agrupar por Sistemas, para sacar el indicador. 
# .sum() como su nombre lo dice hace la sumatoria de todo las demás columnas. 
# .reset_index() lo que hace es crear un nuevo indice quitando el sistema como indice a la hora de agrupar. 
# el indice son los números que aparecen al inicio de cada dataframe. 
df_sistemas_groupby = df_catalogo_completo.groupby("SISTEMA_DESC").sum().reset_index()

# Renombrando las columnas del data frame.
df_sistemas_groupby.rename(columns={'SISTEMA_DESC':'SISTEMA_DESC','count':'CANTIDAD'},inplace= True)

# Sobrescribiendo para que solo muestra la información de sistema y la cantidad. 
df_sistemas_groupby =df_sistemas_groupby[['SISTEMA_DESC','CANTIDAD']]

In [120]:
df_sistemas_groupby

Unnamed: 0,SISTEMA_DESC,CANTIDAD
0,Sistema de aire comprimido,1
1,Sistema de bombeo,3
2,Sistema de calefacción de gas,1
3,Sistema de calefacción eléctrica,1
4,Sistema de compresión de gas,1
5,Sistema de conducción de fluidos a alta presión,1
6,Sistema de control de fluidos,5
7,Sistema de control de presión,2
8,Sistema de control de procesos,1
9,Sistema de control electrónico,1


## 4. Ver cuantas piezas son importadas por cada país.

In [121]:
df_catalogo_completo.head(2)

Unnamed: 0,id pieza,nombreee,SISTEMMAA,repsomnsnañbe,id piezas hermnaa,PAISSS,tiempo procesamiento promedio,demanda,tipo proceso,codigo maquinaa,ID_PIEZA,COSTO,PRECIO,ID_SISTEMA,SISTEMA_DESC,count
0,1,Válvula de control de flujo,1,1,43,1,662,6353067,1,A33335,1,4171,3587,1,Sistema de control de procesos,1
1,2,Bomba centrífuga,2,2,14,2,494,8398096,1,A301435,2,3499,7538,2,Sistema de bombeo,1


In [122]:
# Eliminar columna repetida.
df_region.drop('ID_REGION.1',axis=1,inplace=True)
df_region.head(2)

Unnamed: 0,ID_REGION,REGION_DESC,CODIGO_IMPORTACION
0,1,México,100591
1,2,Argentina,168532


In [123]:
# Merge para sacar el país y después las importaciones. 
df_catalogo_completo = df_catalogo_completo.merge(df_region,left_on='PAISSS',right_on='ID_REGION')
df_region_groupby = df_catalogo_completo.groupby('REGION_DESC').sum().reset_index()



In [124]:
# Filtrado de Columnas.
df_region_groupby = df_region_groupby[['REGION_DESC','count']]
df_region_groupby

Unnamed: 0,REGION_DESC,count
0,Argentina,1
1,Brasil,4
2,Bulgaria,1
3,Chile,2
4,Colombia,2
5,Croacia,1
6,Eslovaquia,1
7,Hungría,4
8,México,14
9,Perú,3


## 5. Conocer los responsables que no tengan una pieza asignada.

In [125]:
# Muestra los valores que existen, y a su vez eliminamos la columna repetida.
df_responsables.head(2)
df_responsables.drop('ID_RESPONSABLE.1',axis=1,inplace=True)

In [126]:
df_responsables.head(2)

Unnamed: 0,ID_RESPONSABLE,RESPONSABLE_DESC
0,1,Juan Carlos Aguilar
1,2,Ana María García


In [127]:
# Merge para sacar los datos, en este caso usamos el método outer. 
# que permite sacar los datos y los que no encuentra coincidencia los pasa como Nan. 
df_responsables=df_responsables.merge(df_catalogo_completo,left_on='ID_RESPONSABLE',right_on='repsomnsnañbe',how='outer')

In [128]:
df_responsables_sin_pieza = df_responsables[df_responsables['id pieza'].isna()]
df_responsables_sin_pieza = df_responsables_sin_pieza[['ID_RESPONSABLE','RESPONSABLE_DESC']].reset_index()
df_responsables_sin_pieza.drop('index',axis=1,inplace=True)

In [129]:
df_responsables_sin_pieza

Unnamed: 0,ID_RESPONSABLE,RESPONSABLE_DESC
0,44,Luis Antonio Ramírez
1,45,Isabel González
2,46,Adrián Torres
3,47,Estefanía López
4,48,Salvador Hernández
5,49,Renata Pérez
6,50,Diego González
7,51,Camila Ruiz
8,52,Carlos Eduardo Vargas
9,53,Regina Martínez


## 6. Conocer el tiempo de procesamiento por maquina.

In [130]:
df_catalogo_completo.head(3)

Unnamed: 0,id pieza,nombreee,SISTEMMAA,repsomnsnañbe,id piezas hermnaa,PAISSS,tiempo procesamiento promedio,demanda,tipo proceso,codigo maquinaa,ID_PIEZA,COSTO,PRECIO,ID_SISTEMA,SISTEMA_DESC,count,ID_REGION,REGION_DESC,CODIGO_IMPORTACION
0,1,Válvula de control de flujo,1,1,43,1,662,6353067,1,A33335,1,4171,3587,1,Sistema de control de procesos,1,1,México,100591
1,19,Motor de corriente alterna,3,19,37,1,671,8148173,1,E253731,19,4368,6768,3,Sistema de motores eléctricos,1,1,México,100591
2,33,Motor paso a paso,3,33,33,1,592,5168176,1,S213370,33,5371,2004,3,Sistema de motores eléctricos,1,1,México,100591


In [147]:
df_tiempo_maquina = df_catalogo_completo

# se usa una propiedad del objeto string que permite obtener la primera letra del string, esto es aplicable en este caso.
# debido a que cuando se filtra por [:] solo aplica al axis 0 al primer valor. 
df_tiempo_maquina['Codigo_Maquinaria'] = df_tiempo_maquina['codigo maquinaa'].str.get(0)
df_tiempo_maquina = df_tiempo_maquina.groupby('Codigo_Maquinaria').sum().reset_index()
df_tiempo_maquina = df_tiempo_maquina[['Codigo_Maquinaria','tiempo procesamiento promedio']]
df_tiempo_maquina


Unnamed: 0,Codigo_Maquinaria,tiempo procesamiento promedio
0,A,2988
1,D,1587
2,E,3032
3,F,2850
4,S,2963
5,V,2753


y con esto finalizamos el ejercicio. 