## Data migration case

Based on this dataset, decide what data we are going to inherit from the origin to the future data system. First understand what the data is about and what are the needs, clean and analyze the dataset and explain the process. 

## Import and visualize data

In [12]:
import pandas as pd

In [41]:
origin_dataset = pd.read_csv("/Users/martafillolbruguera/Documents/Data_projects/practice_Case/dataset.csv")

In [42]:
origin_dataset.head()

Unnamed: 0,Número de serie,Equipo,Número-identificación técnica,Grupo planificación,Enviar a parte,Flota,Activo fijo,Año de construcción,Brand name,Creado el,...,Modificado por,Fe.puesta servicio,Fecha de última orden,Inic.garantía clte.,intervalo,Mes de construcción,País de fabricación,Pto.tbjo.responsable,Status de usuario,Tipo de equipo
0,H2X992W15465,1132732,3,E82,33925845,C,,2008.0,LINDE,12/6/2012,...,HK57F5,,11/11/2022,15/9/2008,Contrapesada térmica,5.0,DE,KXE-6188,AVLB,L
1,H2X995S19125,1207034,,E12,39380933,C,,2005.0,,18/6/2012,...,HK57F5,,13/7/2018,14/12/2011,Contrapesada eléctrica,5.0,DE,KXE-6639,AVLB PINA,L
2,W4X979W12995,1290040,1204 PMP EX,E82,33927373,C,,2008.0,LINDE,18/12/2012,...,CKMAGKNK,29/5/2008,19/9/2023,,Apilador,6.0,,KXE-6156,AWIN,L
3,H2X994R11511,1306179,,,33922280,N,,2004.0,LINDE,18/12/2012,...,HK57F5,30/4/2004,24/5/2023,,Contrapesada térmica,5.0,,,AVLB,L
4,G5X997P11599,1655177,,E11,33923892,C,,2003.0,,23/9/2014,...,HK57F5,,1/4/2020,15/7/2003,Contrapesada eléctrica,6.0,GB,KXE-6263,AVLB PINA,L


## What information do we need to migrate to the future system and what data is not essential? 

In order to know this, we need to answer the next questions:

- What is the purpose of the future system? What do we want to analyze or extract from this data in the future? Will this data have to be compared and merged with other systems? 
- What is the use that we will get from this data? For example, if we want to know what is the biggest client and what machines they usually use? We want to control manufacturing time for machines that are more popular?
- Are we evaluating manufacturing time to see if we can improve it?

Knowing this we can be sure about what data is not needed or just overcomplicating the dataset and what data would be nice to have (for example, calculated fields from what we already have).

Assumption: why we need this data and what we will be using it for.

Important data according to our assumption: 

## Let's analyze all the dataset step by step: 

- Check for null values, duplicates, unique values, and possible errors in format
- Substitute null values or other unnecessary data and why (ex: activo fijo could be boolean)
- Fix errors or change values that could lead to confusion
- See if we can group data to simplify the dataset
- See if we can add calculated fields to get more relevant information
- Remove columns that we won't need in the future

## Other options?

- SQL
- Review assumptions?



## General exploration

In [None]:
#first let's look at the columns and description that we are working with.
#First thing that comes to mind is there are some column names that could be improved to be more readable, like enviar a parte, creado el, intervalo. It's important that we understand what the column is about without confusing it with something else in case we need to merge with other data in the future
#I also see that we have the same date were the machine was manufactured but one column is the year and the other the month, is there a reason we need this division? Can we create a column just with the manufacturing date?
#Seems like the n serie needs to be 12 cts long, so would be good to check that for all items
#Do we need to calculate extra columns? Time from manufacturing to service? Final garantía? Status PINA
#Check type of data so it can be used for analysis later
#Would be interesting to analyze later by brand, country, status


origin_dataset.head()

Unnamed: 0,Número de serie,Equipo,Número-identificación técnica,Grupo planificación,Enviar a parte,Flota,Activo fijo,Año de construcción,Brand name,Creado el,...,Modificado por,Fe.puesta servicio,Fecha de última orden,Inic.garantía clte.,intervalo,Mes de construcción,País de fabricación,Pto.tbjo.responsable,Status de usuario,Tipo de equipo
0,H2X992W15465,1132732,3,E82,33925845,C,,2008.0,LINDE,12/6/2012,...,HK57F5,,11/11/2022,15/9/2008,Contrapesada térmica,5.0,DE,KXE-6188,AVLB,L
1,H2X995S19125,1207034,,E12,39380933,C,,2005.0,,18/6/2012,...,HK57F5,,13/7/2018,14/12/2011,Contrapesada eléctrica,5.0,DE,KXE-6639,AVLB PINA,L
2,W4X979W12995,1290040,1204 PMP EX,E82,33927373,C,,2008.0,LINDE,18/12/2012,...,CKMAGKNK,29/5/2008,19/9/2023,,Apilador,6.0,,KXE-6156,AWIN,L
3,H2X994R11511,1306179,,,33922280,N,,2004.0,LINDE,18/12/2012,...,HK57F5,30/4/2004,24/5/2023,,Contrapesada térmica,5.0,,,AVLB,L
4,G5X997P11599,1655177,,E11,33923892,C,,2003.0,,23/9/2014,...,HK57F5,,1/4/2020,15/7/2003,Contrapesada eléctrica,6.0,GB,KXE-6263,AVLB PINA,L


In [80]:
origin_dataset.shape

#check shape of table (rows, columns)

(75564, 22)

In [87]:
origin_dataset.describe()

#not relevant in this case

Unnamed: 0,Equipo,Enviar a parte,Año de construcción,Mes de construcción
count,75564.0,75564.0,73369.0,71685.0
mean,3778983.0,34037050.0,2015.357113,5.317458
std,828046.6,2435792.0,8.611414,3.835214
min,1132732.0,2.0,199.0,0.0
25%,3222933.0,33925870.0,2013.0,2.0
50%,3256996.0,33937470.0,2016.0,5.0
75%,4280855.0,33944430.0,2019.0,9.0
max,6122680.0,73953050.0,2202.0,12.0


In [None]:
info = pd.DataFrame(origin_dataset.info())

# information about the type of data we have and the number of null values
# we can already see here that there are some weird dtypes (dates have different types, equipo being integer, month being float) so we will fix this when cleaning.
#There are some columns that are more relevant: Equipo, Flota, Tipo de Equipo, Numero de serie. I would drop the rows that have null values in more than one of these.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 75564 entries, 0 to 75563
Data columns (total 22 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   Número de serie                      50634 non-null  object 
 1   Equipo                               75564 non-null  int64  
 2   Número-identificación técnica        5817 non-null   object 
 3   Grupo planificación                  13431 non-null  object 
 4   Enviar a parte                       75564 non-null  int64  
 5   Flota                                75558 non-null  object 
 6   Activo fijo                          1800 non-null   object 
 7   Año de construcción                  73369 non-null  float64
 8   Brand name                           70433 non-null  object 
 9   Creado el                            75564 non-null  object 
 10  Denominación de garantía de cliente  11980 non-null  object 
 11  Modificado el               

In [None]:
origin_dataset.isnull().sum()

#check for null values. The only columns that don't have any are Equipo, enviar a parte, Creado el, Tipo de equipo
#Activo fijo has the most null values so we will check this column later to see if we need it or we can substitute the null values.

Número de serie                        24930
Equipo                                     0
Número-identificación técnica          69747
Grupo planificación                    62133
Enviar a parte                             0
Flota                                      6
Activo fijo                            73764
Año de construcción                     2195
Brand name                              5131
Creado el                                  0
Denominación de garantía de cliente    63584
Modificado el                          11598
Modificado por                         11598
Fe.puesta servicio                     65823
Fecha de última orden                  62740
Inic.garantía clte.                    63582
intervalo                              64313
Mes de construcción                     3879
País de fabricación                    66021
Pto.tbjo.responsable                   62228
Status de usuario                      61245
Tipo de equipo                             0
dtype: int

In [None]:
origin_dataset["Equipo"].value_counts()

#equipo are all unique values and non-null

1132732    1
3880535    1
3882621    1
3882562    1
3882310    1
          ..
3230089    1
3230088    1
3230087    1
3230086    1
6122680    1
Name: Equipo, Length: 75564, dtype: int64

In [None]:
origin_dataset["Número de serie"].value_counts()
# check the number of unique values in each column.
# For numero de serie which is a unique identifier we have multiple elements in the table, which means they have different values in other columns

#I would drop the rows that are duplicated if they don't have any other relevant data in other columns.

2,99E+52         17
2991552111259    12
2991552111252    11
7991142115255    11
2991552111555    11
                 ..
9521122111499     1
9521122111492     1
9521122111911     1
9521142111421     1
W45565N11195      1
Name: Número de serie, Length: 33667, dtype: int64

## Cleaning by column

In [95]:
clean_dataset = pd.read_csv("/Users/martafillolbruguera/Documents/Data_projects/practice_Case/dataset.csv")

In [100]:
list = clean_dataset.columns
list

Index(['Número de serie', 'Equipo', 'Número-identificación técnica',
       'Grupo planificación', 'Enviar a parte', 'Flota', 'Activo fijo',
       'Año de construcción', 'Brand name', 'Creado el',
       'Denominación de garantía de cliente', 'Modificado el',
       'Modificado por', 'Fe.puesta servicio', 'Fecha de última orden',
       'Inic.garantía clte.', 'intervalo', 'Mes de construcción',
       'País de fabricación', 'Pto.tbjo.responsable', 'Status de usuario',
       'Tipo de equipo'],
      dtype='object')

In [103]:
for i in list:
    print("### "+i)

### Número de serie
### Equipo
### Número-identificación técnica
### Grupo planificación
### Enviar a parte
### Flota
### Activo fijo
### Año de construcción
### Brand name
### Creado el
### Denominación de garantía de cliente
### Modificado el
### Modificado por
### Fe.puesta servicio
### Fecha de última orden
### Inic.garantía clte.
### intervalo
### Mes de construcción
### País de fabricación
### Pto.tbjo.responsable
### Status de usuario
### Tipo de equipo


### Número de serie


### Equipo

### Numero-identificación técnica

### Grupo planificación

### Enviar a parte

### Flota

### Activo fijo

### Año de construcción

### Brand name

### Creado el

### Denominación de garantía de cliente

### Modificado el

### Modificado por

### Fe.puesta servicio

### Fecha de última orden

### Inic.garantía clte.

### intervalo

### Mes de construcción

### País de fabricación

### Pto.tbjo.responsable


### Status de usuario


### Tipo de equipo