<a href="https://colab.research.google.com/gist/marcusRB/db846887ec0127aa623f4a8dda058130/caso2-boss.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Caso2 Boss

En este desafío, llegas a ser el jefe. Supervisa a cientos de empleados en todo el país que desarrollan Tuna 2.0, un refrigerio que cambiará el mundo a base de atún enlatado. Por desgracia, ser el jefe no es todo diversión, juegos y autoadulación. La empresa decidió recientemente comprar un nuevo sistema de recursos humanos y, lamentablemente para usted, el nuevo sistema requiere que los registros de los empleados se almacenen de manera completamente diferente.

Su tarea es ayudar a cerrar la brecha mediante la creación de un script de Python capaz de convertir los registros de sus empleados al formato requerido. Su secuencia de comandos deberá hacer lo siguiente:

    Importe los archivos employee_data1.csv y employee_data2.csv, que actualmente contienen registros de empleados como el siguiente:
```
Emp ID, nombre, fecha de nacimiento, SSN, estado
214,Sarah Simpson,1985-12-04,282-01-8166,Florida
15,Samantha Lara,1993-09-08,848-80-7526,Colorado
411, Stacy Charles, 1957-12-20,658-75-8526, Pensilvania
```
    Luego convierta y exporte los datos para usar el siguiente formato en su lugar:
```
Emp ID, Nombre, Apellido, Fecha de nacimiento, SSN, Estado
214, Sarah, Simpson, 04/12/1985, ***-**-8166, Florida
15, Samantha, Lara, 08/09/1993, ***-**-7526, CO
411, Stacy, Charles, 20/12/1957, ***-**-8526, Pensilvania
```
    En resumen, las conversiones requeridas son las siguientes:

        La columna Nombre debe dividirse en columnas separadas de Nombre y Apellido.

        Los datos de fecha de nacimiento deben volver a escribirse en formato MM/DD/YYYY.

        Los datos del SSN se deben volver a escribir de modo que los primeros cinco números queden ocultos a la vista.

        Los datos de estado deben reescribirse como simples abreviaturas de dos letras.

In [5]:
import pandas
from datetime import datetime
data = pandas.read_csv('..\..\..\dataset\employee_data.csv')
dataResult = pandas.read_csv('..\..\..\dataset\employee_file.csv')
print(data.head())
print(dataResult.head())

   Emp ID              Name         DOB          SSN         State
0     232      John Mathews  1991-02-24  289-31-9165  North Dakota
1     533      Nathan Moore  1978-11-19  220-05-7469         Maine
2     256    Amanda Douglas  1990-01-08  564-27-6961         Idaho
3     189   Heather Andrews  1976-08-11  742-79-1797       Vermont
4     284  Daniel Hernandez  1976-07-22  656-01-7473      Colorado
   Emp ID First Name  Last Name         DOB          SSN State
0     232       John    Mathews  02/24/1991  ***-**-9165    ND
1     533     Nathan      Moore  11/19/1978  ***-**-7469    ME
2     256     Amanda    Douglas  01/08/1990  ***-**-6961    ID
3     189    Heather    Andrews  08/11/1976  ***-**-1797    VT
4     284     Daniel  Hernandez  07/22/1976  ***-**-7473    CO


In [6]:
# Creo dos nuevas columnas para nombre y apellido con sus valores
# y elimino la columna inicial "name"
data.insert(1, 'First Name', data['Name'].str.split(expand=True)[0])
data.insert(2, 'Last Name', data['Name'].str.split(expand=True)[1])
data = data.drop(['Name'], axis=1)
data

Unnamed: 0,Emp ID,First Name,Last Name,DOB,SSN,State
0,232,John,Mathews,1991-02-24,289-31-9165,North Dakota
1,533,Nathan,Moore,1978-11-19,220-05-7469,Maine
2,256,Amanda,Douglas,1990-01-08,564-27-6961,Idaho
3,189,Heather,Andrews,1976-08-11,742-79-1797,Vermont
4,284,Daniel,Hernandez,1976-07-22,656-01-7473,Colorado
...,...,...,...,...,...,...
645,235,Cameron,Mcintosh,1975-02-01,781-82-8921,Nevada
646,21,Michelle,Brewer,1988-06-10,038-84-6836,Oklahoma
647,362,Hannah,Nolan,1978-09-15,570-46-1332,Oklahoma
648,368,Erica,Johnson,1978-05-27,620-05-9413,Louisiana


In [7]:
# Cambiar el formato de la fecha
data['DOB'] = pandas.to_datetime(data['DOB'])
data['DOB'] = data['DOB'].dt.strftime('%m/%d/%Y')
data

Unnamed: 0,Emp ID,First Name,Last Name,DOB,SSN,State
0,232,John,Mathews,02/24/1991,289-31-9165,North Dakota
1,533,Nathan,Moore,11/19/1978,220-05-7469,Maine
2,256,Amanda,Douglas,01/08/1990,564-27-6961,Idaho
3,189,Heather,Andrews,08/11/1976,742-79-1797,Vermont
4,284,Daniel,Hernandez,07/22/1976,656-01-7473,Colorado
...,...,...,...,...,...,...
645,235,Cameron,Mcintosh,02/01/1975,781-82-8921,Nevada
646,21,Michelle,Brewer,06/10/1988,038-84-6836,Oklahoma
647,362,Hannah,Nolan,09/15/1978,570-46-1332,Oklahoma
648,368,Erica,Johnson,05/27/1978,620-05-9413,Louisiana


In [8]:
# Ocultar parte del SSN
data['SSN'] = data['SSN'].replace(r'^...-..-', '***-**-', regex=True)
data

Unnamed: 0,Emp ID,First Name,Last Name,DOB,SSN,State
0,232,John,Mathews,02/24/1991,***-**-9165,North Dakota
1,533,Nathan,Moore,11/19/1978,***-**-7469,Maine
2,256,Amanda,Douglas,01/08/1990,***-**-6961,Idaho
3,189,Heather,Andrews,08/11/1976,***-**-1797,Vermont
4,284,Daniel,Hernandez,07/22/1976,***-**-7473,Colorado
...,...,...,...,...,...,...
645,235,Cameron,Mcintosh,02/01/1975,***-**-8921,Nevada
646,21,Michelle,Brewer,06/10/1988,***-**-6836,Oklahoma
647,362,Hannah,Nolan,09/15/1978,***-**-1332,Oklahoma
648,368,Erica,Johnson,05/27/1978,***-**-9413,Louisiana


In [9]:
# Sustituir los estados por sus abreviaturas
usStatesCodes = {
    "Alabama": "AL",
    "Alaska": "AK",
    "Arizona": "AZ",
    "Arkansas": "AR",
    "California": "CA",
    "Colorado": "CO",
    "Connecticut": "CT",
    "Delaware": "DE",
    "Florida": "FL",
    "Georgia": "GA",
    "Hawaii": "HI",
    "Idaho": "ID",
    "Illinois": "IL",
    "Indiana": "IN",
    "Iowa": "IA",
    "Kansas": "KS",
    "Kentucky": "KY",
    "Louisiana": "LA",
    "Maine": "ME",
    "Maryland": "MD",
    "Massachusetts": "MA",
    "Michigan": "MI",
    "Minnesota": "MN",
    "Mississippi": "MS",
    "Missouri": "MO",
    "Montana": "MT",
    "Nebraska": "NE",
    "Nevada": "NV",
    "New Hampshire": "NH",
    "New Jersey": "NJ",
    "New Mexico": "NM",
    "New York": "NY",
    "North Carolina": "NC",
    "North Dakota": "ND",
    "Ohio": "OH",
    "Oklahoma": "OK",
    "Oregon": "OR",
    "Pennsylvania": "PA",
    "Rhode Island": "RI",
    "South Carolina": "SC",
    "South Dakota": "SD",
    "Tennessee": "TN",
    "Texas": "TX",
    "Utah": "UT",
    "Vermont": "VT",
    "Virginia": "VA",
    "Washington": "WA",
    "West Virginia": "WV",
    "Wisconsin": "WI",
    "Wyoming": "WY",
    "District of Columbia": "DC",
    "American Samoa": "AS",
    "Guam": "GU",
    "Northern Mariana Islands": "MP",
    "Puerto Rico": "PR",
    "United States Minor Outlying Islands": "UM",
    "U.S. Virgin Islands": "VI",
}
data = data.replace({"State": usStatesCodes})
data

Unnamed: 0,Emp ID,First Name,Last Name,DOB,SSN,State
0,232,John,Mathews,02/24/1991,***-**-9165,ND
1,533,Nathan,Moore,11/19/1978,***-**-7469,ME
2,256,Amanda,Douglas,01/08/1990,***-**-6961,ID
3,189,Heather,Andrews,08/11/1976,***-**-1797,VT
4,284,Daniel,Hernandez,07/22/1976,***-**-7473,CO
...,...,...,...,...,...,...
645,235,Cameron,Mcintosh,02/01/1975,***-**-8921,NV
646,21,Michelle,Brewer,06/10/1988,***-**-6836,OK
647,362,Hannah,Nolan,09/15/1978,***-**-1332,OK
648,368,Erica,Johnson,05/27/1978,***-**-9413,LA


In [10]:
# Coprobar si el nuevo dataframe coincide con el correcto
print('Son los dos dataframes iguales?')
print(data.equals(dataResult))

Son los dos dataframes iguales?
True
