# Test Badger Maps

In [1]:
!pip install pandas



First we open the file and raise possible exceptions on value errors

In [2]:
import pandas as pd
from datetime import datetime

datos = pd.read_csv('Sample test file - Sheet1.csv')
pd.options.display.max_rows = 10
datos.head()

Unnamed: 0,First Name,Last Name,Street,Zip,City,Type,Last Check-In Date,Job,Phone,Company
0,Federico,García,Recogidas Street,18805,Granada,U,14/01/2018,Dentist,958 419182,Badger Maps
1,Ángel,Ganivet,Puerta Real Avenue,18805,Granada,U,06/02/2018,Salesman,917891232,Badger Maps
2,,,,,,,,,,
3,André,Citröen,Gran Via Road,18805,Granada,D,1/3/2018,Postman,971 659 123,Badger Maps
4,Anselmo,Ortega,King St,DE1 3LD,Almería,A,12/11/2017,Policeman,933 12 41 59,Wood SA


Analizamos el archivo en busca de valores vacíos y lanzamos excepciones en caso de que haya. En primer lugar, las filas vacías

In [3]:
# pandas nos permite obtener una matriz que indicat con True is un valor es NaN
matriz_nulls = datos.isnull().values
empty_rows = []

# Buscamos aquí si hay alguna fila completamente vacía
try:
    # Iteramos por las filas
    for fila in range(len(matriz_nulls)):
        # Buscamos una fila que contenga todo True
        contains_false = False
        for col in range(len(matriz_nulls[fila])):
            if matriz_nulls[fila][col] == False:
                contains_false = True
                break
                
        # Si una de las filas tiene todo True, lanzamos la excepción, indicando la fila que lo contine
        if not contains_false:
            empty_rows.append(fila)
    if len(empty_rows) > 0:
        raise ValueError('El archivo contiene las filas '+ str(empty_rows) + ' vacía')
except ValueError as err:
    print(err.args)
    # Y procedemos a eleiminar esas filas de los datos
    for index in empty_rows:
        datos.drop(index, inplace = True) 
    

print(datos)
        

('El archivo contiene las filas [2] vacía',)
  First Name Last Name              Street      Zip     City Type  \
0   Federico    García    Recogidas Street    18805  Granada    U   
1      Ángel   Ganivet  Puerta Real Avenue    18805  Granada    U   
3      André   Citröen       Gran Via Road    18805  Granada    D   
4    Anselmo    Ortega             King St  DE1 3LD  Almería    A   
5      Bjorn   Ostberg        27, Queen St  DE1 3LD  Almería    U   
6     Markus    Dupont    102, Fake Street    18005  Granada    A   
7       Jake    Robins         Street Road      NaN  Granada    D   
8       Lola    Rivers                 NaN    18005  Granada    A   
9       Paul    Hudson    Leicester Square    18005  Granada    D   

  Last Check-In Date        Job          Phone      Company  
0         14/01/2018    Dentist     958 419182  Badger Maps  
1         06/02/2018   Salesman      917891232  Badger Maps  
3           1/3/2018    Postman    971 659 123  Badger Maps  
4         12/11/

Ahora, buscamos las required keys

In [4]:

required_cols = ['Street', 'Zip', 'City', 'Last Check-In Date', 'Company']
saved_rows = []
try:
    for index, row in datos.iterrows():
        for label in required_cols:
            if pd.isna(row[label]):
                saved_rows.append(index)
                break
                
    if len(saved_rows)>0:
        raise ValueError('Rows '+ str(saved_rows) + 'are missing required values')

except ValueError as err:
    print(err.args)
    # Y procedemos a eleiminar esas filas a las que le faltan datos requeridos
    for index in saved_rows:
        datos.drop(index, inplace = True) 
        
datos.reset_index(inplace=True)
print(datos)

('Rows [7, 8]are missing required values',)
   index First Name Last Name              Street      Zip     City Type  \
0      0   Federico    García    Recogidas Street    18805  Granada    U   
1      1      Ángel   Ganivet  Puerta Real Avenue    18805  Granada    U   
2      3      André   Citröen       Gran Via Road    18805  Granada    D   
3      4    Anselmo    Ortega             King St  DE1 3LD  Almería    A   
4      5      Bjorn   Ostberg        27, Queen St  DE1 3LD  Almería    U   
5      6     Markus    Dupont    102, Fake Street    18005  Granada    A   
6      9       Paul    Hudson    Leicester Square    18005  Granada    D   

  Last Check-In Date        Job          Phone      Company  
0         14/01/2018    Dentist     958 419182  Badger Maps  
1         06/02/2018   Salesman      917891232  Badger Maps  
2           1/3/2018    Postman    971 659 123  Badger Maps  
3         12/11/2017  Policeman   933 12 41 59      Wood SA  
4         24/04/2018      Actor  93 1

Comprobamos otro tipo de celdas vacías

In [5]:
# Aquí comprobamos si hay algún campo vacío en cualquier fila todavía (entiendo que estas no hacen falta eliminarlas)
try:
    tiene_nulls = datos.isnull().values.any()
    if tiene_nulls:
        raise ValueError('El archivo contine campos vacíos')
except ValueError as err:
    print(err.args)

('El archivo contine campos vacíos',)


Customer con el check-in más reciente

In [6]:
# Primero transformamos el tipo de los datos de la columna del check in
datos['Last Check-In Date'] = pd.to_datetime(datos['Last Check-In Date'], format="%d/%m/%Y")
# Ordenamos los datos por el check in y lo guardamos en una nueva variable
ordered = datos.sort_values(by=['Last Check-In Date'], ascending = False)
ordered.reset_index(inplace=True)
# Imprimimos los resultadso
print('Los datos ordenados de check-in más reciente a más antiguo son:')
print(ordered)
print('El cliente con el check in más reciente es:')
print(ordered.loc[0]['First Name'] + ' ' + ordered.loc[0]['Last Name'])


Los datos ordenados de check-in más reciente a más antiguo son:
   level_0  index First Name Last Name              Street      Zip     City  \
0        4      5      Bjorn   Ostberg        27, Queen St  DE1 3LD  Almería   
1        2      3      André   Citröen       Gran Via Road    18805  Granada   
2        1      1      Ángel   Ganivet  Puerta Real Avenue    18805  Granada   
3        6      9       Paul    Hudson    Leicester Square    18005  Granada   
4        0      0   Federico    García    Recogidas Street    18805  Granada   
5        3      4    Anselmo    Ortega             King St  DE1 3LD  Almería   
6        5      6     Markus    Dupont    102, Fake Street    18005  Granada   

  Type Last Check-In Date        Job          Phone      Company  
0    U         2018-04-24      Actor  93 1 31 21 29      Wood SA  
1    D         2018-03-01    Postman    971 659 123  Badger Maps  
2    U         2018-02-06   Salesman      917891232  Badger Maps  
3    D         2018-01-24  

Customer con el check-in más antiguo

In [7]:
ordered = datos.sort_values(by=['Last Check-In Date'], ascending = True)
ordered.reset_index(inplace=True)
print('Los datos ordenados de más a antiguo a más reciente son:')
print(ordered)
print('El cliente con el check-in más antiguo a más es:')
print(ordered.loc[0]['First Name'] + ' ' + ordered.loc[0]['Last Name'])

Los datos ordenados de más a antiguo a más reciente son:
   level_0  index First Name Last Name              Street      Zip     City  \
0        3      4    Anselmo    Ortega             King St  DE1 3LD  Almería   
1        0      0   Federico    García    Recogidas Street    18805  Granada   
2        6      9       Paul    Hudson    Leicester Square    18005  Granada   
3        1      1      Ángel   Ganivet  Puerta Real Avenue    18805  Granada   
4        2      3      André   Citröen       Gran Via Road    18805  Granada   
5        4      5      Bjorn   Ostberg        27, Queen St  DE1 3LD  Almería   
6        5      6     Markus    Dupont    102, Fake Street    18005  Granada   

  Type Last Check-In Date        Job          Phone      Company  
0    A         2017-11-12  Policeman   933 12 41 59      Wood SA  
1    U         2018-01-14    Dentist     958 419182  Badger Maps  
2    D         2018-01-24   Salesman      953912345    Fabric SA  
3    U         2018-02-06   Salesm

Lista full name customers ordenados alfabeticamente

In [8]:
# Ordenamos los datos por primer nombre y luego por apellido
ordered = datos.sort_values(by=['First Name','Last Name'], ascending = True)
ordered.reset_index(inplace=True)
# Seleccionamos ambas columnas e imprimimos
print('Lista de los clientes ordenados alfabéticamente:')
print(ordered[['First Name','Last Name']])

Lista de los clientes ordenados alfabéticamente:
  First Name Last Name
0      André   Citröen
1    Anselmo    Ortega
2      Bjorn   Ostberg
3   Federico    García
4     Markus    Dupont
5       Paul    Hudson
6      Ángel   Ganivet
