# Finding the most important characteristics of the clients

In [1]:
import pandas as pd 
import numpy as np 

## Cleaning and wrangling of data

In [2]:
pd.set_option('display.max_columns', 100)

In [3]:
data = pd.read_csv("clientes_startup_summer.csv")

In [4]:
data

Unnamed: 0,ID,Nombre_Alumnos,Genero_Alumno,Edad,Grupo,Nombre_Tutor,Genero_Tutor,Paquete,Semanas,Colonia,Municipio,C.P.,Escuela,Hermanos,Compra
0,1,Fernando Vargas Rodriguez,Masculino,4.0,1.0,Vania Rodriguez,Femenino,Normal,3.0,,,,,0,Si
1,2,Ivan Rasid,Masculino,,,,,Normal,3.0,,,,,0,No
2,3,Miguel Ángel Vargas,Masculino,12.0,3.0,Guillermina López,Femenino,Alimento,3.0,,,,,1,Si
3,4,Ian Montoya Tenorio,Masculino,8.0,1.0,Miriam Tenorio Rico,Femenino,Normal,3.0,,,,,0,Si
4,5,Maria Palomino,Femenino,,,,,Normal,3.0,,,,,0,No
5,6,Andrei Quetzal López,Masculino,,,,,Alimento,3.0,,,,,0,No
6,7,Sayed Charbel,Masculino,14.0,3.0,Carlos Galdoz Bustamante,Masculino,Normal,3.0,,,,,0,Si
7,8,Andrea Zuleta Malanco,Femenino,12.0,3.0,Diana Malanco Villena,Femenino,Alimento,3.0,,,,,0,Si
8,9,Jorge Ochoa Arteaga,Masculino,13.0,3.0,Iris Arteaga,Femenino,Normal,2.0,,Aguascalientes,,,3,Si
9,10,Rogelio Ortega Hernández,Masculino,7.0,1.0,Rogelio Ortega Padilla,Masculino,Alimento,3.0,,,,,0,Si


In [5]:
data.shape

(146, 15)

In [7]:
data_nombres = data #To make a list with the tutors that pay for more than one child

In [8]:
drop_variables = ["ID", "Nombre_Alumnos", "Nombre_Tutor", "Colonia", "C.P."]
#The ID is insignificant 
#The names are no necessary for a ranking
#"Colonia" and "C.P." don't have eneough data to be useful in the analysis

In [9]:
data.drop(labels=drop_variables, axis=1, inplace=True)

In [10]:
data.head()

Unnamed: 0,Genero_Alumno,Edad,Grupo,Genero_Tutor,Paquete,Semanas,Municipio,Escuela,Hermanos,Compra
0,Masculino,4.0,1.0,Femenino,Normal,3.0,,,0,Si
1,Masculino,,,,Normal,3.0,,,0,No
2,Masculino,12.0,3.0,Femenino,Alimento,3.0,,,1,Si
3,Masculino,8.0,1.0,Femenino,Normal,3.0,,,0,Si
4,Femenino,,,,Normal,3.0,,,0,No


In [11]:
data.shape

(146, 10)

In [12]:
d_type = np.NAN
for column in data.columns:
    if data[column].dtype == np.int64:
        d_type = 'intenger'
    elif data[column].dtype == np.float64:
        d_type = 'float'
    else:
        d_type = 'other'
                
    print('VARIABLE: ', column)
    print('Type: ', d_type)
    print('NUNIQUE: ', data[column].nunique())
    print('UNIQUE: ', data[column].unique())
    print('VALUE COUNTS ', data[column].value_counts().head())
    print('\n')

VARIABLE:  Genero_Alumno
Type:  other
NUNIQUE:  2
UNIQUE:  ['Masculino' 'Femenino']
VALUE COUNTS  Masculino    97
Femenino     49
Name: Genero_Alumno, dtype: int64


VARIABLE:  Edad
Type:  float
NUNIQUE:  11
UNIQUE:  [ 4. nan 12.  8. 14. 13.  7.  5. 11.  9. 10.  6.]
VALUE COUNTS  8.0     19
10.0    14
11.0    12
7.0     12
13.0    11
Name: Edad, dtype: int64


VARIABLE:  Grupo
Type:  float
NUNIQUE:  3
UNIQUE:  [ 1. nan  3.  2.]
VALUE COUNTS  1.0    37
2.0    36
3.0    24
Name: Grupo, dtype: int64


VARIABLE:  Genero_Tutor
Type:  other
NUNIQUE:  2
UNIQUE:  ['Femenino' nan 'Masculino']
VALUE COUNTS  Femenino     69
Masculino    31
Name: Genero_Tutor, dtype: int64


VARIABLE:  Paquete 
Type:  other
NUNIQUE:  2
UNIQUE:  ['Normal' 'Alimento' nan]
VALUE COUNTS  Normal      87
Alimento    57
Name: Paquete , dtype: int64


VARIABLE:  Semanas
Type:  float
NUNIQUE:  3
UNIQUE:  [ 3.  2.  1. nan]
VALUE COUNTS  3.0    103
1.0     29
2.0     12
Name: Semanas, dtype: int64


VARIABLE:  Municipio
Type

### Dealing with nan's 

In [13]:
#Changing the names of the columns due to a space in their name
data = data.rename(columns={'Paquete ': 'Paquete', 'Compra ': 'Compra',
                            'Escuela ': 'Escuela'
                           })

In [14]:
data["Genero_Tutor"] = data["Genero_Tutor"].fillna("Desconocido")
data["Municipio"] = data["Municipio"].fillna("Desconocido")
data["Paquete"] = data["Paquete"].fillna("Desconocido")
data["Escuela"] = data["Escuela"].fillna("Desconocido")

In [15]:
data["Semanas"] = data["Semanas"].fillna(data["Semanas"].mean())
data["Edad"] = data["Edad"].fillna(data["Edad"].mean())
data["Grupo"] = data["Grupo"].fillna(data["Grupo"].mean())

In [16]:
data.head()

Unnamed: 0,Genero_Alumno,Edad,Grupo,Genero_Tutor,Paquete,Semanas,Municipio,Escuela,Hermanos,Compra
0,Masculino,4.0,1.0,Femenino,Normal,3.0,Desconocido,Desconocido,0,Si
1,Masculino,9.690722,1.865979,Desconocido,Normal,3.0,Desconocido,Desconocido,0,No
2,Masculino,12.0,3.0,Femenino,Alimento,3.0,Desconocido,Desconocido,1,Si
3,Masculino,8.0,1.0,Femenino,Normal,3.0,Desconocido,Desconocido,0,Si
4,Femenino,9.690722,1.865979,Desconocido,Normal,3.0,Desconocido,Desconocido,0,No


### Modifying values within a column

In [17]:
data["Compra"].unique()

array(['Si', 'No', 'SI'], dtype=object)

In [18]:
dicc_state = {'SI':"Si"}

In [19]:
data.Compra.replace(dicc_state, inplace=True)

In [20]:
data["Compra"].unique()

array(['Si', 'No'], dtype=object)

In [21]:
data.columns.values

array(['Genero_Alumno', 'Edad', 'Grupo', 'Genero_Tutor', 'Paquete',
       'Semanas', 'Municipio', 'Escuela', 'Hermanos', 'Compra'],
      dtype=object)

In [22]:
data

Unnamed: 0,Genero_Alumno,Edad,Grupo,Genero_Tutor,Paquete,Semanas,Municipio,Escuela,Hermanos,Compra
0,Masculino,4.000000,1.000000,Femenino,Normal,3.000000,Desconocido,Desconocido,0,Si
1,Masculino,9.690722,1.865979,Desconocido,Normal,3.000000,Desconocido,Desconocido,0,No
2,Masculino,12.000000,3.000000,Femenino,Alimento,3.000000,Desconocido,Desconocido,1,Si
3,Masculino,8.000000,1.000000,Femenino,Normal,3.000000,Desconocido,Desconocido,0,Si
4,Femenino,9.690722,1.865979,Desconocido,Normal,3.000000,Desconocido,Desconocido,0,No
5,Masculino,9.690722,1.865979,Desconocido,Alimento,3.000000,Desconocido,Desconocido,0,No
6,Masculino,14.000000,3.000000,Masculino,Normal,3.000000,Desconocido,Desconocido,0,Si
7,Femenino,12.000000,3.000000,Femenino,Alimento,3.000000,Desconocido,Desconocido,0,Si
8,Masculino,13.000000,3.000000,Femenino,Normal,2.000000,Aguascalientes,Desconocido,3,Si
9,Masculino,7.000000,1.000000,Masculino,Alimento,3.000000,Desconocido,Desconocido,0,Si


In [23]:
def createDummies(data,var_name):
    dummy = pd.get_dummies(data[var_name], prefix=var_name)
    data = data.drop(var_name, axis = 1)
    data = pd.concat([data, dummy ], axis = 1)
    return data

In [24]:
data = createDummies(data, "Genero_Alumno")
data = createDummies(data,"Paquete")
data = createDummies(data, "Genero_Tutor")
data = createDummies(data, "Municipio")
data = createDummies(data, "Escuela")

In [25]:
data.head()

Unnamed: 0,Edad,Grupo,Semanas,Hermanos,Compra,Genero_Alumno_Femenino,Genero_Alumno_Masculino,Paquete_Alimento,Paquete_Desconocido,Paquete_Normal,Genero_Tutor_Desconocido,Genero_Tutor_Femenino,Genero_Tutor_Masculino,Municipio_Aguascalientes,Municipio_Desconocido,Municipio_Jesus María,Municipio_Morelia,Municipio_San_Pedro_Garza_García,Municipio_jesus María,Escuela_Desconocido,Escuela_Entorno,Escuela_Nuevos Horizontes
0,4.0,1.0,3.0,0,Si,0,1,0,0,1,0,1,0,0,1,0,0,0,0,1,0,0
1,9.690722,1.865979,3.0,0,No,0,1,0,0,1,1,0,0,0,1,0,0,0,0,1,0,0
2,12.0,3.0,3.0,1,Si,0,1,1,0,0,0,1,0,0,1,0,0,0,0,1,0,0
3,8.0,1.0,3.0,0,Si,0,1,0,0,1,0,1,0,0,1,0,0,0,0,1,0,0
4,9.690722,1.865979,3.0,0,No,1,0,0,0,1,1,0,0,0,1,0,0,0,0,1,0,0


In [28]:
Path = "/Users/andres/Documents/Universidad/Segundo_Semestre_ISC/Ingenieria_de_Software/Proyecto/"

In [31]:
data.to_csv(Path + "Clientes_limpio.csv", index=False)