<img style="float: left;;" src='Figures/alinco.png' /></a>

# <center> <font color= #000047> Análisis de Datos </font> </center>




## Introducción

Cuando trabajamos con **estadísticas**, es importante reconocer los diferentes tipos de [datos](https://es.wikipedia.org/wiki/Dato): numéricos ([discretos y continuos](https://es.wikipedia.org/wiki/Variable_discreta_y_variable_continua)), [categóricos](https://en.wikipedia.org/wiki/Categorical_variable) y ordinales. Los datos no son más que observaciones del mundo en que vivimos, por tanto, los mismos pueden venir en diferentes formas, no solo numérica. Por ejemplo, si le preguntáramos a nuestros amigos ¿cuántas mascotas tienen? nos podrían responder: `0, 1, 2, 4, 3, 8`; esta información por sí misma puede ser útil, pero para nuestro análisis de mascotas, nos podría servir también otro tipo de información, como por ejemplo el *género* de cada uno de nuestros amigos; de esta forma obtendríamos la siguiente información: `hombre, mujer, mujer, mujer, hombre, mujer`. Como vemos, podemos incluir a los datos dentro de tres categorías fundamentales: 

> Datos binarios

> Datos cuantitativos

> Datos cualitativos 

        - Ordinales.
        - Nominales

### Datos cuantitativos

Los [datos cuantitativos](https://es.wikipedia.org/wiki/Cantidad) son representados por números; estos números van a ser significativos si representan la medida o la cantidad observada de cierta característica. Dentro de esta categoría podemos encontrar por ejemplo: cantidades de dólares, cuentas, tamaños, número de empleados, y kilómetros por hora. Con los datos cuantitativos, se puede hacer todo tipo de tareas de procesamiento de datos numéricos, tales como sumarlos, calcular promedios, o medir su variabilidad. Asimismo, vamos a poder dividir a los datos cuantitativos en discretos y continuos, dependiendo de los valores potencialmente observables.

* Los datos ***discretos*** solo van a poder asumir un valor de una lista de números específicos. Representan ítems que pueden ser *contados*; todos sus posibles valores pueden ser listados. Suele ser relativamente fácil trabajar con este tipo de dato.

* Datos **doble estado o binarios**. Son obtenidos cuando solo presentan en la caracteristica evaluada dos posibilidades de respuesta, como ausencia o presencia de alguna caracteristica. Generalmente son codificadas como 0 para las negativas y 1 para las positivas. Presentan una distribucion estadistica binomial y el calculo de sus estadisticos basicos deben de realizarse con las formulas diseadas para esta distribucion

* Los datos ***continuos*** representan *mediciones*; sus posibles valores no pueden ser contados y sólo pueden ser descritos usando intervalos en la recta de los números reales. Por ejemplo, la cantidad de kilómetros recorridos no puede ser medida con exactitud, puede ser que hayamos recorrido 1.7 km o 1.6987 km; en cualquier medida que tomemos del mundo real, siempre pueden haber pequeñas o grandes variaciones. Generalmente, los *datos continuos* se suelen redondear a un número fijo de decimales para facilitar su manipulación.


### Datos cualitativos 

Si los datos nos dicen en cual de determinadas categorías no numéricas nuestros ítems van a caer, entonces estamos hablando de datos cualitativos o categóricos; ya que los mismos van a representar determinada *cualidad* que los ítems poseen. Dentro de esta categoría vamos a encontrar datos como: el sexo de una persona, el estado civil, la ciudad natal, o los tipos de películas que le gustan. Los datos categóricos pueden tomar valores numéricos (por ejemplo, "1" para indicar "masculino" y "2" para indicar "femenino"), pero esos números no tienen un sentido matemático.

#### Datos ordinales

Una categoría intermedia entre los dos tipos de datos anteriores, son los *datos ordinales*. En este tipo de datos, va a existir un *orden* significativo, vamos a poder clasificar un primero, segundo, tercero, etc. es decir, que podemos establecer un *ranking* para estos datos, el cual posiblemente luego tenga un rol importante en la etapa de análisis. Los datos se dividen en categorías, pero los números colocados en cada categoría tienen un significado. Por ejemplo, la calificación de un restaurante en una escala de 0 (bajo) a 5 (más alta) estrellas representa *datos ordinales*. Los *datos ordinales* son a menudo tratados como datos categóricos, en el sentido que se suelen agrupar y ordenar. 

#### Datos Nominales
Son aquellos con mas de dos posibilidades de respuesta pero que no llevan un orden logico. Por ejemplo, a los colores se pueden asignar un numero a cada uno, es decir, rojo = 1, amarillo = 2, azul = 3, etc; sin embargo, no se puede concluir que rojo es menor que azul, son diferentes pero no en orden o secuencia logica.


In [1]:
import numpy as np
import pandas as pd

## Categóricos y Numéricos

In [4]:
df_bank = pd.read_csv('Data/bank.csv')
df_bank.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,30,unemployed,married,primary,no,1787,no,no,cellular,19,oct,79,1,-1,0,unknown,no
1,33,services,married,secondary,no,4789,yes,yes,cellular,11,may,220,1,339,4,failure,no
2,35,management,single,tertiary,no,1350,yes,no,cellular,16,apr,185,1,330,1,failure,no
3,30,management,married,tertiary,no,1476,yes,yes,unknown,3,jun,199,4,-1,0,unknown,no
4,59,blue-collar,married,secondary,no,0,yes,no,unknown,5,may,226,1,-1,0,unknown,no


In [5]:
df_bank.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4521 entries, 0 to 4520
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   age        4521 non-null   int64 
 1   job        4521 non-null   object
 2   marital    4521 non-null   object
 3   education  4521 non-null   object
 4   default    4521 non-null   object
 5   balance    4521 non-null   int64 
 6   housing    4521 non-null   object
 7   loan       4521 non-null   object
 8   contact    4521 non-null   object
 9   day        4521 non-null   int64 
 10  month      4521 non-null   object
 11  duration   4521 non-null   int64 
 12  campaign   4521 non-null   int64 
 13  pdays      4521 non-null   int64 
 14  previous   4521 non-null   int64 
 15  poutcome   4521 non-null   object
 16  y          4521 non-null   object
dtypes: int64(7), object(10)
memory usage: 600.6+ KB


In [6]:
help(df_bank.select_dtypes)

Help on method select_dtypes in module pandas.core.frame:

select_dtypes(include=None, exclude=None) -> 'DataFrame' method of pandas.core.frame.DataFrame instance
    Return a subset of the DataFrame's columns based on the column dtypes.
    
    Parameters
    ----------
    include, exclude : scalar or list-like
        A selection of dtypes or strings to be included/excluded. At least
        one of these parameters must be supplied.
    
    Returns
    -------
    DataFrame
        The subset of the frame including the dtypes in ``include`` and
        excluding the dtypes in ``exclude``.
    
    Raises
    ------
    ValueError
        * If both of ``include`` and ``exclude`` are empty
        * If ``include`` and ``exclude`` have overlapping elements
        * If any kind of string dtype is passed in.
    
    See Also
    --------
    DataFrame.dtypes: Return Series with the data type of each column.
    
    Notes
    -----
    * To select all *numeric* types, use ``np.number

In [8]:
df_bank.head(3)

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,30,unemployed,married,primary,no,1787,no,no,cellular,19,oct,79,1,-1,0,unknown,no
1,33,services,married,secondary,no,4789,yes,yes,cellular,11,may,220,1,339,4,failure,no
2,35,management,single,tertiary,no,1350,yes,no,cellular,16,apr,185,1,330,1,failure,no


In [9]:
#Datos cuantitativos
df_bank_cuantitativos = df_bank.select_dtypes(include='number')
df_bank_cuantitativos

Unnamed: 0,age,balance,day,duration,campaign,pdays,previous
0,30,1787,19,79,1,-1,0
1,33,4789,11,220,1,339,4
2,35,1350,16,185,1,330,1
3,30,1476,3,199,4,-1,0
4,59,0,5,226,1,-1,0
...,...,...,...,...,...,...,...
4516,33,-333,30,329,5,-1,0
4517,57,-3313,9,153,1,-1,0
4518,57,295,19,151,11,-1,0
4519,28,1137,6,129,4,211,3


In [11]:
df_bank_categoricos = df_bank.select_dtypes(exclude='number')
df_bank_categoricos.head()

Unnamed: 0,job,marital,education,default,housing,loan,contact,month,poutcome,y
0,unemployed,married,primary,no,no,no,cellular,oct,unknown,no
1,services,married,secondary,no,yes,yes,cellular,may,failure,no
2,management,single,tertiary,no,yes,no,cellular,apr,failure,no
3,management,married,tertiary,no,yes,yes,unknown,jun,unknown,no
4,blue-collar,married,secondary,no,yes,no,unknown,may,unknown,no


In [12]:
# Guardamos las columnas originales
col_bank = df_bank.columns
col_bank

Index(['age', 'job', 'marital', 'education', 'default', 'balance', 'housing',
       'loan', 'contact', 'day', 'month', 'duration', 'campaign', 'pdays',
       'previous', 'poutcome', 'y'],
      dtype='object')

In [13]:
#guardamos las columnas de las variables cuantitativas
col_cuanti = df_bank_cuantitativos.columns
col_cuanti

Index(['age', 'balance', 'day', 'duration', 'campaign', 'pdays', 'previous'], dtype='object')

In [30]:
#guardamos las columnas de las variables Categóricas
col_categoricas = df_bank_categoricos.columns
col_categoricas

Index(['job', 'marital', 'education', 'default', 'housing', 'loan', 'contact',
       'month', 'poutcome', 'y'],
      dtype='object')

In [31]:
df_bank_categoricos['default'].unique(), df_bank_categoricos['default'].nunique()

(array(['no', 'yes'], dtype=object), 2)

In [32]:
col_bin =[]
for col in col_categoricas:
    print(f'{col} tiene {df_bank_categoricos[col].nunique()} y son : {df_bank_categoricos[col].unique()}')
    if df_bank_categoricos[col].nunique()==2:
        col_bin.append(col)

job tiene 12 y son : ['unemployed' 'services' 'management' 'blue-collar' 'self-employed'
 'technician' 'entrepreneur' 'admin.' 'student' 'housemaid' 'retired'
 'unknown']
marital tiene 3 y son : ['married' 'single' 'divorced']
education tiene 4 y son : ['primary' 'secondary' 'tertiary' 'unknown']
default tiene 2 y son : ['no' 'yes']
housing tiene 2 y son : ['no' 'yes']
loan tiene 2 y son : ['no' 'yes']
contact tiene 3 y son : ['cellular' 'unknown' 'telephone']
month tiene 12 y son : ['oct' 'may' 'apr' 'jun' 'feb' 'aug' 'jan' 'jul' 'nov' 'sep' 'mar' 'dec']
poutcome tiene 4 y son : ['unknown' 'failure' 'other' 'success']
y tiene 2 y son : ['no' 'yes']


In [33]:
col_bin

['default', 'housing', 'loan', 'y']

In [34]:
col_categoricas.to_list()

['job',
 'marital',
 'education',
 'default',
 'housing',
 'loan',
 'contact',
 'month',
 'poutcome',
 'y']

In [35]:
col_categoricas = list(set(col_categoricas.to_list()) - set(col_bin))
col_categoricas

['job', 'contact', 'month', 'marital', 'poutcome', 'education']

In [36]:
# Lista de columnas binarias
col_bin

['default', 'housing', 'loan', 'y']

In [38]:
#Lista de columnas cuantitativas
col_cuanti

Index(['age', 'balance', 'day', 'duration', 'campaign', 'pdays', 'previous'], dtype='object')

In [40]:
df_bank_categoricos.head()

Unnamed: 0,job,marital,education,default,housing,loan,contact,month,poutcome,y
0,unemployed,married,primary,no,no,no,cellular,oct,unknown,no
1,services,married,secondary,no,yes,yes,cellular,may,failure,no
2,management,single,tertiary,no,yes,no,cellular,apr,failure,no
3,management,married,tertiary,no,yes,yes,unknown,jun,unknown,no
4,blue-collar,married,secondary,no,yes,no,unknown,may,unknown,no


In [41]:
#Lista de columnas ordinales categoricos
ordinales_cat = ['education', 'month']


In [43]:
# Base de datos ordinales categóricos
df_bank_categoricos[['education', 'month']].head()

Unnamed: 0,education,month
0,primary,oct
1,secondary,may
2,tertiary,apr
3,tertiary,jun
4,secondary,may


In [45]:
#Lista de columnas nominales categoricos
nominales_cat =list(set(col_categoricas) - set(ordinales_cat))
nominales_cat

['contact', 'job', 'marital', 'poutcome']

In [51]:
df_bank[nominales_cat]

Unnamed: 0,contact,job,marital,poutcome
0,cellular,unemployed,married,unknown
1,cellular,services,married,failure
2,cellular,management,single,failure
3,unknown,management,married,unknown
4,unknown,blue-collar,married,unknown
...,...,...,...,...
4516,cellular,services,married,unknown
4517,unknown,self-employed,married,unknown
4518,cellular,technician,married,unknown
4519,cellular,blue-collar,married,other


## Actividad 

Utilizando el archivo **bank.csv** que se encuentra en la carpeta de Data, obtenga la clasificación de tipos de datos que se tienen en todo el dataset. 

>Cree una función **get_binarios(dataset)** que retorne en una lista las columnas que representan los datos de tipo binarios.

>Cree una función **get_cualitativos(dataset)** que retorne en una lista las columnas que representan los datos cualitativos nominales y ordinales. Después identifique cuáles serían las columnas que representan datos cualitativos ordinales y datos cualitativos nominales.

>Cree una función **get_cuantitativos(dataset)** que retorne en una lista las columnas que representan los datos de tipo cuantitativos.

puede utilizar el método pd.select_dtypes() para poder identificar el tipo de dato.


In [52]:
def get_binarios(df):
    col_bin = []
    for col in df.columns:
        if df[col].nunique() == 2:
            col_bin.append(col)
            
    return df[col_bin], col_bin

In [54]:
df_bank_binarios, col_binarios = get_binarios(df_bank)

In [55]:
df_bank_binarios.head(3)

Unnamed: 0,default,housing,loan,y
0,no,no,no,no
1,no,yes,yes,no
2,no,yes,no,no


In [56]:
col_binarios

['default', 'housing', 'loan', 'y']

In [69]:
def get_categoricos(df):
    col_categorias = df.select_dtypes(exclude='number').columns
    col_cat=[]
    for col in col_categorias:
        if df[col].nunique()>2:
            col_cat.append(col)
    return df[col_cat], col_cat

In [70]:
df_bank_categoricos, col_categoricos=get_categoricos(df_bank)


In [71]:
df_bank_categoricos.head(3)

Unnamed: 0,job,marital,education,contact,month,poutcome
0,unemployed,married,primary,cellular,oct,unknown
1,services,married,secondary,cellular,may,failure
2,management,single,tertiary,cellular,apr,failure


In [64]:
def get_cuantitativos(df):
    col_cuantitativos = df.select_dtypes(include='number').columns
    
    return df[col_cuantitativos], col_cuantitativos

In [65]:
df_bank_cuantitativos, col_cuantitativos = get_cuantitativos(df_bank)

In [66]:
df_bank_cuantitativos.head()

Unnamed: 0,age,balance,day,duration,campaign,pdays,previous
0,30,1787,19,79,1,-1,0
1,33,4789,11,220,1,339,4
2,35,1350,16,185,1,330,1
3,30,1476,3,199,4,-1,0
4,59,0,5,226,1,-1,0


## Crear una librería para los algoritmos de clase en Python

In [118]:
class HyAIA:
    def __init__(self, df):
        self.data = df
        self.columns = df.columns
        self.data_binarios, self.binarios_columns = get_binarios(df)
        self.data_cuantitativos, self.cuantitativos_columns = get_cuantitativos(df)
        self.data_categoricos, self.categoricos_columns = get_categoricos(df)
        
    ##% Métodos para Análisis de Datos 
    #Método para obtener las columnas y dataframe binarios
    def get_binarios(self):
        col_bin = []
        for col in self.columns:
            if self.data[col].nunique() == 2:
                col_bin.append(col)

        return self.data[col_bin], col_bin
    #Método para obtener columnas y dataframe cuantitativos
    def get_cuantitativos(self):
        col_cuantitativos = self.data.select_dtypes(include='number').columns
        
        return self.data[col_cuantitativos], col_cuantitativos
    #Método para obtener columnas y dataframe categóricos
    def get_categoricos(self):
        col_categorias = self.data.select_dtypes(exclude='number').columns
        col_cat=[]
        for col in col_categorias:
            if self.data[col].nunique()>2:
                col_cat.append(col)
        return self.data[col_cat], col_cat

In [108]:
hy = HyAIA(df_bank)

In [109]:
hy.data.head(3)

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,30,unemployed,married,primary,no,1787,no,no,cellular,19,oct,79,1,-1,0,unknown,no
1,33,services,married,secondary,no,4789,yes,yes,cellular,11,may,220,1,339,4,failure,no
2,35,management,single,tertiary,no,1350,yes,no,cellular,16,apr,185,1,330,1,failure,no


In [110]:
hy.columns

Index(['age', 'job', 'marital', 'education', 'default', 'balance', 'housing',
       'loan', 'contact', 'day', 'month', 'duration', 'campaign', 'pdays',
       'previous', 'poutcome', 'y'],
      dtype='object')

In [111]:
hy.get_binarios()

(     default housing loan   y
 0         no      no   no  no
 1         no     yes  yes  no
 2         no     yes   no  no
 3         no     yes  yes  no
 4         no     yes   no  no
 ...      ...     ...  ...  ..
 4516      no     yes   no  no
 4517     yes     yes  yes  no
 4518      no      no   no  no
 4519      no      no   no  no
 4520      no     yes  yes  no
 
 [4521 rows x 4 columns],
 ['default', 'housing', 'loan', 'y'])

In [112]:
hy.get_cuantitativos()

(      age  balance  day  duration  campaign  pdays  previous
 0      30     1787   19        79         1     -1         0
 1      33     4789   11       220         1    339         4
 2      35     1350   16       185         1    330         1
 3      30     1476    3       199         4     -1         0
 4      59        0    5       226         1     -1         0
 ...   ...      ...  ...       ...       ...    ...       ...
 4516   33     -333   30       329         5     -1         0
 4517   57    -3313    9       153         1     -1         0
 4518   57      295   19       151        11     -1         0
 4519   28     1137    6       129         4    211         3
 4520   44     1136    3       345         2    249         7
 
 [4521 rows x 7 columns],
 Index(['age', 'balance', 'day', 'duration', 'campaign', 'pdays', 'previous'], dtype='object'))

In [113]:
hy.get_categoricos()

(                job  marital  education   contact month poutcome
 0        unemployed  married    primary  cellular   oct  unknown
 1          services  married  secondary  cellular   may  failure
 2        management   single   tertiary  cellular   apr  failure
 3        management  married   tertiary   unknown   jun  unknown
 4       blue-collar  married  secondary   unknown   may  unknown
 ...             ...      ...        ...       ...   ...      ...
 4516       services  married  secondary  cellular   jul  unknown
 4517  self-employed  married   tertiary   unknown   may  unknown
 4518     technician  married  secondary  cellular   aug  unknown
 4519    blue-collar  married  secondary  cellular   feb    other
 4520   entrepreneur   single   tertiary  cellular   apr    other
 
 [4521 rows x 6 columns],
 ['job', 'marital', 'education', 'contact', 'month', 'poutcome'])

In [114]:
hy2 = HyAIA(df_bank)

In [116]:
#self.data_binarios, self.binarios_columns
hy2.data_binarios.head()


Unnamed: 0,default,housing,loan,y
0,no,no,no,no
1,no,yes,yes,no
2,no,yes,no,no
3,no,yes,yes,no
4,no,yes,no,no


In [117]:
hy2.binarios_columns

['default', 'housing', 'loan', 'y']

In [119]:
hy3 = HyAIA(df_bank)

In [121]:
hy3.data_cuantitativos.head()

Unnamed: 0,age,balance,day,duration,campaign,pdays,previous
0,30,1787,19,79,1,-1,0
1,33,4789,11,220,1,339,4
2,35,1350,16,185,1,330,1
3,30,1476,3,199,4,-1,0
4,59,0,5,226,1,-1,0


In [122]:
hy3.data_categoricos.head()

Unnamed: 0,job,marital,education,contact,month,poutcome
0,unemployed,married,primary,cellular,oct,unknown
1,services,married,secondary,cellular,may,failure
2,management,single,tertiary,cellular,apr,failure
3,management,married,tertiary,unknown,jun,unknown
4,blue-collar,married,secondary,unknown,may,unknown


In [125]:
hy3.data_binarios.head()

Unnamed: 0,default,housing,loan,y
0,no,no,no,no
1,no,yes,yes,no
2,no,yes,no,no
3,no,yes,yes,no
4,no,yes,no,no
