# Módulo 2
**Desarrollo de proyectos de análisis de datos  IN1002B**

### Tipos de datos, indexación y datos perdidos. 

**Librerías**

Dependiendo de lo que se requiera (manejo de datos, visualización, modelos), debemos importar las librerías necesarias. 


In [None]:
import pandas as pd
import numpy as np

**Cargar los datos**

Hay diversas formas de llamar a una base de datos,para este curso utilizaremos la función de ``` pd.read_csv('')``` o bien la de ``` pd.read_excel('')``` de pandas.

Solo deben de tener la precaución de tener su base de datos dentro de la carpeta donde se este haciendo el notebook.

In [None]:
data = pd.read_csv("retail.csv")

**Información general de los datos**

Una parte fundamental es saber como esta estructurada nuestra base de datos, es decir, saber:
* ¿Cuántas columnas tiene?
* ¿Cuántas filas?
* ¿Qué tipo de datos son?
* ¿Hay caractéres especiales?
* ¿Tenemos faltantes?

```info()```

Nos da respuesta a gran parte de las preguntas anteriores, podemos ver las dimensiones de la base y tipos de datos.

```head()```

Como dice su nombre, esta función nos permite las primeras filas de la base, es muy importante para saber como estan capturados los registros que tenemos.

```isnull()```

Esta función nos ayuda a detectar los faltantes, en conjunto con ```sum()``` la podemos aplicar a la base de datos para ver cuántos valores nos faltan por columna.

## **Indexación**  
Cuando necesitamos acceder a los elementos de una columna, podemos acerlo de varias formas:

### **Columnas**

In [None]:
data.Date

In [None]:
data['Store ID']

In [None]:
#elementos de la columna 3
data.iloc[:, 3]

In [None]:
# Columnas 4 a la 8
data.iloc[:, 4:8]

### **Filas**

In [None]:
data[0:10]

Si necesitan un conjunto de datos más específico, es de utilidad  ```loc```.
<br>
En el siguiente ejemplo le pedimos que nos muestre los valores de la fila 0 a la 15 de las columnas "CASE_STATUS" y "CASE_RECEIVED_DATE".

In [None]:
# Filas de la 0 a la 14 y dos columnas
data.loc[0:14, ["Store ID", "Date"]]

In [None]:
# o por rangos

data.loc[1:5,'Product ID': 'Marketing Spend (USD)']

## **Tipos de datos**

En python tenemos diferentes tipos de datos, los pueden ver en la función `info()`, algunos de ellos son:

    Object
    float
    int 
    bool 
    category

Podemos tener más clases de objetos, incluso podemos crear, pero para fines de esta clase trabajaremos solo con estos. 

### **Datos cualitativos**

* Explicación de este tipo de datos

Con la estrucutura de base de datos de pandas, podemos identificar este tipo de valores como `object` o `category`. 
Es importante hacer una impresión de los datos antes, solo para estar completamente seguros.

Unas funciones que nos ayudan mucho en este tipo de datos son: `value_counts()` y `unique()`

```unique()``` : Nos ayuda a identificar los valores únicos en la columna 

```value_counts()```: Nos ayuda a identificar las veces que se repite cada categoría


In [None]:
#normalize


In [None]:
#unique


### **Datos cuantitativos**

* Explicación de este tipo de datos

En comparación con los datos cualitativos, los cuantitativos se reconocen debido a que son del tipo `int` o float`. 

**Discretos vs Contínuos**

Para este tipo de datos nos ayuda la función de `describe()` si los datos son de tipo contínuo. En el caso de que sean discretos nos podemos seguir apoyando de `value_counts()`.

In [None]:
# contínuos


In [None]:
# discretos


## **Datos perdidos**

El trabajo de datos perdidos depende de cada base de datos, por lo que no tenemos una guía que aplique a todo. 
<br>
Antes de remplazar algun valor primero debemos revisar:
* ¿Es posible remplazar ese valor con otro?
* ¿Cuántos faltantes tenemos?
* ¿Qué lógica deberá de seguir el remplazo?


En caso de que si puedas hacer un remplazo, la pregunta más importante será la tercera. 

Para estos ejemplos trabajaremos con la base de datos de `bike_buyers.csv`

In [None]:
bike = pd.read_csv('bike_buyers.csv')

In [None]:
# info()

In [None]:
# isnull()

bike.isnull().sum()

Vamos a hacer una copia de respaldo, para tener los valores originales a la mano en caso de ser necesario. 

In [None]:
respaldo = pd.read_csv('bike_buyers.csv')

Ahora continuemos con la base de `bike`.
<br>
Nor iremos por orden, la primera columna es `Marital Status`:

In [None]:
#value_counts()


`fillna()`

Esta función buscará todos los faltantes del conjunto de datos que señales. Solo necesitas declarar como argumento de entrada `()` con que valor remplazaras los faltantes. El valor puede ser **numérico** o tipo **texto**

Vamos a remplazar con la leyenda:
    
    'Sin registro'

In [None]:
bike['Marital Status'].fillna('Sin registro', inplace = True)

#inplace evita esto:
# bike['Marital Status'] = bike['Marital Status'].fillna('Sin registro')

In [None]:
#value_counts() / unique()


`replace`

La lógica es la misma que `fillna`, solo que `replace` no se enfoca solo a los datos faltantes.

Vamos a recuperar la columna original de `Marital Status`:

In [None]:
bike['Marital Status'] = respaldo['Marital Status'] 
#unique()


Lo que vamos a hacer es apoyarnos de numpy con `np.nan`.

In [None]:
bike['Marital Status'].replace(np.nan,'Sin registro', inplace = True)

In [None]:
#value_counts()


***loc() - iloc()***

`loc` = Acceder a los valores por medio del nombre: CASE_STATUS


`iloc` = Acceder a los valores por la ubicación de los valores $data[3]$ 

`ffill`

Este es un método de **propagación** de valores de la función `fillna()` por medio del argumento `method`
<br>
Lo que hace es tomar el valor inmediato anterior y colocarlo donde hay un faltante:

In [None]:
# Vamos a colocar los datos originales
bike['Marital Status'] = respaldo['Marital Status'] 

In [None]:
#unique()


In [None]:
#head(10)


In [None]:
#ffill
bike['Marital Status'].fillna(method = 'ffill', inplace = True)

**Moda**

Por el tipo de dato que tenemos también podemos aplicar la moda, para esto vamos a seguir apoyandonos de la función `fillna()` y tambien de `mode()`

In [None]:
# Vamos a colocar los datos originales

bike['Marital Status'] = respaldo['Marital Status'] 

In [None]:
#moda
moda = bike['Marital Status'].mode()[0]
moda

Para obtener el valor de moda directamente, necesitas acceder al primer elemento con [0] porque mode() devuelve una Series

In [None]:
# fillna

# head()



**dropna()**

En caso de que no pueda realizarse algun remplazo, se recomienda eliminar los faltantes, esto también lo podemos hacer especificando la columna que estamos analizando:

In [None]:
bike.shape

Podemos hacer una eliminación **general** de los faltantes.

In [None]:
bike.dropna(inplace = True)

In [None]:
bike.shape

Usemos la copia que teniamos generada

In [None]:
bike = respaldo 
bike.info()

O bien especificar a que columnas deseamos aplicar la función:

In [None]:
#bike.dropna(subset = ['Age', 'Cars'], inplace = True)
bike.dropna(subset = ['Home Owner', 'Income'], inplace = True)

In [None]:
bike.shape

In [None]:
#isnull()
bike.isnull().sum()

* ¿Cuál consideran que es la mejor opción para la columna de estatus marital?

* ¿Las técnicas que empleamos anteriormente son igualmente aplicables a `Income`, `Children` y `Age`?

**Media**

Es una de las formas más utilizadas para hacer el remplazo de valores, la forma en que se aplica es similar a la de la moda (`mode()`).

En este ejemplo vamos a trabajar con `Income`:

In [None]:
mean = bike.Income.mean()
mean

In [None]:
#o bien -> describe()
bike.Income.describe()

In [None]:
mean = 

bike['Income'].fillna(mean, inplace = True)

También podrían hacer lo siguiente:
    
    bike['Income'].fillna(bike['Income'].mean(), inplace= True)
    
Pero ¿que pasaría si intentan aplicar esa misma lógica a la columna de `Children`?

In [None]:
mean2 = bike.Children.mean()
mean2

¿Es correcto?

Cuando tenemos variables tipo **discretas** no debemos hacer divisiones que nos arrojen valores tipo *float*.
<br>
En caso de que tengan este tipo de valores y requieran aplicar la media, solo necesitan hacer el siguiente ajuste:

In [None]:
mean2 = round(mean2)
mean2

In [None]:
bike['Children'].fillna(mean2, inplace = True)

En caso de que requieran analizar la mediana, la lógica permanece igual:

    mediana = bike['Children'].median()

Solo asegurense de imprimir el valor con el que estarán haciendo el remplazo para ver que tenga sentido con: formato, valor y estructura de la columna. 