# Módulo 2
**Desarrollo de proyectos de análisis de datos  IN1002B**

### Tipos de datos, indexación y datos perdidos.

**Librerías**

Dependiendo de lo que se requiera (manejo de datos, visualización, modelos), debemos importar las librerías necesarias.


In [6]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [3]:
import pandas as pd
import numpy as np

**Cargar los datos**

Hay diversas formas de llamar a una base de datos,para este curso utilizaremos la función de ``` pd.read_csv('')``` o bien la de ``` pd.read_excel('')``` de pandas.

Solo deben de tener la precaución de tener su base de datos dentro de la carpeta donde se este haciendo el notebook.

In [5]:
data = pd.read_csv("/content/drive/MyDrive/IN1002B.204/M2/retail.csv")

**Información general de los datos**

Una parte fundamental es saber como esta estructurada nuestra base de datos, es decir, saber:
* ¿Cuántas columnas tiene?
* ¿Cuántas filas?
* ¿Qué tipo de datos son?
* ¿Hay caractéres especiales?
* ¿Tenemos faltantes?

```info()```

Nos da respuesta a gran parte de las preguntas anteriores, podemos ver las dimensiones de la base y tipos de datos.

```head()```

Como dice su nombre, esta función nos permite las primeras filas de la base, es muy importante para saber como estan capturados los registros que tenemos.

```isnull()```

Esta función nos ayuda a detectar los faltantes, en conjunto con ```sum()``` la podemos aplicar a la base de datos para ver cuántos valores nos faltan por columna.

## **Indexación**  
Cuando necesitamos acceder a los elementos de una columna, podemos acerlo de varias formas:

### **Columnas**

In [None]:
data.Date

In [None]:
data['Store ID']

In [None]:
#elementos de la columna 3
data.iloc[:, 3]

In [None]:
# Columnas 4 a la 8
data.iloc[:, 4:8]

### **Filas**

In [None]:
data[0:10]

Si necesitan un conjunto de datos más específico, es de utilidad  ```loc```.
<br>
En el siguiente ejemplo le pedimos que nos muestre los valores de la fila 0 a la 15 de las columnas "CASE_STATUS" y "CASE_RECEIVED_DATE".

In [None]:
# Filas de la 0 a la 14 y dos columnas
data.loc[0:14, ["Store ID", "Date"]]

In [None]:
# o por rangos

data.loc[1:5,'Product ID': 'Marketing Spend (USD)']

## **Tipos de datos**

En python tenemos diferentes tipos de datos, los pueden ver en la función `info()`, algunos de ellos son:

    Object
    float
    int
    bool
    category

Podemos tener más clases de objetos, incluso podemos crear, pero para fines de esta clase trabajaremos solo con estos.

### **Datos cualitativos**

* Explicación de este tipo de datos

Con la estrucutura de base de datos de pandas, podemos identificar este tipo de valores como `object` o `category`.
Es importante hacer una impresión de los datos antes, solo para estar completamente seguros.

Unas funciones que nos ayudan mucho en este tipo de datos son: `value_counts()` y `unique()`

```unique()``` : Nos ayuda a identificar los valores únicos en la columna

```value_counts()```: Nos ayuda a identificar las veces que se repite cada categoría


In [None]:
#normalize


In [None]:
#unique


### **Datos cuantitativos**

* Explicación de este tipo de datos

En comparación con los datos cualitativos, los cuantitativos se reconocen debido a que son del tipo `int` o float`.

**Discretos vs Contínuos**

Para este tipo de datos nos ayuda la función de `describe()` si los datos son de tipo contínuo. En el caso de que sean discretos nos podemos seguir apoyando de `value_counts()`.

In [None]:
# contínuos


In [None]:
# discretos


## **Datos perdidos**

El trabajo de datos perdidos depende de cada base de datos, por lo que no tenemos una guía que aplique a todo.
<br>
Antes de remplazar algun valor primero debemos revisar:
* ¿Es posible remplazar ese valor con otro?
* ¿Cuántos faltantes tenemos?
* ¿Qué lógica deberá de seguir el remplazo?


En caso de que si puedas hacer un remplazo, la pregunta más importante será la tercera.

Para estos ejemplos trabajaremos con la base de datos de `bike_buyers.csv`

In [7]:
bike = pd.read_csv('/content/drive/MyDrive/IN1002B.204/M2/bike_buyers.csv')

In [None]:
# info()

In [None]:
# isnull()

bike.isnull().sum()

Vamos a hacer una copia de respaldo, para tener los valores originales a la mano en caso de ser necesario.

In [None]:
respaldo = pd.read_csv('bike_buyers.csv')

Ahora continuemos con la base de `bike`.
<br>
Nor iremos por orden, la primera columna es `Marital Status`:

In [None]:
#value_counts()


`fillna()`

Esta función buscará todos los faltantes del conjunto de datos que señales. Solo necesitas declarar como argumento de entrada `()` con que valor remplazaras los faltantes. El valor puede ser **numérico** o tipo **texto**

Vamos a remplazar con la leyenda:
    
    'Sin registro'

In [None]:
bike['Marital Status'].fillna('Sin registro', inplace = True)

#inplace evita esto:
# bike['Marital Status'] = bike['Marital Status'].fillna('Sin registro')

In [None]:
#value_counts() / unique()


`replace`

La lógica es la misma que `fillna`, solo que `replace` no se enfoca solo a los datos faltantes.

Vamos a recuperar la columna original de `Marital Status`:

In [None]:
bike['Marital Status'] = respaldo['Marital Status']
#unique()


Lo que vamos a hacer es apoyarnos de numpy con `np.nan`.

In [None]:
bike['Marital Status'].replace(np.nan,'Sin registro', inplace = True)

In [None]:
#value_counts()


***loc() - iloc()***

`loc` = Acceder a los valores por medio del nombre: CASE_STATUS


`iloc` = Acceder a los valores por la ubicación de los valores $data[3]$

`ffill`

Este es un método de **propagación** de valores de la función `fillna()` por medio del argumento `method`
<br>
Lo que hace es tomar el valor inmediato anterior y colocarlo donde hay un faltante:

In [None]:
# Vamos a colocar los datos originales
bike['Marital Status'] = respaldo['Marital Status']

In [None]:
#unique()


In [None]:
#head(10)


In [None]:
#ffill
bike['Marital Status'].fillna(method = 'ffill', inplace = True)

**Moda**

Por el tipo de dato que tenemos también podemos aplicar la moda, para esto vamos a seguir apoyandonos de la función `fillna()` y tambien de `mode()`

In [None]:
# Vamos a colocar los datos originales

#bike['Marital Status'] = respaldo['Marital Status']

In [19]:
#moda
moda = bike['Marital Status'].mode()[0]
moda

Unnamed: 0,Marital Status
0,Married


Para obtener el valor de moda directamente, necesitas acceder al primer elemento con [0] porque mode() devuelve una Series

In [None]:
# fillna

# head()



**dropna()**

En caso de que no pueda realizarse algun remplazo, se recomienda eliminar los faltantes, esto también lo podemos hacer especificando la columna que estamos analizando:

In [9]:
bike.shape

(1000, 13)

Podemos hacer una eliminación **general** de los faltantes.

In [10]:
respaldo = bike

In [11]:
bike.dropna(inplace = True)

In [12]:
bike.shape

(952, 13)

Usemos la copia que teniamos generada

In [16]:
bike = pd.read_csv('/content/drive/MyDrive/IN1002B.204/M2/bike_buyers.csv')
bike.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   ID                1000 non-null   int64  
 1   Marital Status    993 non-null    object 
 2   Gender            989 non-null    object 
 3   Income            994 non-null    float64
 4   Children          992 non-null    float64
 5   Education         1000 non-null   object 
 6   Occupation        1000 non-null   object 
 7   Home Owner        996 non-null    object 
 8   Cars              991 non-null    float64
 9   Commute Distance  1000 non-null   object 
 10  Region            1000 non-null   object 
 11  Age               992 non-null    float64
 12  Purchased Bike    1000 non-null   object 
dtypes: float64(4), int64(1), object(8)
memory usage: 101.7+ KB


O bien especificar a que columnas deseamos aplicar la función:

In [17]:
#bike.dropna(subset = ['Age', 'Cars'], inplace = True)
bike.dropna(subset = ['Home Owner', 'Income'], inplace = True)

In [18]:
bike.shape

(990, 13)

In [None]:
#isnull()
bike.isnull().sum()

* ¿Cuál consideran que es la mejor opción para la columna de estatus marital?

* ¿Las técnicas que empleamos anteriormente son igualmente aplicables a `Income`, `Children` y `Age`?

**Media**

Es una de las formas más utilizadas para hacer el remplazo de valores, la forma en que se aplica es similar a la de la moda (`mode()`).

En este ejemplo vamos a trabajar con `Income`:

In [20]:
mean = bike.Income.mean() # no necesita indexar con [0]
mean

56171.71717171717

In [21]:
#o bien -> describe()
bike.Income.describe()

Unnamed: 0,Income
count,990.0
mean,56171.717172
std,30950.412215
min,10000.0
25%,30000.0
50%,60000.0
75%,70000.0
max,170000.0


In [22]:
mean = 56171.71

bike['Income'].fillna(mean, inplace = True)

También podrían hacer lo siguiente:
    
    bike['Income'].fillna(bike['Income'].mean(), inplace= True)
    
Pero ¿que pasaría si intentan aplicar esa misma lógica a la columna de `Children`?

In [23]:
mean2 = bike.Children.mean()
mean2

1.9093686354378818

¿Es correcto?

Cuando tenemos variables tipo **discretas** no debemos hacer divisiones que nos arrojen valores tipo *float*.
<br>
En caso de que tengan este tipo de valores y requieran aplicar la media, solo necesitan hacer el siguiente ajuste:

In [24]:
mean2 = round(mean2)
mean2

2

In [25]:
bike['Children'].fillna(mean2, inplace = True)

En caso de que requieran analizar la mediana, la lógica permanece igual:

    mediana = bike['Children'].median()

Solo asegurense de imprimir el valor con el que estarán haciendo el remplazo para ver que tenga sentido con: formato, valor y estructura de la columna.

## **Tipo de dato**

En esta últia sección, vamos a eliminar los faltantes de toda la base de datos como primer paso:

In [28]:
df = pd.read_csv("/content/drive/MyDrive/IN1002B.204/M2/bike_buyers.csv") # Binder Data/mi_csv.csv
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   ID                1000 non-null   int64  
 1   Marital Status    993 non-null    object 
 2   Gender            989 non-null    object 
 3   Income            994 non-null    float64
 4   Children          992 non-null    float64
 5   Education         1000 non-null   object 
 6   Occupation        1000 non-null   object 
 7   Home Owner        996 non-null    object 
 8   Cars              991 non-null    float64
 9   Commute Distance  1000 non-null   object 
 10  Region            1000 non-null   object 
 11  Age               992 non-null    float64
 12  Purchased Bike    1000 non-null   object 
dtypes: float64(4), int64(1), object(8)
memory usage: 101.7+ KB


In [27]:
#isnull

df.isnull().sum()

Unnamed: 0,0
ID,0
Marital Status,7
Gender,11
Income,6
Children,8
Education,0
Occupation,0
Home Owner,4
Cars,9
Commute Distance,0


In [29]:
df.dropna(inplace=True)
df.shape

(952, 13)

In [30]:
df.head()

Unnamed: 0,ID,Marital Status,Gender,Income,Children,Education,Occupation,Home Owner,Cars,Commute Distance,Region,Age,Purchased Bike
0,12496,Married,Female,40000.0,1.0,Bachelors,Skilled Manual,Yes,0.0,0-1 Miles,Europe,42.0,No
1,24107,Married,Male,30000.0,3.0,Partial College,Clerical,Yes,1.0,0-1 Miles,Europe,43.0,No
2,14177,Married,Male,80000.0,5.0,Partial College,Professional,No,2.0,2-5 Miles,Europe,60.0,No
4,25597,Single,Male,30000.0,0.0,Bachelors,Clerical,No,0.0,0-1 Miles,Europe,36.0,Yes
5,13507,Married,Female,10000.0,2.0,Partial College,Manual,Yes,0.0,1-2 Miles,Europe,50.0,No


### **Cambio de tipo de dato**


In [36]:
df.Children = df.Children.astype('int')

In [33]:
#head()
df.head()

Unnamed: 0,ID,Marital Status,Gender,Income,Children,Education,Occupation,Home Owner,Cars,Commute Distance,Region,Age,Purchased Bike
0,12496,Married,Female,40000.0,1,Bachelors,Skilled Manual,Yes,0.0,0-1 Miles,Europe,42.0,No
1,24107,Married,Male,30000.0,3,Partial College,Clerical,Yes,1.0,0-1 Miles,Europe,43.0,No
2,14177,Married,Male,80000.0,5,Partial College,Professional,No,2.0,2-5 Miles,Europe,60.0,No
4,25597,Single,Male,30000.0,0,Bachelors,Clerical,No,0.0,0-1 Miles,Europe,36.0,Yes
5,13507,Married,Female,10000.0,2,Partial College,Manual,Yes,0.0,1-2 Miles,Europe,50.0,No


**Multiples columnas**

In [34]:
# df = df.astype({'columna_A': 'int32', 'columna_B': 'float64'})

KeyError: "Only a column name can be used for the key in a dtype mappings argument. '' not found in columns."

In [None]:
# head()


**Otros casos**

En algunas ocasiones, la columa puede tener un dato erroneo o mal capturado.
Imaginemos que tenemos la siguiente lista:

```Age = [24.0, 25.0. 'treinta', 30.0]```

Al aplicar la función, python detectara un error debido a que 'treinta' no es un valor que se pueda convertir directamente a entero.

En esos casos podemos aplicar lo siguiente:


In [35]:
Age = [24.0, 25.0, 'treinta', 30.0]
Age = pd.Series(Age) # por temas de ejecución de la función pd._to_numeric

Age = pd.to_numeric(Age, errors='coerce').fillna(0).astype(int)

print(Age)

0    24
1    25
2     0
3    30
dtype: int64


```to_numeric``` es una función de **inferencia**, la cual determina el mejor tipo númerico para los datos a analizar.

En este caso **coerce** pide forzar una conversión a otro tipo de dato que permita continuar con el proceso, de esta forma "treinta" se convierte en NaN (Not a number), luego aplicamos ```fillna(0)``` y esos valores son ahora igual a 0.


### **Categorías no utilizadas**

Relevante al momento de realizar modelos de machine learning.

En estos casos, utilizaremos ```value_counts()```, despues trabajaremos con funciones que lo hagan más rápido:

In [43]:
# head()
df.shape
#df.head()

(952, 13)

In [38]:
# 'Marital Status'

df['Marital Status'].value_counts()


Unnamed: 0_level_0,count
Marital Status,Unnamed: 1_level_1
Married,518
Single,434


In [39]:
# 'Education'
df['Education'].value_counts()

Unnamed: 0_level_0,count
Education,Unnamed: 1_level_1
Bachelors,292
Partial College,252
High School,173
Graduate Degree,163
Partial High School,72


Hay diferentes métodos para eliminar estos valores:

1. Se genera una serie boleana donde *"Partial High School"* es igual a **False** y el resto de las categorías es igual a **True**, así que
lo que pedimos es que solo considere aquellas filas donde el valor sea **True**.

In [42]:
df_cleaned = df[df['Education'] != 'Partial High School']

In [41]:
df_cleaned.shape

(880, 13)

2. Con la función ```drop()``` somos un poco más especificos y pedimos que elimine todos los valores *'Partial High School'¨* de la columa *Education*.


In [None]:
# df.drop(df[df['Education'] == 'Partial High School'].index, inplace=True)

Por último, impriman un ```shape```, ```info()``` o ```head()``` y vean su bas de datos final:
