# 1. PREPROCESAMIENTO DE LOS DATOS

Los datos deben ser preparados para luego ser utilizados en los algoritmos de machine learning, esto recibe el nombre de preprocesamiento de los datos o análisis de datos. Los datos se encuentran en todos lados y pueden ser recolectados por los científicos de forma manual, pero ahora es más común recolectarlos de forma digital. El análisis de los datos nos permite descubrir información útil e inclusive predecir el futuro utilizando algoritmos de machine learning. Para el análisis de los datos se utilizan diferentes módulos categorizados de la siguiente forma: Librerís de datos, Pandas, Numpy, Scipy. Librerías de visualización, Matplotlib, Seaborn. Librerías de algoritmos para crear modelos y predecir, Sckit-Learn, StatsModel. Para el ejemplo tomaremos los datos de la tragedia del Titanic, conjunto de datos recomendado en las fases de aprendizaje de machine learning. Los conjuntos de los datos se puede obtener del website Kagle.


# 2. IMPORTAR Y EXPORTAR DATOS

## Importar CSV y crear DF

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

In [None]:
df = pd.read_csv('titanic_original.csv')

## Visualizar un DF

In [None]:
df.head()

In [None]:
df.head(10)

In [None]:
df.tail()

In [None]:
df.tail(10)

## Cambiar nombres columnas DF

In [None]:
cabe = ['ID', 'Sobrevive', 'Clase', 'Nombre', 'Sexo', 'Edad', 'Hermanos', 'Hijos', 'Ticket', 'Tarifa', 'Cabina', 'Embarque']
df.columns = cabe
df.head()

## Exportar DF a un CSV

In [None]:
archivo='Titanic_Copia.csv'
df.to_csv(archivo)

## Importar y exportar otros formatos

Importar = pd.read_csv(), pd.read_json(), pd.read_excel(), pd.read_sql()<br/>
Exportar = df.to_csv(), df.to_json(), df.to_excel(), df.to_sql()

# 3. EXPLORANDO LOS DATOS

Tener una visión general del conjunto de datos, comprender su distribución y ver tipos de datos incorrectos. Los tipos de datos numéricos son int y float. Los object y datetime. Hay que verificar los datos de los DataFrame. Las funciones de machine learning usan datos numéricos. En el caso de los object se deben convertir.

## Conocer los tipos de datos

In [None]:
df.dtypes

## Análisis estadístico de los datos

Si hay problemas matemáticos

In [None]:
df.describe()

In [None]:
df.describe(include='all')

## Ver datos de las primeras y últimas 5 filas

In [None]:
df.info

In [None]:
df.info()

# 4. MISSING VALUES, VALORES PERDIDOS

Los valores faltantes pueden aparecer con los siguientes símbolos: ?, N/A, 0, VACIO, NAN. Se deben corregir los datos perdidos, verificar con la persona que recopilo los datos para ver si encuentra el dato faltante. Se puede eliminar la fila completa. Se puede eliminar la columna completa. Se puede reemplazar los datos con la media, con la mediana, etc.En el caso de datos categóricos se suele reemplazar con el dato más común de esa categoría.En otros casos se dejan los datos faltantes como datos perdidos.

## Eliminar filas con datos faltantes

In [None]:
nene = df.dropna(axis=0)

In [None]:
nene.info()

In [None]:
df.dropna(subset=['Cabina'], axis=0)

## Eliminar columnas con datos faltantes

In [None]:
df.dropna(axis=1)
df.dropna(subset=['Cabina'], axis=0, inplace=True)

df.dropna(subset=['Cabina'], axis=0, inplace=True). <br />Elimina los datos de forma definitiva.

## Reemplazar datos faltantes

In [None]:
df['Edad'].replace(np.nan, df['Edad'].mean())

## Detectar valores null con un mapa de calor

In [None]:
sns.heatmap(df.isnull(), cbar=True)

# 5. CAMBIAR VARIABLES CATEGORICAS EN NUMERICAS

Recordemos que los algoritmos matemáticos para entrenar un modelo no aceptan datos de tipo objecto o strings, es por ello que los mismos deben ser transformados en tipos de datos numéricos. Se agregan tantas columnas como categorías existan.

In [None]:
pd.get_dummies(df, columns=['Sexo'])

In [None]:
pd.get_dummies(df, columns=['Sexo'], drop_first=True)

# 6. AGRUPAMIENTO DE DATOS

El agrupamiento de los datos puede mejorar los modelos predictivos. Puede mejorar la comprensión de la distribución de los datos. Vamos a crear 6 grupos con la columna edad ( 0-5, 6-12, 13-18, 19-35, 36-60, 61-100).

In [None]:
bins=[0,5,12,18,35,60,100]
names=['1', '2', '3', '4', '5', '6']
df['Edad'] = pd.cut(df['Edad'], bins, labels=names)
df

# 7. MAS EJEMPLOS

## Averiguar un valor null

In [None]:
frutas = pd.Series(['manzana', 'pera', np.nan, 'naranja'])
frutas


In [None]:
frutas.isnull()

In [None]:
frutas[0] = None
frutas.isnull()

## Filtrar datos

In [3]:
from numpy import nan as NA

In [None]:
numeros = pd.Series([5, NA, 3.2, NA, 7])
numeros

In [None]:
numeros.dropna()

## Eliminar filas

In [10]:
datos = pd.DataFrame([[1., 6.5, 3.,NA],[1, NA, NA, NA], [NA, NA, NA, NA], [NA, 6.5, 3.,NA]])
datos

Unnamed: 0,0,1,2,3
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [5]:
datos_limpios = datos.dropna()
datos_limpios

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [7]:
datos_limpios = datos.dropna(how='all')
datos_limpios

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


## Eliminar columnas

Para eliminar filas se usa axis=0 y para eliminar columnas se usa axis=1.

In [None]:
datos[3] = NA
datos

In [11]:
datos_limpios = datos.dropna(axis=1, how='all')
datos_limpios

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [None]:
df = pd.DataFrame(np.random.randn(7,3))
df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA
df

In [None]:
df_limpio = df.dropna()
df_limpio

## Eliminar filas con un umbral

In [None]:
df_limpio = df.dropna(thresh=3)
df_limpio

## Rellenar datos

In [None]:
df_rellenado = df.fillna(0)
df_rellenado

In [None]:
df_rellenado = df.fillna({1: 100, 2: 200})
df_rellenado

## Rellenar con el anterior

In [None]:
df = pd.DataFrame(np.random.randn(6,3))
df.iloc[2:, 1] = NA
df.iloc[4:, 2] = NA
df

In [None]:
df_rellenado = df.fillna(method='ffill') #forward fill
df_rellenado


In [None]:
df_rellenado = df.fillna(method='ffill', limit=1) #forward fill
df_rellenado


## Rellenar con el posterior

In [None]:
df = pd.DataFrame(np.random.randn(7,3))
df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA
df


In [None]:
df_rellenado = df.fillna(method='bfill') 
df_rellenado

## Rellenar datos con el promedio

In [None]:
datos = pd.Series([1, NA, 3.5, NA, 7])
datos.fillna(datos.mean())


## Rellenar datos con la mediana

In [None]:
datos = pd.Series([1, NA, 3.5, NA, 7])
datos.fillna(datos.median())


## Rellenar con Interpolación

In [None]:
df = pd.DataFrame({'A':[1,2,np.nan,3,np.nan], 'B':[10,np.nan,30,np.nan,50]})
df['C'] = df.A.interpolate(method='linear')
df['D'] = df.B.interpolate(method='linear')
df

## Eliminar datos duplicados

In [3]:
data = pd.DataFrame({'k1':['uno', 'dos'] * 3 + ['dos'], 'k2': [1, 1, 2, 3, 3, 4, 4]})
data


Unnamed: 0,k1,k2
0,uno,1
1,dos,1
2,uno,2
3,dos,3
4,uno,3
5,dos,4
6,dos,4


In [4]:
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [5]:
data.drop_duplicates()

Unnamed: 0,k1,k2
0,uno,1
1,dos,1
2,uno,2
3,dos,3
4,uno,3
5,dos,4
