Transformación de datos
===

#### Contenido

* [Descripción de los datos](#Descripción-de-los-datos)
* [Indexación y selección](#Indexación-y-selección)
  * [Indexación por nombres de filas y columnas](#Indexación-por-nombres-de-filas-y-columnas)
  * [Indexación numérica](#Indexación-numérica)
  * [Indexación booleana](#Indexación-booleana)
* [Agrupamiento, agregación y pivote](#Agrupamiento,-agregación-y-pivote)
   * [Agrupamiento](#Agrupamiento)
   * [Agregación](#Agregación)
   * [Pivotes](#Pivotes)
* [Transformaciones](#Transformaciones)
   * [Stack & unstack](#Stack-&-unstack)
   * [Tablas dinámicas](#Tablas-dinámicas)
   * [Unión](#Unión)
   * [Variables dummy](#Variables-dummy)
* [Inserción, borrado, casos duplicados y datos faltantes](#Inserción,-borrado,-casos-duplicados-y-datos-faltantes)
   * [Inserción de Columnas](#Inserción-de-columnas)
   * [Inserción de filas](#Inserción-de-filas)
   * [Casos duplicados y datos faltantes](#Casos-duplicados-y-datos-faltantes)
   * [Estadísticos descriptivos](#Estadísticos-descriptivos)

# Descripción de los datos

Muchos de los ejemplos anteriores pueden ser aplicados directamente a las columnas de un dataframe.

In [None]:
## importa la librería
import pandas
import numpy as np

#pandas.set_option('display.notebook_repr_html', False)

In [None]:
## lee el archivo del disco.
x = pandas.read_csv('files/iris.csv',
                     sep = ',',
                     thousands = None,
                     decimal = '.')
x.info()

## Estadísticas básicas

In [None]:
x.describe()

In [None]:
x.describe(percentiles=[0.05, 0.1, 0.25, 0.75, 0.9, 0.95])

In [None]:
# Realiza estadísticas para varibles categóricas
x.describe(include='O')

In [None]:
# Realiza estadísticas para todas las varibles
x.describe(include='all')

In [None]:
# Presentación del describe transpuesto
x.describe().transpose()

## Perfilamiento de datos

> Instalar las librerías de profiling:
> * ```pip install pandas-profiling```
> * ```pip install sweetviz```

In [None]:
from pandas_profiling import ProfileReport

profile = ProfileReport(x, title="Pandas Profiling Report")
profile.to_notebook_iframe()

In [None]:
import sweetviz as sv

my_report = sv.analyze(x)
my_report.show_html()

# Indexación y selección

[Contenido](#Contenido)

In [None]:
type(x)

In [None]:
## número de filas del dataframe
len(x)

In [None]:
## número de columnas del dataframe
len(list(x.axes[1]))

In [None]:
## total de datos
x.size

In [None]:
x.shape

In [None]:
x.shape[0]

In [None]:
x.shape[1]

In [None]:
## transpuesta
print(x.T.head())

In [None]:
x

## Indexación por nombres de filas y columnas

[Contenido](#Contenido)

In [None]:
## parte inicial del dataframe
print(x.head())

In [None]:
## parte inicial del dataframe
print(x.head(3))

In [None]:
## parte final del dataframe
print(x.tail())

In [None]:
## parte final del dataframe
print(x.tail(3))

In [None]:
## nombres de las columnas
list(x.axes[1])

In [None]:
x.axes[1]

In [None]:
## nombres de las columnas
x.columns

In [None]:
list(x.columns)

In [None]:
x

In [None]:
## nombres de las filas
x.index

In [None]:
## nombres de las filas
print(list(x.index))

In [None]:
## todas las filas y la columna Species
#-R-#  print(head(x[,'Species'], 10))
x['Species'].head()

In [None]:
## varias columnas
x[['Species', 'Sepal_Length']].head()

In [None]:
type(x['Species'])

In [None]:
type(x[['Species', 'Sepal_Length']])

In [None]:
## otra forma de obtener una columna
x.get('Species').head()

In [None]:
## acceso con el operador '.'
x.Species.head()

In [None]:
x.loc[:,:]

In [None]:
x.loc[:,['Species']].head()

In [None]:
## forma alternativa para acceder a un elemento
x.loc[2]

In [None]:
x.loc[2].Sepal_Length

In [None]:
x.loc[2]['Sepal_Length']

In [None]:
## valor para una fila y columna particular
x.loc[2,['Species', 'Sepal_Length']]

In [None]:
## nombres de las filas. los nombres deben ser únicos
key = ['case_{}'.format(n) for n in range(150)]
key[0:5]

In [None]:
## cambia los nombres de las filas 
x.index = key
x.head()

In [None]:
## selección por nombre de la fila
x.loc['case_2']

In [None]:
## selección por nombre de la fila
x.loc[['case_2', 'case_4']]

In [None]:
## selección por nombres de fila y columna
x.loc[['case_2'], ['Sepal_Length']]

In [None]:
x.loc['case_2', 'Sepal_Length']

In [None]:
## selección por nombres de fila y columna
x.loc[['case_2', 'case_4'], ['Sepal_Length', 'Sepal_Width']]

In [None]:
y = x.copy()

In [None]:
## vuelve al indice por defecto
## convierte el indice en una columna
x = x.reset_index()
x.head()

In [None]:
y.reset_index(drop=True).head()

In [None]:
del x['index']

In [None]:
x.head()

In [None]:
z = y.reset_index()
z.head()

In [None]:
z.drop(['index'], axis=1).head()

## Indexación numérica

[Contenido](#Contenido)

In [None]:
## selección de las primeras 3 filas
x[:3]

In [None]:
## desde la tercera hasta la última fila
x[3:].head()

In [None]:
## selección por intervalos
print( x[::15] )

In [None]:
## orden inverso
print( x[::-1].head() )

In [None]:
list(range(10,0,-1))

In [None]:
## todas las filas excepto la última
x[:-1].tail()

In [None]:
## valores para una fila particular
x.loc[1]

In [None]:
x.head()

In [None]:
x.iloc[2]

In [None]:
x.iloc[2, 3]

In [None]:
## valores para una fila particular
x.loc[[2]]

In [None]:
## indices como vector
x.iloc[[1, 3, 5]]

In [None]:
## indices como vector
x.iloc[[1, 3, 5],[0, 4]]

In [None]:
## acceso rapido a un elemento
x.at[0, 'Sepal_Length']

## Indexación booleana

[Contenido](#Contenido)

In [None]:
## selección condicional
(x['Species'] == 'virginica').head()

In [None]:
## selección condicional
x.loc[x['Species'] == 'virginica'].head()

In [None]:
## metodo `isin()`
w = x['Species'].isin(['virginica'])
w.head()

In [None]:
x[w].head()

In [None]:
## selección condicional
x.loc[x['Petal_Length'] > 3.2].head()

In [None]:
## conteo de casos
x['Species'].value_counts()

In [None]:
x[x.Species == 'virginica'].head()

In [None]:
x[x.Species == 'virginica'].sample(10)

In [None]:
x[x.Species.isin(['virginica'])].head()

# Agrupamiento, agregación y pivote

[Contenido](#Contenido)

**Preparación de datos.**

In [None]:
## importa la librería
import pandas
import numpy as np

#pandas.set_option('display.notebook_repr_html', False)

In [None]:
## lee el archivo del disco.
x = pandas.read_csv('files/iris.csv',
                     sep = ',',
                     thousands = None,
                     decimal = '.')

In [None]:
x.head()

## Agrupamiento

[Contenido](#Contenido)

In [None]:
## ordenacion por un eje
x.sort_index(1, ascending = True).head(200)

In [None]:
## ordena por varias columnas
## devuelve los indices de las filas
## ordena primero por Sepal.Width y luego por Sepal.Length
x.sort_values(by = ['Sepal_Width', 'Sepal_Length']).head(20)

In [None]:
## selecciona un subconjunto de los datos.
x[x['Species'] == 'virginica'].head()

In [None]:
## partición por los valores de la columna `Species`
y = x.groupby('Species')
y.groups.keys()

In [None]:
## cantidad de grupos
len(y.groups)

In [None]:
## cantidad de grupos
y.size()

In [None]:
## elementos de un subgrupo
x.loc[y.groups['setosa']].head()

In [None]:
## elementos de otro subgrupo
x.loc[y.groups['virginica']].head()

## Agregación

[Contenido](#Contenido)

In [None]:
## funciones que pueden ser aplicadas a un DataFrame:
##
##    abs        all       any       clip    clip_lower  clip_upper
##    corr       corrwith  count     cov     cummax      cummin
##    cumprod    cumsum    describe  diff    eval        kurt
##    mad        max       mean      median  min         mode
##    ct_change  prod      quantile  rank    round       sem
##    skew  sum  std       var
##
## se genera un nuevo DataFrame
x.groupby('Species').sum()

In [None]:
(x.groupby('Species').sum())["Sepal_Length"]

In [None]:
## unión
z = pandas.concat( [x.iloc[y.groups['setosa']],
                    x.iloc[y.groups['virginica']],
                    x.iloc[y.groups['versicolor']]])

z['Species'].value_counts()

In [None]:
## conteo de casos.
## número de casos por `Species`
x['Species'].value_counts()

In [None]:
## conteo de casos por `Sepal.Length`
x['Sepal_Length'].value_counts()

In [None]:
## aplicación de una funcion a columnas especificas 
## de un data.frame
import numpy as np
x[['Sepal_Length', 'Sepal_Width']].apply(np.mean)

In [None]:
## aplica la función a la columna especificada por grupos
(x.groupby('Species').mean())["Sepal_Length"]

In [None]:
## aplica la función a la columna especificada por grupos
(x.groupby('Species').mean())[["Sepal_Length", 
                               "Sepal_Width",
                               "Petal_Length",
                               "Petal_Width"]]

In [None]:
x.groupby('Species').agg({
    'Sepal_Length': 'nunique',
    'Sepal_Width': 'median',
    'Petal_Length': np.mean,
    'Petal_Width': 'count',
})

## Pivotes

[Contenido](#Contenido)

In [None]:
## agrega una clave para identificar cada caso
x['key'] = list(range(150))
x.head()

In [None]:
z = pandas.melt(x,                            # DataFrame
                id_vars = ['key', 'Species'], # columnas que no se apilan
                var_name = 'Variables',       # nombre de la columna que contiene las columnas apiladas 
                value_name = 'Valores')       # nombre de la columna que contiene los valores




In [None]:
z.shape

In [None]:
z.head()

In [None]:
del x['key']

# Transformaciones

[Contenido](#Contenido)

**Preparación de datos.**

In [None]:
## importa la librería
import pandas
import numpy as np

#pandas.set_option('display.notebook_repr_html', False)

In [None]:
## lee el archivo del disco.
x = pandas.read_csv('files/iris.csv',
                     sep = ',',
                     thousands = None,
                     decimal = '.')

In [None]:
x.head()

## Stack & unstack

[Contenido](#Contenido)

In [None]:
x.stack().head(20)

In [None]:
(x.stack()).unstack().head(4)

## Tablas dinámicas

[Contenido](#Contenido)

In [None]:
m = pandas.DataFrame( {'key1'    : ['a', 'a', 'b', 'b', 'c', 'c'],
                       'key2'    : ['A', 'B', 'A', 'B', 'A', 'B'],
                       'values1' : [ 1,   2,   3,   4,   5,   6 ],
                       'values2' : [ 7,   8,   9,  10,  11,  12]})
print(m)

In [None]:
z = pandas.pivot_table(m, 
                       index = ['key1', 'key2'],
                       values = ['values1', 'values2'])

print(z)

In [None]:
z = pandas.pivot_table(m, 
                       index = ['key2', 'key1'],
                       values = ['values1', 'values2'])

print(z)

## Unión

[Contenido](#Contenido)

In [None]:
## no es una unión estrictamente.
## solo funciona cuando un dataframe tiene un número de
## filas múltiplo del otro.
d1 = pandas.DataFrame({ 'x' : list(range(1,5)),
                        'y' : list(range(6,10))})

d2 = pandas.DataFrame({ 'x' : [ 1,  2,  3,  4,  5,  1,  2,  3,  4,   5],
                        'w' : [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]})

pandas.merge(d1, d2)


In [None]:
d1.merge(d2, how='inner', on='x')

In [None]:
d1.join(d2, on='x', rsuffix='2')

## Variables dummy

[Contenido](#Contenido)

In [None]:
## genera variables dummies para variables categóricas.
pandas.get_dummies(x.Species)

# Inserción, borrado, casos duplicados y datos faltantes

[Contenido](#Contenido)

**Preparación de datos**

In [None]:
## importa la librería
import pandas
import numpy as np

#pandas.set_option('display.notebook_repr_html', False)

In [None]:
## lee el archivo del disco.
x = pandas.read_csv('files/iris.csv',
                     sep = ',',
                     thousands = None,
                     decimal = '.')

## Inserción de columnas

[Contenido](#Contenido)

In [None]:
## creación de una nueva columna
x['n'] = 1
x.head()

In [None]:
## modificación de un valor particular
x.iat[0,5] = 10
x.head()

In [None]:
## modificación de una columna
x['n'] = list(range(150))
x.head()

In [None]:
## borrado de la columna
del x['n']
x.head()

In [None]:
## los DataFrames son diccionarios y pueden manipularse como tal
## se indica en que posicion se inserta la columna con valores 
## lógicos
x.insert(2, 'logical_value', x['Sepal_Length'] > 4)
x.head()

In [None]:
del x['logical_value']
x.head()

In [None]:
## alineación
## suma las columnas colB
a = pandas.DataFrame({'colA': [1, 2],
                      'colB': [3, 4]})

b = pandas.DataFrame({'colB': [5, 6],
                      'colC': [7, 8]})

print(a)
print('')
print(b)
print('')
print(a + b)

In [None]:
## se pueden aplicar todas las operaciones matemáticas 
## existentes en numpy
np.sqrt(a)

## Inserción de filas

[Contenido](#Contenido)

In [None]:
## adición de una fila (al final)
u = pandas.DataFrame({'Sepal_Length' : [1], 
                      'Sepal_Width' : [1], 
                      'Petal_Length' : [1], 
                      'Petal_Width' : [1], 
                      'Species' : ['setosa']})

x.append(u, ignore_index = True).tail()

## Casos duplicados y datos faltantes

[Contenido](#Contenido)

In [None]:
## se crea un vector aleatorio de indices
u = np.random.choice(range(150), 
                     size=20, 
                     replace=False)
u

In [None]:
## submuestra de data.frame original `x`
y = x.loc[u].copy()
y.head()

In [None]:
## cambia los nombres de las filas 
y.index = list(range(20))
y

In [None]:
## de la submuestra `y` se hacen varios registros incompletos
## cambiando varios valores en la columna `Sepal.Length` por NA
u = np.random.choice(range(20), size=10, replace=False)
u

In [None]:
y.iloc[u]

In [None]:
## casos con datos faltantes 
y.loc[u, 'Sepal_Length'] = np.nan
y

In [None]:
## apilado de dataframes 
## los casos 151 a 170 contienen casos duplicados o
## casos con datos faltantes
w = pandas.concat([x, y])
w.index = list(range(170))
w.tail(30)

In [None]:
## casos duplicados
## note que el caso 142 aparece duplicado
w[w.duplicated()]

In [None]:
## casos únicos o no duplicados 
## incluye los casos con valores NA como únicos
## note que se eliminaron varios casos entre el 151 y el 170
w.drop_duplicates().tail(20)

In [None]:
## casos nulos
w['Sepal_Length'].isnull().tail(10)

In [None]:
## hay que usar operadore lógicos para considerar más columnas
w[w['Sepal_Length'].isnull()]

In [None]:
w[~w['Sepal_Length'].isnull()]

In [None]:
## casos completos (sin faltantes)
w.dropna().tail(20)

## Estadísticos descriptivos

[Contenido](#Contenido)

In [None]:
## resumen de estadísticos descriptivos
print(x.describe())

In [None]:
x.mean()

In [None]:
x.mean(1).head()