# <center> Manipulación y procesamiento de datos </center>

<p> En está sesión realizaremos una introducción al procesamiento de datos en Python. Para ello, miraremos como importar distintas fuentes de información y como manipularlas.</p>

### Los datos

La mayoría de los datos a nivel global se encuentran no estructurados, es decir, no se encuentran en alojados en una infraestructura que me permita realizar obtener información, realizar modelos, estimar resultados. Es por ello que es útil para cualquier modelador, entender como puede construir distintos tipos de estructuras de datos, y con ellos realizar los análisis que desee.

### Librerías y modulos 

Estas son las librerías y los modulos con que trabajaremos está sección:
<ul>
    <li><i>numpy:</i> Es una librería que contiene una gran variedad de modulos, muchos de ellos, orientados a algebra lineal, funciones matemáticas, transformadas de Fourier y números aleatorios, entre otros elementos.</li>
    <li><i>pandas:</i> Es una librería con modulos enfocados en estructura y análisis de datos</li>

</ul>   

In [41]:
# Importemos los módulos numpy y pandas

import numpy as np
import pandas as pd

## Data Frame 

<p>En clases vimos como podemos interactuar con la maquina a través de Python para que pueda realizar tareas sencillas, a su vez, observamos que a la hora de programar, existen distintos tipos de elementos que en este lenguaje nos permite almacenar información.</p>

<p>Los <i>Data frame</i> son un tipo de archivos en la cual podemos almacenar una cantidad heterogenea de elementos, como datos numéricos, string, registros categorícos y demás. Y este se compone de filas (índices), columnas, valores perdidos, y datos. Donde, cada fila será entendida como un registro, y cada columna como un campo.</p>

<p>Estas estructuras son útiles porque nos permiten hacer consultas sobre las características de nuestra información, permitiendo identificar patrones y errores en las fuentes de datos. Así como hacer manipulaciones mas complejas.</p>

<p>En Python partimos de <i>diccionarios</i> para obtener data frames.</p>

In [42]:
## Crear un Data frame
# 1. Creemos un diccionario
data = {'Nombre':['Andres', 'Camilo', 'Laura', 'Daniela'],
        'Edad':[20, 21, 19, 18]}
print(type(data), '\n')

# Transformamos a data frame
df = pd.DataFrame(data)

# Podemos imprimir los primeros resultados.
print(df.head(), '\n')

## Ingreso a los componentes
# columnas
print(df.columns, '\n')
print(df.index, '\n')
print(df.values, '\n')
print(df.columns.values, '\n')
print(df.index.values)

<class 'dict'> 

    Nombre  Edad
0   Andres    20
1   Camilo    21
2    Laura    19
3  Daniela    18 

Index(['Nombre', 'Edad'], dtype='object') 

RangeIndex(start=0, stop=4, step=1) 

[['Andres' 20]
 ['Camilo' 21]
 ['Laura' 19]
 ['Daniela' 18]] 

['Nombre' 'Edad'] 

[0 1 2 3]


Veamos otro Data frame, al que cambiaremos el tipo de una de sus columnas a categórico.

In [115]:
## Otro data frame
df = {'Nombre':['Maria', 'Carlos', 'Juan', 'Lorena'],
        'Edad':[27, 24, 22, 32],
        'Ciudad':['Bogota', 'Cali', 'Bucaramanga', np.nan],
        'Sexo':['F', 'M', 'M', 'F']}
df = pd.DataFrame(df)
print(df.head(), '\n\n', df.dtypes, '\n')

## Transformemos el campo sexo a dato categórico
df["Sexo"] = df["Sexo"].astype('category')
print(df.head(), '\n\n', df.dtypes)

   Nombre  Edad       Ciudad Sexo
0   Maria    27       Bogota    F
1  Carlos    24         Cali    M
2    Juan    22  Bucaramanga    M
3  Lorena    32          NaN    F 

 Nombre    object
Edad       int64
Ciudad    object
Sexo      object
dtype: object 

   Nombre  Edad       Ciudad Sexo
0   Maria    27       Bogota    F
1  Carlos    24         Cali    M
2    Juan    22  Bucaramanga    M
3  Lorena    32          NaN    F 

 Nombre      object
Edad         int64
Ciudad      object
Sexo      category
dtype: object


## Series

Las series son un tipo especial de Data frame unidimensional, en el que se tiene múltiples registros pero un único campo. Si pensamos en un data frame como en una matríz, una serie sería un vector. En Excel representaría una columna en una hoja.

In [133]:
serie1 = pd.Series(['Esto', 'es', 'una', 'serie'])
print(serie1, '\n\n', serie1.dtypes)

0     Esto
1       es
2      una
3    serie
dtype: object 

 object


### Tipos de objetos 

En Python con Pandas podemos albergar distintos tipos de objetos, entre los que tenemos:

<ul>
    <li> <b>Enteros:</b> Números enteros </li>
    <li> <b>Flotantes:</b> Números decimales </li>
    <li> <b>Expresiones booleanas:</b> <b>True</b> and <b>False</b> </li>
    <li> <b>Categóricos:</b> Datos númericos o string que definen un tipo específico de dominio para un campo </li>
    <li> <b>Fechas:</b> Datos de fechas, como el día, el mes y el año </li>
    <li> <b>Complejos:</b> Números complejos </li>
    <li> <b>Objetos:</b> Columnas con string, tuplas, listas, diccionarios, entre otros </li>
</ul>

## Manipulación de Data Frame 

<p>Ya construido un data frame, podemos realizar distintos tipos de ejercicios, por ejemplo:</p>
<ul>
    <li>Renombrar columnas y filas</li>
    <li>Selección y manipulación de información</li>
    <li>Manipulación de <i>missing values</i></li>
</ul>

### Renombrar índices y columnas 

<p>En varios escenarios es necesario renombrar las filas y las columnas de un data frame, con el fin de corregir y/o mejorar la información contenida en una tabla </p>

In [116]:
print(df)
df.columns = ['Name','Age','City','Sex']
df.index = range(2,6)
print('\n')
print(df)
df.index = ['Perez','Ortiz','Rodriguez','Gonzalez']
print('\n')
print(df)

   Nombre  Edad       Ciudad Sexo
0   Maria    27       Bogota    F
1  Carlos    24         Cali    M
2    Juan    22  Bucaramanga    M
3  Lorena    32          NaN    F


     Name  Age         City Sex
2   Maria   27       Bogota   F
3  Carlos   24         Cali   M
4    Juan   22  Bucaramanga   M
5  Lorena   32          NaN   F


             Name  Age         City Sex
Perez       Maria   27       Bogota   F
Ortiz      Carlos   24         Cali   M
Rodriguez    Juan   22  Bucaramanga   M
Gonzalez   Lorena   32          NaN   F


### Selección y manipulación de información

#### Seleccionar columnas e índices 

Existe varias maneras de manipular los índices y las columnas, por ejemplo, podemos seleccionar columnas y índices de la siguiente manera:
<ul>
    <li>df.nombre_columna : Solo aplica para nombres sin espacios</li>
    <li>df["nombre_columna"] : Indexación normal, en los DF el orden de acceso es df[columnas][filas]</li>
    <li>df.loc[] : Trabaja con la eiqueta del índice</li>
    <li>df.loc['indice']</li>
    <li>df.iloc[:, '_']: Trabaja con la posición del índice</li>
</ul>
Tanto loc o iloc puede ser usado para buscar información por filas o columnas

In [45]:
help(df.iloc)

Help on _iLocIndexer in module pandas.core.indexing object:

class _iLocIndexer(_LocationIndexer)
 |  Purely integer-location based indexing for selection by position.
 |  
 |  ``.iloc[]`` is primarily integer position based (from ``0`` to
 |  ``length-1`` of the axis), but may also be used with a boolean
 |  array.
 |  
 |  Allowed inputs are:
 |  
 |  - An integer, e.g. ``5``.
 |  - A list or array of integers, e.g. ``[4, 3, 0]``.
 |  - A slice object with ints, e.g. ``1:7``.
 |  - A boolean array.
 |  - A ``callable`` function with one argument (the calling Series or
 |    DataFrame) and that returns valid output for indexing (one of the above).
 |    This is useful in method chains, when you don't have a reference to the
 |    calling object, but would like to base your selection on some value.
 |  
 |  ``.iloc`` will raise ``IndexError`` if a requested indexer is
 |  out-of-bounds, except *slice* indexers which allow out-of-bounds
 |  indexing (this conforms with python/numpy *sli

In [46]:
help(df.loc)

Help on _LocIndexer in module pandas.core.indexing object:

class _LocIndexer(_LocationIndexer)
 |  Access a group of rows and columns by label(s) or a boolean array.
 |  
 |  ``.loc[]`` is primarily label based, but may also be used with a
 |  boolean array.
 |  
 |  Allowed inputs are:
 |  
 |  - A single label, e.g. ``5`` or ``'a'``, (note that ``5`` is
 |    interpreted as a *label* of the index, and **never** as an
 |    integer position along the index).
 |  - A list or array of labels, e.g. ``['a', 'b', 'c']``.
 |  - A slice object with labels, e.g. ``'a':'f'``.
 |  
 |        start and the stop are included
 |  
 |  - A boolean array of the same length as the axis being sliced,
 |    e.g. ``[True, False, True]``.
 |  - A ``callable`` function with one argument (the calling Series or
 |    DataFrame) and that returns valid output for indexing (one of the above)
 |  
 |  See more at :ref:`Selection by Label <indexing.label>`
 |  
 |  Raises
 |  ------
 |  KeyError
 |      If any 

In [47]:
print(df.Age, "\n\n\n", df['Age'], "\n\n\n") # Columna Age
print(df.iloc[1],"\n\n\n", df.loc['Ortiz']) # Fila Ortiz

Perez        27
Ortiz        24
Rodriguez    22
Gonzalez     32
Name: Age, dtype: int64 


 Perez        27
Ortiz        24
Rodriguez    22
Gonzalez     32
Name: Age, dtype: int64 



Name    Carlos
Age         24
City      Cali
Sex          M
Name: Ortiz, dtype: object 


 Name    Carlos
Age         24
City      Cali
Sex          M
Name: Ortiz, dtype: object


Es importante notar que tanto loc como iloc usan <b>[  ]</b>, no (  )

### Agregar columnas e índices a un Data frame 

#### Agregar Filas

<p> Para agregar información por índices/filas es necesario definir un data frame que posea las mismas columnas con las mismas etiquetas. </p>

In [60]:
df2 = df.append(df.iloc[[1,3]])
print(df2)

             Name  Age         City Sex
Perez       Maria   27       Bogota   F
Ortiz      Carlos   24         Cali   M
Rodriguez    Juan   22  Bucaramanga   M
Gonzalez   Lorena   32          NaN   F
Ortiz      Carlos   24         Cali   M
Gonzalez   Lorena   32          NaN   F


<p>De no hacerlo, se uniran los dos Data Frame llenando los campos de las columnas faltantes con N/A</p>

In [61]:
df3 = df.drop(columns='Age')
df2 = df2.append(df3)
print(df2)

             Name   Age         City Sex
Perez       Maria  27.0       Bogota   F
Ortiz      Carlos  24.0         Cali   M
Rodriguez    Juan  22.0  Bucaramanga   M
Gonzalez   Lorena  32.0          NaN   F
Ortiz      Carlos  24.0         Cali   M
Gonzalez   Lorena  32.0          NaN   F
Perez       Maria   NaN       Bogota   F
Ortiz      Carlos   NaN         Cali   M
Rodriguez    Juan   NaN  Bucaramanga   M
Gonzalez   Lorena   NaN          NaN   F


#### Agregar columnas

En este caso, es posible agregar otra columna en el data frame, siempre que posea el mismo número de índices, de la siguiente manera:

In [117]:
df4 = df.iloc[:]

In [118]:
df4['Hijos'] = pd.Series([1, 2, 4, 1])
print(df4)

             Name  Age         City Sex  Hijos
Perez       Maria   27       Bogota   F    NaN
Ortiz      Carlos   24         Cali   M    NaN
Rodriguez    Juan   22  Bucaramanga   M    NaN
Gonzalez   Lorena   32          NaN   F    NaN


Porque la columna de Hijos no tiene valores? Esto e debido a que el índice de la serie que estamos agregando, aunque tenga el mismo número de registros, su índice es diferente

In [123]:
print(pd.Series([1, 2, 4, 1]).index, '\n\n', df4.index)

RangeIndex(start=0, stop=4, step=1) 

 Index(['Perez', 'Ortiz', 'Rodriguez', 'Gonzalez'], dtype='object')


En este caso en especial, podemos "reiniciar" el valor de los índices

In [124]:
## Limpiar las etiquetas de los índices
df4 = df4.reset_index(level=0, drop=True)
print(df4)

     Name  Age         City Sex  Hijos
0   Maria   27       Bogota   F    NaN
1  Carlos   24         Cali   M    NaN
2    Juan   22  Bucaramanga   M    NaN
3  Lorena   32          NaN   F    NaN


In [125]:
df4['Hijos'] = pd.Series([1, 2, 4, 1])
print(df4)

     Name  Age         City Sex  Hijos
0   Maria   27       Bogota   F      1
1  Carlos   24         Cali   M      2
2    Juan   22  Bucaramanga   M      4
3  Lorena   32          NaN   F      1


Ahora vemos que si se pudo agregar de forma correcta el número de hijos

In [126]:
df4.insert(1, 'Universidad', 'Universidad Nacional de Colombia')
print(df4)

     Name                       Universidad  Age         City Sex  Hijos
0   Maria  Universidad Nacional de Colombia   27       Bogota   F      1
1  Carlos  Universidad Nacional de Colombia   24         Cali   M      2
2    Juan  Universidad Nacional de Colombia   22  Bucaramanga   M      4
3  Lorena  Universidad Nacional de Colombia   32          NaN   F      1


El primer campo en insert nos indica si estamos agregando filas o columnas, siendo 1 la etiqueta para columnas. El segundo campo es la etiqueta a agregar y el tercer campo sus valores. En este caso como solo ponemos un valor, lo usará para todos los registros

In [127]:
df4.insert(1, 'Localidad', ['Teusaquillo', 'Teusaquillo', 'Engativá', 'Suba'])
print(df4)

     Name    Localidad                       Universidad  Age         City  \
0   Maria  Teusaquillo  Universidad Nacional de Colombia   27       Bogota   
1  Carlos  Teusaquillo  Universidad Nacional de Colombia   24         Cali   
2    Juan     Engativá  Universidad Nacional de Colombia   22  Bucaramanga   
3  Lorena         Suba  Universidad Nacional de Colombia   32          NaN   

  Sex  Hijos  
0   F      1  
1   M      2  
2   M      4  
3   F      1  


En este caso, como ponemos una lista en los valores, los pondrá según su orden

## Ejercicio

1. Crear cuatro series de longitud cuatro elementos.

2. Crear un Data frame uniendo las series anteriores a un Dataframe vacio.

In [138]:
newdf = pd.DataFrame()
print(newdf)

Empty DataFrame
Columns: []
Index: []


3. Imprimir los registros 2 y 3 del Data frame anterior.

4. Imprimir la columna 3 del Data frame anterior por etiqueta y posición. (Pista: Use loc y iloc respectivamente)