# Manual de manejo de bases de datos en Python

In [2]:
import pandas as pd
import numpy as np

## Trabajar con multiples DataFrames

Mientras se trabaja con múltiples fuentes de información, siempre surjen nuevos retos que resolver, en el presente documento, se detalla como se debe trabajar cuando es necesario el análisis de más de un dataframe.

## Indexación de Dataframes

Antes de empezar a concatenar múltiples estructuras de datos, es necesario saber resolver problemas que pueden surgir debido al los indices de los dataframes. Para ejemplificar el concepto de indexación, se construye un dataframe en base a un diccionario para ser análizado.

In [3]:
diccionario={"edad":[14,23,17,12,35,40],"sexo":["m","m","h","h","m","h"],
            "e_civil":["casado","soltero","divorsiado","viudo","soltero","soltero"],
            "t_hijos":["si","no","no","no","si","no"]}
base=pd.DataFrame(diccionario,index=[1,2,3,4,5,6])
base

Unnamed: 0,edad,sexo,e_civil,t_hijos
1,14,m,casado,si
2,23,m,soltero,no
3,17,h,divorsiado,no
4,12,h,viudo,no
5,35,m,soltero,si
6,40,h,soltero,no


En base al dataframe generado, se muestran cuales son los comandos de mayor utilidad para obtener un correcto indexado.

* Obtener en una lista los índices de un data frame

In [4]:
base.index

Int64Index([1, 2, 3, 4, 5, 6], dtype='int64')

* Modificar índice

In [5]:
base.index=[10,20,30,40,50,60]
base

Unnamed: 0,edad,sexo,e_civil,t_hijos
10,14,m,casado,si
20,23,m,soltero,no
30,17,h,divorsiado,no
40,12,h,viudo,no
50,35,m,soltero,si
60,40,h,soltero,no


* Resetear un índice convirtiendolo en otra columna

In [6]:
base.reset_index()

Unnamed: 0,index,edad,sexo,e_civil,t_hijos
0,10,14,m,casado,si
1,20,23,m,soltero,no
2,30,17,h,divorsiado,no
3,40,12,h,viudo,no
4,50,35,m,soltero,si
5,60,40,h,soltero,no


* Establacer una columna existente como índice

In [10]:
base.index=base.index
base

Unnamed: 0,edad,sexo,e_civil,t_hijos
10,14,m,casado,si
20,23,m,soltero,no
30,17,h,divorsiado,no
40,12,h,viudo,no
50,35,m,soltero,si
60,40,h,soltero,no


## Unir Dataframes

Una vez que se haya identificado como se trabaja con los indices de los dataframes, a continuación, se muestran algunos ejemplos de comandos para unificar estructuras de datos. Para esto se crea 3 bases de datos.

* Base 1

In [6]:
base

Unnamed: 0,edad,sexo,e_civil,t_hijos
1,14,m,casado,si
2,23,m,soltero,no
3,17,h,divorsiado,no
4,12,h,viudo,no
5,35,m,soltero,si
6,40,h,soltero,no


* Base 2

In [7]:
diccionario2={"edad":[17,29,7,22,23,32],"sexo":["h","h","h","h","m","h"],
            "e_civil":["casado","casado","divorsiado","viudo","casado","soltero"],
            "t_hijos":["si","si","si","no","si","no"]}
base2=pd.DataFrame(diccionario,index=[1,2,3,4,5,6])
base2

Unnamed: 0,edad,sexo,e_civil,t_hijos
1,14,m,casado,si
2,23,m,soltero,no
3,17,h,divorsiado,no
4,12,h,viudo,no
5,35,m,soltero,si
6,40,h,soltero,no


* Base 3

In [31]:
diccionario3={"n_hijos":[1,2,7,2,2,3],
                    "empleado":["si","no","si","no","si","no"]}
base3=pd.DataFrame(diccionario3)
base3

Unnamed: 0,n_hijos,empleado
0,1,si
1,2,no
2,7,si
3,2,no
4,2,si
5,3,no


### Unir varios dataframes por sus columanas 

El método **contat**, se utiliza tanto para concatenar estructuras de datos por sus columnas, como por sus filas.

*Las bases de datos deben tener el mismo número de columnas*.

In [20]:
n_base=pd.concat([base,base2,base2])
#Se resetea el indice
n_base.index = range(n_base.shape[0])
n_base

Unnamed: 0,edad,sexo,e_civil,t_hijos
0,14,m,casado,si
1,23,m,soltero,no
2,17,h,divorsiado,no
3,12,h,viudo,no
4,35,m,soltero,si
5,40,h,soltero,no
6,14,m,casado,si
7,23,m,soltero,no
8,17,h,divorsiado,no
9,12,h,viudo,no


### Unir varios Dataframes por sus filas

Para concatenar dos estructuras de datos por medio de sus filas, se debe añadir al método el parametro **axis=1**.

*Ademas, para que el concatenado sea eficiente ambas estructuras de datos deben tener el mismo índice*.

In [33]:
#Se generaliza el indice
base3.index=base2.index
base_n2=pd.concat([base,base3],axis=1)
base_n2

Unnamed: 0,edad,sexo,e_civil,t_hijos,n_hijos,empleado
1,14,m,casado,si,1,si
2,23,m,soltero,no,2,no
3,17,h,divorsiado,no,7,si
4,12,h,viudo,no,2,no
5,35,m,soltero,si,2,si
6,40,h,soltero,no,3,no


### Dividir una columna segun sus categorias, en DataFrames individuales y almacenarlos en una lista

Para finalizar, se muestra el código necesario para generar tantos dataframes como categorias de una variable.

En el caso de la variable estado civil, se tiene 3 categorias y por ende, se obtiene una lista que almacena 3 dataframes.

In [12]:
lista=[base[base["e_civil"]==i] for i in base.e_civil.unique()]
lista[0]



Unnamed: 0,edad,sexo,e_civil,t_hijos
10,14,m,casado,si


In [13]:
lista[1]

Unnamed: 0,edad,sexo,e_civil,t_hijos
20,23,m,soltero,no
50,35,m,soltero,si
60,40,h,soltero,no


In [15]:
lista[2]

Unnamed: 0,edad,sexo,e_civil,t_hijos
30,17,h,divorsiado,no
