# Manual de manejo de bases de datos con Python
Autor: Cristian Sánchez

Actualemnte Python es un de los lenguajes de programación más populares en la ciencia de datos, esto se debe en gran medida a su amplia disponibilidad de librerias, ademas, su sintaxis es simple y su aplicabilidad es extensa.

Al empezar ha trabajar con bases de datos, se presentan pequeños problemas que son de facil solución, sin embargo, al no tener un entendimiento básico del uso de la libreria Pandas, este pequeño problema puede desencadenar un gran problema y no siempre la solución es copiar el código del internet.

A continuación se presentan las conceptos mas basicos y ha mi punto de vista, mas necesarios para empezar a manipular bases de datos.

## importación de librerias

Existe gran cantidad de librerias utiles en la cincia de datos, a continuación, se muestran las mas relevantes para iniciarce en el mundo de la ciencia de datos.

In [28]:
import pandas as pd
import numpy as np
import seaborn as sns
import sidetable

## Para poder crear una matriz de datos (DataFrame)

Las maneras de mayor utilidad para generar un dataframe, son por medio de listas, diccionarios y la mas útil, exportando una base de datos externa, ya sea en formato CSV O XLSX.

* Insertar los datos desde una lista o un objeto np.

In [29]:
lista=[1,2,3,4,5,6]
base=pd.DataFrame(lista,columns=["numero"],index=["uno","dos","tres",
                                                 "cuatro","cinco","seis"])
base

Unnamed: 0,numero
uno,1
dos,2
tres,3
cuatro,4
cinco,5
seis,6


* Ingresar los datos por medio de un diccionario de **listas**.

In [30]:
diccionario={"numero":[1,2,3,4,5,6]}
base=pd.DataFrame(diccionario,index=["uno","dos","tres",
                                            "cuatro","cinco","seis"])
base

Unnamed: 0,numero
uno,1
dos,2
tres,3
cuatro,4
cinco,5
seis,6


* Cargar un archivo de datos almacenado en nuestro ordenador, ya sea en formato excel o archivo CSV. Si la el archivo externo no se encuentra en la misma carpeta donde esta el codigo de python de la cual es invocada, se debe especificar la ruta desde root.

In [31]:
base=pd.read_excel("base.xlsx",sheet_name="base",index_col="nombres")
base

Unnamed: 0_level_0,Numeros
nombres,Unnamed: 1_level_1
uno,1
dos,2
tres,3
cuatro,4
cinco,5
seis,6


## Añadir columnas 


Otro aspecto de gran relevancia cuando se trabaja con bases de datos, es la generacion de columnas. Los data frames en Python, pueden almacenar gran variedad de datos, sin embargo, para este analisis solo se considerar la divición entre columnas con información cuantitativa y columnas con informacion cualitativa.

### Generar columnas por indexación

Para generar un columna cualitativa o cuantitativa de forma simple, se debe escribir el nombre del dataframe indexando el nombre de la columna. Se dede considerar que los dataframes son estructuras rectangulares o cuadrades, es decir, se necesita que la lista tenga el mismo número de filas que el dataframe para que se pueda concatenar.

In [32]:
base["sexo"]=["h","h","h","m","h","m"]
base["Estado_civil"]=["soltero","casado","casado","soltero",
                      "viduo","viudo"]
base

Unnamed: 0_level_0,Numeros,sexo,Estado_civil
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
uno,1,h,soltero
dos,2,h,casado
tres,3,h,casado
cuatro,4,m,soltero
cinco,5,h,viduo
seis,6,m,viudo


### Añadir columna condicional

* Por medio de una cohincidencia exacta se crea una nueva variable, utilizando una lista de comprención.

In [33]:
"""se considera idoneo a la persona que es mujer y soltera; 
semi-idonea a la que es mujer y viuda y a los hombres no-idoneos"""

base["idioneo"]=["idoneo" if i =="m" and j=="soltero" else
                "semi-idoneo" if i =="m" and j=="viudo" else
                "no-idoneo"
                 for i,j in zip(base.sexo,base.Estado_civil)]
base

Unnamed: 0_level_0,Numeros,sexo,Estado_civil,idioneo
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
uno,1,h,soltero,no-idoneo
dos,2,h,casado,no-idoneo
tres,3,h,casado,no-idoneo
cuatro,4,m,soltero,idoneo
cinco,5,h,viduo,no-idoneo
seis,6,m,viudo,semi-idoneo


* Otra opción muy util, es generar una variable a partir de la coincidencia de un string dentro de la variable.

In [34]:
base["volcal_a"]=["si tiene" if "a" in str(i) else "no tiene"
                 for i in base.Estado_civil]
base

Unnamed: 0_level_0,Numeros,sexo,Estado_civil,idioneo,volcal_a
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
uno,1,h,soltero,no-idoneo,no tiene
dos,2,h,casado,no-idoneo,si tiene
tres,3,h,casado,no-idoneo,si tiene
cuatro,4,m,soltero,idoneo,no tiene
cinco,5,h,viduo,no-idoneo,no tiene
seis,6,m,viudo,semi-idoneo,no tiene


### Generar una columan por medio de un cálculo matemático

Utilizando pandas se puede generar columanas a partir de simples cálculos, tales como: añadir una unidad a una variable, dividir, ultiplicar etc.

In [35]:
base["Num_+1"]=base.Numeros+1
base

Unnamed: 0_level_0,Numeros,sexo,Estado_civil,idioneo,volcal_a,Num_+1
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
uno,1,h,soltero,no-idoneo,no tiene,2
dos,2,h,casado,no-idoneo,si tiene,3
tres,3,h,casado,no-idoneo,si tiene,4
cuatro,4,m,soltero,idoneo,no tiene,5
cinco,5,h,viduo,no-idoneo,no tiene,6
seis,6,m,viudo,semi-idoneo,no tiene,7


De porfa similar se pueden realizar cálculos entre los valores de de las variables

In [36]:
base["Num+2-num"]=base.Numeros+2-base.Numeros/8
base

Unnamed: 0_level_0,Numeros,sexo,Estado_civil,idioneo,volcal_a,Num_+1,Num+2-num
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
uno,1,h,soltero,no-idoneo,no tiene,2,2.875
dos,2,h,casado,no-idoneo,si tiene,3,3.75
tres,3,h,casado,no-idoneo,si tiene,4,4.625
cuatro,4,m,soltero,idoneo,no tiene,5,5.5
cinco,5,h,viduo,no-idoneo,no tiene,6,6.375
seis,6,m,viudo,semi-idoneo,no tiene,7,7.25


* Tambien se puede etiquetar los rangos de una variable numérica, para el siguiente ejemplo se atiqueta según el cuarltil al que pertenece:

In [37]:
base["rango_cuartil"] = pd.cut(base["Numeros"], [0,2.25,3.50,4.75,6],
                           labels = ["C_1","C_2","C_3","C_4"])
base


Unnamed: 0_level_0,Numeros,sexo,Estado_civil,idioneo,volcal_a,Num_+1,Num+2-num,rango_cuartil
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
uno,1,h,soltero,no-idoneo,no tiene,2,2.875,C_1
dos,2,h,casado,no-idoneo,si tiene,3,3.75,C_1
tres,3,h,casado,no-idoneo,si tiene,4,4.625,C_2
cuatro,4,m,soltero,idoneo,no tiene,5,5.5,C_3
cinco,5,h,viduo,no-idoneo,no tiene,6,6.375,C_4
seis,6,m,viudo,semi-idoneo,no tiene,7,7.25,C_4


## Atributos utiles de un Dataframe

A continuación se muestran los atributos y metodos, de mayor utilidad al trabajar con bases de datos.

* Dimención de la matriz.

In [38]:
base.shape

(6, 8)

* Número total de elementos en filas y columnas.

In [39]:
base.size

48

* Nombre de las columnas.

In [40]:
base.columns

Index(['Numeros', 'sexo', 'Estado_civil', 'idioneo', 'volcal_a', 'Num_+1',
       'Num+2-num', 'rango_cuartil'],
      dtype='object')

* Tipos de datos almacenados en cada columna.

In [41]:
base.dtypes

Numeros             int64
sexo               object
Estado_civil       object
idioneo            object
volcal_a           object
Num_+1              int64
Num+2-num         float64
rango_cuartil    category
dtype: object

* Y la opción más util, info() dado que muestra el tipo de variable la cantidad de datos y la existencia de valores nulos.

In [42]:
base.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, uno to seis
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype   
---  ------         --------------  -----   
 0   Numeros        6 non-null      int64   
 1   sexo           6 non-null      object  
 2   Estado_civil   6 non-null      object  
 3   idioneo        6 non-null      object  
 4   volcal_a       6 non-null      object  
 5   Num_+1         6 non-null      int64   
 6   Num+2-num      6 non-null      float64 
 7   rango_cuartil  6 non-null      category
dtypes: category(1), float64(1), int64(2), object(4)
memory usage: 582.0+ bytes


## Dividir Dataframe

Al trabajar con bases de datos se presetan gran cantidad de requerimientos de análisis de datos, entre estos esta la segmentación de dataframes; Para esto se puede utilizar multiples herramientas, a continución se muestra las que a mi opinión son las mas útiles.

* Se puede dividir un dataframe en base a condicion, **no se puede utilizar la nomenclatura del punto, si no la del corchte**.

In [43]:
base_hombres=base[base["sexo"]=="h"]
base_hombres

Unnamed: 0_level_0,Numeros,sexo,Estado_civil,idioneo,volcal_a,Num_+1,Num+2-num,rango_cuartil
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
uno,1,h,soltero,no-idoneo,no tiene,2,2.875,C_1
dos,2,h,casado,no-idoneo,si tiene,3,3.75,C_1
tres,3,h,casado,no-idoneo,si tiene,4,4.625,C_2
cinco,5,h,viduo,no-idoneo,no tiene,6,6.375,C_4


* Dividir el dataframe en base a varios criterios de una columna.

In [44]:
base_12 = base[base["Numeros"].isin([1,2])]
base_12

Unnamed: 0_level_0,Numeros,sexo,Estado_civil,idioneo,volcal_a,Num_+1,Num+2-num,rango_cuartil
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
uno,1,h,soltero,no-idoneo,no tiene,2,2.875,C_1
dos,2,h,casado,no-idoneo,si tiene,3,3.75,C_1


* Dividir una columna en base a multiples criterios de varias columnas.

In [45]:
base_123_casado=base[base["Numeros"].isin([1,2,3])
                    & base["Estado_civil"].isin(["casado"])]
base_123_casado

Unnamed: 0_level_0,Numeros,sexo,Estado_civil,idioneo,volcal_a,Num_+1,Num+2-num,rango_cuartil
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
dos,2,h,casado,no-idoneo,si tiene,3,3.75,C_1
tres,3,h,casado,no-idoneo,si tiene,4,4.625,C_2


## Resumen de variable categorica

Para brindar al lector un acecamiento **descriptivo** de variables cualitativas categóricas, se utilizan las frecuencias, ya sea abosulotas o relativas, como se muestra a continuación.

In [46]:
base["sexo"].value_counts()

h    4
m    2
Name: sexo, dtype: int64

In [47]:
base["sexo"].value_counts(normalize=True)

h    0.666667
m    0.333333
Name: sexo, dtype: float64

In [48]:
# sidetable no viene por defecto en ANACONDA se debe instalar en el shell
#python -m pip install sidetable
base.stb.freq(["sexo"],style = True)

Unnamed: 0,sexo,count,percent,cumulative_count,cumulative_percent
0,h,4,66.67%,4,66.67%
1,m,2,33.33%,6,100.00%


* Otra opción muy utilizada es el cruze de variables en forma de tablas de contingencia.

In [49]:
tabla1=pd.crosstab(base["sexo"],base["Estado_civil"])
tabla1

Estado_civil,casado,soltero,viduo,viudo
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
h,2,1,1,0
m,0,1,0,1


* Tabla de contingencia de 2 variables categóricas en frecuencia relativa.

In [54]:
tabla2=pd.crosstab(base["sexo"],base["Estado_civil"],normalize="index")
tabla2

Estado_civil,casado,soltero,viduo,viudo
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
h,0.5,0.25,0.25,0.0
m,0.0,0.5,0.0,0.5


## Resumen de variable cuantitativa

En el caso de las variables cuantitativas se utilizas las medidas de pocisión, tendencia central y de disperción, por medio del siguiente comando se puede obtener un resumen de lo anteriormente descrito.

In [55]:
base["Numeros"].describe()

count    6.000000
mean     3.500000
std      1.870829
min      1.000000
25%      2.250000
50%      3.500000
75%      4.750000
max      6.000000
Name: Numeros, dtype: float64

## Tratamiento a valores nulos

Con el objetivo de ejemplificar el manejo de valores perdidos en una base de datos, se genera una nueva variable con valores perdidos.

En python el valor por defecto con el cual se denota la ausencia de un valor es "None", y la libreria numpy los denota np.nan.

In [56]:
base["hijos"]=[2,3,4,np.nan,4,None]
base["zona_res"]=["rural","urbana",np.nan,np.nan,"rural",np.nan]

Con el siguiente comando se muestra la cantidad de valores nulos en cada variable.

In [57]:
base.isna().sum()

Numeros          0
sexo             0
Estado_civil     0
idioneo          0
volcal_a         0
Num_+1           0
Num+2-num        0
rango_cuartil    0
hijos            2
zona_res         3
dtype: int64

De forma similar, se puede obtener el porcentaje de valores perdidos con respecto al total.

In [58]:
base.isna().sum() / len(base)

Numeros          0.000000
sexo             0.000000
Estado_civil     0.000000
idioneo          0.000000
volcal_a         0.000000
Num_+1           0.000000
Num+2-num        0.000000
rango_cuartil    0.000000
hijos            0.333333
zona_res         0.500000
dtype: float64

Sim embargo una de las alternativas mas potentes para este análisis son las siguites lineas de código.

In [59]:

# sidetable no viene por defecto en ANACONDA se debe instalar en el shell
#python -m pip install sidetable
base.stb.missing(style = True)

Unnamed: 0,missing,total,percent
zona_res,3,6,50.00%
hijos,2,6,33.33%
Numeros,0,6,0.00%
sexo,0,6,0.00%
Estado_civil,0,6,0.00%
idioneo,0,6,0.00%
volcal_a,0,6,0.00%
Num_+1,0,6,0.00%
Num+2-num,0,6,0.00%
rango_cuartil,0,6,0.00%


En el caso que se decida eliminar los valores perdidos,el siguiente comando elimina los valores ya sea de las filas o las columnas (axis=0) o (axis=1).

In [62]:
base_l=base.dropna(axis = 0)
base_l

Unnamed: 0_level_0,Numeros,sexo,Estado_civil,idioneo,volcal_a,Num_+1,Num+2-num,rango_cuartil,hijos,zona_res
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
uno,1,h,soltero,no-idoneo,no tiene,2,2.875,C_1,2.0,rural
dos,2,h,casado,no-idoneo,si tiene,3,3.75,C_1,3.0,urbana
cinco,5,h,viduo,no-idoneo,no tiene,6,6.375,C_4,4.0,rural


Si se desea reemplazar los datos perdidos por un caracter en especial se utilza en siguiten código.

In [68]:
base["zona_res"]=base.zona_res.fillna("periféricos")
base

Unnamed: 0_level_0,Numeros,sexo,Estado_civil,idioneo,volcal_a,Num_+1,Num+2-num,rango_cuartil,hijos,zona_res
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
uno,1,h,soltero,no-idoneo,no tiene,2,2.875,C_1,2.0,rural
dos,2,h,casado,no-idoneo,si tiene,3,3.75,C_1,3.0,urbana
tres,3,h,casado,no-idoneo,si tiene,4,4.625,C_2,4.0,periféricos
cuatro,4,m,soltero,idoneo,no tiene,5,5.5,C_3,,periféricos
cinco,5,h,viduo,no-idoneo,no tiene,6,6.375,C_4,4.0,rural
seis,6,m,viudo,semi-idoneo,no tiene,7,7.25,C_4,,periféricos
