# Manual de manejo de bases de datos con Python
Autor: Cristian Sánchez

Actualemnte Python es un de los lenguajes de programación más populares en la ciencia de datos, esto se debe en gran medida a su amplia disponibilidad de librerias, ademas, su sintaxis es simple y su aplicabilidad es extensa.

Al empezar ha trabajar con bases de datos, se presentan pequeños problemas que son de facil solución, sin embargo, al no tener un entendimiento básico del uso de la libreria Pandas, este pequeño problema puede desencadenar un gran problema y no siempre la solución es copiar el código del internet.

A continuación se presentan las conceptos mas basicos y ha mi punto de vista, mas necesarios para empezar a manipular bases de datos.

## importación de librerias

Existe gran cantidad de librerias utiles en la cincia de datos, a continuación, se muestran las mas relevantes para iniciarce en el mundo de la ciencia de datos.

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import sidetable

## Para poder crear una matriz de datos (DataFrame)

Las maneras de mayor utilidad para generar un dataframe, son por medio de listas, diccionarios y la mas útil, exportando una base de datos externa, ya sea en formato CSV O XLSX.

* Insertar los datos desde una lista o un objeto np.

In [3]:
lista=[1,2,3,4,5,6]
base=pd.DataFrame(lista,columns=["numero"],index=["uno","dos","tres",
                                                 "cuatro","cinco","seis"])
base

Unnamed: 0,numero
uno,1
dos,2
tres,3
cuatro,4
cinco,5
seis,6


* Ingresar los datos por medio de un diccionario de **listas**.

In [4]:
diccionario={"numero":[1,2,3,4,5,6]}
base=pd.DataFrame(diccionario,index=["uno","dos","tres",
                                            "cuatro","cinco","seis"])
base

Unnamed: 0,numero
uno,1
dos,2
tres,3
cuatro,4
cinco,5
seis,6


* Cargar un archivo de datos almacenado en nuestro ordenador, ya sea en formato excel o archivo CSV.

In [5]:
base=pd.read_excel("C:/Users/Cristian/Desktop/Administracion de bases de datos con python/base.xlsx"
                   ,sheet_name="base",index_col="nombres")
base

Unnamed: 0_level_0,Numeros
nombres,Unnamed: 1_level_1
uno,1
dos,2
tres,3
cuatro,4
cinco,5
seis,6


## Añadir columnas 


Para añadir una columna se debe escribir el nombre del dataframe y entre corchetes, el nombre de la nueva variable

In [6]:
base["sexo"]=["h","h","h","m","h","m"]
base["Estado_civil"]=["soltero","casado","casado","soltero",
                      "viduo","viudo"]
base

Unnamed: 0_level_0,Numeros,sexo,Estado_civil
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
uno,1,h,soltero
dos,2,h,casado
tres,3,h,casado
cuatro,4,m,soltero
cinco,5,h,viduo
seis,6,m,viudo


## Añadir columna condicional

* Por medio de una cohincidencia exacta se crea una nueva variable, utilizando una lista de comprención.

In [7]:
"""se considera idoneo a la persona que es mujer y soltera; 
semi-idonea a la que es mujer y viuda y a los hombres no-idoneos"""

base["idioneo"]=["idoneo" if i =="m" and j=="soltero" else
                "semi-idoneo" if i =="m" and j=="viudo" else
                "no-idoneo"
                 for i,j in zip(base.sexo,base.Estado_civil)]
base

Unnamed: 0_level_0,Numeros,sexo,Estado_civil,idioneo
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
uno,1,h,soltero,no-idoneo
dos,2,h,casado,no-idoneo
tres,3,h,casado,no-idoneo
cuatro,4,m,soltero,idoneo
cinco,5,h,viduo,no-idoneo
seis,6,m,viudo,semi-idoneo


* Otra opción muy util, es generar una variable a partir de la coincidencia de uns string, dentro de la variable.

In [8]:
base["volcal_a"]=["si tiene" if "a" in str(i) else "no tiene"
                 for i in base.Estado_civil]
base

Unnamed: 0_level_0,Numeros,sexo,Estado_civil,idioneo,volcal_a
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
uno,1,h,soltero,no-idoneo,no tiene
dos,2,h,casado,no-idoneo,si tiene
tres,3,h,casado,no-idoneo,si tiene
cuatro,4,m,soltero,idoneo,no tiene
cinco,5,h,viduo,no-idoneo,no tiene
seis,6,m,viudo,semi-idoneo,no tiene


## Atributos utiles de un Dataframe

* Dimención de la matriz.

In [7]:
base.shape

(6, 2)

* Número total de elementos en filas y columnas.

In [8]:
base.size

12

* Nombre de las columnas.

In [9]:
base.columns

Index(['Numeros', 'sexo'], dtype='object')

* Tipos de datos almacenados en cada columna.

In [10]:
base.dtypes

Numeros     int64
sexo       object
dtype: object

## Dividir Dataframe

Para segmentar el archivo en base a condicion, **no se puede utilizar la nomenclatura del punto, si no la del corchte**.

In [9]:
base_hombres=base[base["sexo"]=="h"]
base_hombres

Unnamed: 0_level_0,Numeros,sexo,Estado_civil,idioneo,volcal_a
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
uno,1,h,soltero,no-idoneo,no tiene
dos,2,h,casado,no-idoneo,si tiene
tres,3,h,casado,no-idoneo,si tiene
cinco,5,h,viduo,no-idoneo,no tiene


Dividir en base a varios criterios de una columna.

In [10]:
base_12 = base[base["Numeros"].isin([1,2])]
base_12

Unnamed: 0_level_0,Numeros,sexo,Estado_civil,idioneo,volcal_a
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
uno,1,h,soltero,no-idoneo,no tiene
dos,2,h,casado,no-idoneo,si tiene


Dividen en vase a multiples riterios de varias columnas.

In [15]:
base_123_casado=base[base["Numeros"].isin([1,2,3])
                    & base["Estado_civil"].isin(["casado"])]
base_123_casado

Unnamed: 0_level_0,Numeros,sexo,Estado_civil,idioneo,volcal_a
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
dos,2,h,casado,no-idoneo,si tiene
tres,3,h,casado,no-idoneo,si tiene


## Resumen de variable categorica

In [15]:
base["sexo"].value_counts()

h    4
m    2
Name: sexo, dtype: int64

In [16]:
base["sexo"].value_counts(normalize=True)

h    0.666667
m    0.333333
Name: sexo, dtype: float64

In [7]:
# sidetable no viene por defecto en ANACONDA se debe instalar en el shell
#python -m pip install sidetable
base.stb.freq(["sexo"],style = True)

Unnamed: 0,sexo,count,percent,cumulative_count,cumulative_percent
0,h,4,66.67%,4,66.67%
1,m,2,33.33%,6,100.00%


* Tabla de contingencia de 2 variables categóricas en frecuencia absoluta.

In [10]:
tabla1=pd.crosstab(base["sexo"],base["Estado_civil"])
tabla1

Estado_civil,casado,soltero,viduo,viudo
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
h,2,1,1,0
m,0,1,0,1


* Tabal de contingencia de 2 variables categóricas en frecuencia relativa.

In [14]:
tabla2=pd.crosstab(base["sexo"],base["Estado_civil"],normalize=True)
tabla2

Estado_civil,casado,soltero,viduo,viudo
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
h,0.333333,0.166667,0.166667,0.0
m,0.0,0.166667,0.0,0.166667


## Resumen de variable cuantitativa

In [13]:
base["Numeros"].describe()

count    6.000000
mean     3.500000
std      1.870829
min      1.000000
25%      2.250000
50%      3.500000
75%      4.750000
max      6.000000
Name: Numeros, dtype: float64

* Generar rangos (para este ejemplo se utilizan los cuartiles ya calculados en el recuadro superior)

In [21]:
base["rango_cuartil"] = pd.cut(base["Numeros"], [0,2.25,3.50,4.75,6],
                           labels = ["C_1","C_2","C_3","C_4"])
base


Unnamed: 0_level_0,Numeros,sexo,Estado_civil,rango_num,rango_cuartil
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
uno,1,h,soltero,C_1,C_1
dos,2,h,casado,C_1,C_1
tres,3,h,casado,C_2,C_2
cuatro,4,m,soltero,C_3,C_3
cinco,5,h,viduo,C_4,C_4
seis,6,m,viudo,C_4,C_4


## Tratamiento a valores nulos

Se genera una nueva variable con valores perdidos para ejmplificar.

In [27]:
base["hijos"]=[2,3,4,np.nan,4,None]

In [28]:
base.isna().sum()

Numeros          0
sexo             0
Estado_civil     0
rango_num        0
rango_cuartil    0
hijos            2
dtype: int64

Muestra la cantidad de valores nulos en cada variable

In [29]:
base.isna().sum() / len(base)

Numeros          0.000000
sexo             0.000000
Estado_civil     0.000000
rango_num        0.000000
rango_cuartil    0.000000
hijos            0.333333
dtype: float64

Cantidad porcentual de valores nulos.

In [30]:

# sidetable no viene por defecto en ANACONDA se debe instalar en el shell
#python -m pip install sidetable
base.stb.missing(style = True)

Unnamed: 0,missing,total,percent
hijos,2,6,33.33%
Numeros,0,6,0.00%
sexo,0,6,0.00%
Estado_civil,0,6,0.00%
rango_num,0,6,0.00%
rango_cuartil,0,6,0.00%


Se eliminan los valores perdidos con el siguiente comando, para eliminar los perdidos de las filas se selecciona axis=0 y la columna completa con valores perdidos axis=1.

In [31]:
base.dropna(axis = 0)

Unnamed: 0_level_0,Numeros,sexo,Estado_civil,rango_num,rango_cuartil,hijos
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
uno,1,h,soltero,C_1,C_1,2.0
dos,2,h,casado,C_1,C_1,3.0
tres,3,h,casado,C_2,C_2,4.0
cinco,5,h,viduo,C_4,C_4,4.0
