
# REPORTE PRÁCTICA 2:  Lectura y Manipulación de Datos con Pandas

# Análisis de Datos Multivariado 

#  Caso de Estudio: 
## Condiciones en los Centros de Reinserción Social CERESO y Topo Chico   


####    Evely Gutiérrez Noda     # 1935050

-----

# Introducción

<p style="text-align: justify;">
En el siguiente reporte se analiza el caso de estudio que permitirá evaluar las condiciones de reinserción social dentro del CERESO "Apodaca" y dentro del Centro Preventivo de Reinserción Topo Chico. Los datos que se usan para este estudio provienen de encuestas realizadas a mujeres y hombres por separado, que se encuentran privados de libertad dentro del Centro de Reinserción. Con este cuestionario se pretende evaluar las condiciones de vida, económicas, educativas y familiares de estas personas, así como las condiciones de los penitenciarios.
<p style="text-align: justify;">    
El objetivo de este reporte es cargar los datos a un Data Frames utilizando la librería [Pandas](http://pandas.pydata.org/), ya que los datos están en formato **.CSV** y es una gran cantidad de información que al abrirlos en un Excel se perderían columnas. Se presentan los ejemplos de trabajos con la librería Pandas, en este caso de estudio se pretende alcanzar objetivos como:

1. Agregar columnas en común para hombres y mujeres en el data frame y guardarlas en un fichero **.CSV** nuevo usando la librería pandas. Algunas columnas fueron:
   - gender (correspondiente al género)
   - stayYears, stayMonths, stayDays (correspondiente al tiempo que llevan en el penitenciario)
   - crime (correspondiente al crimen que cometieron)
   - sentenceYears, sentenceMonths, sentenceDays (correspondiente al tiempo de sentencia a partir del delito cometido)   
2. Determinar qué cantidad de hombres y mujeres llevan privados de la libertad y aun están esperando sentencia.
3. Analizar como son las relaciones familiares que sostienen los internos en el penitenciario.
4. Verificar si tienen acciones para realizar la reinserción social extramuros para los internos una vez que concluyan las condenas.
5. Trabajar sobre temas relacionados con los hijos que viven con las internas y los que no.
6. Explorar las condiciones de infraestructura, higiene y seguridad de los internos dentro de los penitenciarios.

Además, se refleja el trabajo realizado con la librería Pandas en algunos ejemplos de:

- Leer data frame de archivos **.CSV**.
- Guardar el data frame en un fichero con formato **.CSV**.
- Agregar columnas de pruebas en el data frames.
- Combinar dos o más data frames (ej. el de hombres con el de mujeres).
- Realizar filtros a los renglones de un data frame para practicar el trabajo con la librería Pandas.

<p style="text-align: justify;">
Para comenzar la lectura de datos y cargarlos en un Data Frame (ayuda para trabajar con [Data Frame] (https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html)), se necesita importar la librería Pandas, esto se logra con el siguiente código en la consola.

In [None]:
$ pip3 install pandas

<p style="text-align: justify;">
Ya teniendo instalado pandas, se comienza la lectura de datos con el siguiente código en **Python 3**. Primero se crea una clase llamada **ReadData** para la lectura del fichero **uniform.csv** usando la librería pandas mediante la variable `pd`. Luego se seleccionan las columnas que se van a utilizar y se guardan en un fichero nuevo llamado **UniformDataFrame.csv**, mediante la función de la librería pandas `.to_csv`.
<p style="text-align: justify;">    
A las columnas seleccionadas se le aplican diferentes correcciones, ya que pueden ser del tipo enteras o de caracteres, en este caso se reemplazaron los **NA** por ceros en columnas del tipo enteras y se cambiaron los **NA** por **No Contesto** en columnas de formato tipo caracteres. Además, se convirtieron a enteras las columnas que tratan con datos numéricos para posibles trabajos con ellos. Aun no quedan agregadas todas las columnas con las que se va a trabajar, pero es solo cuestión de agregarlas en el siguiente código.

In [12]:
import pandas as pd
import numpy as np

class ReadData:
    
    def __init__(self):       
        self.procesarUniform()
        
        
    def procesarUniform(self):
        uniform = pd.read_csv('uniform.csv')
        
        uniform['gender'] = uniform['gender']
        uniform['stayYears'] = uniform['stayYears'].replace(np.nan, 0)
        uniform['stayYears'] = uniform['stayYears'].astype(np.int64)#convierte a entero
        uniform['stayMonths'] = uniform['stayMonths'].replace(np.nan, 0)
        uniform['stayMonths'] = uniform['stayMonths'].astype(np.int64)#convierte a entero
        uniform['stayDays'] = uniform['stayDays'].replace(np.nan, 0)
        uniform['stayDays'] = uniform['stayDays'].astype(np.int64)#convierte a entero
        uniform['crime'] = uniform['crime'].replace(np.nan, 'No Contesto')
        uniform['sentenceYears'] = uniform['sentenceYears'].replace(np.nan, 0)
        uniform['sentenceYears'] = uniform['sentenceYears'].astype(np.int64)#convierte a entero
        uniform['sentenceMonths'] = uniform['sentenceMonths'].replace(np.nan, 0)
        uniform['sentenceMonths'] = uniform['sentenceMonths'].astype(np.int64)#convierte a entero
        uniform['sentenceDays'] = uniform['sentenceDays'].replace(np.nan, 0)
        uniform['sentenceDays'] = uniform['sentenceDays'].astype(np.int64)#convierte a entero
        uniform[['gender','stayYears','stayMonths','stayDays','crime','sentenceYears',
                 'sentenceMonths','sentenceDays']].to_csv('UniformDataFrame.csv')  

<p style="text-align: justify;"> 
Con esto se da cumplimiento al primer objetivo trazado en el inicio del reporte (Unificar datos de columnas seleccionadas de las encuestas de hombres y de mujeres en un fichero **.CSV** nuevo usando la librería pandas), el fichero .CSV nuevo que se crea es el **UniformDataFrame.csv**. 

<p style="text-align: justify;"> 
Luego se crea la clase **UniformMaleFemale** para inicializar los atributos que pertenecen a este nuevo fichero creado a partir de la lectura del Data Frame, los atributos corresponden a las columnas del fichero. Se programa un `if` para validar que los internos, ya sean hombres o mujeres, no lleven más años dentro del penitenciario que la cantidad de años que les pusieron de sentencia por el delito cometido, es poco probable que esto pase, pero igual se valida. Se crean estas clases con el objetivo de mantener una organización que permita un mejor trabajo futuro.


In [13]:
import numpy as np

class UniformMaleFemale:
    
    def __init__(self, folio, genero, crime):
        self.folio = folio
        self.gender = genero
        
        self.stayYears = 0
        self.stayMonths = 0
        self.stayDays = 0

        self.crime = crime
        self.sentenceYears = 0
        self.sentenceMonths = 0
        self.sentenceDays = 0
        
        
        if stayYears > sentenceYears:
            self.stayYears = 1111111
        else:
            self.stayYears = stayYears

A continuación, se muestra el **main.py** con el cual se corre el programa, este tiene importadas las dos clases anteriormente descritas y únicamente ejecuta la inicialización de las variables en la clase **UniformMaleFemale** y guarda el DataFrame en la variable `rd`

In [14]:
from ReadData import ReadData
from UniformMaleFemale import UniformMaleFemale

print("leyendo Data Frame")
rd = ReadData()

leyendo Data Frame


<p style="text-align: justify;"> 
Ya teniendo el archivo con los datos extraídos para analizar, se comienza a realizar algunas pruebas con ellos, por ejemplo, se busca la cantidad de hombres que responden detalladamente el tiempo que llevan dentro del penitenciario (respuestas con días, meses y años), de igual modo para las mujeres, y se busca también la cantidad de hombres y mujeres por independientes no responden a esa pregunta con tanta especificación. El código en Python para esto y los resultados obtenidos se muestran a continuación:


In [None]:
from ReadData import ReadData
from UniformMaleFemale import UniformMaleFemale

rd = ReadData()


def buscaCantidad(sexo, fichero, i, j, k):
    with open(fichero,'r') as uniform:
        todo = 0        
        next(uniform)
        for lineas in uniform:
            temp = lineas.split(',')
            if str(temp[1]) == sexo:
                
                if int(temp[i]) > 0 and int(temp[j])>= 0 and int(temp[k])> 0:
                    todo = todo + 1
                    #print(temp)
                    
                else: 
                    if int(temp[i]) > 0 and int(temp[j])> 0 and int(temp[k])> 0:
                        todo = todo + 1 
                                     
    
    uniform.close()        
    return todo


todoH = buscaCantidad('male', 'UniformDataFrame.csv', 2, 3, 4)
print('Hombres que responden detalladamente tiempo de estancia: ')
print(todoH)

todoM = buscaCantidad('female', 'UniformDataFrame.csv', 2, 3, 4)
print('Mujeres que responden detalladamente tiempo de estancia: ')
print(todoM)

todoH = buscaCantidad('male', 'UniformDataFrame.csv', 6, 7, 8)
print('Hombres que responden detalladamente tiempo de sentencia: ')
print(todoH)

todoM = buscaCantidad('female', 'UniformDataFrame.csv', 6, 7, 8)
print('Mujeres que responden detalladamente tiempo de sentencia: ')
print(todoM)


In [None]:
Hombres que responden detalladamente tiempo de estancia: 
2
Mujeres que responden detalladamente tiempo de estancia: 
0
Hombres que responden detalladamente tiempo de sentencia: 
10
Mujeres que responden detalladamente tiempo de sentencia: 
1

<p style="text-align: justify;"> 
Todo este código de **Python** se reduce en Bash a una sola línea, es bueno hacer esta comparación para ver las utilidades y facilidades que brinda el **Bash**. Utilizando el `awk` se tienen resultados parecidos, se aclara parecidos ya que en el código **Python** se tienen en cuenta todas las celdas mayores a cero, y en el `awk` no. Se obtiene con este trabajo la información de que solo 2 hombres responden detalladamente al tiempo de estancia que llevan en el penitenciario, esto puede ser utilizado para analizar el estado mental o psicológico de estos. Solo 10 dos hombres responden detalladamente el tiempo de sentencia impuesto.


<p style="text-align: justify;"> 
En los resultados anteriores se evidencia que solo dos hombres responden detalladamente el tiempo que llevan privados a la libertad, y ninguna mujer responde de esta manera. Pero si un gran número de mujeres y hombres responden sin detalles el tiempo que llevan encarcelados (296 Hombres y 144 Mujeres).
<p style="text-align: justify;">     
Otro trabajo realizado a estos datos es con respecto al objetivo 2, calcular cuántos hombres y mujeres están privados de la libertad y aun están esperando sentencia. Con el código siguiente en Python se calcula esto, arrojando que 68 hombres y 86 mujer están bajo estas condiciones.


In [None]:
def CantidadNoTiempoSentecia(sexo, fichero, i, j, k):
    with open(fichero,'r') as uniform:
        cantidad = 0        
        next(uniform)
        for lineas in uniform:
            temp = lineas.split(',')
            if str(temp[1]) == sexo:                
                if int(temp[i]) == 0 and int(temp[j]) == 0 and int(temp[k]) == 0:
                    cantidad = cantidad + 1
                    #print(temp)
    uniform.close()        
    return cantidad

In [None]:
Hombres sin sentencia: 
68
Mujeres sin sentencia: 
86

<p style="text-align: justify;"> 
En el caso del estado civil de las mujeres internas y los hombres antes y después de entrar en el interno. La pregunta correspondiente al estado Civil de los internos tiene 5 respuestas:

    1. Soltera
    2. Casada
    3. Divorciada
    4. Viuda
    5. Unión Libre
<p style="text-align: justify;"> 
Utilizando herramientas de Bash se llega a la información de que de las mujeres (47 Solteras, 46 Casadas, 13 Divorciadas, 13 Viudas y 55 Unión Libre) actualmente y (57 Solteras, 48 casadas, 9 Divorciadas, 7 Viudas y 49 Unión Libre) luego de entrar al penitenciario. Por estos resultados se puede ver que el estado civil de las internas varió no muy significativamente. En el caso de los hombres si varió un poco más, sobre todo en el caso de los que tenían Unión libre antes de entrar al penitenciario, poco más de la mitad varió, aunque también hubo una gran cantidad (207) que no contestaron a que estado civil tenían antes de entrar al penitenciario.


In [2]:
$ awk -F ',' '{print $2 "," $10}' UniformDataFrame.csv | sort | uniq -c   # estado civil actual          
     47 female,1
     46 female,2
     13 female,3
     13 female,4
     53 female,5      
      2 male,0
     93 male,1
     90 male,2
     30 male,3
      8 male,4
     89 male,5

$ awk -F ',' '{print $2 "," $11}' UniformDataFrame.csv | sort | uniq -c   # estado civil antes de entrar al penitenciario
      2 female,0
     57 female,1
     48 female,2
      9 female,3
      7 female,4
     49 female,5      
    207 male,0
     24 male,1
     38 male,2
      3 male,3
     40 male,5    


IndentationError: unindent does not match any outer indentation level (<tokenize>, line 16)

<p style="text-align: justify;"> 
Para dar cumplimiento al objetivo 5 trazado en este reporte, se comienza por saber la cantidad de internos que tienen hijos (mujeres 155 Si y 17 No, hombres 238 Si y 67 No) lo cual informa que la mayoría de los internos tienen hijos. En Python se realizó el cálculo de los hijos menores de edad y resolvió que 95 de 155 son menores de edad en el caso de las mujeres y 227 de 238 en el caso de los hombres, es decir, la mayoría son menores de edad.
 

In [None]:
$ awk -F ',' '{print $2 "," $12}' UniformDataFrame.csv | sort | uniq -c # Cantidad de hijos
    155 female,1
     17 female,2
      7 male,0
    238 male,1
     67 male,2


In [None]:
#hijos menores de edad

def HijosMenoresDeEdad(sexo, fichero, i, j, k, l, m):
    with open(fichero,'r') as uniform:
        cantidad = 0        
        next(uniform)
        for lineas in uniform:
            temp = lineas.split(',')
            if str(temp[1]) == sexo:                
                if int(temp[i]) <16 and int(temp[j]) < 16 and int(temp[k]) < 16 and int(temp[l]) < 16 and int(temp[m]) < 16:
                    cantidad = cantidad + 1
                    #print(temp)
    uniform.close()        
    return cantidad

HMDEM = HijosMenoresDeEdad('female', 'UniformDataFrame.csv', 13, 14, 15, 16, 17)
print('Cantidad de hijos menores de edad (mujeres internas): ')
print(HMDEM)

HMDEH = HijosMenoresDeEdad('male', 'UniformDataFrame.csv', 13, 14, 15, 16, 17)
print('Cantidad de hijos menores de edad (hombres internas): ')
print(HMDEH)

In [None]:
Cantidad de hijos menores de edad (mujeres internas): 
95
Cantidad de hijos menores de edad (hombres internas): 
227

<p style="text-align: justify;"> 
Para el caso de las mujeres vale la pena hacer un estudio y conocer un poco más sobre los hijos que nacen en el penitenciario y viven con ellas hasta los 3 años de edad. Por medio de herramientas **Bash** se obtuvo que 19 mujeres viven con su hijo en prisión y 17 de ellos fueron nacidos allí.   
    
Viendo la cantidad de mujeres que tienen hijos y luego cuantos menores de edad. Ver si cuentan con servicio medico IMSS o Popular.


In [None]:
$ awk -F ',' '{print $2 ",    " $25}' UniformDataFrame.csv | sort | uniq -c # Cuantos hijos nacen en prisión
      1 gender,    howManyBornInPrisonFOAQ
    148 female,    0
     17 female,    1
      7 female,    2    

$ awk -F ',' '{print $2 ",    " $26}' UniformDataFrame.csv | sort | uniq -c # Cuantos hijos viven en prisión
      1 gender,    childrenLiveInPrisonFOAQ
    111 female,    0
     19 female,    1
     42 female,    2