
# REPORTE PRÁCTICA 2:  Lectura y Manipulación de Datos con Pandas

# Análisis de Datos Multivariado 

#  Caso de Estudio: 
## Condiciones en los Centros de Reinserción Social CERESO y Topo Chico   


####    Evely Gutiérrez Noda     # 1935050

-----

# Introducción

<p style="text-align: justify;">
En el siguiente reporte se analiza el caso de estudio que permitirá evaluar las condiciones de reinserción social dentro del CERESO "Apodaca" y dentro del Centro Preventivo de Reinserción Topo Chico. Los datos que se usan para este estudio provienen de encuestas realizadas a mujeres y hombres por separado, que se encuentran privados de libertad dentro del Centro de Reinserción. Con este cuestionario se pretende evaluar las condiciones de vida, económicas, educativas y familiares de estas personas, así como las condiciones de los penitenciarios.
<p style="text-align: justify;">    
El objetivo de este reporte es cargar los datos a un Data Frames utilizando la libreria [Pandas](http://pandas.pydata.org/), ya que los datos estan en formato **.CSV** y es una gran cantidad de información que al abrirlos en un Ecxel se perderían columnas. Se presentan los ejemplos de trabajos con la libreria Pandas, en este caso de estudio se pretende alcanzar objetivos como:

1. Unificar datos seleccionados de las encuestas de hombres y de mujeres en un fichero nuevo **.CSV**.
2. Agregar columnas en común para hombres y mujeres para trabajar con ellas proximamente.
   - gender (correspondiente al genero)
   - stayYears, stayMonths, stayDays (correspondiente al tiempo que llevan en el penitenciario)
   - crime (correspondiente al crimen que cometieron)
   - sentenceYears, sentenceMonths, sentenceDays (correspondiente al tiempo de sentencia a partir del delito cometido)   
3. Determinar que tiempo llevan privados a la libertad hombres y mujeres que aun estan esperando sentencia.

Además se refleja el trabajo realizado con la libreria Pandas en algunos ejemplos de:

- Leer data frame de archivos **.CSV.**
- Guardar el data frame en un fichero con formato **.CSV**.
- Agregar columnas de pruebas en el data frames.
- Combinar dos o más data frames (ej. el de hombres con el de mujeres).
- Realizar filtros a los renglones de un data frame para practicar el trabajo con la librería Pandas.

<p style="text-align: justify;">
Para comenzar la lectura de datos y cargarlos en un Data Frame, se necesita importar la librería Pandas, esto se logra con el siguiente código en la consola.

In [None]:
$ pip3 install pandas

<p style="text-align: justify;">
Ya teniendo instalado pandas, se comienza la lectura de datos con el siguiente código en **Python 3**. Primero se crea una clase llamada **ReadData** para la lectura del fichero **uniform.csv** usando la libreria pandas mediante la variable `pd`. Luego se seleccionan las columnas que se van a utilizar y se guardan en un fichero nuevo llamado **UniformDataFrame.csv**, mediante la finción de la pibreria pandas `.to_csv`.
<p style="text-align: justify;">    
A las columnas seleccionadas se le aplican diferentes correcciones, ya que pueden ser del tipo enteras o de caracteres, en este caso se reemplazaron los **NA** por ceros en columnas del tipo enteras y se cambiaron los **NA** por **No Contesto** en columnas de formato tipo caracteres. Además se convirtieron a enteras las columnas que tratan con datos numéricos para posibles trabajos con ellos.

In [12]:
import pandas as pd
import numpy as np

class ReadData:
    
    def __init__(self):       
        self.procesarUniform()
        
        
    def procesarUniform(self):
        uniform = pd.read_csv('uniform.csv')
        uniform['gender'] = uniform['gender']
        uniform['stayYears'] = uniform['stayYears'].replace(np.nan, 0)
        uniform['stayYears'] = uniform['stayYears'].astype(np.int64)#convierte a entero
        uniform['stayMonths'] = uniform['stayMonths'].replace(np.nan, 0)
        uniform['stayMonths'] = uniform['stayMonths'].astype(np.int64)#convierte a entero
        uniform['stayDays'] = uniform['stayDays'].replace(np.nan, 0)
        uniform['stayDays'] = uniform['stayDays'].astype(np.int64)#convierte a entero
        uniform['crime'] = uniform['crime'].replace(np.nan, 'No Contesto')
        uniform['sentenceYears'] = uniform['sentenceYears'].replace(np.nan, 0)
        uniform['sentenceMonths'] = uniform['sentenceMonths'].replace(np.nan, 0)
        uniform['sentenceDays'] = uniform['sentenceDays'].replace(np.nan, 0)
        uniform[['gender','stayYears','stayMonths','stayDays','crime','sentenceYears',
                 'sentenceMonths','sentenceDays']].to_csv('UniformDataFrame.csv')  

Luego se crea la clase **UniformMaleFemale** para inicializar los atributos que pertenecen a este nuevo fichero creado a partir de la lectura del Data Frame, los atributos corresponden a las columnas del fichero. Se programa un if para validar que los internos, ya sean hombres o mujeres, no lleven mas años dentro del penitenciario que la cantidad de años que les pusieron de sentecia por el delito cometido.

In [13]:
import numpy as np

class UniformMaleFemale:
    
    def __init__(self, folio, genero, crime):
        self.folio = folio
        self.gender = genero
        
        self.stayYears = 0
        self.stayMonths = 0
        self.stayDays = 0

        self.crime = crime
        self.sentenceYears = 0
        self.sentenceMonths = 0
        self.sentenceDays = 0
        
        
        if stayYears > sentenceYears:
            self.stayYears = 1111111
        else:
            self.stayYears = stayYears

A continuación se muestra el **main.py** con el cual se corre el programa, este tiene importadas las dos clases anteriormente descritas y unicamente ejecuta la inicialización de las variables en la clase **UniformMaleFemale** y guarda el DataFrame en la variable `rd`  

In [14]:
from ReadData import ReadData
from UniformMaleFemale import UniformMaleFemale

print("leyendo Data Frame")
rd = ReadData()




leyendo Data Frame


Ya teniendo el archivo con los datos extraidos para analizar, se comienza a realizar algunas pruebas con ellos, por ejemplo, se busca la cantidad de hombres que responden detalladamente el tiempo que llevan dentro del penitenciario (respuestas con dias, meses y años), de igual modo para las mujeres, y se busca también la cantidad de hombres y mujeres por independientes no responden a esa pregunta con tanta especificación, mediante el código siguiente. 

In [None]:
from ReadData import ReadData
from UniformMaleFemale import UniformMaleFemale

print("leyendo Data Frame")

ufm = []
rd = ReadData()

with open('UniformDataFrame.csv','r') as uniform:
    todoH = 0
    todoM = 0
    next(uniform)
    for lineas in uniform:
        temp = lineas.split(',')
        if str(temp[1]) == 'male':
            if int(temp[2]) > 0 and int(temp[3])> 0 and int(temp[4])> 0:
                todoH = todoH + 1
            
    print('Hombres que responden detalladamente: ')
    print(todoH)

with open('UniformDataFrame.csv','r') as uniform:
    for lineas2 in uniform:
        temp1 = lineas2.split(',')
        if str(temp1[1]) == 'female':
            if int(temp1[2]) > 0 and int(temp1[3])> 0 and int(temp1[4])> 0:
                todoM = todoM + 1
            
    print('Mujeres que responden detalladamente: ')
    print(todoM)

uniform.close()

In [None]:
Hombres que responden detalladamente: 
2
Mujeres que responden detalladamente: 
0
Hombres que NO responden detalladamente: 
296
Mujeres que NO responden detalladamente: 
144
>>> 

En los resultados anteriores se evidencia que solo dos hombres responden detalladamente el tiempo que llevan privados a la libertad, y ninguna mujer responde de esta manera. Pero si un gran número de mujeres y hombres responden sin detalles el tiempo que llevan encarcelados (296 Hombres y 144 Mujeres).