# Tarea 4
## Melissa Reyes Paz
## Programación para Ciencia de Datos.

In [1]:
import numpy as np
import pandas as pd
import os
import urllib.request
import openpyxl

**Problema 1:** Determina qué ocurre cuando creamos un objeto `Series` a partir de un diccionario, pero adicionalmente proveemos el argumento opcional `index`. ¿De qué forma podemos utilizar esta propiedad?

Si se parte de un diccionario para crear un objeto serie se puede observar como se utilizan las claves como etiquetas del índice, y los valores del diccionario como valores de la serie.

In [2]:
f = {"Oct":13, "Nov":19, "Dic":24}
g = pd.Series(f)
g

Oct    13
Nov    19
Dic    24
dtype: int64

Si se incluye el índice explícitamente en la creación de la serie, los valores en la serie se tomarán en el orden en el que estén en el índice explícito. Además, si en éste hay valores que no pertenecen al conjunto de claves del diccionario, se añaden a la serie con un valor NaN, como se muestra a continuación. 

In [3]:
f = {"Oct":13, "Nov":19, "Dic":24}
g = pd.Series(f, index = ["Dic", "Nov", "Oct", "Sept"])
g

Dic     24.0
Nov     19.0
Oct     13.0
Sept     NaN
dtype: float64

Para responder el problema, se realizó un ejemplo donde se creó la serie especificando el índice que se ha formado dando la vuelta a las claves del diccionario ("Oct", "Nov" y "Dic") y se ha añadido a la lista de etiquetas el valor "Sept", que no pertenece al conjunto de claves del diccionario. Se ha añadido a la serie, pero se le ha asignado el valor NaN. Es precisamente la presencia de este valor lo que modifica el tipo de la serie a float.
Por lo tanto, podemos controlar tanto los datos que queremos incluir como su orden especificando el index.

**Problema 2:** Determina qué ocurre cuando creamos un objeto `Series` a partir de un valor numérico, pero adicionalmente proveemos el argumento opcional `index`. ¿De qué forma podemos utilizar esta propiedad?

Primeramente, si se crea una serie utilizando exclusivamente valores númericos, sin establecer un index, se obtiene una serie con un index "automatico", dado de forma numérica y ordenada como se muestra a continuación. No brinda mayor información, sólo el orden. 

In [4]:
h = pd.Series([13, 19, 24])
h

0    13
1    19
2    24
dtype: int64

Sin embargo, si se incluye el argumento opcional Index, este reemplaza al index que se había formado de forma "automática", como se muestra a continuación.

In [5]:
h = pd.Series([13, 19, 24], index = ["Oct", "Nov", "Dic"])
h

Oct    13
Nov    19
Dic    24
dtype: int64

La conexión entre una index y un valor se mantendrá a menos que se modifique explícitamente. Esto quiere decir que filtrar una serie o eliminar un elemento de la serie, por ejemplo, no va a modificar las etiquetas asignadas a cada valor.
Por lo tanto, esta propiedad se utiliza para identificar de forma mas fácil o visual lo que significa casa valor en la serie. 

**Problema 3:** El ejemplo anterior utiliza un concepto llamado *Structured Arrays* de NumPy. Investiga para qué pueden ser utilizados este tipo de arreglos.

Un `Structured array` de NumPy es un tipo de datos heterogeneo que es similar a una fila de una base de datos.
Vamos a suponer que se tienen varias categorías de datos sobre varias personas (nombre, edad y peso) y se quieren almacenar estos valores para usarlos, lo cual sería posible hacerlo en tres arrays diferentes, pero es algo tedioso.

In [6]:
name = ['Melissa', 'Santiago', 'Martin', 'Sofia']
age = [25, 28, 23, 41]
weight = [68.0, 90.5, 88.0, 61.5]

En este caso, no hay nada que muestre que los arrays están relacionados y es cuando entra en juego el `Structured array` de NumPy, que son arrays con tipos de datos compuestos.

Se puede crear un `Structured array` utilizando una especificación de tipo de datos compuesto como se muestra a continuación.

In [7]:
# Use a compound data type for structured arrays
data = np.zeros(4, dtype={'names':('name', 'age', 'weight'),
                          'formats':('U10', 'i4', 'f8')})
print(data.dtype)

[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')]


Aquí 'U10' quiere decir "cadena Unicode de longitud máxima 10", 'i4' es "entero de 4 bytes (es decir, 32 bits)" y 'f8' es "flotante de 8 bytes (es decir, 64 bits)". 

Ahora que se ha creado un empy container array, se puede llenar las listas de valores anteriores.

In [8]:
data['name'] = name
data['age'] = age
data['weight'] = weight
print(data)

[('Melissa', 25, 68. ) ('Santiago', 28, 90.5) ('Martin', 23, 88. )
 ('Sofia', 41, 61.5)]


Los datos ahora están organizados juntos en un bloque de memoria.

Lo genial de los `Structured arrays` es que ahora se puede hacer referencia a los valores por índice o por nombre.

In [9]:
# Get all names
data['name']

array(['Melissa', 'Santiago', 'Martin', 'Sofia'], dtype='<U10')

In [10]:
# Get first row of data
data[0]

('Melissa', 25, 68.)

In [11]:
# Get the name from the last row
data[-1]['name']

'Sofia'

In [12]:
# Get names where age is under 30
data[data['age'] < 30]['name']

array(['Melissa', 'Santiago', 'Martin'], dtype='<U10')

**Problema 4:** Investiga las operaciones `isnull`, `notnull`, `dropna` y `fillna` de Pandas, así como el valor `pd.NA`. Puedes apoyarte de [la documentación](https://pandas.pydata.org/docs/user_guide/missing_data.html)

**isnull**

La función isnull de pandas da una estructura con las mismas dimensiones que la que se da como argumento, sustituyendo cada valor por True si el correspondiente elemento es un valor nulo, y por False en caso contrario.
Esta función es equivalente a isna de pandas.

In [13]:
n = pd.Series([1, np.nan, 8, np.nan, 7])
n

0    1.0
1    NaN
2    8.0
3    NaN
4    7.0
dtype: float64

In [14]:
pd.isnull(n)

0    False
1     True
2    False
3     True
4    False
dtype: bool

In [15]:
#También se puede usar como método.
n.isnull()

0    False
1     True
2    False
3     True
4    False
dtype: bool

Incluso puede usarse en dataframes.

In [16]:
dfn = pd.DataFrame({"A":[3, np.nan, 1],
                    "B":[1, 7, np.nan],
                    "C":[np.nan, 10, np.nan]},
                   index = ["Oct", "Nov", "Dic"])
dfn

Unnamed: 0,A,B,C
Oct,3.0,1.0,
Nov,,7.0,10.0
Dic,1.0,,


In [17]:
pd.isnull(dfn)

Unnamed: 0,A,B,C
Oct,False,False,True
Nov,True,False,False
Dic,False,True,True


In [18]:
#También disponible como método.
dfn.isnull()

Unnamed: 0,A,B,C
Oct,False,False,True
Nov,True,False,False
Dic,False,True,True


**notnull**

Es una función de pandas que examinará uno o varios valores para validar que no sean nulos. Devolverá False si se detecta NaN o Ninguno. Si estos valores no están presentes, devolverá True.
En pocas palabras, es lo contrario a isna.

In [19]:
n

0    1.0
1    NaN
2    8.0
3    NaN
4    7.0
dtype: float64

In [20]:
pd.notnull(n)

0     True
1    False
2     True
3    False
4     True
dtype: bool

In [21]:
#También se puede usar como método.
n.notnull()

0     True
1    False
2     True
3    False
4     True
dtype: bool

In [22]:
#Ahora se usará en DF
dfn

Unnamed: 0,A,B,C
Oct,3.0,1.0,
Nov,,7.0,10.0
Dic,1.0,,


In [23]:
pd.notnull(dfn)

Unnamed: 0,A,B,C
Oct,True,True,False
Nov,False,True,True
Dic,True,False,False


In [24]:
#También disponible como método.
dfn.notnull()

Unnamed: 0,A,B,C
Oct,True,True,False
Nov,False,True,True
Dic,True,False,False


**dropna**

Permite filtrar los valores de una estructura de datos pandas para dejar solo aquellos no nulos.

Usado en una serie, devuelve una nueva serie tras eliminar los valores nulos.

In [25]:
n

0    1.0
1    NaN
2    8.0
3    NaN
4    7.0
dtype: float64

In [26]:
n.dropna()

0    1.0
2    8.0
4    7.0
dtype: float64

Si se usa en un dataframe, podemos escoger si se quieren eliminar filas o columnas, y si eliminarlas cuando todos sus elementos sean nulos o simplemente cuando alguno de ellos lo sea. 

In [27]:
dfn2 = pd.DataFrame({"A":[3, 4, 1, 5],
                    "B":[1, 7, 2, np.nan],
                    "C":[10, 5, 8, 6],
                    "D":[np.nan, 2, 7, 9]},
                   index = ["Sept", "Oct", "Nov", "Dic"])
dfn2

Unnamed: 0,A,B,C,D
Sept,3,1.0,10,
Oct,4,7.0,5,2.0
Nov,1,2.0,8,7.0
Dic,5,,6,9.0


In [28]:
#Por defecto se aplica al eje0, se eliminan las filas que incluyen valores nulos.
dfn2.dropna()

Unnamed: 0,A,B,C,D
Oct,4,7.0,5,2.0
Nov,1,2.0,8,7.0


In [29]:
dfn2.dropna(axis = 1)

Unnamed: 0,A,C
Sept,3,10
Oct,4,5
Nov,1,8
Dic,5,6


Usando el parámetro how se puede controlar cómo se apliqua el método: si toma el valor "all", solo se eliminarán las filas o columnas en las que todos sus elementos sean nulos. Si toma el valor "any" (valor por defecto), se eliminarán las filas o columnas en las que algún elemento sea nulo. 

In [30]:
dfn2.dropna(how = "all")

Unnamed: 0,A,B,C,D
Sept,3,1.0,10,
Oct,4,7.0,5,2.0
Nov,1,2.0,8,7.0
Dic,5,,6,9.0


**fillna**

Permite sustituir los valores nulos de una estructura por otro valor según ciertos criterios: pueden sustituirse por un valor en específico o puede utilizarse el anterior o posterior valor no nulo (en el caso de los dataframes habrá que especificar el eje sobre el que queremos aplicar la función).

In [31]:
n

0    1.0
1    NaN
2    8.0
3    NaN
4    7.0
dtype: float64

In [32]:
n.fillna(0)

0    1.0
1    0.0
2    8.0
3    0.0
4    7.0
dtype: float64

Se indicó el 0 como argumento para sustituir en la serie original.
También se puede usarl "forward fill", lo que hace que los valores no nulos se copien hacia adelante siempre que se encuentren valores nulos. 

In [33]:
n.fillna(method = "ffill")

0    1.0
1    1.0
2    8.0
3    8.0
4    7.0
dtype: float64

Los valores nulos se sustituyeron con los no nulos anteriores, se extendieron hacia adelante. Se puede hacer lo mismo pero con los valores siguientes.

In [34]:
n.fillna(method = "bfill")

0    1.0
1    8.0
2    8.0
3    7.0
4    7.0
dtype: float64

Con los DataFrames es practicamente igual, pero se necesita especificar el eje del que obtener los datos.

In [35]:
dfn2

Unnamed: 0,A,B,C,D
Sept,3,1.0,10,
Oct,4,7.0,5,2.0
Nov,1,2.0,8,7.0
Dic,5,,6,9.0


In [36]:
#Sustituyendo valor nulo por 0
dfn2.fillna(0)

Unnamed: 0,A,B,C,D
Sept,3,1.0,10,0.0
Oct,4,7.0,5,2.0
Nov,1,2.0,8,7.0
Dic,5,0.0,6,9.0


In [37]:
#Aplicando "ffill" en el eje 0, por defecto.
dfn2.fillna(method = "ffill")

Unnamed: 0,A,B,C,D
Sept,3,1.0,10,
Oct,4,7.0,5,2.0
Nov,1,2.0,8,7.0
Dic,5,2.0,6,9.0


El valor nulo de la columna D no se modificó porque no hay un valor anterior del que tomarlo. 
Lo mismo pasa si se usa "bfill" en el eje 1, porque no hay ningun valor posterior. 

In [38]:
dfn2.fillna(axis = 1, method = "bfill")

Unnamed: 0,A,B,C,D
Sept,3.0,1.0,10.0,
Oct,4.0,7.0,5.0,2.0
Nov,1.0,2.0,8.0,7.0
Dic,5.0,6.0,6.0,9.0


Para evitar estos problemitas previos, puede hacerse una conjunción de metodo "ffill" o "bfill" con el reemplazo de un valor concreto.

In [39]:
dfn2.fillna(axis = 1, method = "bfill").fillna(0)

Unnamed: 0,A,B,C,D
Sept,3.0,1.0,10.0,0.0
Oct,4.0,7.0,5.0,2.0
Nov,1.0,2.0,8.0,7.0
Dic,5.0,6.0,6.0,9.0


**pd.NA**

Mientras que nan significa "Not a number" y se considera un valor perdido, None tambien se considera un valor perdido, `pd.NA` es un valor experimental y se comporta diferente en ciertos casos. 

Denota valores perdidos al igual que np.nan. Sin embargo, np.nan es un valor de punto flotante mientras que pd.NA almacena un valor entero. Si tiene la columna 1 con todos los números enteros y algunos valores faltantes en su conjunto de datos, y los valores faltantes se reemplazan por np.nan, entonces el tipo de datos de la columna se convierte en flotante, ya que np.nan es flotante. Pero si tiene la columna 2 con todos los números enteros y algunos valores faltantes en su conjunto de datos, y los valores faltantes se reemplazan por pd.NA, entonces el tipo de datos de la columna sigue siendo un número entero, ya que pd.NA es un número entero. Esto podría ser útil si desea mantener las columnas como int y no cambiarlas para que floten.

In [40]:
dfn3 = pd.DataFrame({"A":[3, 4, 1, 5],
                    "B":[1, 7, 2, pd.NA],
                    "C":[10, 5, 8, 6],
                    "D":[np.nan, 2, 7, 9],
                    "E":[np.nan, 5, pd.NA, 0]},
                   index = ["Sept", "Oct", "Nov", "Dic"])
dfn3.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Sept to Dic
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       4 non-null      int64  
 1   B       3 non-null      object 
 2   C       4 non-null      int64  
 3   D       3 non-null      float64
 4   E       2 non-null      object 
dtypes: float64(1), int64(2), object(2)
memory usage: 192.0+ bytes


Al crearse un DF, la columna con valor np.nan se considera de tipo float, pero la que tiene un valor pd.NA es tipo object.
Y la columna con ambos tipos de valores nulos, también se considera object. 

**Problema 5:** Pandas incluye funciones para la lectura de archivos CSV o Excel. Consulta los sitios de datos abiertos de alguna institución pública o gubernamental, descarga un dataset en formato CSV, otro en Excel y carga los datos en un DataFrame de Pandas. El DataFrame resultante debe tener asociada a cada columna el tipo de dato adecuado para trabajar.

In [41]:
print(os.getcwd())
subdir = "./data/"

C:\Users\ghost\Documents\PCDPy


In [42]:
#URL datos de SESNSP
SESNSP_1522='https://drive.google.com/u/0/uc?id=1i2Zts5aDcd8cfixtA1Jn-JGlKIgYTZWN&export=download'
Diccionario_SESNSP_1522='https://drive.google.com/u/0/uc?id=1rfvgcAcEzLR1Q44wwjZhjBvBFjtGSmX3&export=download'

#Ubicacion para datos de la SESNSP
SESNSP_1522_file='IDEFC_NM_ago22.csv'
Diccionario_SESNSP_1522_file='DD_sesNSP.xlsx'

In [43]:
SESNSP = { SESNSP_1522:SESNSP_1522_file, Diccionario_SESNSP_1522:Diccionario_SESNSP_1522_file }

In [44]:
for url, archivo in SESNSP.items(): 
    if not os.path.exists(archivo):
        if not os.path.exists(subdir):
            os.makedirs(subdir)
        urllib.request.urlretrieve(url, subdir + archivo)  
print("Descarga de SESNSP terminada.")


Descarga de SESNSP terminada.


In [45]:
sesnsp=pd.read_csv("data//"+SESNSP_1522_file, encoding='latin-1')

In [46]:
sesnsp_columns=['Año', 
                'Clave_Ent', 
                'Entidad', 
                'Bien jurídico afectado',
                'Tipo de delito',
                'Subtipo de delito',
                'Modalidad',
                'Enero',  
                'Febrero',
                'Marzo',
                'Abril',
                'Mayo',
                'Junio',
                'Julio',
                'Agosto',
                'Septiembre',
                'Octubre',
                'Noviembre',
                'Diciembre']


SESNSP_tidy=sesnsp[sesnsp_columns].copy()

#Creando lista de columna para descartar Año y Clave_Ent para el momento de la sumatoria. 
col_listSESNSP= list(SESNSP_tidy)
col_listSESNSP.remove('Año')
col_listSESNSP.remove('Clave_Ent')
#Suma de columnas numéricas (solo los datos registrados en meses para obtener el total anual)
SESNSP_tidy['Total'] = SESNSP_tidy[col_listSESNSP].sum(axis=1)

#Descartando columnas que no se usarán
SESNSP_tidy.drop(['Clave_Ent', 
                'Bien jurídico afectado', 
                'Subtipo de delito', 
                'Modalidad',
                'Enero',  
                'Febrero',
                'Marzo',
                'Abril',
                'Mayo',
                'Junio',
                'Julio',
                'Agosto',
                'Septiembre',
                'Octubre',
                'Noviembre',
                'Diciembre'], axis = 'columns', inplace=True)

#Descartando filas que no pertenecen al delito Feminicidio
SESNSP_tidy = SESNSP_tidy.drop(SESNSP_tidy[SESNSP_tidy['Tipo de delito']!='Feminicidio'].index)

#Descartando filas que no pertenecen a los años 2015-2018
SESNSP_tidy = SESNSP_tidy.drop(SESNSP_tidy[SESNSP_tidy['Año']> 2018].index)

#Renombrando columna
SESNSP_tidy = SESNSP_tidy.rename(columns ={'Tipo de delito':'Delito'})

#Convirtiendo valores float a int
convert_dict = {'Total': int}
SESNSP_tidy = SESNSP_tidy.astype(convert_dict)


  SESNSP_tidy['Total'] = SESNSP_tidy[col_listSESNSP].sum(axis=1)


In [47]:
#Uniendo filas pertenecientes al mismo año y entidad.
def unir_feminicidios(SESNSP_tidy):
  f1 = ", ".join(f"{fem:}" for fem in set(SESNSP_tidy.Delito.dropna()))
  t = np.sum(SESNSP_tidy.Total.dropna())
  return pd.DataFrame({"Delito":[f1], "Total":[t]})

SESNSP_tidy = SESNSP_tidy.groupby(["Año", "Entidad"]).apply(unir_feminicidios).droplevel(-1).reset_index()

#Ordenando por estado
SESNSP_tidySt = SESNSP_tidy.sort_values("Entidad")

In [48]:
SESNSP_tidy

Unnamed: 0,Año,Entidad,Delito,Total
0,2015,Aguascalientes,Feminicidio,0
1,2015,Baja California,Feminicidio,10
2,2015,Baja California Sur,Feminicidio,0
3,2015,Campeche,Feminicidio,4
4,2015,Chiapas,Feminicidio,36
...,...,...,...,...
123,2018,Tamaulipas,Feminicidio,13
124,2018,Tlaxcala,Feminicidio,4
125,2018,Veracruz de Ignacio de la Llave,Feminicidio,101
126,2018,Yucatán,Feminicidio,7


In [49]:
SESNSP_tidy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 128 entries, 0 to 127
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Año      128 non-null    int64 
 1   Entidad  128 non-null    object
 2   Delito   128 non-null    object
 3   Total    128 non-null    int64 
dtypes: int64(2), object(2)
memory usage: 4.1+ KB


In [50]:
dicsesnsp=pd.read_excel("data//"+Diccionario_SESNSP_1522_file)

In [51]:
dicsesnsp

Unnamed: 0,Incidencia Delictiva Fuero Común - Nueva Metodología,Unnamed: 1
0,Campo,Descripción
1,Año,Año de registro de las averiguaciones previas ...
2,Clave_Ent,"Clave de la entidad, según el Marco Geoestadís..."
3,Entidad,Entidad federativa de registro de las averigua...
4,Bien jurídico afectado,Primera clasificación de los delitos en las av...
5,Tipo de delito,Segunda clasificación de los delitos.
6,Subtipo de delito,Tercera clasificación de los delitos.
7,Modalidad,Cuarta clasificación de los delitos.
8,Enero - diciembre,Mes de registro de las averiguaciones previas ...


In [52]:
dicsesnsp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 2 columns):
 #   Column                                                Non-Null Count  Dtype 
---  ------                                                --------------  ----- 
 0   Incidencia Delictiva Fuero Común - Nueva Metodología  9 non-null      object
 1   Unnamed: 1                                            9 non-null      object
dtypes: object(2)
memory usage: 272.0+ bytes
